• 아 또 뭐 그리 바빴는지, 하루종일 꿀벌처럼 일했는데 (혹은 일했다고 생각했는데) 돌이켜 보니 한게 별로 없다 ?! -_- 매그너스 얼른 돌아와....
  • 퇴근해서 집에서 로긴해서 이거 마무리 해야지, 하고 집에 왔는데, 재하 씻겨서 책 읽으라고 내려보내고 침대에 자아아암깐만 누워서 핸드폰 봐야지... 하다 깜박 잠들었다. 정신 차려보니 새벽 두시고, 수열이는 거실 소파에서 자고 있었다. ㅋㅋㅋ;
  • 이번 주가 피곤하긴 피곤했나 보다. 왜 쉬어도 쉬어도 체력은 회복이 안되는가. (물론 좀 살만하면 딴짓하다 늦게 자기 때문이지...)
  • 헌데 낼은 연우네 가족이랑 허리케인 하버에 가기로. 어떨런지 으음. 얼른 다시 자야겠다.
  • 간만에 미팅이고 뭐고 없이 회사에서 일을 했다. 뭘 했는지는 잘 모르겠다. ^_ㅠ
  • 점심은 제임스랑 에센 갔고, 저녁은 동네에 한국 양념치킨과 일본 라면이라는 특이한 조합의 음식을 파는 음식점에 갔다. 다름아니라 짬뽕을 먹기 위해.... 다행히 시킨 음식들은 다 맛있었다. 앞으로 종종 가지 싶다. 밥 먹고 동네 산책하면서 포켓몬 잡다가 집에 왔다. ㅋㅋ
  • 그제 지른 크롬북이 그새 도착했다. 오늘 이것저것 설정하고 갖고 놀았다. 200불짜리 1kg 랩탑인데, 안드로이드 앱도 돌아가고, crouton을 쓰면 리눅스도 쓸 수 있다. 이걸 갖고 기차에서 무엇을 할 것인가에 대해서는 좀 더 생각해 봐야 하겠지만 (VPN 머신만 해도 돈값의 절반 정도는 하는 듯...) 일단 샀으니 이제 천천히 고민해 보면 되겠다.
  • 사실은 글을 더 쓰고 싶다는 욕망이 좀 있는데... 과연 무엇을 어떻게 쓸 것인지는 이 또한 차차 생각하기로 (?). 일단 그런 생각은 안 하고 무슨 앱을 쓸 것인가를 검색하며 오늘 저녁을 신나게 낭비했다 (....) 덕분에 이런 물건을 찾긴 했지만...
  • 회사에선 정신 없이 바빴는데 막상 돌이켜 보니 인터뷰, 프로덕션 트레이딩, 데이터 분석 조금, 기타 미팅만 잔뜩 하고, 일도 코딩도 별로 못했다. 이런 날이 퇴근할 때 젤 허무하다. -_-
  • 점심은 컴퍼니 런치였다. 페루 음식이라는데 뭐 딴거랑 잘 구분은 안 감.. ㅎㅎ;; 치즈랑 옥수수가 들어간 엠빠나다가 너무 맛있었다. 이런 거 많이 먹으면 살 찔텐데.
  • 지금 G모사를 다니고 있는 제임스 친구를 인터뷰했다. 깃헙 보고 꽤 좋은 인상을 받아서 기술적으론 별로 물어볼 게 없겠구나 하고 들어갔는데 막상 자세한 질문을 하니 좀 버벅거렸다. ㅋㅋ 그래도 이정도면 훌륭해서 뽑아 볼 셈인데 잘 될런지.
  • 집에 와서 해빗 버거 테잌아웃으로 간단히 저녁 먹고, 일 좀 들여다 보려고 하다가 재하랑 놀고 씻겨 재웠다. 9시에 알람이 따르릉 울리면 바로 가서 자기 정책을 실천한지 며칠 안 됐는데, 오늘은 징징거리지도 않고 바로 잘 잤다. 기특해라. 오늘 학교에선 누구랑 놀았어? 물어보니 학교에서 놀 친구가 없었는데? 라고 한다... 힘내라 아들아.
  • 가끔 출근길 기차 안에서 회사에 VPN연결을 해야 하는데, 안드로이드 타블렛에서 타이핑이 너무 힘들다. 것도 그렇고, 뭔가 키보드가 있다면 좀더 생산적이 될 것 같다는 근거 없는 생각에 시달리다가, 어제 크롬북 플립이 슬릭딜에 올라왔길래 얼른 또 샀다. ㅋㅋㅋ 이거 리눅스도 되고 안드로이드도 되는거 맞나? 이렇게 집에 타블렛만 쌓여 가는데 ...
  • 어깨가 뭉쳐서 힘들다. 낼은 회사 앞의 마사지 샵에 가봐야겠다.

열흘 가까이 일기를 못 썼네. 바쁜 열흘간이었다. 간단하게나마 써본다. ㅋㅋ

11일은 결혼 7주년 기념일. 재하를 수빈이네 맡겨두고, 브로드웨이에서 Paramour를 봤다. 퀴담, 알레그리아, 오보, 오 보고 다섯 번짼듯. 브로드웨이라 그런지, 서커스랑 뮤지컬을 적절히 조합한 형태였다. ㅎㅎ첫 절반에는 사실 조금 졸았(...)는데 뒷부분은 재미있게 잘 봤다. Kurios가 뉴욕에 투어 오던데 가서 봐야겠다. 베가스 또 가서 Cirque 쇼들만 잔뜩 보고 싶기도... 물론 돈이 엄청 깨지겠지... 저녁은 정식당 가려다가 시간이 애매해서 울프강 스테이크 하우스 갔는데, 나중에 가서 옐프 별 1개 줬다. -_-

이 날은 또 재하가 새 학교에 다니기 시작한 날이다. 그 남자의 짠한 적응기는 마나님 블로그에서...

12일은 야근.

그리고 수요일에 기묘승이랑 요정님 부부가 뉴욕에 놀러와서, 토요일까지 지내다 갔다. 캘리포니아에서 새 출발 하기 전에 비는 시간에 놀러와줌! ㅎ_ㅎ 휴가도 없이 빡세게 새출발이지만 화이팅해라! ㅋㅋ 저녁마다 술도 먹고 퇴근도 같이 하고 했더니, 돌려보내고 나니 영 아쉽더라. ㅎㅎ; 급속도 회사 구경도 하고, 사쿠라 바나에서 저녁 먹고 리지우드 다운타운에서 포켓몬도 잡고, 집에서 삼겹살도 구워먹고, 클로이스터에서 포켓몬도 잡았다. ㅋㅋㅋ 재하랑도 잘 놀아주고 넘 고마움! 새 출발 잘하고 담엔 캘리에서 만나기로... ~_~

그리고 금요일 아침 7시에 맨해튼에서 후연이 만났다 ㅋㅋㅋㅋㅋㅋㅋ 레드아이 타고 6시에 뉴왁 떨어져서 10시에 IJCAI에서 발표하고 12시 비행기 타러 가는 일정 ㅋ 어휴 어찌나 만나기 힘든지 내가 5시반에 일어나서 6시 기차 타고 맨해튼을 가다늬..... ㅋㅋㅋ 얘도 곧 LA 가기 땜에 또 LA 가서 보기로 함 ㅋㅋㅋㅋ

그리고 나서 오늘까지 3일간은 별 일 안하고 쉬었다. 체력이 확 떨어져서 컴퓨터 화면을 오래 보면 머리가 아프다 (!). 어제는 비빔면 먹고, 오늘은 명란 볶음밥 해먹었다. 맛있다!

매그너스가 6주-_-간 장기 휴가를 가서 회사에 프로덕션 건드릴 사람이 나밖에 없다.. 음... 열심히 일해야지...

사진 몇 장 올려본다 ㅋ

(read more..)
  • 주말 내내 재하 베이비시터 면접을 봤다. 메인 한 사람이랑 백업까지 다 찾음! 역시 사람은 만나 보기 전엔 모른다.
  • 토요일 점심때는 포트리 가서 머리 다시 자르고 (저번에 머리 자르고 나서 영 이상해서 ㅠㅠ) 한남에서 점심 먹고 장 보고. 저녁은 지난주에 먹었던 파크우드 델리 피자가 땡긴다길래 사다 먹었다. ㅎㅎ
  • 일요일은 재하 생일 파티! 미국에선 애들 생일 파티만 하는 키즈카페들이 있다. 애들 뛰어 노는 곳이랑 바람 넣는 거대한 미끄럼틀 이런 것들 잔뜩 가져다 놓고, 애들 신나게 굴린 다음, 파티룸으로 가서 피자 먹고 케잌 먹고 박수 치고 구디백 나눠주는 진행까지 다 해준다. ㅋㅋㅋ 그래서 엄마아빠는 무슨 패키지 할건지 애 생일 케잌 위에 무슨 그림 그릴 건지만 정하면 됨.... 하하. 덕분에 쉽고 간편하게 돈으로 때웠다. -_- 하지만 애가 스무명 넘게 오고 부모님까지 하면 거의 쉰명이 온걸 생각하면 엄청 가성비 좋았던 것 같기도 하고....
  • 지난번에 캠핑 같이 간 가족들은 더 반가웠다. ㅎㅎㅎ;
  • 그리고 집에 와서 재하는 열심히 선물들을 뜯으며 오후를 보냄. 레고 잔뜩 받고, 쿼드콥터도 하나 선물로 받았다. 재하랑 같이 날리며 놀았는데, 이거 너무 어렵다... 근데 재밌기도... ㅎㅎㅎ;;
  • 낼은 진형 윤동이랑 점심 먹고, 결혼 7주년 기념(!)으로 수열이랑 저녁 먹고 Paramour 보러 간다!
  • 점심은 존이랑 제임스랑 Santuary T에서 먹었다. 존의 투덜투덜을 들어주며 점심을 먹고 존이 점심 쏨 ㅋㅋ 제임스가 너처럼 generous 한 사람은 대개 성공적이던데 넌 왜그래? 하면서 밥 얻어먹고 깜 ㅋㅋ 아아 제임스 ㅋㅋㅋㅋ
  • 그 외에는 하루종일 정신 없었다... 마지막 두어시간은 그냥 멍하니 있다 퇴근 ㅋㅋㅋ
  • 저녁은 수열이가 연어 데리야끼랑 김치파전을 해줘서 맛있게 냠냠하고, 구재하랑 뒹굴거리며 놀다 씻겨 재우고, 설거지하고 맥주 먹고 빈둥거리다 이제 잘 듯.

Loro's - Homo Separatus

  • 점심 때쯤에 회사 건물 엘리베이터에 말썽이 생겨서, freight 엘리베이터만 되는 사태 발생. 23층 건물에 엘리베이터가 한개니 누르고 기다려도 감감 무소식.... 배는 고프고 아 속터진다! 그리하여 회사에 있는 컵라면 먹었다. 하하. 신라면도 있고 한국 회사가 부럽지 않당 (?)
  • 수열이가 재하 데리고 LES에 있는 캣카페에 왔어서, 만나서 Cafe Habana에서 저녁 먹고 들어왔다. 아 여길 드디어 와 봤네. Cuban sandwich는 걍 그랬다. -.- 구운 옥수수는 맛있더라...
  • 재하가 간만에 빨간 자동차를 꺼내서 어제랑 오늘 재미있게 타고 있다. 집 드라이브웨이가 아아아아주 조금 경사져 있는데 여기서 쭉~ 미끄러져 내려온다. 오늘도 한 40번 정도는 드라이브웨이를 왔다갔다 하면서 탄듯... 나는 가만히 있고 아들 체력 방전시키다니 이런 좋은 놀이가....
  • 요즘 재하는 잘못했을 때 사과를 재빨리 하는 방법을 익혔다. 변명도 잘한다. "내가 몰라서 그랬어" "내가 너무 재미있어서 깜박했어" 등등.. ㅎㅎ 오늘은 내가 양치시킬려고 칫솔에 치약 바르고 있는데, 마일즈 우주선 갖고 놀다 칫솔을 툭 쳐서 바닥에 떨어졌다. 내가 순간적으로 열받아서 이빨을 꽉 물고 한숨을 후욱 후욱 내쉬는데 숨 한번 내쉴 때마다 재하가 흔들리는 동공으로 날 쳐다보면서 "미안해요" "미안해요" "미안해요" ㅋㅋㅋㅋ;

헐 요즘 왜이렇게 바쁜가, 잠시 정신 없다 보면 그냥 시간이 쓕쓕 지나가 있네.

  • 4th of July weekend는 주로 집에서 잠을 자면서 보냈고.. 일요일은 불꽃놀이를 보러 회사 23층에 갔다. 비가 왔지만 불꽃놀이는 잘 보였다. 근데 뭔가 마지막이 아쉬운... anticlimactic 하달까..
  • 어제 점심은 규복이랑 폴이랑 상민이형이랑 Xian Famous Food 사다 먹었다. ~_~
  • 오늘은 Dmitry 가 sell day 로 회사에 와서 명진님이랑 점심 먹었다. 캬 QC QB 더블오퍼라닝 ㄷㄷㄷ 우리 회사 오면 좋겠다.
  • 오늘은 재하 생일! 졸업 전에 학교에서도 생일 파티 했고, 일요일에는 학교 친구들 + 다른 친구들 불러서 생일 파티 하고 오늘은 생일 당일이니 가족끼리 케잌에 촛불 불고 생일 식사. 수열이가 갈비찜 해물파전 잡채 미역국을 다 해서 화려한 저녁식사였다! 근데 재하는 별로 많이 안 먹음... ㅋㅋㅋ
  • 일기가 자꾸 밀리는군 -_- 아이고. 회사 일이 정신 없어서 멘탈 탈탈 털리는 한 주를 보냈다. 수요일엔 간만에 야근도 함.. (근데 제임스랑 밥먹고 들어오니 막상 야근할 시간은 얼마 안 남았다. ㅋㅋ)
  • 다행히 이번 주말은 연휴라 어찌나 다행인지 모른다. ㅠ 수열이도 바쁜 한 주를 보내서, 연휴는 둘이 번갈아가며 폭풍 낮잠;;; 자며 보내고 있다. ㅋㅋㅋ
  • 토요일에는 낮에 코스트코 갔다가 저녁에 승원이형이랑 재우, 보미가 와서 치킨+피자+맥주 (물론 맥주는 어른들만... -_-;) 타임~ 우리집 장난감들이 다 재하 수준이라 재우랑 보미는 좀 심심했을 듯. ㅠ 그래도 우리는 짧은 시간 동안 폭풍수다 떨었다 ㅋㅋㅋ
  • 오늘은 역시 온 가족이 폭풍 낮잠 자다가;; 맨해튼 나가서 뉴욕 놀러온 재훈이랑 안나씨랑 저녁 먹었다. 감미옥+호떡집 감 ㅋㅋㅋㅋ 근데 케이타운은 정말 너무 시끄러워서 정신이 하나 없다. ㅠㅠ 너무 짧게 와서 아쉽네. 담에 원재+은지네랑 맨해튼 정모-_- 할날을 기약하며 헤어졌다.
  • 이런 책이 나와 있다는 것을 오늘에야 알았다. 아니 왜 제목을 이렇게.....;;;
  • 어시장 삼대째를 며칠동안 열심히 보고 있다. 으어.... 맛있는 일식 먹으러 가고 싶음....

월요일엔 회사에서 코드 리뷰에 미팅에 교육에 등등.. 일이 안되어서 회의에 빠졌다. -_- 캠프 댕겨와서 그런지 어엄청 피곤해서 늦게 출근했는데 그냥 얼른 집에 왔다. 오는 길에 비가 내려서 기차역에서 졸라 뛰어왔다. 힘들어 죽는 줄 알았다... 집에 오니까 피곤한 재하도 저녁도 안 먹고 잠들어 있었다. 저녁은 왕좌의 게임 보면서 수열이가 해준 차돌박이 숙주나물 볶음. OpenAI gym 좀더 갖고 놀다가 잠들었다.

오늘은 점심에 또 치카라시 갔다. 포케볼 맛있다! 헤헤. 승원이형이 뒤늦게 조인하셔서 8층에서 수다떨며 점심 먹었다. 핑거 레이크 같이 가기로 하고, 주말에 치맥도 하기로. 저녁은 간단하게 먹고, 포스팅 좀 하고 Silver 수업 들은 것도 정리할 겸 RL 노트 좀 더 정리했다. 아직 멀었지만 일단 올려본다: sutton.pdf

피곤.

요즘 읽은 것들. 뭔가 딥마인드 논문만 읽고 있는 것 같은 기분이 든다... 지금 읽고 있는 것도 딥마인드 논문인데... Silver 동강도 얼마전에 다 봤다. 정리 좀 해야 하는데.

[1511.06581] Dueling Network Architectures for Deep Reinforcement Learning

  • 일반적인 Q learning은 Q(s,a)를 학습하는데, 어떤 상태들에서는 무슨 액션을 취하는지는
  • advantage function은 A(s,a) = V(s) - Q(s,a) 로 정의되는데, 따라서 Q(s,a) = V(s) + A(s,a). 이 때 V와 A를 따로 학습한다.
  • Convolution layer는 그대로 두되, 마지막에 fully connected layer를 병렬로 두 개 둔다. 하나는 출력이 1개, 하나는 출력이 a개. 이들을 각각 v와 a[] 라고 둘 때, 결과는 q = v + sum(a) - mean(a). mean(a)를 빼는 것은 identifiability를 위해서. (당연하지만)
  • 그래서 한 레이어는 국지적인 판단, 한 레이어는 거시적인 판단을 한다는 건데. 서로 다른 액션들이 크게 다르지 않은 경우 (이래도 되고 저래도 되고, 혹은 이래도 죽고 저래도 죽고) 같은 경우에는 훨씬 data efficient 해진다는 이야기.
  • 그럴싸한 figure로 논문을 살린 것 같은 기분이...
  • DDQN에도 붙였던데.. double q learning을 붙이는 대신에 V(s) 리턴하는 레이어에서 나온 결과를 갖다 쓰면 어땠을까? ㅋㅋ 왠지 그래보니 망해서 그냥 DDQN을 붙인거 같단 느낌이 든다...

[1606.04460] Model-Free Episodic Control

  • 카너먼 책이 생각나는 논문. 카너먼 식으로 말하면, "지금 RL들은 전부 시스템 2를 시뮬레이션하는데, 시스템 1도 시뮬레이션 해보자". 그리고 엄청 무식하게 시스템 1을 시뮬레이션한다. 끗.
  • 대부분의 RL 기법들은 오랜 경험을 통해 value function을 계산하고, 그러려면 엄청나게 많은 반복을 거쳐야 한다. 하지만 인간은 훨씬 data efficient하게 학습을 할 수 있는데, 이것은 뇌의 해마에서 제공하는 단기기억을 통해 "이럴 때는 이게 좋았다"는, 근시안적이지만 효율적인 "episodic control"을 할 수 있기 때문이다.
  • 현실 세계에서 거의 결정적인(nearly deterministic) 상태들이 흔하기 때문에, 이런 기법도 유용하리라 예측할 수 있다. 궁극의 RL 알고리즘은 이와 같은 epsidoc control과 현재 흔히 사용되는 statistic control을 병용할 것이라 생각된다.
  • Q'(s,a) = s 상황에서 a를 했을 때 얻어 봤던 최대의 immediate reward로 정의. 물론 s가 반복되는 경우는 거의 없다. 그래서 뭘 한다? KNN을 한다.... 아니 왜 요즘 세상에 딥러닝 안하고 이런걸 했대.
  • 물론 픽셀 단위로는 KNN하자면 끝이 없기 때문에.. KNN하기 전에 랜덤 프로젝션이나 VAE를 돌려서 상태 크기를 줄였단다. (문제에 따라 랜덤 프로젝션이 나을 때도, VAE가 나을 때도 있다)
  • 그래서 이거 시뮬레이션 돌리니까, 특정 아타리 게임들에선 초반 퍼포먼스가 DQN보다 좋았고, 어떤 게임들에선 DQN보다 더 좋았단다.
  • 뭔가 아무거나 다 아타리에 던져서 점수가 잘 나오면 논문이 된다는 느낌인데 솔직히. 아닌가 -_-

일주일이나 일기를 안 썼네. 이것저것 일이 많은 한 주였다. 그래서 그런지 너무 피곤하고 에너지가 부족했는데, 캠핑 가서 무념무상으로 놀고 오니까 몸은 피곤하지만 멘탈 에너지는 좀 충전된 것 같기도 하고. 오늘도 너무 피곤해서 일기 안 쓰고 자려나 싶어서 얼른 써 본다.

월요일에는 Victorian Gardens에서 회사 여름 피크닉을 했다. 작년에 재미나게 잘 놀았었던지라 많이 기대했는데, 이번에도 즐거웠다. 올해는 사람이 작년보다 훨씬 많았다는 느낌이었다. 작년엔 비도 와서 안 온 사람이 많았고, 지난 한 해 동안 사람도 많이 뽑아서 그런 듯. 승원이형네 가족이랑 같이 놀았는데, 재우가 재하를 또 너무 잘 챙겨줘서 이쁘기도 하고 고맙기도 했다. 하하.

화요일 저녁에는 수열이가 블루반 엄마들이랑 저녁 약속이 있는 날이었다. 일찍 퇴근해서 리지우드 하겐다즈에서 재하 생일파티 케잌을 사고, 수열이는 저녁 약속으로. 재하는 숙제하고, 요즘 푹 빠져있는 Miles from Tomorrowland 보고, 11시에나 잠들었다. 나는 맥주 먹다가 잤다.

수요일은 아침에 기차가 스위치 문제로 딜레이되어서, 한참 걸리고 익스프레스가 로컬로 바뀌어서 삽질했다. 앞으로는 그냥 NJ Transit 딜레이 노티스 뜨면 집에서 일하다 느지막하게 출근해야겠다, 다짐했다. 뭐 그래도 10시 반에는 출근했다. 저녁은 수열이가 케이타운에서 먹자길래 급 돈의보감 가서 먹고, 옆에 있는 미용실에서 오랜만에 머리도 잘랐다.

목요일은 인터뷰 오신 지영이형 친구분이랑 지영이형이랑 셋이 케이타운에서 저녁 먹었다. 지영이형 승준이형 승원이형 다 알고 계신.. 역시 이 바닥은 좁다. 시간이 약간 떠서 지영이형이랑 카페베네에서 커피 급 마시고 펜 스테이션으로 뛰어갔는데, 배탈 기운이 있어서 혼났다. ㅎㅎ;;

금요일은 재하 프리스쿨 졸업식이었다! 포트리로 버스 타고 가는데, 버스 놓쳐서 시간 날리고 버스는 로컬이라 막 30정거장 후에나 내릴 수 있고. 발을 동동 구르다 결국 내려서 우버 타고 갔다. -.- 그랬는데 수열이가 늦어서 또 발을 동동 굴름.... 다행히 우리가 마지막 팀은 아니었다. 졸업식은 넘 감동적이었다. 부모님들이 울컥하며 눈물 흘리는 ㅎㅎㅎ; 잔디밭에서 차를 타고 집에 가는데 이제 마지막이라고 생각하니 맘이 싸했다. 내가 초중고대학교 졸업식 전부 감흥이 하나 없었는데; 그거 다 합친 것보다 기분이 더 묘했다. 부모의 마음이란. ㅋㅋ

토요일-일요일은 재하 학교 친구들 가족들이랑 캠핑을 갔다! 업스테잇 뉴욕에 있는 Mongaup Pond라는 곳이었다. 우리야 밴프 때 빼곤 캠핑을 해 본 적이 없지만 (그것도 캠핑카였고) 나머지 세 가족들은 다 캠핑 베테랑들이라, 우리는 거의 프리라이더 수준으로 하는 거 없이 신나게 얻어먹고 마시고 놀다 왔다. 애들끼리 잘 노니까 세상에 어찌나 좋은지! 이게 여행이지 싶더라 ㅋㅋㅋ;; 저번에 Rocking Horse Ranch 갔을 때도 좋았는데, 이번엔 애들끼리 노는 코드가 딱 맞으니까 너무 좋더라. 첫날 물놀이하고 샤워하고 캠핑장으로 걸어가면서, 애들 넷이서 손을 잡고 보리울의 여름을 부르는 데 듣기만 해도 너무 행복하고 감동적이었다... ㅠ 이번 캠핑의 하이라이트가 아니었을까 싶다. 두 번째 하이라이트는 엄청 맛있었던 쇠고기와 삼겹살 그릴 ㅋㅋㅋㅋ 에헤헤. 이튿날에는 카누도 빌려서 탔다. 모레인 호수 때의 재난같았던 카누보단 훨씬 나았다.. 내가 뒤에 타야 하는 것이었다. ㅎㅎ; 여튼 이튿날 저녁까지 애들 물놀이+모래놀이까지 신나게 하고, 차 몰고 집에 왔다. 핸드폰도 한번 안 들여다 보고 (통탈) 일 생각도 안 하고 무념무상으로 보낸 이틀이어서, 몸이야 피곤하고 나른하지만 멘탈 에너지는 좀 충전된 듯. 원랜 담주에 하루 휴가쓰고 빈둥거릴까; 싶을 정도로 여력이 없었는데 잘 다녀온 것 같다. ^^

이렇게 쓰고 보니 일이 없었던 날이 하나도 없었다..... -_- 세상에나... 담주엔 좀 평화로운 일상을 지내길 빌어본다. 그 다음주엔 김효승네 놀러옴 캬 ㅋㅋㅋ

Double Q-learning

  • Q-learning에서 가치함수값을 과대평가하는 문제를 다룬 논문.
  • Q-learning update에서, 다음 상태 s'의 가치함수를 max Q(s',a')로 구한다. 이 때 우리가 가진 Q(s', a')는 실제 가치함수의 기대값으로, 이중 최대는 사실 expected value of max가 된다. 그런데 실제 우리가 구해야 할 값은 max expected value로, 이 차이 때문에 근사값이 양의 bias가 생긴다.
  • 과거에는 이게 단순히 가치함수의 근사가 정확하지 않기(inflexible) 때문이라고 보았지만, 이 논문에서는 max operator 때문에 approximation 과정에서 생기는 에러들 중 overestimatation 이 강조되어 생기는 bias임을 보였다.
  • 이 문제를 해결하기 위해, 두 개의 Q()를 유지하자. 우리가 관찰하는 모든 (s,a,r,s') 샘플마다, 이들 중 랜덤하게 절반은 Q1, 절반은 Q2를 업데이트 한다. Q1을 업데이트할 차례가 되면, 다음 상태 s'의 state value를 구하기 위해 우선 argmax Q1(s', a') 로 액션을 고른 뒤, Q2(s', a')로 업데이트한다 (!)
  • 이 알고리즘은 실제로 positive 대신 negative bias 가 있음을 보였다. 특정 어플리케이션의 경우 이 업데이트를 통해 성능도 좋아짐.
  • 후속판으로 DQN 버전도 나왔더라. 그래서 보니까 이거 쓴 사람도 딥마인드 가있네.. 딥마인드에서 나온 논문은 우선 다 읽어야하나..? -_-

Benchmarking Deep Reinforcement Learning for Continuous Control

  • TRPO 짱이에염 ㅇㅇ

링크

며칠 전 읽었다.

  • DeepMind의 continuous control 논문. Deep nonlinear approximator 를 사용 가능하게 만든 DQN과, Continuous control을 위한 DPG 아이디어를 합쳤다. DQN의 리플레이 버퍼랑 별도의 타겟 함수를 사용한 DPG 알고리즘이다. 이 두 아이디어는 모두 학습의 불안정성을 해결하기 위한 것으로, 리플레이 버퍼는 인접한 관찰값들이 서로 너무 correlate되어 있는 문제를 해결하고, 별도의 타겟 함수는 highly nonlinear한 approximator를 업데이트하면 Bellman update target이 변해버리는 문제를 해결한다.
  • OU 프로세스를 이용해 continuous space에서 exploration 문제를 해결한다.
  • Batch normalization은 샘플링한 mini-batch에서 각 feature를 standard normal 로 normalize한다.
  • TRPO는 훌륭하지만 much less data efficient 하다고 한다.
  • 목요일에 태가 왔다. David Burke 에서 점심 먹구, Ground Support에 떨어뜨려 놓고 (뉴욕까지 와서 MM 하는 기세..) 일하다가 일찍 퇴근해서, Saigon Shack 에서 저녁 먹고 집에 데려왔다. 이놈은 열심히 MM 하다 잤다는.. --;
  • 금요일에는 점심때 리베네가 짐 좀 맡아달래서, 회사 앞에서 짐 맡아 놓고. 상민이형이랑 둘이 밥 먹었다. 제 때 퇴근해서 리베네랑 같이 기차 타고 퇴근. 재하랑 놀고, 치맥 먹고 수다 떨고. TCO 뉴욕 이벤트 하고 온 태가 늦게 합류했는데, IPSC 때문에 일찍 잠.
  • 토요일은 새벽에 일어나서 IPSC. 대회 끝나고 멘붕 및 정리를 좀 하다가, 1시쯤 사쿠라 바나에 점심 시켜서 테이크아웃해다 먹었다. 원래 나가서 먹으려 했는데 태가 이번엔 TCO R2C를 한다고 해서... --; 그리고 잠깐 산책하고, 맨해튼까지 라이드해줬다. 기차 타고 멍때리며 갈 땐 몰랐는데, 내가 운전해서 가니 정말 멀더라. OTL... 글고 차 몰고 들어가는게 역시 너무 힘든듯. 차 막히는 시간이었지만서도. 돌아오니 수열이가 Father's day 선물 줬다!! 난 Mother's day 한국엔 그런거 없다고 걍 넘어갔는데 미안하고 고마워라 ㅠㅠ 힝힝. 재하 재우고 둘이 영화나 한편 때릴까 하다가 매드 맥스: 분노의 도로 봤다. 아 무슨 약을 빨면 이런 상상력이 막 솟아나지?;;
  • 일요일은 하여 세 가족이 다같이 늦잠 자고, 정신 차려보니 쌓여 있는 이런저런 잡일들을 하며 보냈다. 재하는 동현이가 사준 레고 조립하고, 블럭 쌓기 하고. 아 잠깐 윌라드 놀이터도 갔다오고. 잡다하게 할 게 아직 쌓였는데, 많이 못했네.

그 외...

  • 요즘 꽂힌 노래: 애플뮤직 k-pop 플레이리스트에서 마주친: 닥치고 그루브
  • 요즘 본 유튜브 동영상: 작년에 이어 Body Rock에서 Just Jerk. 이게 춤인가 서커스인가.
  • 요즘 아쉬운 것: 라이브에서 안심하고 이런 노래를 부르는 하현우 못보는거.... 아으아으아....
  • 그 외 deep reinforcement learning 페이퍼를 이것저것 읽고 있다. 내가 딥러닝 할건 아니지만서도 (아마도) RL 부분은 도움이 많이 된다. 근데 이거 페이퍼만 읽고 뭘 해보질 않고 있는 점이 문제. 이번에 IPSC 에 이미지 분류 문제가 나왔을 때 "아 좋아 뭐 걍 해보지" 하고 컨브넷 때릴 수 있었어야 하는데, 막상 선뜻 손이 안 갔던 것도 이런 계열의 문제. Keras 튜토리얼 한번 따라해본 적이 없으니 이거 참... 부끄럽네.
  • 그런 의미에서 당분간은 openAI gym을 좀더 하기로 결의. 블로그 포스팅도 해볼까..

지난 IPSC 후기들: 2009, 2010, 2011, 2012, 2013, 2014, 2015... 많이도 했다...

  • 스탠딩: 9등.
  • 한국 팀 스탠딩.. 은 여전히 없는데, 우리 말곤 요번에 코더스하이에서 잘한 팀인듯? 한 서울대 팀이 잘했고 (14등) 팬클럽이 36등. 세컨더리 싱글퍼슨 디비전 1,2등이 전부 한국 고등학생들. 한국의 미래가 이리 밝습니다.

물론 올해도 Andromeda Express로 출전.

태랑 리베가 타이밍 맞춰 뉴욕에 놀러와서 한지붕 밑에서 셋이 각각 다른 팀과 행아웃/스카이프로 대회하는 진풍경을 연출했다. (...) 전날 다같이 치맥하면서 수다 떨다가, 낼 대회해야 하니 얼른 자야지 하고 열한시쯤 일찍 파장. 아침 7시부터 대회였는데, 새벽 3시부터 한 시간 간격으로 "헉, ㅅㅂ IPSC" 하면서 깼다. 2010년의 트라우마 덕분에... 하여 제 때 일어나 참전. 화상채팅으로 민규 얼굴도 봤다. ㅋㅋ

내가 A, 진호가 B, 원석이형이 C를 잡고 시작했는데, B만 어렵고 나머지는 풀만하여 진호가 멘붕하는 사이 우리 둘이 문제를 풀기 시작한 듯. AC 풀고, 원석이형이 G푸는 사이 문제 읽다가 I를 한번 찔러보니 푹 들어가길래 얼른 풀었다. 바이너리 파일 주고 답을 찾아~ 이런거여서 일단 file 해보니 ext 2 덤프로 나오길래, 그다음엔 일사천리.. (맥이라 ext2 마운팅이 안됐는데, 소위 '원터치 흑역사' 프로젝트 때 만들어놓은 VM 이 도움이 되었다 --;)

그 다음에 D를 보기 시작했다. 자바스크립트 게임 (.. 이랄것도 없이, "무슨 색 클릭해" "몇 초 기다려" 등의 명령을 따르면 된다) 을 해서 결과를 내는 문제였다. 이 명령들은 별도의 파일에 저장되어 있어서, 이지는 데이터만 뽑아서 파이썬으로 쉽게 생성해서 냈다. 하드는 근데 데이터가 pseudorandom 으로 생성되어서, 골치가 아픔.. 그래서 자바스크립트 코드를 deminify 하고 문제를 생성하는 중 답을 자동 생성하는 코드도 추가해서 풀었다. 꽤 삽질했지만 순조롭게 풀었다고 생각했는데 지금 로그를 보니 시간이 오래 걸렸다. 거의 한 시간 여기에 버린듯.. 자바스크립트 코드를 짜본 것이 너무 오랜만이기도 하고. 하여간 이 사이에 F 풀리고 (누가 풀었지?) 스탱이 B1 푸는 등의 다양한 일이 있었다. 그리고 보니 K가 젤 만만하길래 이걸 잡고 한참 고민했는데 참 각이 안나와서.. 삽질하다가.. 아 이거 해보고 안되면 걍 L로 가야겠다 하면서 내봤는데 맞았다. -_-

그리고 남은 두시간은 L로 태웠는데... 이거 결국 captcha + image classification 문제였다. 다행히 L1은 디노이징 + 크로핑 + 리사이징의 노멀라이제이션 + 코릴레이션으로 적당히 맞았는데, L2는 어려워서 골치가 아팠다. IPSC 스탈이니 적당히 답이 잘 나오는 휴리스틱이 있겠지 하면서 열심히 이것저것 짜넣어서 답이 나오는 DP가 나왔는데, 너무 느림.... 하여 곤란해 하다가 이렇게 저렇게 최적화 해봤는데 안되고, 요렇게 시간만 버리다가 마지막 두시간 반 굳었다는 슬픈 전설이... orz 나중에 솔루션 부클릿 보니 걍 컨브넷 때리라고... 야 이놈들아 orz IPSC 답게 간단한 숏컷으로 될거라고 생각한 내가 어리석었다..

그 사이 다행히 진호가 E1 B2 풀고 원석이형이 J1 풀어서 어쨌든 탑텐은 찍었다.

허나 중간중간엔 1등도 자주 했고 거의 5등권 안에서 왔다갔다 했지 싶은데, 마지막 한시간 반동안 셋다 굳는 바람에. 좀 아쉬운 결과였다. K2 (이건 랜덤으로 열심히 돌려보면 감이 온다고..) 제대로 못 본게 아쉽고. H (HLD) 못 본 것도 아쉽고. 원석이형이 J1은 제일 먼저 풀었는데 J2를 정확도 관계로 못 풀어서 요것도 아쉬움. 이 문제들은 한번 구경은 해봐야겠다... ㅠ

여튼 간만에 재밌었다. 내년도 기대된다. 올해 남은 문제나 좀 풀어봐야지...

  • 낼 중요한 릴리즈라 꼭 오픈 전에 가야 하는데 이거저거 놀고 맥주 한병 먹고 이러다 보니 또 한시가 넘었네. 이번 생은 아마 안될꺼야 ^_^
  • 전화 인터뷰 하고 이것저것 시간이 한참 지나가서 오늘은 뭐했는지 잘 모르겠네... 메일이나 한참 쓰고... 아 인생이란게 원래 이렇다.
  • 퇴근하고 다운타운의 명동순두부에서 저녁 먹었다. 옐프 페이지를 이제야 들어가 보는데 리뷰가 저모양인 이유가 있었다... 담에는 그냥 얌전히 유기농 순두부를 가야겠다고 다짐했다. 아니면 페어론의 테이크아웃 가게를 가거나.
  • 집에 와서 재하 씻기고 나도 씻고.. 책 읽어주고 재우고 일 하는 시늉 좀 하다가, 수열이랑 왕좌의 게임 이번 시즌 8편 봄.
  • 낼은 태가 오고 모레는 리베가 오고 글피는 IPSC! Eventful-_- 한 주말이 될 전망이다...
  • 아 머리가 너무 길었다! 리지필드에 머리 자르러 가기엔 너무 멀고, 퇴근길에 케이타운에서 머리 잘라야 되는데 귀찮으니까 자꾸 안한다. 내일은 꼭 잘라야지.
  • 점심은 규복이랑 Xian Famous Foods 또먹음 ㅋㅋㅋ 저녁엔 동현이가 급 연락와서 우리회사 인턴하는 준우라는 친구랑 셋이 먹었다. 동현이가 커다란 레고를 재하 선물이라고 줌 ㅠㅠ 에고 고마워라. 더 맛있는 거 사줄걸.
  • 오늘은 꾸준히 일했는데 진전이 좀 있어서 기쁨. 대신 퇴근하니 11시.
  • 오늘의 재하 어록:

재: 아빠한테는 비밀인데, (뭐라뭐라 잘 안들림) 고양이 얘기가 나와서, 내가 야옹 하니까, 예서가 머리를 쓰다듬어 줬어.
엄: 아빠한테는 왜 비밀이야?
재: 아빠는 자꾸 웃어서 내가 기분이 안좋아.
엄: 예서가 쓰다듬어줘서 기분 좋았어?
재: 응.

예서는 요즘 재하랑 둘이 꽁냥꽁냥하며 지내고 있는 유치원 같은반 친구. 이놈이 벌써부터 여자친구가 생길려고....

역시 일기가 또 밀렸군!

  • 금요일엔 휴가 내고 놀았다! 재하 학교에 드랍하고 집에서 늘어지게 자다가, 슬슬 맨해튼 나갔다. 센트럴파크에서 산책하다가, Quality Meats에서 저녁 먹고 (으으 콘 크림 브륄레 꿀맛 스테이크 꿀맛 흑흑), 웨스트 빌리지 가서 SmallsBathtub Gin에서 하루를 마무리. 집에 들어오니 한시가 넘었더라. 하하!
  • 토요일엔 재하 보고 싶다고 신나서 데리러 갔는데, 재하가 삐지고 말 안들어서 데리고 오자마자 고래고래 소리 지르며 혼냄 ㅠㅠㅠㅠ ㅋㅋㅋㅋㅋ 아 웃프다;;;; 미안하다 아빠가 아직 어른이 덜돼서 그래....
  • 그리고 주말에는 한가로이 집에서 놀았다. 어째 정신 없이 간 것 같긴 한데, 뭔가 대단한건 안했다. -_-
  • 오늘은 간만에 제 시간에 출근.. (낼도 제 시간에 출근하려면 지금 자야 되는데.. --;) 제임스랑 Saigon Shack에서 점심 먹고.. 혼자 조용히 코딩하다 제때 퇴근.
  • 집에 와선 밥 먹고, 재활용품 정리해 내놓고 (박스 뜯어서 내놔야 하는데 어찌나 박스가 많은지! 이걸 다 샀다니?! ㅋㅋㅋ) 재하 씻겨 재우고 등등 하고, openai gym에서 좀 놀음. CEM 같은거 해보기 전에 우선 내가 아는것부터 해보자 하고 로컬서치 + 휴리스틱 이런걸 좀 돌렸는데 잘되네.... 이거 SARSA 이런거 돌렸는데 로컬서치만도 안나오면 좌절스러울 듯. 하긴 CEM 나왔을땐 다들 그랬으려나.. -_-;;;
  • 내일은 재하 졸업 캠프. 아예 휴가를 썼다! 전에 그루폰에서 사 둔 경비행기 조종 수업을 들으러 가볼까 했는데 날씨가 안좋아서 안된다고. 맨해튼에서 빈둥거리고 bar hopping 하고 라이브 음악이나 들으러 나니며 저녁을 보내볼까 함?
  • 기차에서 틈틈이 TRPO 논문을 읽고 정리해봤다. trpo.pdf 대충 아이디어만 알겠고 구현을 안봐서 아직 다 감은 안 온다만. 여기 혹은 여기를 구경하면 되나?
  • CEM 튜토리얼도 보는 중. 옛날엔 뭐가 뭔소린지 몰랐는데 이제 좀 알아듣겠다. Importance sampling이 이리도 중요한 아이디어일 줄이야! 아무데서나 다 나온다.
  • 퇴근하자마자 재하 숙제 시켜놓고 수열이랑 저녁을 준비했다. 오징어튀김 고등어구이 미역국 회덮밥의 해산물 메뉴! 맛있었다. 회덮밥엔 저번에 먹은 포케볼 스타일로 와사비 간장을 뿌려 먹었다.