기계학습 3

알파고 논문을 읽으면서 ... 생각나는 대로

바둑판 줄이 몇개인지 모르고, 인공지능 감은 잃었고, Deep Learning은 수박 겉핥기로 아는 나도 읽을 수 있게 해 주어 고마운 생각에. page 1)■ MCTS와 같이 Monte Carlo 기반의 game tree에서의 search는 (당연히) sampling/roll_out을 많이 하면 할 수록 바둑판의 유/불리 상황이나 다음 수로 어떤 것이 최적일까 추정하는 것이 정확해진다. 문제는, 바둑의 search space가 너무 크다. 바둑과 같이 막대한 크기의 search space를 갖는 Game Tree의 search space를 줄여보자. 1. Search Depth를 줄이자 : 게임을 끝까지 하지 않고도 현재 상태, 또는 현재 상태에서 어느 정도까지 depth를 내려 가면 누가 이길 지 결..

데이터사이언스, 머신러닝, 통계학, 빅데이터가 어떻게 모였나?

스탠포드 T. Hastie 통계학 교수가 사람들에게 처음엔 자신이 통계학을 한다고 하다가, 나중에는 Machine Learning을, 근래에는 데이터 사이언스를 한다는 얘기를 듣고 Tibshirani 교수의 머신러닝 vs. 통계학 용어집 생각이 났다.. Tibshirani 교수님의 용어집에 조금 문제가 있는데, 머신러닝에서도 모델, test set performance, classification, clustering이라는 말을 무지 일반적으로 사용한다. Fitting이라는 말은 그래픽스나 solid modeling 과목에서 B-Spline, NURB 같은 것을 할 때 지겹도록 많이 쓰던 용어이고. Regression이나 density estimation 같은 말은 안 쓴 것 같다. 100% 사실은 위 ..

Yahoo와 Microsoft에서 하둡기반 분석 데이터의 중간크기가 14GByte?

재작년 얘기지만 당시 야후와 마소에서 하둡으로 진행하는 빅데이터 분석 데이터 크기의 중간값이 14G 이고 90% 이상이 100G 이하이었다고... 하둡이 순환적인 알고리즘 처리엔 약하기 때문에 DAG로 접근한 제품들, 메모리기반 솔루션이 나온다. 배치와 함께 실시간/스트림 처리를 상식적으로 아우를 수 있는 기반이 나오면 좋겠다. Spark/Shark 가 충족해 줄까? Stanford 옆동네에 Berkeley가 있다. 이런 일을 하고 있다. 계속 있었더라면 나도 관여하고 있었을 지도 모르겠다는 생각이 든다.