재작년 얘기지만 당시 야후와 마소에서 하둡으로 진행하는 빅데이터 분석 데이터 크기의 중간값이 14G 이고 90% 이상이 100G 이하이었다고...
하둡이 순환적인 알고리즘 처리엔 약하기 때문에 DAG로 접근한 제품들, 메모리기반 솔루션이 나온다. 배치와 함께 실시간/스트림 처리를 상식적으로 아우를 수 있는 기반이 나오면 좋겠다.
Spark/Shark 가 충족해 줄까? Stanford 옆동네에 Berkeley가 있다. 이런 일을 하고 있다. 계속 있었더라면 나도 관여하고 있었을 지도 모르겠다는 생각이 든다.
'Learning & Reasoning' 카테고리의 다른 글
데이터 사이언티스트의 조건 (0) | 2014.04.04 |
---|---|
데이터사이언스, 머신러닝, 통계학, 빅데이터가 어떻게 모였나? (1) | 2014.02.26 |
Linux에 JAVA, C++ IDE를 다시 설치 (0) | 2014.02.07 |
데이터를 어떻게 보아야 하나? (0) | 2013.10.24 |
데이터 사이언티스트는 현업에 강해야... (0) | 2013.06.04 |