정확히 작년 이맘때 kaggle에서 신약을 찾는 proteomics 시합을 열었다. 주최는 제약회사인 Merck 였다. training set과 test set 크기가 합해서 압축된 상태에서는 100 MByte가 안되었고, 압축을 풀면 3GByte 이었다. 작은 크기는 아니지만 그렇다고 소위 말하는 빅데이터 리그는 아니다. 데이터를 읽어 드리는 방법, 벤치마크로 random forest를 이용한 코드, 그리고 Rsquared 형태의 평가지표 코드도 함께 주었다. R로. Merck 역시 R을 쓴다.
Geoffrey Hinton의 제자와 동료들로 이루어진 팀이 1등을 해서 상금 4만불을 가져갔다. Deep learning 패러다임을 사용해서. 이런게 바로 빅데이터, 좀비데이타 그런 수사가 필요없는 가장 쿨한 data analytics의 표본이다.
'Learning & Reasoning > R ' 카테고리의 다른 글
Signal and time series seen from eight miles high cloud (0) | 2015.02.15 |
---|---|
Supervised Learning with R (0) | 2014.08.02 |
빨리 진도 나가야 하는데... (0) | 2013.02.28 |
R datatype 간단 정리 (0) | 2013.02.20 |
6.3.2 Extended Example: Extracting a Subtable "The Art of R Programming" (0) | 2013.02.15 |