Machine Learning 5

데이터를 어떻게 보아야 하나?

데이터사이언티스트는 통계를 알아야 한다기에 통계책을 보았다. 그러고 보면 내가 공부하고 다뤘던 거의 모든 것이 데이터인데 그럼 데이터사이언티스트는 또 무엇인지 좀 헷갈리기는 하다. 통계책을 보면서 어려웠던 것은 어떤 것들은 정말 납득이 그냥 안되는 것이었다. 수학적인 테크닉은 쉽다. 헌데, 가설이나 Null hypothesis를 세우고, p value나 그런 통계치를 계산하고, 그 수치가 의미가 있는 지 테스트를 하고, 우리가 얻은 데이터가 가설에 부응하냐 아닌가 따지고, 그런 것들이 정말 다가오지 않았다. 왜 가설이 필요한지, 그런 틀이 왜 있어야 하는지, 그런 틀에 왜 맞춰보아야 하는지, 작위적이란 생각이 들었다. 다른 사람들이 쓴다고 하기에 하지만 공부할 맛이 나지 않았다. 내가 배운 stochas..

쿨한 machine learning

정확히 작년 이맘때 kaggle에서 신약을 찾는 proteomics 시합을 열었다. 주최는 제약회사인 Merck 였다. training set과 test set 크기가 합해서 압축된 상태에서는 100 MByte가 안되었고, 압축을 풀면 3GByte 이었다. 작은 크기는 아니지만 그렇다고 소위 말하는 빅데이터 리그는 아니다. 데이터를 읽어 드리는 방법, 벤치마크로 random forest를 이용한 코드, 그리고 Rsquared 형태의 평가지표 코드도 함께 주었다. R로. Merck 역시 R을 쓴다. Geoffrey Hinton의 제자와 동료들로 이루어진 팀이 1등을 해서 상금 4만불을 가져갔다. Deep learning 패러다임을 사용해서. 이런게 바로 빅데이터, 좀비데이타 그런 수사가 필요없는 가장 쿨한..

Machine Learning과 데이터마이닝을 조금 더 심각하게...

10년이 더 되었지, WEKA와 R 이 막 나온 초기에 맛을 보고는 오랜만에 써 본다. 그동안 세월이 많이 흘러 Machine Learning이나 Data Mining이 전보다는 더 심각하게 받아드려지는 것 같다. Hype도 가라앉고. 그동안 R에 무척 많은 패키지들이 생겼다. Windows에서도 돌아가고, GUI 환경도 있고, 세상 좋아졌다. R 패키지 중 Rattle이 생겨 Data Mining할 때 편리하다고 하니 WEKA 대신 Rattle로 기계학습과 데이터마이닝 연습을 해 보자. 학교 다닐 때 몰랐던 VC theory/Dimension에 근거한 SVM Classification 도 알게되었고, 무엇보다 Classification Learning Algorithm의 능력에 대해서 엄격한 측정이 가..