Learning & Reasoning 64

Supervised Learning with R

지난 주에 7주에 걸쳐 하던 일반인 대상 예측분석과정을 끝냈다. 10명이 안되는 수강생들과 오붓하게 했다. 이 과정 역시 내가 해보고 싶어 연 것이었다. 올 초에 하려 했는데 들을 사람이 없어 못하다가 내가 3명만 되면 하고 싶다고 해서 열었다. 학원은 재정적으로 별로 좋은 과정이 아니었겠다. 내가 재미있었듯이 수강생들에게도 유익했으면 좋겠다. 작년부터 이런 과정을 하고 싶던 중 책을 찾아보았는데 내 맘에 드는 것이 없었다. 책은 많은데 어떤 것은 수강생들에게 너무 어렵고, 또 어떤 것들은 지나치게 피상적이어서 자칫 헛바람만 주입시킬 것 같다는 생각이 들어 거의 포기하던 중 "An Introduction to Statistical Learning" 의 draft를 접하곤 희망을 품을 수 있었다. 잘 쓴 ..

데이터 사이언티스트의 조건

이 글에 의하면; - 처음 보는 데이터를 갖고 이해 당사자들이 눈 부릅뜨고 주시하는 가운데 분석과 시각화를 할 수 있으면, - "loss function"과 "regularization term"을 25글자 이내에서 설명하고, 그 개념을 알고리즘/모델에 따라 transparency(이해/설명 용이성), 예측 능력, 리소스 요구조건 측면에서 예를 들어 비교 설명할 수 있으면, - 그 결과로 누가 해고될 수 있는 있는 구조 조정안을 사장단에게 제출할 수 있으면, - 프로젝트에 적대적인 34개의 다른 부서에서 데이터를 구해 적절한 메타 데이터를 만들 수 있으면, - 1000개가 넘는 노드에서 효율적으로 돌아가는 mission-critical 어플리케이션을 실시간 SLA를 충족하면서 만들고, 시험하고, depl..

데이터사이언스, 머신러닝, 통계학, 빅데이터가 어떻게 모였나?

스탠포드 T. Hastie 통계학 교수가 사람들에게 처음엔 자신이 통계학을 한다고 하다가, 나중에는 Machine Learning을, 근래에는 데이터 사이언스를 한다는 얘기를 듣고 Tibshirani 교수의 머신러닝 vs. 통계학 용어집 생각이 났다.. Tibshirani 교수님의 용어집에 조금 문제가 있는데, 머신러닝에서도 모델, test set performance, classification, clustering이라는 말을 무지 일반적으로 사용한다. Fitting이라는 말은 그래픽스나 solid modeling 과목에서 B-Spline, NURB 같은 것을 할 때 지겹도록 많이 쓰던 용어이고. Regression이나 density estimation 같은 말은 안 쓴 것 같다. 100% 사실은 위 ..

Yahoo와 Microsoft에서 하둡기반 분석 데이터의 중간크기가 14GByte?

재작년 얘기지만 당시 야후와 마소에서 하둡으로 진행하는 빅데이터 분석 데이터 크기의 중간값이 14G 이고 90% 이상이 100G 이하이었다고... 하둡이 순환적인 알고리즘 처리엔 약하기 때문에 DAG로 접근한 제품들, 메모리기반 솔루션이 나온다. 배치와 함께 실시간/스트림 처리를 상식적으로 아우를 수 있는 기반이 나오면 좋겠다. Spark/Shark 가 충족해 줄까? Stanford 옆동네에 Berkeley가 있다. 이런 일을 하고 있다. 계속 있었더라면 나도 관여하고 있었을 지도 모르겠다는 생각이 든다.

Linux에 JAVA, C++ IDE를 다시 설치

R을 이용해 분석/마이닝/Machine Learning을 한 지가 햇수로는 3년이 되었다. 이젠 예전에 잘 알았던 것이 가물거리는 것을 보니 기본기는 갖춘 것 같다. 요즘은 time series 관련된 것을 하고 있다. R로 하기 잘 한 것 같다. 지식과 경험의 보고다. 내가 공헌할 수 있는 것이 무었일까? computer vision 관련? 궁합이 별로다. deep learning 패키지는... Spark는 흥미가 당긴다. 지금껏 Hadoop에서 유일하게 LTC (Long Term Committment) 해 볼 만한 것이라 생각된다. 보기 시작해야겠다. Python도 훑어 보아야 하는데... 지난 주말에는 Ubuntu에 다시 Java와 C++ ide를 깔았다. 오랜만에 Eclipse를 대하니 반갑기도 ..

데이터를 어떻게 보아야 하나?

데이터사이언티스트는 통계를 알아야 한다기에 통계책을 보았다. 그러고 보면 내가 공부하고 다뤘던 거의 모든 것이 데이터인데 그럼 데이터사이언티스트는 또 무엇인지 좀 헷갈리기는 하다. 통계책을 보면서 어려웠던 것은 어떤 것들은 정말 납득이 그냥 안되는 것이었다. 수학적인 테크닉은 쉽다. 헌데, 가설이나 Null hypothesis를 세우고, p value나 그런 통계치를 계산하고, 그 수치가 의미가 있는 지 테스트를 하고, 우리가 얻은 데이터가 가설에 부응하냐 아닌가 따지고, 그런 것들이 정말 다가오지 않았다. 왜 가설이 필요한지, 그런 틀이 왜 있어야 하는지, 그런 틀에 왜 맞춰보아야 하는지, 작위적이란 생각이 들었다. 다른 사람들이 쓴다고 하기에 하지만 공부할 맛이 나지 않았다. 내가 배운 stochas..

쿨한 machine learning

정확히 작년 이맘때 kaggle에서 신약을 찾는 proteomics 시합을 열었다. 주최는 제약회사인 Merck 였다. training set과 test set 크기가 합해서 압축된 상태에서는 100 MByte가 안되었고, 압축을 풀면 3GByte 이었다. 작은 크기는 아니지만 그렇다고 소위 말하는 빅데이터 리그는 아니다. 데이터를 읽어 드리는 방법, 벤치마크로 random forest를 이용한 코드, 그리고 Rsquared 형태의 평가지표 코드도 함께 주었다. R로. Merck 역시 R을 쓴다. Geoffrey Hinton의 제자와 동료들로 이루어진 팀이 1등을 해서 상금 4만불을 가져갔다. Deep learning 패러다임을 사용해서. 이런게 바로 빅데이터, 좀비데이타 그런 수사가 필요없는 가장 쿨한..

데이터 사이언티스트는 현업에 강해야...

수업에서 http://snap.stanford.edu/data/ 에 있는 데이터를 R을 이용해 재미있는 분석하는 것을 term project로 학생들에게 내 주었습니다. 하다보면 R로 로딩이 안되는 것들이 있거든요. 커서요. 또 로딩은 몇시간 걸려 했지만 그래프를 그리려 보니 안되죠. 수십만개 노드가 있는 그래프를 PC가 그리기가 쉽지 않죠. 또 그려봐야 뭔 소용. 데이터 사이언티스트가 새로운 머신러닝 알고리즘을 만들 수 있지만 그런 것을 잘하는 것이 목표가 아닙니다. 이들은 보다 현실적인 작업을 하는 사람들입니다. 목표가 정해지면 필요한 데이터를 구해와야 하고, 지저분한 데이터를 깨끗히 해서 분석하기 좋게하고, 여러 가지 방법을 써서, 종종 돌아가며, 가끔씩은 좀 창의적인 생각을 해서 데이터가 어떤 비..

데이터 사이언스 공부하기에 수학 지식은?

데이터 사이언스 공부를 시작하려는 사람들이 궁금하게 여길 것이 얼마나 수학적 지식이나 프로그래밍 기술이 필요할까 인가가 아닐까 생각합니다. 많은 곳에서 데이터 사이언티스트가 되려면 머신러닝, 수학, 데이터마이닝, 통계학 같은 지식이 있어야 한다고 말하죠. 맞는 말입니다. 그런데 머신러닝 같은 것은 대부분 학부에서 제공되지 않습니다. 그러면 학부만 졸업한 사람이 필요한 수학적 지식은 얼마나 되면 좋을까요? 물론 많이 알수록 좋겠지만 대학 공업 수학 정도면 적당하다고 생각합니다. 그 이상되면 수확체감이 급격해 질 것 같습니다. 미적분을 바탕으로 선형대수학, 확률통계, vector calculus까지 다 맛을 보게 되니까요. 실제로 머신러닝 교과서에는 이런 지식들이 다 동원되죠. 그런데, 희랍문자만 나오면 멘..

빨리 진도 나가야 하는데...

"The art of R programming"은 뚝닥 읽었는데 하루에 한 장씩 읽으려고 한 "Data Mining with R - learning with case studies" 진도가 늦어진다. 뭐가 이리 많노? 밤에 읽으면서 연습하다 이마로 키보드 두드리니... Time series, SNA, igraph 패키지 사용도 더 연습해야 하는데... 오랜만에 stochastic differential equation을 본다. 논문 쓸 때 한참 이것으로 모델링을 했다. Numerical Recipe를 보면서 C로 모델 만들고 Matlab으로 그래프 그린 것이 어제 같은데.. 아니 좀 됐다. R 생태계 참 대단하다.