Learning & Reasoning

데이터 사이언티스트는 현업에 강해야...

이현봉 2013. 6. 4. 00:43

수업에서 http://snap.stanford.edu/data/ 에 있는 데이터를 R을 이용해 재미있는 분석하는 것을 term project로 학생들에게 내 주었습니다. 하다보면 R로 로딩이 안되는 것들이 있거든요. 커서요. 또 로딩은 몇시간 걸려 했지만 그래프를 그리려 보니 안되죠. 수십만개 노드가 있는 그래프를 PC가 그리기가 쉽지 않죠. 또 그려봐야 뭔 소용.

데이터 사이언티스트가 새로운 머신러닝 알고리즘을 만들 수 있지만 그런 것을 잘하는 것이 목표가 아닙니다. 이들은 보다 현실적인 작업을 하는 사람들입니다. 목표가 정해지면 필요한 데이터를 구해와야 하고, 지저분한 데이터를 깨끗히 해서 분석하기 좋게하고, 여러 가지 방법을 써서, 종종 돌아가며, 가끔씩은 좀 창의적인 생각을 해서 데이터가 어떤 비밀을 내 보일까 찾는 사람들입니다. 

탐정같은 일입니다. 그래서 이리 저리 탐색하고, 추측이 맞나 보고, 이상한 것이 나오면 이해해 보려 해야 하기에 개발할 때 뭐 하나 실행하고 몇 시간 걸리면 젬병입니다. 그래서 처음에는 데이터세트 특성에 맞게 샘플링을 해 데이타 크기를 줄여 초기 분석할 때 빨리 빨리 감을 잡도록 하라고 권합니다. 하긴 나도 시작을 데이터분석에서 하지 않아 감이 별로 입니다.