Learning & Reasoning

Data Science는 막장?

이현봉 2015. 8. 31. 01:21

Data Science Is Dead 에서 데이터 사이언스는 과학이 아닐 뿐더러, 데이터 사이언스는 새로운 효용보다는 현란한 구라빨이 주 무기고 따라서 데이터 사이언티스트는 막장으로 통하는 길이라 한다. 이 주장대로 풀어보면.

"뒤에 과학(Science) 이란 단어가 붙은 분야치고 과학인 것은 없다" 라는 말이 있다.  Computer Science도 들어간다. 이 기준으로 보면 Data Science는 전혀 과학이 아니다

데이타는 앞으로 엄청나게 생기고 모으게 될 것이다.  그렇지만 정말로 그런 데이타 중 열심히 모델을 만들고 분석을 해서 의미있는 정보를 생성할 수 있을 가능성은 얼마나 될까?  해보기 전에는 모른다?  때문에 데이터 사이언티스트 (실제로는 구라꾼이 말로 꼬시겠지만)가 데이터에 생명을 불어넣어 가치를 뽑아내야 한다고.  흠...  그런데, 솔직히 데이터의 주인도 데이터를 갖고 뭘 해야 하면 좋은 지 감이나 목적이 없는데 데이터 사이언티스트가 무당이라도 되기에 insight를 찾아주냐?  

컴퓨터 비젼은 물체에 반사되어 센서에 포착된 광자의 에너지를 측정함에서 시작해, 어느 것이 물체인지, 그 물체가 무엇인지를 인식하려는 무지 복잡하고 큰 규모의 빅데이터 분석/처리이다.  헌데, 컴퓨터 비젼하는 사람을 데이터 사이언티스트라 하지 않는다.  컴퓨터 비젼의 가치는 자율 자동차에서도 보듯이 너무나 명확하다. 

구글 검색엔진에는 온갖 기술이 쓰인다. 구글은 사람이 웹페이지의 중요도를 판단하면 안되고 기계적으로 계산해야 한다고 생각했기에 웹그래프 구조에 Markov Chain Monte Carlo를 적용해 static한 page rank 값을 구했다. 누가 가르쳐 준것이 아니다.

자동화. Fundamental Issue.  자율 자동차에서 컴퓨터 비젼 시스템의 출력은 리포트가 아니다.  차를 몬다.  컴퓨터, 전자, 기계공학에서 머신 러닝/제어를 한 사람이 통계나 사회학에서 데이터 처리를 한 결과가 문서형태라는 것을 알고는 황당해한다.  아니, 우리에게 그 건 시작인데.  컴퓨터 비젼만큼 어려운 일이 얼마나 있을까?  이것도 자동화가 되가는데 CRM 고객 분류가 자동화 안 될 것이 무엇이람?  회사마다 방법이 다르고 데이터도 엉망이기에?  이런 이유가 얼마나 더 갈 수 있을까?

데이터 사이언티스트는 우리나라 조직내에서 얼마나 통할까?  명함에 데이터 사이언티스트라 찍힌 사람 중에 ensemble learning이 왜 먹히는지, Neural Net에서 Back-Prop 설명 가능 커녕  최적화, estimation 기본 개념 없이 잡지 수준 말로 잘 지내는 사람을 보면 능력보다는 다른 것이 더 중요한 것 같다.  우리나라에서 데이터 분석은 지원부서 일이기에 돈버는 부서에 밀려 힘을 못 받는데 진짜 데이터 사이언티스트의 생존법이 만만하지 않으리라.  소위 빅데이터 분석 플랫폼 벤더에서 데이터 사이언티스트가 할 만한 일은?  없다.  

FYI

Statistics is dead

Data Science is not dead

It depends on how you look at things...