빅데이터 7

Data Science는 막장?

Data Science Is Dead 에서 데이터 사이언스는 과학이 아닐 뿐더러, 데이터 사이언스는 새로운 효용보다는 현란한 구라빨이 주 무기고 따라서 데이터 사이언티스트는 막장으로 통하는 길이라 한다. 이 주장대로 풀어보면. "뒤에 과학(Science) 이란 단어가 붙은 분야치고 과학인 것은 없다" 라는 말이 있다. Computer Science도 들어간다. 이 기준으로 보면 Data Science는 전혀 과학이 아니다. 데이타는 앞으로 엄청나게 생기고 모으게 될 것이다. 그렇지만 정말로 그런 데이타 중 열심히 모델을 만들고 분석을 해서 의미있는 정보를 생성할 수 있을 가능성은 얼마나 될까? 해보기 전에는 모른다? 때문에 데이터 사이언티스트 (실제로는 구라꾼이 말로 꼬시겠지만)가 데이터에 생명을 불어넣..

빅데이터 - 미신과 주술가운데 중심잡기

빅데이터 - 미신과 주술가운데 중심잡기 빅데이터란 말이 들린 지도 4년이 더 된 것 같다. IT 유행어 수명이 4-5년이면 퍽 장수한 것이다. 유비쿼터스, 그린IT, 웹2.0, SOA 같은 유행어의 수명이 4년 넘어 간 것 같지 않다. 우리나라는 IT 유행어에 몹시 열광하는 나라다. 유행어가 만들어진 나라보다 더 극성일 때가 많다. 이런 우리나라에서 아래의 구글 트렌드를 보면 빅데이터에 대한 관심이 식어가고 있다. 빅데이터가 제대로 기지개 한 번 못 피고 앞의 유행어처럼 사라지는 건가? 우리가 빅데이터를 착각한 것인지, 자기 암시에 빠져 가공 세계를 헤매고 있는 건지, 과연 빅데이터의 "본질"이 무엇인가 다시 짚어 보면서 빅데이터의 현재와 미래를 가늠해보자. 빅데이터는 많은 양, 큰 데이터를 말하니 여기..

카테고리 없음 2014.03.30

데이터사이언스, 머신러닝, 통계학, 빅데이터가 어떻게 모였나?

스탠포드 T. Hastie 통계학 교수가 사람들에게 처음엔 자신이 통계학을 한다고 하다가, 나중에는 Machine Learning을, 근래에는 데이터 사이언스를 한다는 얘기를 듣고 Tibshirani 교수의 머신러닝 vs. 통계학 용어집 생각이 났다.. Tibshirani 교수님의 용어집에 조금 문제가 있는데, 머신러닝에서도 모델, test set performance, classification, clustering이라는 말을 무지 일반적으로 사용한다. Fitting이라는 말은 그래픽스나 solid modeling 과목에서 B-Spline, NURB 같은 것을 할 때 지겹도록 많이 쓰던 용어이고. Regression이나 density estimation 같은 말은 안 쓴 것 같다. 100% 사실은 위 ..

유튜브를 보고

인공지능 수업 들을 때, 지도교수의 옛날 얘기에서 레퍼토리 중 하나가 소프트웨어 모든 분야들이 실은 인공지능 하던 동료나 선배들의 연구 중 부산물로 나온 것들이라고. 나는 패턴에서 어떻게 기호가 출현하는지 궁금했다. 지금도 그렇다. 구글의 브린과 페이지가 쓴 초기 검색 논문을 보면 이 친구들 인공지능/기계학습 쪽 이라는 것이 보인다. Peter Russel이 "의식"이라는 좀 철학적인 주제에 관한 얘기를 한다. Einstein, Jung, Kant를 넘나들면서 space-time continuum, 빛 그리고 "경험"의 관계를 풀어나간다. "The hard question is not how does insentient matter ever give rise to experience, but how do..

빅데이터와 하둡 사이의 적정 거리는?

요즘 얘기되는 빅데이터는 하둡이 나오지 않았으면 가능하지 않았습니다. 전부터 필요성은 있었지만 이런 분산처리 구조를 만드는데 드는 "공구리 골조" 공사가 보통이 아닐뿐더러 성공사례도 찾기 힘들었을 터인데 구글이 이렇게 한다니닌까 불이 지펴진게 아니겠습니까? 앞으로 빅데이터를 하둡을 떼어놓고 생각할 수 있을까요? 거의 10년전 구글이 MapReduce를 막 발표했을 때 그 처리 스타일을 간단히 시뮬레이트 해 보는 프로그램을 만들었습니다. 많은 사람들이 그랬을 것입니다. 1주 정도 걸렸는데 색인에 필요한 태스크들은 Mapping과 Reducing 하기에 원천적으로 적절하지만 내가 관심있는 분석/Machine Learning을 해보려니 힘들 것 같았습니다. 지금도 그렇지 않을까 생각합니다. 빅데이터가 항상 필..

Big Data 단어 유감

빅데이터를 보통 기존의 DBMS나 파일 방식으로 처리하기 곤란한 매우 크고 복잡한 데이터를 처리하는 IT 방식이라 말한다. Tera, Peta 바이트 규모를 넘어 Exa 레벨의 데이터처리도 생각하고 있다 한다. 필요도 공감되고 더욱 좋은 기술이나 방법도 나올 것이라 생각한다. 하지만 빅데이터라는 낱말은 여전히 어색하게 들린다. 마케팅과 세일즈 필요에 의해 이 단어을 만들었다고 이해하려고 해도 그렇다. 컴퓨터가 원래 대용량 데이터를 처리하기 위해 탄생했고 지금껏 IT 발전의 가장 큰 동기가 더 크고 복잡한 데이터처리를 가능하게 함에 있었는데 새삼 빅테이터는 무슨 뒷북 치는 말인지. 낱말의 뜻 자체부터 오리무중이다. Teradata는 30년 전에 생겼고 구글은 Googol을 생각하다 Google이 되었는데...