빅데이터 - 미신과 주술가운데 중심잡기
빅데이터란 말이 들린 지도 4년이 더 된 것 같다. IT 유행어 수명이 4-5년이면 퍽 장수한 것이다. 유비쿼터스, 그린IT, 웹2.0, SOA 같은 유행어의 수명이 4년 넘어 간 것 같지 않다. 우리나라는 IT 유행어에 몹시 열광하는 나라다. 유행어가 만들어진 나라보다 더 극성일 때가 많다. 이런 우리나라에서 아래의 구글 트렌드를 보면 빅데이터에 대한 관심이 식어가고 있다. 빅데이터가 제대로 기지개 한 번 못 피고 앞의 유행어처럼 사라지는 건가? 우리가 빅데이터를 착각한 것인지, 자기 암시에 빠져 가공 세계를 헤매고 있는 건지, 과연 빅데이터의 "본질"이 무엇인가 다시 짚어 보면서 빅데이터의 현재와 미래를 가늠해보자.
빅데이터는 많은 양, 큰 데이터를 말하니 여기에서 시작하자. 태고적으로 돌아가 "컴퓨터가 언제 자기 능력을 넘는 큰 데이터 처리 문제로 골머리를 썩이지 않은 적이 있었냐" 따지기는 그만 두자. 그럼, 빅데이터의 시작은 구글이다. 2003-2004년에 Sanjay Ghemawat, Jeff Dean 등이 Google File System과 MapReduce를 발표해 그 글을 읽은 많은 선수들의 가슴에 살폿이 "와 나도 이 것 만들어봐. 잘하면 구글같이 될 지도" 라는 생각을 심어 주었다. 그 이전에 두 대학원생들이 쓴 PageRank 글을 본 사람들에겐 GFS/MapReduce 글은 딱 아귀를 맞춰준 것이었다. 한심2(한심 & 심플)하게 말해, 구글이 성공한 핵심 요인과 그 시스템을 만드는 방법을 귀띔해준 것과 비슷했다. 그리고 같은 때 아마존의 G. Linden 등이 쓴 아마존 추천엔진 글을 접하곤 가슴 속 나빗짓이 벌렁 벌렁 태풍으로 바뀐 사람들이 있었으니 Doug Cutting이 자기 선배가 했으면 나도 할 수 있다면서 Lucene, Nutch를 만들더니 내친 김에 하둡까지 만들었다. 하둡은 구글의 GFS/MapReduce가 모델이었기에 대용량 데이터 처리이긴 하지만 파일 분산 저장, 색인이나 아마존 추천엔진같이 단순히 병렬화할 수 있는 알고리즘을 배치로 잘 돌리는 것이 목적이었다. 하둡은 범용이 아니라 특정 용도에 전문화된 컴퓨터 구조이다. 속도, 즉응성, 데이터 다양성 측면에선 하둡은 특별하지 않고 오히려 프로그래밍하기만 더 어렵다. 하지만 이런 것은 문제가 아니었다. 핵심은 가슴을 뛰게 만드냐, 아니냐 였다.
2009년이 끝나갈 즈음에 구글의 Halevy, Norvig, Pereira가 "The Unreasonable Effectiveness of Data"에서 "데이터 사이즈가 큰 것이 장땡이여" 를 설파한다. P. Norig이 누구신가? 21세기 시작부터 구글의 연구개발 대빵. A.I. - a modern approach 의 저자. 오호, 이젠 많은 사람들이 "하둡이란 무기가 있고, 데이터는 기하급수적으로 늘어나 엄청나게 많고, 적당한 분석예측 알고리즘이나 프로그램에 데이터를 많이 넣으면 가치있는, 돈되는 지식과 상품을 만들 수 있는 거네" 라는 생각을 하게 되었다. 빅데이터라는 단어가 무대에 등장했다. 이 때까지도 빅데이터는 복잡하지도, 어렵지도, 특별한 요건이 있는 것이 아니었다. "우린 세상에 모든 것을 검색할 수 있게 할 거야" 와 같은 사람의 가슴을 뛰게 하는 모토, 그리고 그것을 쿨한 방법으로 해내는 기술을 보면서 연상되는 가치, 패러다임, 마음, 그리고 기술적 자질로 빅데이터를 인식했다. 그랬던 빅데이터를 둘러싸고 "이래야 빅데이터고, 이리하면 데이터에서 금을 캐" 같은 얘기가 들리면서 빅데이터가 산으로 올라가기 시작한다.
빅데이터는 본질적으로 가치, 패러다임, 마음가짐, 철학의 문제다. 기술적 이슈는 일부분이다. 빅데이터는 전에는 엄두를 못냈던가 또는 생각지 못한 일(문제, 데이터처리)을 스마트(쿨)한 컴퓨터 플랫폼으로 수행하여 가치를 만드려는 시도다. 이게 다다. 그 외에는 다 빅데이터에 씌운 미신과 주술이다. 미신과 주술을 가정하니 "Gartner On Big Data: Everyone's Doing It, No One Knows Why (모두 다 한다는데, 왜 하는 지는 모르겠데)" 라는 말을 이제껏 하게되고, 그 전부터 회자되던 "Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it..." 과 연결하면, 흠... 골 때리는 상황이 그려지게 되는 이유이다. 지금껏 빅데이터에 대한 많은 혼란은 빅데이터에 대해 비합리적인 프레임이 씌워졌기 때문이다.
하둡과 빅데이터에 대한 사람들의 관심과 열정은 순식간에 원래 하둡이 갖던 여러 부족한 점들을 채우려는 프로젝트들과 NoSQL, Storm, Splunk, Spark 같은 기술로 이어졌다. 이런 기술을 활용해 새로운 상품을 만드려는 신생 회사 그리고 오라클, IBM, SAP 같이 전부터 있던 회사들도 가세하여 요즘 빅데이터 동네는 야단법석이다. 리눅스의 Linus Torvalds와는 달리 Doug Cutting은 동네 어른 역할을 하지 않는다. 그렇지만 이 야단법석은 빅데이터 생태계가 활발히 발전함은 보여주는 것이니 빅데이터에 좋다. 문제는 이렇게 다양한 형태로 분화발전하는 빅데이터에게 아직도 3V는 어떻고, 빅데이터 활용을 이렇게 해야 한다느니 따위의 프레임을 고집하는 것이다. 그런 개념 따를 이유없다. 각자가 처한 상황과 필요에 따라 어떡하면 데이터를 활용해 더 나은 가치를 만들 수 있을까 고민해 오픈소스와 클라우드도 고려하여 상품을 만들어 해피하게 쓰면 그게 빅데이터다.
점차 빅데이터라는 말이 안쓰일 것이다. 사람들 인식과 수준이 높아지만 자연스레 사라진다. 원래부터도 개념없는 마케팅 단어였다. 빅데이터 본질의 확산은 이제부터다.
빅데이터는 중력이 몰고오는 밀물처럼 소리없이 거스를 수 없는 무게로 우리 삶에 다가올 것이다. 다음 두 사실만 보아도 명확하다. 우리에게 빅데이터가 주는 최고의 선물은 데이터 생태계에 대한 새로운 영감과 용기다. 하둡과 같은 플랫폼을 경제적으로 꾸밀 수 있다는 사실, 그것을 운용할 수 있고, 멋진 결과를 얻을 수 있다는 것이다. 이제 우리에겐 이런 컴퓨팅 플랫폼이 있다. 과거로 돌아가지 않는다. 그리고 전세계는 인터넷으로 연결되고 있다. 그러면 이 거미줄같은 연결망상에 온갖 것들이 사물인터넷(IoT)화 할 것이다. 이들은 엄청난 데이터를 생성하고, 교환하고, 수집하고, 분석하고, 판단을 할 것이다. 세상의 거의 모든 것이 데이터화 (datafication) 된다. 개인 프라이버시 정보 보호에 따른 이슈에도 불구하고 그리 된다. 빅데이터가 할 일이 많다.