데이터사이언스 3

ISLR - Introduction to Statiscal Learning with application in R - 에 부쳐

어느새 4년이 되었다. 2013년 지금은 기억이 안나는 어디선가 좋은 책이 나왔다고 해서 읽기 시작한 것이 ISLR (Introduction to Statiscal Learning with application in R) 이다. 1983년 Duda & Hart의 "Pattern Classification and Scene Analysis"와 Tou & Gonzalez의 "Pattern Recognition Principles" 를 읽기 시작한 이후 꽤 많은 패턴인식이나 머신러닝책들을 보았다. 4년전 당시 막 익힌 R을 이용하면 머신러닝(데이터사이언스)을 이공계 출신이 아닌 사람들도 쉽게 사용할 수 있어 그에 맞는 책을 찾아보고 있었다. 쉽고 친절하면서도 내용을 우스개거리로 만들지 않으며 핵심을 집는 그런..

데이터 사이언스는 지속 가능한 개념일까?

데이터 사이언스를 말할 때 컴퓨터기술, 통계학/수학 지식, 그리고 전문 분야 지식이 모여 가능해진다고 한다. 그런데, 위 세가지를 어느정도 잘해야 할까? 관계가 있을 만한 빅데이터는 그 자체가 너무 크다. 왠만한 전문 분야는 또 얼마나 알 수 있을까? 내가 아는 전자/전산의 전문분야는 데이터 사이언스가 담을 수 있을 정도로 전혀 간단하지가 않다. 데이터 사이언스/사이언티스트가 이전의 웹마스터와 같이 사라질 수도 있을 것 같다.

Round Here 2014.03.24

데이터사이언스, 머신러닝, 통계학, 빅데이터가 어떻게 모였나?

스탠포드 T. Hastie 통계학 교수가 사람들에게 처음엔 자신이 통계학을 한다고 하다가, 나중에는 Machine Learning을, 근래에는 데이터 사이언스를 한다는 얘기를 듣고 Tibshirani 교수의 머신러닝 vs. 통계학 용어집 생각이 났다.. Tibshirani 교수님의 용어집에 조금 문제가 있는데, 머신러닝에서도 모델, test set performance, classification, clustering이라는 말을 무지 일반적으로 사용한다. Fitting이라는 말은 그래픽스나 solid modeling 과목에서 B-Spline, NURB 같은 것을 할 때 지겹도록 많이 쓰던 용어이고. Regression이나 density estimation 같은 말은 안 쓴 것 같다. 100% 사실은 위 ..