머신러닝 6

옛날 생각, 지금, 앞으로는...

88년 서울올림픽 열릴 때 웨이브렛과 한창 씨름 중이었죠. 얼굴 인식에 feature extractor로 Gabor의 가능성을 보고선 당시 막 알게 된 S. Mallat의 orthogonal wavelet을 쓰면 더 정밀한 튜닝이 가능한 필터들을 만들 수 있을 것 같았죠. 이것들로 다양한 feature map들을 구해 backprop을 적용하자. 뭐 그런 것이었습니다. 한 달 걸렸나, Mallat의 길고 수학적인 technical report를 읽고 구현 시작했는데요, 하다가 잘 안되 이론을 제대로 이해했나 숱하게 다시 보았고요, 그래도 다 잘 해서 짜잔~~ 웨이브렛 필터 뱅크로부터 원래 이미지를 복원해보니 희미한 물결무늬 패턴이 보이겠죠. Aliasing 비스무리한 것이 이리 저리 해봐도 없어지지 않더..

ISLR Chapter 9 - Support Vector Machine

Introduction to Statistical Learning 9장 - Support Vector Machines : Python 실습 (GitHub)nbviewer Support Vector MachineGrid Search CV를 통한 Test Performance 추정 및 패러미터 튜닝Randomized Search CV를 통한 Test Performance 추정 및 패러미터 튜닝Gradient Boosting, SVM, Grid Search CV 및 Randomized Search CV 를 이용해 'Heart' 데이터 예측분석 과정 실습 을 담음

ISLR - Introduction to Statiscal Learning with application in R - 에 부쳐

어느새 4년이 되었다. 2013년 지금은 기억이 안나는 어디선가 좋은 책이 나왔다고 해서 읽기 시작한 것이 ISLR (Introduction to Statiscal Learning with application in R) 이다. 1983년 Duda & Hart의 "Pattern Classification and Scene Analysis"와 Tou & Gonzalez의 "Pattern Recognition Principles" 를 읽기 시작한 이후 꽤 많은 패턴인식이나 머신러닝책들을 보았다. 4년전 당시 막 익힌 R을 이용하면 머신러닝(데이터사이언스)을 이공계 출신이 아닌 사람들도 쉽게 사용할 수 있어 그에 맞는 책을 찾아보고 있었다. 쉽고 친절하면서도 내용을 우스개거리로 만들지 않으며 핵심을 집는 그런..

구글이 한층 더 일상속으로

금년들어 구글이 인수하는 회사들 성격이 보다 다양해 지고 있다. 전에는 그래도 인터넷 관련이 많았는데 이제는 로봇, 인공위성, 무인비행기 등 다채롭다. 금년 1월에는 스마트한 화재경보기와 온도조절기로 홈오토메이션 회사인 Nest Labs를 32억불로 사더니, 지난달에는 Nest Labs가 IP 카메라 회사인 Dropcam을 인수했고 (http://www.it.co.kr/news/mediaitNewsView.php?nSeq=2667431), 바로 그 전에는 홈 에너지관리 서비스를 제공하는 MyEnergy를 인수했었다. Nest Labs와 Dropcam은 퍽 알려졌었고 상품도 예뻣기에 구글이 좋아할만 했지만 MyEnergy는 몰랐는데 알고 보니 살 만 했다. 이들 회사의 공통점이 있다. 그것은 이들 상품이 ..

Round Here 2014.07.16

데이터사이언스, 머신러닝, 통계학, 빅데이터가 어떻게 모였나?

스탠포드 T. Hastie 통계학 교수가 사람들에게 처음엔 자신이 통계학을 한다고 하다가, 나중에는 Machine Learning을, 근래에는 데이터 사이언스를 한다는 얘기를 듣고 Tibshirani 교수의 머신러닝 vs. 통계학 용어집 생각이 났다.. Tibshirani 교수님의 용어집에 조금 문제가 있는데, 머신러닝에서도 모델, test set performance, classification, clustering이라는 말을 무지 일반적으로 사용한다. Fitting이라는 말은 그래픽스나 solid modeling 과목에서 B-Spline, NURB 같은 것을 할 때 지겹도록 많이 쓰던 용어이고. Regression이나 density estimation 같은 말은 안 쓴 것 같다. 100% 사실은 위 ..