10년이 더 되었지, WEKA와 R 이 막 나온 초기에 맛을 보고는 오랜만에 써 본다. 그동안 세월이 많이 흘러 Machine Learning이나 Data Mining이 전보다는 더 심각하게 받아드려지는 것 같다. Hype도 가라앉고.
그동안 R에 무척 많은 패키지들이 생겼다. Windows에서도 돌아가고, GUI 환경도 있고, 세상 좋아졌다. R 패키지 중 Rattle이 생겨 Data Mining할 때 편리하다고 하니 WEKA 대신 Rattle로 기계학습과 데이터마이닝 연습을 해 보자. 학교 다닐 때 몰랐던 VC theory/Dimension에 근거한 SVM Classification 도 알게되었고, 무엇보다 Classification Learning Algorithm의 능력에 대해서 엄격한 측정이 가능해졌다는 것이 퍽 고무적이다. 사실 Machine Learning/Data Mining의 알고리즘들이 건달같아 좀 그랬다. 언제 학습을 끝내야 할 지도, 또 이 방법이 최선인지도 잘 모르고, 많은 것이 경험에 의한 것이었으니. 지금도 아직 설렁설렁하지만 나아지는 것 같다.
R부터 연습해보자. R 사이트에서 "An Introduction to R"을 PDF 파일로 다운받아 훑어 보았다. 처음 보는 것 같다. 하긴 몇 일 전 95년도에 나온 데이터마이닝 책을 보니 읽은 흔적이 있는데 도무지 내가 이 책을 보았다는 기억이 나지 않는다. 아직 data.frame 의 다양한 조작이 익숙하지 않다. 연습하면서 나아지겠지. R이 좋은 것은 대부분의 연습이 script로써 가능해 컴파일하는 따위의 성가심이 없어서 좋다.
아마존에서 "R"과 "data mining"로 검색한 결과 중 "Data Mining with Rattle and R: The Art of Excavating Data for Knowledge Discovery (Use R!)"이 별표를 가장 좋게 받았다. Rattle이라는 것도 소개되어 있고. 이 책으로 연습해 보자.
* linux 에서 Rattle 패키지를 설치하는 중에 RGtk2를 설치하다가 에러를 내는 경우가 있다.
* installing *source* package ‘RGtk2’ ...
** package ‘RGtk2’ successfully unpacked and MD5 sums checked
checking for pkg-config... /usr/bin/pkg-config
checking pkg-config is at least version 0.9.0... yes
checking for INTROSPECTION... no
checking for GTK... no
configure: error: GTK version 2.8.0 required
ERROR: configuration failed for package ‘RGtk2’
이는 위의 출력대로 GTK2.8.0이 없어 그런 것으로 다음 두 단계를 걸쳐 이를 설치하면 문제가 해결된다.
$ sudo apt-get install wajig
$ wajig install libgtk2.0-dev
'Learning & Reasoning > R ' 카테고리의 다른 글
AdaBoost (0) | 2013.02.01 |
---|---|
random forest (0) | 2013.01.28 |
rpart 패키지를 이용해 decision tree 만들기 (0) | 2013.01.25 |
R 데이터 cleaning (0) | 2013.01.21 |
연습할 데이터 만들기 (0) | 2013.01.19 |