Learning & Reasoning/R

Machine Learning과 데이터마이닝을 조금 더 심각하게...

이현봉 2013. 1. 19. 17:54

10년이 더 되었지, WEKAR 이 막 나온 초기에 맛을 보고는 오랜만에 써 본다.  그동안 세월이 많이 흘러 Machine Learning이나 Data Mining이 전보다는 더 심각하게 받아드려지는 것 같다.  Hype도 가라앉고. 

그동안 R에 무척 많은 패키지들이 생겼다.  Windows에서도 돌아가고, GUI 환경도 있고, 세상 좋아졌다.  R 패키지 중 Rattle이 생겨 Data Mining할 때 편리하다고 하니 WEKA 대신 Rattle로 기계학습과 데이터마이닝 연습을 해 보자.  학교 다닐 때 몰랐던 VC theory/Dimension에 근거한 SVM Classification 도 알게되었고, 무엇보다 Classification Learning Algorithm의 능력에 대해서 엄격한 측정이 가능해졌다는 것이 퍽 고무적이다. 사실 Machine Learning/Data Mining의 알고리즘들이 건달같아 좀 그랬다. 언제 학습을 끝내야 할 지도, 또 이 방법이 최선인지도 잘 모르고, 많은 것이 경험에 의한 것이었으니.  지금도 아직 설렁설렁하지만 나아지는 것 같다.

R부터 연습해보자.  R 사이트에서 "An Introduction to R"을 PDF 파일로 다운받아 훑어 보았다.  처음 보는 것 같다. 하긴 몇 일 전 95년도에 나온 데이터마이닝 책을 보니 읽은 흔적이 있는데 도무지 내가 이 책을 보았다는 기억이 나지 않는다.  아직 data.frame 의 다양한 조작이 익숙하지 않다.  연습하면서 나아지겠지.  R이 좋은 것은 대부분의 연습이 script로써 가능해 컴파일하는 따위의 성가심이 없어서 좋다. 

아마존에서 "R"과 "data mining"로 검색한 결과 중 "Data Mining with Rattle and R: The Art of Excavating Data for Knowledge Discovery (Use R!)"이 별표를 가장 좋게 받았다.  Rattle이라는 것도 소개되어 있고.  이 책으로 연습해 보자.

* linux 에서 Rattle 패키지를 설치하는 중에  RGtk2를 설치하다가 에러를 내는 경우가 있다.

* installing *source* package ‘RGtk2’ ...

** package ‘RGtk2’ successfully unpacked and MD5 sums checked
checking for pkg-config... /usr/bin/pkg-config
checking pkg-config is at least version 0.9.0... yes
checking for INTROSPECTION... no
checking for GTK... no
configure: error: GTK version 2.8.0 required
ERROR: configuration failed for package ‘RGtk2’

이는 위의 출력대로 GTK2.8.0이 없어 그런 것으로 다음 두 단계를 걸쳐 이를 설치하면 문제가 해결된다. 

$ sudo apt-get install wajig
$ wajig install libgtk2.0-dev


   


 

'Learning & Reasoning > R ' 카테고리의 다른 글

AdaBoost  (0) 2013.02.01
random forest  (0) 2013.01.28
rpart 패키지를 이용해 decision tree 만들기  (0) 2013.01.25
R 데이터 cleaning  (0) 2013.01.21
연습할 데이터 만들기  (0) 2013.01.19