Learning & Reasoning 64

rpart 패키지를 이용해 decision tree 만들기

> library(rpart) # rpart 패키지 로드> library(rattle) # rattle 패키지를 이용 > weatherDS = new.env() # decision tree를 담을 environment 생성> class(weatherDS) [1] "environment weather dataset을 읽음. "weather.csv" 파일이 e: 드라이브에 있다고 가정 > weather = read.csv("e:/weather.csv") > dim(weather) # weather : decision tree 적용 대상 dataset [1] 366 24 > names(weather) [1] "Date" "Location" "MinTemp" "MaxTemp" "Rainfall" "Evapora..

R 데이터 cleaning

R로 로딩한 데이터를 깨끗이 정리하는 연습.앞서 로딩한 데이터를 "data"로 명명해서 햇갈리니 이름을 바꾸자.> weatherData = data # dim(weatherData) [1] 20 22 # 즉 row/record/observation 이 20개이고, column/field/variable 이 22개> class(weatherData) [1] "data.frame" # weatherData는 data.frame 즉 dataset 임. > names(weatherData) // weatherData data.frame이 아래 22개의 variable로 구성됨 [1] "" "Date" [3] "Minimum temperature (캜)" "Maximum temperature (캜)" [5] "R..

연습할 데이터 만들기

R을 이용해 어떤 데이터에 대해 통계작업을 하거나 데이터 마이닝을 하려면 그 작업 대상인 데이터가 당연히 있어야한다. 이 테이터를 data set이라 한다. R을 설치하면 퍽 많은 data set들이 함께 따라와 그것들을 이용해 R 연습을 할 수 있다. 또한 패키지를 깔면 함께 data set들이 따라 오는 경우도 많다. 그렇지만 실제 환경에서 R을 활용함은 실제 data set을 대상으로 하고 이것들을 R로 갖고와야 한다. 외부에서 데이터를 갖고오기를 연습해보자. 이런 데이터 import/export 설명 자료는 R 사이트 (http://www.r-project.org)의 Manuals/R Data Import/Export 에 가서 구한다.> today today [1] "201301"> dataSou..

Machine Learning과 데이터마이닝을 조금 더 심각하게...

10년이 더 되었지, WEKA와 R 이 막 나온 초기에 맛을 보고는 오랜만에 써 본다. 그동안 세월이 많이 흘러 Machine Learning이나 Data Mining이 전보다는 더 심각하게 받아드려지는 것 같다. Hype도 가라앉고. 그동안 R에 무척 많은 패키지들이 생겼다. Windows에서도 돌아가고, GUI 환경도 있고, 세상 좋아졌다. R 패키지 중 Rattle이 생겨 Data Mining할 때 편리하다고 하니 WEKA 대신 Rattle로 기계학습과 데이터마이닝 연습을 해 보자. 학교 다닐 때 몰랐던 VC theory/Dimension에 근거한 SVM Classification 도 알게되었고, 무엇보다 Classification Learning Algorithm의 능력에 대해서 엄격한 측정이 가..