R을 이용해 어떤 데이터에 대해 통계작업을 하거나 데이터 마이닝을 하려면 그 작업 대상인 데이터가 당연히 있어야한다. 이 테이터를 data set이라 한다. R을 설치하면 퍽 많은 data set들이 함께 따라와 그것들을 이용해 R 연습을 할 수 있다. 또한 패키지를 깔면 함께 data set들이 따라 오는 경우도 많다. 그렇지만 실제 환경에서 R을 활용함은 실제 data set을 대상으로 하고 이것들을 R로 갖고와야 한다. 외부에서 데이터를 갖고오기를 연습해보자. 이런 데이터 import/export 설명 자료는 R 사이트 (http://www.r-project.org)의 Manuals/R Data Import/Export 에 가서 구한다.
> today <- format(Sys.Date(), format="%Y%m") # Sys.Date() ; 오늘 날짜를 출력. "2013-01-19"
> today
[1] "201301"
> dataSource = paste("http://www.bom.gov.au/climate/dwo/", today,"/text/IDCJDW2801.", today, ".csv", sep="")
> dataSource
[1] "http://www.bom.gov.au/climate/dwo/201301/text/IDCJDW2801.201301.csv" # 갖고 올 데이터의 출처
http://www.bom.gov.au/climate/dwo/201301/text/IDCJDW2801.201301.csv 을 browser로 보면 excel을 통해 내용을 볼 수 있다. dataSource에 읽어올 데이터의 url이 들어있다.
> data = read.csv(dataSource, skip=6, check.names=FALSE) # dataSource에 있는 csv 파일에서 첫 6줄을 빼고 읽어 옴. 읽어 오면서 이름을 그대로 읽어 옴.
>data # data라는 이름의 data.frame 으로 읽어 왔음. NA와 빈칸이 여러 곳에서 보임. NA는 csv 파일의 첫째 Column이 비어있기 때문.
'Learning & Reasoning > R ' 카테고리의 다른 글
AdaBoost (0) | 2013.02.01 |
---|---|
random forest (0) | 2013.01.28 |
rpart 패키지를 이용해 decision tree 만들기 (0) | 2013.01.25 |
R 데이터 cleaning (0) | 2013.01.21 |
Machine Learning과 데이터마이닝을 조금 더 심각하게... (0) | 2013.01.19 |