Learning & Reasoning/R

연습할 데이터 만들기

이현봉 2013. 1. 19. 18:13

R을 이용해 어떤 데이터에 대해 통계작업을 하거나 데이터 마이닝을 하려면 그 작업 대상인 데이터가 당연히 있어야한다.  이 테이터를 data set이라 한다.  R을 설치하면 퍽 많은 data set들이 함께 따라와 그것들을 이용해 R 연습을 할 수 있다. 또한 패키지를 깔면 함께 data set들이 따라 오는 경우도 많다.  그렇지만 실제 환경에서 R을 활용함은 실제 data set을 대상으로 하고 이것들을 R로 갖고와야 한다. 외부에서 데이터를 갖고오기를 연습해보자.  이런 데이터 import/export 설명 자료는 R 사이트 (http://www.r-project.org)의 Manuals/R Data Import/Export 에 가서 구한다.

> today <- format(Sys.Date(), format="%Y%m")    # Sys.Date() ; 오늘 날짜를 출력.   "2013-01-19"
> today
[1] "201301"

> dataSource = paste("http://www.bom.gov.au/climate/dwo/", today,"/text/IDCJDW2801.", today, ".csv", sep="")
> dataSource
[1] "http://www.bom.gov.au/climate/dwo/201301/text/IDCJDW2801.201301.csv"  # 갖고 올 데이터의 출처

http://www.bom.gov.au/climate/dwo/201301/text/IDCJDW2801.201301.csv 을 browser로 보면 excel을 통해 내용을 볼 수 있다.  dataSource에 읽어올 데이터의 url이 들어있다.


> data = read.csv(dataSource, skip=6, check.names=FALSE)  # dataSource에 있는 csv 파일에서 첫 6줄을 빼고 읽어 옴. 읽어 오면서 이름을 그대로 읽어 옴.

>data    # data라는 이름의 data.frame 으로 읽어 왔음.  NA와 빈칸이 여러 곳에서 보임. NA는 csv 파일의 첫째 Column이 비어있기 때문.



'Learning & Reasoning > R ' 카테고리의 다른 글

AdaBoost  (0) 2013.02.01
random forest  (0) 2013.01.28
rpart 패키지를 이용해 decision tree 만들기  (0) 2013.01.25
R 데이터 cleaning  (0) 2013.01.21
Machine Learning과 데이터마이닝을 조금 더 심각하게...  (0) 2013.01.19