R 9

Signal and time series seen from eight miles high cloud

20, 30대 읽던 글들을 이젠 이해하기가 어렵다. 산만한 정신에 빠른 지름길을 찾으려고만 하니. 졸업할 때 signal ensemble을 다루는 일을 직업으로 할 기회가 있었는데, 그 길을 가지 않았다. 그 길을 택했으면 지금보다 더 나은 사람이 되었을 것인가는 불분명하지만, 지금보다 훨씬 더 나은 사정에 있었을 것이다. 이제 그 때보다 능력은 훨씬 못하고, 주위에 동료는 없으나, 나 자신을 위한 것이니 아예 못하기 전 정리를 시작해 보자. main Purpose of this exercise : Get to know how multivariate signal/TS can be represented. Good/Bad component classification based on multiple multi..

Supervised Learning with R

지난 주에 7주에 걸쳐 하던 일반인 대상 예측분석과정을 끝냈다. 10명이 안되는 수강생들과 오붓하게 했다. 이 과정 역시 내가 해보고 싶어 연 것이었다. 올 초에 하려 했는데 들을 사람이 없어 못하다가 내가 3명만 되면 하고 싶다고 해서 열었다. 학원은 재정적으로 별로 좋은 과정이 아니었겠다. 내가 재미있었듯이 수강생들에게도 유익했으면 좋겠다. 작년부터 이런 과정을 하고 싶던 중 책을 찾아보았는데 내 맘에 드는 것이 없었다. 책은 많은데 어떤 것은 수강생들에게 너무 어렵고, 또 어떤 것들은 지나치게 피상적이어서 자칫 헛바람만 주입시킬 것 같다는 생각이 들어 거의 포기하던 중 "An Introduction to Statistical Learning" 의 draft를 접하곤 희망을 품을 수 있었다. 잘 쓴 ..

쿨한 machine learning

정확히 작년 이맘때 kaggle에서 신약을 찾는 proteomics 시합을 열었다. 주최는 제약회사인 Merck 였다. training set과 test set 크기가 합해서 압축된 상태에서는 100 MByte가 안되었고, 압축을 풀면 3GByte 이었다. 작은 크기는 아니지만 그렇다고 소위 말하는 빅데이터 리그는 아니다. 데이터를 읽어 드리는 방법, 벤치마크로 random forest를 이용한 코드, 그리고 Rsquared 형태의 평가지표 코드도 함께 주었다. R로. Merck 역시 R을 쓴다. Geoffrey Hinton의 제자와 동료들로 이루어진 팀이 1등을 해서 상금 4만불을 가져갔다. Deep learning 패러다임을 사용해서. 이런게 바로 빅데이터, 좀비데이타 그런 수사가 필요없는 가장 쿨한..

R 데이터 cleaning

R로 로딩한 데이터를 깨끗이 정리하는 연습.앞서 로딩한 데이터를 "data"로 명명해서 햇갈리니 이름을 바꾸자.> weatherData = data # dim(weatherData) [1] 20 22 # 즉 row/record/observation 이 20개이고, column/field/variable 이 22개> class(weatherData) [1] "data.frame" # weatherData는 data.frame 즉 dataset 임. > names(weatherData) // weatherData data.frame이 아래 22개의 variable로 구성됨 [1] "" "Date" [3] "Minimum temperature (캜)" "Maximum temperature (캜)" [5] "R..

연습할 데이터 만들기

R을 이용해 어떤 데이터에 대해 통계작업을 하거나 데이터 마이닝을 하려면 그 작업 대상인 데이터가 당연히 있어야한다. 이 테이터를 data set이라 한다. R을 설치하면 퍽 많은 data set들이 함께 따라와 그것들을 이용해 R 연습을 할 수 있다. 또한 패키지를 깔면 함께 data set들이 따라 오는 경우도 많다. 그렇지만 실제 환경에서 R을 활용함은 실제 data set을 대상으로 하고 이것들을 R로 갖고와야 한다. 외부에서 데이터를 갖고오기를 연습해보자. 이런 데이터 import/export 설명 자료는 R 사이트 (http://www.r-project.org)의 Manuals/R Data Import/Export 에 가서 구한다.> today today [1] "201301"> dataSou..

Machine Learning과 데이터마이닝을 조금 더 심각하게...

10년이 더 되었지, WEKA와 R 이 막 나온 초기에 맛을 보고는 오랜만에 써 본다. 그동안 세월이 많이 흘러 Machine Learning이나 Data Mining이 전보다는 더 심각하게 받아드려지는 것 같다. Hype도 가라앉고. 그동안 R에 무척 많은 패키지들이 생겼다. Windows에서도 돌아가고, GUI 환경도 있고, 세상 좋아졌다. R 패키지 중 Rattle이 생겨 Data Mining할 때 편리하다고 하니 WEKA 대신 Rattle로 기계학습과 데이터마이닝 연습을 해 보자. 학교 다닐 때 몰랐던 VC theory/Dimension에 근거한 SVM Classification 도 알게되었고, 무엇보다 Classification Learning Algorithm의 능력에 대해서 엄격한 측정이 가..