Learning & Reasoning/R 21

Financial Time Series Import

Financial 시계열 구하기 1. Reading the financial time series data from the local CSV file ‘quantmod’ package loads xts & zoo package internally 이 경우 local file은 zoo 시계열로 읽기에 적절한 형태로 되어 있어야 함. library(quantmod) ## Warning: package 'quantmod' was built under R version 3.2.2 ## Loading required package: xts ## Loading required package: zoo ## ## Attaching package: 'zoo' ## ## The following objects are ma..

R로 Lasso regression 연습

Lasso_LAR_with_LARS_Package Lasso Regression with RHyun Bong Lee 2015년 10월 5일 LARS 패키지를 이용한 LASSO, LAR examples, by HBLEE 특히 HTF의 “The Elements of Statistical Learning” 에 언급된 Regression의 Shrinkage Method 중 하나인 LASSO (L1 Norm: Sum of Absolute values, PENALTY/CONSTRAINT-BASED VARIABLE SELECTION)에 집중 Regularized Regression으로 Ridge Regression도 있으나, LASSO가 더 유용하리라 판단 Reference : - CRAN LARS 패키지 매뉴얼 :..

Signal and time series seen from eight miles high cloud - DFT & Simple digital filtering

Discrete Fourier Transform과 단순한 주파수 도메인 필터링 DFT_exHyun Bong Lee DFT_ex DFT_ex A simplified view of Discrete Fourier Transform, and grossly naive take on filtering. Key Words : Fourier Series, Signal, Discrete Fourier Transform, Spectrum, Digital Sampling Nyquist Frequency, Frequency Domain Analysis Some say Fourier Transform is one of the 10(17) equations that changed the world(from googling). I..

Signal and time series seen from eight miles high cloud

20, 30대 읽던 글들을 이젠 이해하기가 어렵다. 산만한 정신에 빠른 지름길을 찾으려고만 하니. 졸업할 때 signal ensemble을 다루는 일을 직업으로 할 기회가 있었는데, 그 길을 가지 않았다. 그 길을 택했으면 지금보다 더 나은 사람이 되었을 것인가는 불분명하지만, 지금보다 훨씬 더 나은 사정에 있었을 것이다. 이제 그 때보다 능력은 훨씬 못하고, 주위에 동료는 없으나, 나 자신을 위한 것이니 아예 못하기 전 정리를 시작해 보자. main Purpose of this exercise : Get to know how multivariate signal/TS can be represented. Good/Bad component classification based on multiple multi..

Supervised Learning with R

지난 주에 7주에 걸쳐 하던 일반인 대상 예측분석과정을 끝냈다. 10명이 안되는 수강생들과 오붓하게 했다. 이 과정 역시 내가 해보고 싶어 연 것이었다. 올 초에 하려 했는데 들을 사람이 없어 못하다가 내가 3명만 되면 하고 싶다고 해서 열었다. 학원은 재정적으로 별로 좋은 과정이 아니었겠다. 내가 재미있었듯이 수강생들에게도 유익했으면 좋겠다. 작년부터 이런 과정을 하고 싶던 중 책을 찾아보았는데 내 맘에 드는 것이 없었다. 책은 많은데 어떤 것은 수강생들에게 너무 어렵고, 또 어떤 것들은 지나치게 피상적이어서 자칫 헛바람만 주입시킬 것 같다는 생각이 들어 거의 포기하던 중 "An Introduction to Statistical Learning" 의 draft를 접하곤 희망을 품을 수 있었다. 잘 쓴 ..

쿨한 machine learning

정확히 작년 이맘때 kaggle에서 신약을 찾는 proteomics 시합을 열었다. 주최는 제약회사인 Merck 였다. training set과 test set 크기가 합해서 압축된 상태에서는 100 MByte가 안되었고, 압축을 풀면 3GByte 이었다. 작은 크기는 아니지만 그렇다고 소위 말하는 빅데이터 리그는 아니다. 데이터를 읽어 드리는 방법, 벤치마크로 random forest를 이용한 코드, 그리고 Rsquared 형태의 평가지표 코드도 함께 주었다. R로. Merck 역시 R을 쓴다. Geoffrey Hinton의 제자와 동료들로 이루어진 팀이 1등을 해서 상금 4만불을 가져갔다. Deep learning 패러다임을 사용해서. 이런게 바로 빅데이터, 좀비데이타 그런 수사가 필요없는 가장 쿨한..

빨리 진도 나가야 하는데...

"The art of R programming"은 뚝닥 읽었는데 하루에 한 장씩 읽으려고 한 "Data Mining with R - learning with case studies" 진도가 늦어진다. 뭐가 이리 많노? 밤에 읽으면서 연습하다 이마로 키보드 두드리니... Time series, SNA, igraph 패키지 사용도 더 연습해야 하는데... 오랜만에 stochastic differential equation을 본다. 논문 쓸 때 한참 이것으로 모델링을 했다. Numerical Recipe를 보면서 C로 모델 만들고 Matlab으로 그래프 그린 것이 어제 같은데.. 아니 좀 됐다. R 생태계 참 대단하다.

R datatype 간단 정리

R 에서 쓰이는 데이터 타입들이 조금씩 헷갈린다. 다시 vector 부터 bottom-up 으로 정리해 보자.1. vector일련의 연속된 순서를 갖는 element 들로 만들어진 데이터 구조. 다른 언어에서 1차원 array를 연상하면 됨. 역시 마찬가지로 vector 내의 element들은 모두 같은 mode(data type) 이어야 함.R은 scalar 타입이 없으므로 R에서 scalar 같이 쓰인 것은 실제로 one-element 벡터임.> v str(v) int [1:12] 1 2 3 4 5 6 7 8 9 10 ... 위의 벡터 v의 모드는 integer이다. 벡터는 그 element들의 모드에 따라 integer, numeric(실수), character(string), logical(Boo..