OpenDartReader로 재무정보 조회하기 - (1)재무제표 조회¶https://github.com/FinanceData/OpenDartReader 금융감독원 전자공시 시스템의 Open DART서비스 API를 손쉽게 사용할 수 있도록 돕는 오픈소스 라이브러리 Open DART에서 데이터를 조회하려면 기업의 고유번호가 필요한데(종목코드가 아님) 종목코드를 사용하여 조회할 수 있도록 만들어져 있음 1. 설치¶ In [1]: # !pip install opendartreader # !pip install --upgrade opendartreader # 업그레이드 2. 사용법¶ 2.1. API key 발급¶ https://opendart.fss.or.kr/ 에 접속하여 [인증키 신청/관리] - [인증키 신청..
FinanceDataReader¶https://github.com/FinanceData/FinanceDataReader FinanceData.KR 에서 만든 오픈소스 금융 데이터 수집기 1. 포함하고 있는 데이터¶ 한국거래소(KRX)에 상장된 주식종목 리스트와 코넥스(비상장)에 있는 주식종목 리스트: 'KRX', 'KOSPI', 'KODAQ', 'KONEX' 글로벌 주식종목 리스트: 'NASDAQ', 'NYSE', 'AMEX' and 'S&P500', 'SSE'(상해), 'SZSE'(심천), 'HKEX'(홍콩), 'TSE'(도쿄) 한국거래소의 상장폐지종목과 관리종목 리스트: 'KRX-DELISTING'(상장폐지종목), 'KRX-ADMINISTRATIVE' (관리종목) 한국, 미국, 일본의 ETF 리스트:..
see package를 이용한 시각화 modern 테마와 flat design colours를 이용한 더 보기 좋은 산점도 blackboard 테마를 이용한 바이올린 플랏과 material design colours Abyss 테마 easystats라는 프로젝트에서 만든 시각화 보조 패키지 easystats is a suite of R packages designed to make the use of advanced statistical techniques easy. library(see) library(ggplot2) modern 테마와 flat design colours를 이용한 더 보기 좋은 산점도 data(iris) ggplot(iris, aes(x=Sepal.Width, y=Sepal.Lengt..
GermanCredit data EDA Modeling with caret Make imbalance dataset Split dataset trainControl setup Logistic Regression Random Forest Support Vector Machine Evaluation ROC curve library(caret) # GermanCredit library(tidyverse) library(ggthemes) library(ggmosaic) library(gridExtra) 모델링에 사용할 데이터는 GermanCredit이다. caret 패키지의 내장 데이터이고, 패키지에 있는 데이터 설명을 보면 아래와 같다. Description Data from Dr.Hans Hofmann of..
Functions Functions in MLmetrics Package User defined functions for gini and ks Examples Plotting library(tidyverse) library(ggthemes) Functions in MLmetrics Package #### ROC-AUC #### ROCAUC
Introduction MM 알고리즘을 왜 사용하는가? Majorization과 Minorization Majorization Minorization Majorization-Minimization Descent Property Example Least Square without Matrix Inversion Median Regression Reference 이 글은 고려대학교 통계학과 신승준 교수님의 2018년 1학기 통계 계산 방법론(대학원) 강의를 바탕으로 작성되었습니다. Introduction MM 알고리즘은 Majorization-Minimization, Minorization-Maximization의 약자이다. MM 알고리즘은 high dimensional setting에 매우 적합하다. New..
Optimization with inequality constraints Primal problem Dual problem Support Vector Machine(SVM) Optimal Separating Hyperplane Maximal Margin Classifier - linearly separable case Soft Margin Classifier(linear SVM) - linearly nonseparable case R code Data setting Quadratic Programming for SVM Reference 이 글은 고려대학교 통계학과 신승준 교수님의 2018년 1학기 통계 계산 방법론(대학원) 강의를 바탕으로 작성되었습니다. 참고할 만한 링크들 고려대학교 강필성, 김성범 교..
목차 What is the OOB(Out of Bag) observations? OOB(Out of Bag)는 Bagging(Bootstrap Aggregation)에서 등장하는 용어이다. 배깅에서 핵심은 bootstrap 표본을 만들어 트리를 반복 적합하는 것이다. 각각의 배깅된 트리는 평균적으로 관측치들의 2/3를 사용한다. 배깅된 트리를 적합하는데 사용되지 않은 나머지 1/3의 관측치들을 OOB(Out of Bag) 관측치라고 한다. 이것은 bootstrap 표본을 만들 때 복원추출을 하기 때문에 나타나는 현상이다. 이러한 성질 때문에 배깅이나 랜덤포레스트에서는 OOB 관측치를 test set처럼 사용할 수 있다. Why OOB observations are around one-third of or..
kaggle 대회에서 요즘 가장 인기있는 알고리즘은 lightgbm인 것 같습니다. 학습속도도 빠르고(개인저인 경험에 의하면 xgboost 보다 빠릅니다) 성능도 좋기 때문이죠. kaggle 대회에서는 kernel을 사용하면 별도의 설치과정 없이 lightgbm 패키지를 이용할 수 있지만 다른 공모전이나 분석을 하려면 결국 로컬에 설치해야합니다. 기본 설치법은 lightgbm 깃허브를 참고하면 됩니다. https://github.com/Microsoft/LightGBM/tree/master/R-package microsoft/LightGBM A fast, distributed, high performance gradient boosting (GBDT, GBRT, GBM or MART) framework ..
아나콘다 설치 후 명령창에서 conda install -c r r-essentials R에서 library(devtools) install_github('IRkernel/IRkernel') IRkernel::installspec()