데이터분석/Quant
[할 수 있다! 퀀트 투자] 미국 시가총액 및 PBR 별 CAGR(1963~1990)의 python 구현
psystat
2022. 3. 21. 22:56
목차
1. 들어가며
이번 글에서는 강환국님의 할 수 있다! 퀀트 투자의 p.202 표에 있는 미국 시가총액 및 PBR 별 CAGR(1963~1990)을 python으로 구현해보고자 한다.
2. 데이터 가져오기
데이터는 Kenneth French 교수의 웹사이트에서 구할 수 있고, python의 pandas_datareader 모듈을 이용하여 쉽게 가져올 수 있다.
import numpy as np
import pandas as pd
import pandas_datareader
import pandas_datareader.data as web
import re
[f for f in pandas_datareader.famafrench.get_available_datasets() if '100_' in f]
['100_Portfolios_10x10',
'100_Portfolios_10x10_Wout_Div',
'100_Portfolios_10x10_Daily',
'100_Portfolios_ME_OP_10x10',
'100_Portfolios_10x10_ME_OP_Wout_Div',
'100_Portfolios_ME_OP_10x10_daily',
'100_Portfolios_ME_INV_10x10',
'100_Portfolios_10x10_ME_INV_Wout_Div',
'100_Portfolios_ME_INV_10x10_daily']
pandas_datareder의 famafrench 데이터셋 중에서 10x10 데이터셋(100_으로 시작) 중 100_Portfolios_10x10이 시가총액(ME; Market Equity)과 PBR의 역수(BM; BE/ME; Book Equity/Market Equity)에 따른 포트폴리오 수익률 데이터이다.
ME1: 소형주 ~ ME10: 대형주, BM1: 고PBR ~ BM10: 저PBR 이며, 자세한 데이터 설명은 웹사이트를 참고.
# 파일 다운로드. 시간이 꽤 걸림
file_name = '100_Portfolios_10x10'
data = web.DataReader(file_name, 'famafrench', start='1963-01', end='2021-12')[0]
데이터의 info를 찍어보면
data.info()
<class 'pandas.core.frame.DataFrame'>
PeriodIndex: 708 entries, 1963-01 to 2021-12
Freq: M
Data columns (total 100 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 SMALL LoBM 708 non-null float64
1 ME1 BM2 708 non-null float64
2 ME1 BM3 708 non-null float64
3 ME1 BM4 708 non-null float64
4 ME1 BM5 708 non-null float64
5 ME1 BM6 708 non-null float64
6 ME1 BM7 708 non-null float64
7 ME1 BM8 708 non-null float64
8 ME1 BM9 708 non-null float64
9 SMALL HiBM 708 non-null float64
10 ME2 BM1 708 non-null float64
11 ME2 BM2 708 non-null float64
12 ME2 BM3 708 non-null float64
13 ME2 BM4 708 non-null float64
14 ME2 BM5 708 non-null float64
15 ME2 BM6 708 non-null float64
16 ME2 BM7 708 non-null float64
17 ME2 BM8 708 non-null float64
18 ME2 BM9 708 non-null float64
...
98 ME10 BM9 708 non-null float64
99 BIG HiBM 708 non-null float64
dtypes: float64(100)
memory usage: 558.7 KB
월단위 데이터이고, 100개의 칼럼이 있다는 것을 알 수 있다.
3. 데이터 전처리
이제 약간의 전처리 작업을 해준 후에 CAGR을 구해보자.
# 결측값이 -99.99로 입력되어 있어서 0으로 대체함
data = data.replace(-99.99, 0)
# 정렬의 편의를 위해 SMALL:ME1, BIG:ME10, LoBM:BM1, HiBM:BM10 으로 매핑
col_mapping = {'SMALL LoBM': 'ME01 BM01',
'SMALL HiBM': 'ME1 BM10',
'BIG LoBM' : 'ME10 BM1',
'BIG HiBM' : 'ME10 BM10'}
data = data.rename(columns=col_mapping)
# 정렬의 편의를 위해 칼럼명의 숫자 앞에 0을 붙여줌
data.columns = [re.sub(r'(\d+)', lambda x: x.group().zfill(2), col) for col in data.columns]
data
# 누적수익률과 연복리수익률(CAGR) 구하기
def get_pf_cagr(data, start_month, end_month):
# 데이터에서 특정 기간 선택
data = data[start_month:end_month]
# 누적 수익률 계산
df_ret = (data/100+1).cumprod().loc[end_month].reset_index()
# 10x10 matrix 형태로 변환
df_ret.columns = ['factors', 'returns']
df_ret = pd.concat([df_ret['factors'].str.split(expand=True), df_ret['returns']], axis=1)
df_ret.columns = ['MarketCap', 'Book_to_Market', 'Returns']
cum_ret = df_ret.pivot(index="MarketCap", columns="Book_to_Market", values="Returns")
# CAGR 계산
n_years = data.loc[start_month:end_month].shape[0]/12
res_cagr = (cum_ret)**(1/n_years)-1
return cum_ret, res_cagr
4. 히트맵으로 시각화하기
# Heatmap으로 시각화하기
start_month='1963-01'
end_month='1990-12'
cum_ret, cagr = get_pf_cagr(data, start_month, end_month)
import seaborn as sns
import matplotlib.pyplot as plt
fig, ax = plt.subplots(figsize=(10,10)) # figsize
ax = sns.heatmap(cagr*100,
cmap="Blues", # cmap Color
annot=True, # Value Text
fmt=".2f", # Value type (interge = "d")
linewidths=2)
ax.set_title(label=f'CAGR(%) of {start_month} to {end_month}');
책에 제시된 표와 값에 차이가 있는데 정확한 이유는 모르겠다.
코드 구현을 한 김에 1990년대(1990~1999), 2000년대(2000~2009), 2010년대(2010~2019), 2020~2021의 그래프도 그려보자.
시기에 따라 수익률이 높은 영역이 다르다는 것을 알 수 있고, 책에서 소개된 소형 가치주 전략이 과거에는 잘 통했을지 몰라도 언제나 통하는 전략은 아님을 파악해볼 수 있다.