관리 메뉴

TEAM EDA

Day15 : Resampling Methods 본문

EDA Study/수학

Day15 : Resampling Methods

김현우 2018. 12. 2. 15:14

Ch5: Resampling Methods


*슬라이드*

https://lagunita.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/cv_boot.pdf


교재 5.1.1을 공부하시면 됩니다. (영문: 176p~178p, 국문:202p~205p)



*강의*

Estimating Prediction Error and Validation Set Approach (14:01)

https://www.youtube.com/watch?v=_2ij6eaaSl0&list=PL5-da3qGB5IA6E6ZNXu7dp89_uv8yocmf



Training - versus Test set



Training Sample에 대해 에러를 구하는 것은 Training Error이고 Test Sample에 대해 에러를 구하는 것은 Test error라고 합니다. 테스트 에러율을 평가하기 위해서 트레이닝 에러에 수학적으로 접근하는 방법은 여러개가 있습니다. 여기에 Cp statistic, AIC, BIC도 포함됩니다. 


에러를 평가하기 위해 우리는 Training Sample을 Training하는 부분과 Validation하는 두 부분으로 나눕니다. Training set으로 모델을 학습시키고 학습시킨 모델을 Validation에 적용해 결과를 미리 확인해보는 것 입니다. 


하지만 Validation으로 Test error를 평가하는것은 데이터가 어떻게 구성되어 있는지에 따라 매우 다릅니다. 그리고 validation을 학습하지 않기에 정보를 덜 교육한다는 단점이 있습니다.


이러한 단점을 해결하기 위해서 나온 개념이 K-fold Cross - validation 입니다. 아래의 사진을 보면 3가지 Validation 방법에 대한 차이가 나와있습니다.



궁금증 

- Train과 Test의 특징들의 분포가 다르면 validation을 어떻게 구성해야 할까?

- 시계열의 특성상 최근 데이터가 중요한데 이를 어떻게 활용해 Validation을 만들 수 있을까?