Day15 : Resampling Methods

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

TEAM EDA

Day15 : Resampling Methods 본문

EDA Study/수학

Day15 : Resampling Methods

김현우 2018. 12. 2. 15:14

Ch5: Resampling Methods

*슬라이드*

https://lagunita.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/cv_boot.pdf

교재 5.1.1을 공부하시면 됩니다. (영문: 176p~178p, 국문:202p~205p)

*강의*

Estimating Prediction Error and Validation Set Approach (14:01)

https://www.youtube.com/watch?v=_2ij6eaaSl0&list=PL5-da3qGB5IA6E6ZNXu7dp89_uv8yocmf

Training - versus Test set

Training Sample에 대해 에러를 구하는 것은 Training Error이고 Test Sample에 대해 에러를 구하는 것은 Test error라고 합니다. 테스트 에러율을 평가하기 위해서 트레이닝 에러에 수학적으로 접근하는 방법은 여러개가 있습니다. 여기에 Cp statistic, AIC, BIC도 포함됩니다.

에러를 평가하기 위해 우리는 Training Sample을 Training하는 부분과 Validation하는 두 부분으로 나눕니다. Training set으로 모델을 학습시키고 학습시킨 모델을 Validation에 적용해 결과를 미리 확인해보는 것 입니다.

하지만 Validation으로 Test error를 평가하는것은 데이터가 어떻게 구성되어 있는지에 따라 매우 다릅니다. 그리고 validation을 학습하지 않기에 정보를 덜 교육한다는 단점이 있습니다.

이러한 단점을 해결하기 위해서 나온 개념이 K-fold Cross - validation 입니다. 아래의 사진을 보면 3가지 Validation 방법에 대한 차이가 나와있습니다.

궁금증

- Train과 Test의 특징들의 분포가 다르면 validation을 어떻게 구성해야 할까?

- 시계열의 특성상 최근 데이터가 중요한데 이를 어떻게 활용해 Validation을 만들 수 있을까?

저작자표시 비영리 동일조건 (새창열림)

'EDA Study > 수학' 카테고리의 다른 글

Day 17 : Cross-validation: right and wrong (0)	2018.12.02
Day 16 : K-fold Cross-Validation (0)	2018.12.02
Day13 : 2주차 질의응답 (0)	2018.11.25
Day12 : QDA and Naive Bayes (1)	2018.11.24
Day11 : Multivariate Linear Discriminant Analysis and ROC Curves (0)	2018.11.24

'EDA Study/수학' Related Articles

TEAM EDA

Day15 : Resampling Methods 본문

Day15 : Resampling Methods

'EDA Study > 수학' 카테고리의 다른 글

티스토리툴바