관리 메뉴

TEAM EDA

Day3 : Statistical Learning(2) 본문

EDA Study/수학

Day3 : Statistical Learning(2)

김현우 2018. 11. 16. 08:58

*강의*


Assessing Model Accuracy and Bias-Variance Trade-off (10:04)

Classification Problems and K-Nearest Neighbors (15:37)

Lab: Introduction to R (14:12) - optional


*추가자료*

bias and variance


지난번에 이어서 선형회귀에 대해 계속 보도록 하겠습니다. 기본적으로 선형회귀 모델은 아래와 같습니다.



p+1개의 파라미터를 가지고 있고, Training 데이터에 의해서 파라미터들이 결정됩니다. 선형회귀 모델은 기본적으로 정확하지는 않지만 알려지지 않은 f(x)를 대략적으로 해석해볼 수 있다는것에 의의가 있습니다.


위의 두 사진만 봐도 이해 되듯이 단순한 선형회귀 모델보다는 quadratic 모델이 훨씬 잘 적합할 수 있습니다. 하지만 이러한 정도를 어디까지 하냐에 따라서 Overfitting이 될 수도 있고 Underfitting이 될 수도 있습니다.


하나를 얻으면 하나를 잃는 것을 Trade-off라고 합니다. 아래의 사진처럼 해석력을 얻으면 유동성을 잃고, 반대로 유동성을 얻으면 해석력을 잃게 됩니다.



위에서 말한 Overfitting과 Underfitting에 대해서 더 설명하면, Overfitting이란 모델이 데이터에 과도하게 적합해서 새로운 문제가 닥쳤을 때, 유연하게 풀지 못하는 상황(풀긴하지만 전에 배운거에 치우쳐져서 품.)이고 Underfitting이란 모델이 데이터를 너무 설명하지 못해서 문제 자체를 잘 못푸는 상황(풀긴하지만 잘 못품)입니다. 



출처 : http://datacookbook.kr/48



위의 사진을 보면 Bias와 Variance 두가지가 나옵니다. Bias는 목표로하는 빨간색원으로부터 얼마나 떨어졌는지를 의미하고, Variance는 파란색점들이 얼마나 멀리 떨어져있는지를 의미합니다. 이를 다른 사진으로 이해하면 아래와 같습니다. 


출처 : http://datacookbook.kr/48


모델의 복잡도가 올라갈수록 Bias제곱은 낮아지는 반면에 Variance는 올라가는것을 볼 수 있습니다. 여기서 바로 Overfitting과 Underfitting이라는 개념이 나오게 됩니다. Bias제곱은 너무 낮지만 Variance가 너무 높아서 생기는 문제를 Overfitting. 반대로 Variance는 낮아서 좋지만 Bias제곱이 너무 높아서 생기는 문제를 Underfitting이라고 합니다. 우리는 


수식을 통해서 이해를 하면 아래와 같습니다. 

출처 : http://rfriend.tistory.com/search/bias


우리가 기대하는 에러 MSE는 Variance와 Bias제곱이라는 두가지 텀에 의해 생깁니다. 하지만 1번과 2번의 E(f(hat)(x))의 부호가 다르기에 trade-off 관계가 생기는 문제가 발생합니다. 그렇다면 우리는 두가지 에러텀의 적합한 지점을 찾기위해서 Validation set이라는것을 도입해서 아래의 사진처럼 적합한 포인트를 찾게 됩니다.


출처 : http://datacookbook.kr/48





모수적 방법 vs 비 모수적 방법

아래의 내용은 https://brunch.co.kr/@seoungbumkim/7의 내용을 기반으로 추가적 자료를 더해서 만들었습니다.


(수정중...)





참고자료 : 

  • http://datacookbook.kr/48
  • https://brunch.co.kr/@seoungbumkim/7
  • http://m.blog.daum.net/bhumsuk/4858500


'EDA Study > 수학' 카테고리의 다른 글

Day7 : 1주차 질의응답 해설  (0) 2018.11.19
Day6 : 1주차 질의응답  (0) 2018.11.19
Day4 : Linear Regression  (0) 2018.11.16
Day2 : Statistical Learning(1)  (0) 2018.11.16
Day1 : Introduction  (0) 2018.11.16