관리 메뉴

TEAM EDA

Day2 : Statistical Learning(1) 본문

EDA Study/수학

Day2 : Statistical Learning(1)

김현우 2018. 11. 16. 08:57

Ch2-1. Statistical Learning


*슬라이드*

https://lagunita.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/statistical_learning.pdf


*강의*

Statistical Learning and Regression (11:41)

https://www.youtube.com/watch?v=WjyuiK5taS8&list=PL5-da3qGB5IDvuFPNoSqheihPOQNJpzyy


Curse of Dimensionality and Parametric Models (11:40)

https://www.youtube.com/watch?v=UvxHOkYQl8g&list=PL5-da3qGB5IDvuFPNoSqheihPOQNJpzyy



슬라이드 요약


위의 그림을 보면 Sales 와 티비, 라디오, 신문의 산점도를 파란색 선형 회귀선이  2개의 그룹으로 분리하고 있다. 여기서 우리는 3가지 파란 회귀선으로 Sales를 예측할 수 있고 이를 아래의 모델로 작성한다.



여기서 Sales를 우리는 Target or response(반응)변수라고 하고 TV,Radio,Newspaper를 feature, or input, or predictor라고 불러준다. 이를 수학적으로 표시하면 다음과 같다.


이제 f(X)를 좋게 만드는 방법에 대해 설명하도록 하겠습니다. 


위의 사진을 보면, 동일한 X=4에 대해서 다양한 Y를 가지는 것을 볼 수 있습니다. 이러한 Y와 X간의 관계를 설명하기 위해 average의 개념을 도입해서 아래와 같이 적고 이것을 regression function이라고 합니다.




하지만,  아래의 사진처럼 X=4에 하나의 점만 있는 경우  를 계산할 수 없습니다. 이럴때 우리는 식을 수정해서 이웃에 있는 점들로 계산합니다.



그렇게 해서 수정 된 식은 아래와 같습니다.



바로 이웃에 있는 점들을 이용해서 계산을 대신 하는 방법입니다. 하지만 이런 방법은 p(차원)가 4 이하이고 N이 클 때 잘 작동합니다. 하지만 차원 p가 크게 되면 잘 작동하지 않는데 이를 우리는 차원의 저주라고 합니다. 



위의 사진을 보면 차원이 커질수록 빨간선안에 이웃의 갯수는 동일함에도 불구하고 Radius(반지름)은 커지는 경향을 보입니다. 즉, 동일한 이웃의 갯수를 가져도 실상 거리는 더 멀어지니깐 비슷하지 않다는 의미입니다.



'EDA Study > 수학' 카테고리의 다른 글

Day7 : 1주차 질의응답 해설  (0) 2018.11.19
Day6 : 1주차 질의응답  (0) 2018.11.19
Day4 : Linear Regression  (0) 2018.11.16
Day3 : Statistical Learning(2)  (0) 2018.11.16
Day1 : Introduction  (0) 2018.11.16