Day4 : Linear Regression

Ch3-1. Linear Regression


*슬라이드*

Linear Regression 


*강의*

Simple Linear Regression and Confidence Intervals (13:01)

Hypothesis Testing (8:24)



지난시간에 이어 선형회귀분석을 계속하겠습니다. 선형회귀모델은 아래와 같이 결정됩니다. 그리고 우리는 이를 Supervised Learning(Y를 알고 있을 경우/ 만일 Supervised Learning을 처음들어보시면 Day1 : Introduction을 보고오시기 바랍니다.)이라고 하며, Y는 X와 선형이라고 가정합니다.(선형성가정)



하지만 아래의 빨간곡선처럼 실제로 X와 Y와의 관계가 선형인 경우는 거의 없습니다.

그럼에도 불구하고 선형회귀분석은 개념적으로나 실용적으로나 많이 사용합니다. 아래의 광고예시를 다시 한번 보겠습니다.

여기서 우리는 여러개의 질문을 생각할 수 있습니다.


  • Is there a relationship between advertising budget and sales?

  • How strong is the relationship between advertising budget and sales?

  • Which media contribute to sales?

  • How accurately can we predict future sales?

  • Is the relationship linear?

  • Is there synergy among the advertising media?


이제, 모델의 수식적인 측면에 대해서 보도록 하겠습니다. 먼저 위의 선형회귀식을 벡터화 시켜서 바꿔보도록 하겠습니다.



여기서 과 은 상수로 slope 혹은 intercept를 의미합니다. 또한 coefficient 혹은 parameter라고도 표현하고 를 에러텀이라고 합니다. 이는 실제 값을 의미하고 우리는 예측모델을 아래와 같이 Hat을 붙여서 만듭니다.



hat은 X가 x일때, 예측된 값(predicted[estimated] value)이라고 생각하시면 됩니다. 


이제 least square에 의해서 parameter를 평가하는 방법을 보도록 하겠습니다. 



i번째 값 X에서 residual를 ei라고 표현합니다. 그리고 이를 확장하면 아래와 같고  residual sum of squared(RSS)라고 합니다.


이제 이 RSS를 Minimize한 값이 바로 hat(베타0)와 hat(베타1)이 되는 것 입니다.


그리고 그 값은 아래와 같습니다. 


이제 평가된 coefficient의 정확도를 계산해보도록 하겠습니다.


그리고 이렇게 구한 분산을 이용해서 신뢰구간을 계산하면 다음과 같습니다.




이젠 Hypothesis에 대해서 알아보도록 하겠습니다. 기본적으로 가설검정(Hypothesis Test)은 아래의 두가지 텀으로 이루어집니다.


  • H0 : There is no relationship between X and Y versus the alternative hypothesis 

  • HA : There is some relationship between X and Y .

수식적으로 다음과 같이 볼 수 있습니다.  H0 : β1 = 0 versus HA : β1 != 0, 이게 되는 이유는 베타1이 0일 경우 X와는 상관없이 모델이 만들어지기 때문입니다.

우리는 이러한 가설검정을 하기 위해서 T-test라는것을 하게 됩니다. 

• This will have a t-distribution with n − 2 degrees of freedom, assuming β1 = 0.

보통 소프트웨어에서는 t보다 같거나 큰지를 확인하기 위한 p-value를 자동적으로 계산해주기 때문에 걱정하지 않으셔도 됩니다.


위의 예시처럼 p-value가 작다는 의미는 가설이 의미가 있다는 의미입니다.


방금 parameter에 대한 검정을 했다면, 이번에는 모델 자체에 대한 정확도를 평가해보겠습니다.


아까 구한 RSS를 n-2 (자유도)로 나누고 루트를 씌우면 RSE라는 값을 구할 수 있습니다. 이는 Residual Standard error라고 합니다.


아래는 R-squared(fraction of variance explained)를 구하는 공식입니다. (참고로 TSS는 Total sum of squares를 의미합니다)




위의 R-squared는 상관관계에서 r제곱이라고 생각하셔도 무방합니다.





'EDA Study > 수학' 카테고리의 다른 글

Day7 : 1주차 질의응답 해설  (0) 2018.11.19
Day6 : 1주차 질의응답  (0) 2018.11.19
Day4 : Linear Regression  (0) 2018.11.16
Day3 : Statistical Learning(2)  (0) 2018.11.16
Day2 : Statistical Learning(1)  (0) 2018.11.16
Day1 : Introduction  (0) 2018.11.16

댓글(0)

Designed by JB FACTORY