관리 메뉴

TEAM EDA

선형 회귀 : Linear Regression 본문

EDA Study/선형대수학

선형 회귀 : Linear Regression

김현우 2018. 12. 21. 11:21

참고: 아래의 포스터 내용은 Sheldon_Ross - Introduction to Probability 교재의 ch9 : Regression을 정리한 자료입니다.


9.1 Introduction


많은 분야에서 사람들은 *변수들간의 관계*를 알고 싶어 했습니다. 고민 끝에 그들은 단순하면서도 강력한 방법을 고안해내게 되고 이것이 바로 선형회귀(linear regression)입니다.


선형 회귀의 공식은 아래와 같습니다. 



dependent variable(독립변수) X를 가지고 reponse variable(반응변수) Y를 예측해 내는 방법입니다. 이를 통해서 베타값을 구해내게 되고 베타가 변수들간의 관계를 표현해내는 값이 됩니다. 추가로, random하게 발생하는 error를 보정하기 위해서 평균값 0을 가지는 e을 추가로 붙여주게 됩니다. 


이를 벡터의 관점에서 표현하면, 아래와 같이 표현하기도 합니다.


여기에서 단순 회귀(simple regression)와 다중 회귀(multiple regression)이라는 표현이 나오는데, 단순 회귀는 위의 수식에서 r이 1일 때를 의미하고 다중 회귀는 r이 2 이상일 때를 의미합니다.



9.2 Least Squares estimators of the regression parameters


그렇다면, 이제 베타의 값을 어떻게 계산하는지에 대해 알아보도록 하겠습니다. 우리는 예측값과 실제값의 차이를 최소화 하는 방식으로 진행하게 됩니다. 이를 수식으로 표현하면 아래와 같습니다. 실제값 Yi에 대해 예측값 A-Bxi를 빼고 제곱함으로써 모든 에러의 제곱합을 계산하게 됩니다. 

여기에서 SS를 최소화하는 해인 알파와 베타의 값을 구해주기 위해서 우리는 미분을 사용하게 됩니다. ( 2차항의 계수가 양수인 이차함수에서 미분값이 0인 지점에서 극솟값을 가짐 )



위의 값을 0으로 두고 방정식을 정리하면 A,B에 대해 아래와 같은 값을 얻을 수 있습니다.


아래와 같은 예시가 주어지면, 우리는 위 과정을 통해서 선형 회귀식을 계산할 수 있습니다.


예제 9.2a The raw material used in the production of certain synthetic fiber is stored in a location without a humidity control. Measurements of the relative humidty in the storage location and the moisture content of a sample of the raw material were taken over 15 days with the following data (in percentages) resulting.



위의 입력값과 출력값을 식에 대입해서 A,B를 계산하고 이를 그래프로 표현하면 아래와 같습니다.

9.3 Distribution of the estimators

A와 B의 추정치들에 대한 분포를 지정하기 위해서는 e의 평균이 0이라는 가정 이외에도 추가 가정이 필요합니다. 일반적인 접근은 랜덤 에러가 평균 0 및 분산 σ2을 갖는 독립적인 정규분포 변수로 가정하는 것입니다. 즉, Y는 X에 대한 응답이며, 각 Y 끼리는 독립적입니다.



앞에서 σ2을 입력값에 의존하지 않는 상수라고 표현하였으므로, 우리는 이 값을 데이터로부터 추정해야 합니다.


때문에, 추정치 B의 평균과 분산을 계산하면 아래와 같습니다. (자세한 과정은 p357 ~ 358 확인)





9.4 Statistical inferences about the regression parameters







Summary

   



9.5 The coefficient of determination and the sample correlation coefficient


9.6 Analysis of Residuals : Assessing the model


   



    Scatter plot과 standardized residuals의 무작위 특성에 의해 표시되는 것처럼 직선 모델에 매우 잘 맞는 것처럼 보임.

    Scatter plot은 식별 할 수있는 패턴을 보여 주며, 마디가 먼저 감소한 다음 입력 수준이 증가함에 따라 증가하는 것으로 나타납니다. 이것은 종종 입력과 응답 간의 관계를 설명하는 데 더 높은 차수의 용어가 필요하다는 것을 의미합니다.

    Scatter plot은 특정한 패턴을 보입니다. 입력 레벨이 증가함에 따라 잔차의 절대 값 및 따라서 제곱이 증가하는 것처럼 보이는 패턴을 보여줍니다. 이는 종종 응답의 분산이 일정하지 않고 오히려 입력 레벨에 따라 증가 함을 나타냅니다.


9.7 Transforming to linearity



단순한 log변환으로 지수함수를 선형함수로 만들 수 있음.




9장 문제

    선형회귀식에서 SS의 공식을 적고 SS를 최소로 하는 A와 B를 계산하시오. (Hint : p353)

    Yi ∼ N (α + βxi, σ2) 일때, Estimators A와 B의 평균과 분산을 계산하시오. (Hint : p356)

    문제5번, 문제10번, 문제12번, 문제29번





'EDA Study > 선형대수학' 카테고리의 다른 글

선형대수의 기초 - 연산, 내적, 외적  (0) 2019.11.30