선형 회귀 : Linear Regression

Notice

Recent Posts

Recent Comments

Link

« 2025/11 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Tags more

Archives

Today

Total

관리 메뉴

TEAM EDA

선형 회귀 : Linear Regression 본문

EDA Study/선형대수학

선형 회귀 : Linear Regression

김현우 2018. 12. 21. 11:21

참고: 아래의 포스터 내용은 Sheldon_Ross - Introduction to Probability 교재의 ch9 : Regression을 정리한 자료입니다.

9.1 Introduction

많은 분야에서 사람들은 *변수들간의 관계*를 알고 싶어 했습니다. 고민 끝에 그들은 단순하면서도 강력한 방법을 고안해내게 되고 이것이 바로 선형회귀(linear regression)입니다.

선형 회귀의 공식은 아래와 같습니다.

dependent variable(독립변수) X를 가지고 reponse variable(반응변수) Y를 예측해 내는 방법입니다. 이를 통해서 베타값을 구해내게 되고 베타가 변수들간의 관계를 표현해내는 값이 됩니다. 추가로, random하게 발생하는 error를 보정하기 위해서 평균값 0을 가지는 e을 추가로 붙여주게 됩니다.

이를 벡터의 관점에서 표현하면, 아래와 같이 표현하기도 합니다.

여기에서 단순 회귀(simple regression)와 다중 회귀(multiple regression)이라는 표현이 나오는데, 단순 회귀는 위의 수식에서 r이 1일 때를 의미하고 다중 회귀는 r이 2 이상일 때를 의미합니다.

9.2 Least Squares estimators of the regression parameters

그렇다면, 이제 베타의 값을 어떻게 계산하는지에 대해 알아보도록 하겠습니다. 우리는 예측값과 실제값의 차이를 최소화 하는 방식으로 진행하게 됩니다. 이를 수식으로 표현하면 아래와 같습니다. 실제값 Yi에 대해 예측값 A-Bxi를 빼고 제곱함으로써 모든 에러의 제곱합을 계산하게 됩니다.

여기에서 SS를 최소화하는 해인 알파와 베타의 값을 구해주기 위해서 우리는 미분을 사용하게 됩니다. ( 2차항의 계수가 양수인 이차함수에서 미분값이 0인 지점에서 극솟값을 가짐 )

위의 값을 0으로 두고 방정식을 정리하면 A,B에 대해 아래와 같은 값을 얻을 수 있습니다.

아래와 같은 예시가 주어지면, 우리는 위 과정을 통해서 선형 회귀식을 계산할 수 있습니다.

예제 9.2a The raw material used in the production of certain synthetic fiber is stored in a location without a humidity control. Measurements of the relative humidty in the storage location and the moisture content of a sample of the raw material were taken over 15 days with the following data (in percentages) resulting.

위의 입력값과 출력값을 식에 대입해서 A,B를 계산하고 이를 그래프로 표현하면 아래와 같습니다.

9.3 Distribution of the estimators

A와 B의 추정치들에 대한 분포를 지정하기 위해서는 e의 평균이 0이라는 가정 이외에도 추가 가정이 필요합니다. 일반적인 접근은 랜덤 에러가 평균 0 및 분산 σ2을 갖는 독립적인 정규분포 변수로 가정하는 것입니다. 즉, Y는 X에 대한 응답이며, 각 Y 끼리는 독립적입니다.