관리 메뉴

TEAM EDA

Day9 : Logistic Regression 본문

EDA Study/수학

Day9 : Logistic Regression

김현우 2018. 11. 24. 05:01

이번주 슬라이드: 

https://lagunita.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/classification.pdf


교재 4.3를 공부하시면 됩니다. (영문: 130 ~ 137p, 국문: 151 ~159p)


참고 동영상:

*Logistic Regression and Maximum Likelihood (9:07)*

https://www.youtube.com/watch?v=31Q5FGRnxt4&list=PL5-da3qGB5IC4vaDba5ClatUmFppXLAhE


*Multivariate Logistic Regression and Confounding (9:53)*

https://www.youtube.com/watch?v=MpX8rVv_u4E&list=PL5-da3qGB5IC4vaDba5ClatUmFppXLAhE


*Case-Control Sampling and Multiclass Logistic Regression (7:28)*

https://www.youtube.com/watch?v=GavRXXEHGqU&list=PL5-da3qGB5IC4vaDba5ClatUmFppXLAhE



1. Logistic Regression


선형회귀의 경우 왼쪽 처럼 0보다 작거나, 1보다 큰 확률을 생성할 수 있는 문제가 있습니다. 그래서 이보다 더 적절하게 선형을 곡선으로 바꾸는 시도가 발생하는데 이를 logistic regression이라고 합니다. 



logistic의 형태는 위의 식과 같습니다. 우리가 계산한 선형식을 e의 제곱승으로 올려주는 방식입니다. 


log와 exponential의 관계에 따라서 위에처럼 표현할 수도 있는데, 이를 log odds 또는 logit이라고 부르고 logistic이라는 용어는 여기에서 나온것이라고 생각합니다. 



2. Maximum Likelihood


우리는 parameter를 평가할 때 maximum likelihood라는 것을 이용합니다. 


likelihood는 데이터에서 관찰 된 0과 1의 확률을 제공합니다. 그리고 우리는 관찰 된 데이터의 likelihood를 극대화 하기 위한 β0 β1을 선택합니다. 그렇다면 likelihood가 무엇인지 부터 짚고 넘어가도록 하겠습니다. 자료는 확률 vs 가능도라는 글을 참고하였습니다.  likelihood는 특정 사건이 일어날 가능성을 비교하기 위해 나온 개념입니다. 보통 확률이라고 생각하면 무리가 없고, 연속 사건에서는 PDF값으로 생각하시면 됩니다. 


3. Making Predictions


1) 연속형의 경우



2) 바이너리의 경우



그런데 재밌는 점은, student의 Coefficient는 양수이지만 아래의 표에서는 음수로 나타나는 점 입니다.


위와 같은 상황이 발생하는 이유는 아래와 같다고 합니다. 하지만, 저도 이 부분은 애매한 부분이 있어서 알게되면 더 추가하겠습니다.