관리 메뉴

TEAM EDA

Day8 : Classification 본문

EDA Study/수학

Day8 : Classification

김현우 2018. 11. 24. 04:26

이번 2주차 공부 주제 :  Ch4: Classification


이번주 슬라이드

https://lagunita.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/classification.pdf


교재 안내

교재 4.1, 4.2를 공부하시면 됩니다. (영문: 127 ~ 130p, 국문: 147 ~151p)


참고 동영상 : Introduction to Classification (10:25)

https://www.youtube.com/watch?v=sqq21-VIa1c&list=PL5-da3qGB5IC4vaDba5ClatUmFppXLAhE 



3장 지난 선형회귀모델에서는 Y 반응변수를 quantitative하다고 가정했습니다. 한마디로 보통 우리가 생각하는 숫자형태의 데이터(몸무게, 키 등등)이고 수치가 아니지만 수치로 표현한 값들(성별 등)을 Qualitative하다고 합니다. 

출처 : https://stats.stackexchange.com/questions/159902/is-nominal-ordinal-binary-for-quantitative-data-qualitative-data-or-both


세상에는 Quanitative한 데이터도 많지만 Qualitative한 데이터도 엄청 많습니다. 하지만 이러한 값은 선형회귀로는 가정에 맞지 않아서 접근 할 수 없고 이럴 때 사용하는 방법이 classification입니다. 


아래의 예시는 regression이 아닌 classification의 예시 입니다. 


  1. A person arrives at the emergency room with a set of symptoms that could possibly be attributed to one of three medical conditions.Which of the three conditions does the individual have? 
  2. An online banking service must be able to determine whether or not a transaction being performed on the site is fraudulent, on the basis of the user’s IP address, past transaction history, and so forth.
  3. On the basis of DNA sequence data for a number of patients with and without a given disease, a biologist would like to figure out which DNA mutations are deleterious (disease-causing) and which are not.


그런데 왜 선형회귀는 질적인 반응변수를 예측할 때 좋지 않은것 일까요? 예를들어 응급실에 오는 환자의 상태를 예측하는 상황을 가정해봅시다. 

환자의 상태는 위의 3가지입니다. 만일 우리가 선형회귀를 쓴다면 drug overdose는 stroke와 epileptic seizure의 중간에 놓이게 됩니다. 그리고 stroke와 drug overdose의 차이와 drug overdose와 epileptic seizure의 차이와 같게 생각하는 문제를 야기합니다. 


위의 상황을 보면 이번에는 stroke가 2에 온 것을 볼 수 있습니다. 이럴 경우 위와는 다르게 stroke와 epileptic seizure의 차이랑 stroke와 drug overdose간의 차이를 동일하게 생각하게 됩니다. 분명 위랑 아래의 경우 똑같은 회귀임에도 불구하고 값의 순서배치에 따라서 다른 판단을 내리게 되므로 회귀로 접근하는 방식은 옳지 않습니다. 


이러한 상황을 막기위해서 도입한 방식이 binary response를 만드는 것 입니다. 



그럼에도 불구하고 예측은 0~1사이에서 제공되고, 조잡한 확률 추청치로 해석됩니다. (아래의 왼쪽그림 처럼)


추가적으로 우리가 선형 회귀를 사용하여 이진을 예측하는 경우 얻을 수 있는 분류응답은 선형 판별 분석(LDA)와 동일합니다. 이는 4.4절에서 볼 내용으로 추후 다시 적도록 하겠습니다.

'EDA Study > 수학' 카테고리의 다른 글

Day10 : Linear Discriminant Analysis(LDA)  (0) 2018.11.24
Day9 : Logistic Regression  (0) 2018.11.24
Day7 : 1주차 질의응답 해설  (0) 2018.11.19
Day6 : 1주차 질의응답  (0) 2018.11.19
Day4 : Linear Regression  (0) 2018.11.16