관리 메뉴

TEAM EDA

Day13 : 2주차 질의응답 본문

EDA Study/수학

Day13 : 2주차 질의응답

김현우 2018. 11. 25. 14:43

1. 회귀를 사용하기 적절하지 않은 경우는 어떤 경우이며 회귀와 분류의 차이는 무엇인가?


반응변수가 Categorical한 경우에 회귀를 사용하기 힘듭니다. 그 이유는 프린트에 나와있듯이 클래스별 차이를 인식하기 때문입니다. 추가로 0~1사이를 예측할 경우 0이하 or 1이상도 예측가능하기 때문입니다. 분류는 회귀와는 다르게 어떠한 class에 속할지 categorical하게 예측하는 것입니다.


2. 로지스틱 모델에서 사용되는 odds는 무엇인가?


odds는 https://t1.daumcdn.net/cfile/tistory/9988AA395BF85AF10C의 링크의 식과 같습니다.


3. 신용카드 대금을 연체할 공산(odds)이 0.28인 사람 중 평균 몇 퍼센트가 실제로 연체할 것인가? 


위의 식이 0.28를 가지니  약 57%입니다.


4. 통계 수업을 듣는 한 그룹의 학생들에 대한 데이터를 수집한다고 해보자. 여기서, 변수 X1 = 공부한 시간, X2 = GPA, 그리고 Y = A학점 취득을 나타낸다. 로지스틱 회귀를 적합하여 아래와 같은 결과를 얻었다.




a) 30시간 공부하고 GPA가 3.6인 학생이 통계수업에서 A를 받을 확률을 추정하라


-6 + 0.05 * 30 + 3.6 = -0.9 

e^-0.9 = 0.406569 

0.40569 / (1.40569) = 0.289 (약 28.9%)


b) (a)의 학생이 통계수업에서 A를 받을 가능성이 50%가 되려면 몇시간 공부를 해야하는가? 


-6 + 0.05 * a + 3.6 = -2.4 + 0.05a 

e^(-2.4 + 0.05a) / 1+e^(-2.4 + 0.05a) > 0.5

방정식을 풀면 48시간이 나옴. 


5. LDA와 QDA에 대해 설명하라 


Likelihood, 즉 y의 클래스 값에 따른 x의 분포에 대한 정보를 먼저 알아낸 후, 베이즈 정리를 사용하여 주어진 x에 대한 y의 확률 분포를 찾아낸다.


LDA : LDA에서는 각 Y 클래스에 대한 독립 변수 X의 조건부 확률 분포가 공통된 공분산 행렬을 가지는 다변수 가우시안 정규 분포(multivariate Gaussian normal distribution)이라고 가정한다


QDA : QDA에서는 독립 변수 x가 실수이고 확률 분포가 다변수 가우시안 정규 분포라고 가정한다


6. 일반적으로 표본크기(sample size) n이 증가하면 QDA의 검정예측정확도가 LDA에 비해 개선되는가, 나빠지는가, 변함이없는가? 이유는? *


개선됨. LDA는 n이 작거나 클래스가 잘 분리되어 있을 경우에 적합.


7. 아래의 Confusion Matrix 테이블을 보고 모델의 Accuracy, Precision, Recall, F1-score를 계산하라.


정확도 : 23+18/23+15+18+20

Precision : 18/15+18 = 0.545

Recall : 18/20+18 = 0.473

F1-score : 2*0.545*0.473 / 0.545 + 0.473 = 0.5064