일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- MySQL
- pytorch
- 나는리뷰어다
- DilatedNet
- TEAM EDA
- 파이썬
- 알고리즘
- 나는 리뷰어다
- 한빛미디어
- 튜토리얼
- Image Segmentation
- 코딩테스트
- 프로그래머스
- Python
- 추천시스템
- Segmentation
- 스택
- 입문
- 엘리스
- hackerrank
- TEAM-EDA
- DFS
- Object Detection
- eda
- Recsys-KR
- 협업필터링
- Semantic Segmentation
- 3줄 논문
- Machine Learning Advanced
- 큐
- Today
- Total
TEAM EDA
Day13 : 2주차 질의응답 본문
1. 회귀를 사용하기 적절하지 않은 경우는 어떤 경우이며 회귀와 분류의 차이는 무엇인가?
반응변수가 Categorical한 경우에 회귀를 사용하기 힘듭니다. 그 이유는 프린트에 나와있듯이 클래스별 차이를 인식하기 때문입니다. 추가로 0~1사이를 예측할 경우 0이하 or 1이상도 예측가능하기 때문입니다. 분류는 회귀와는 다르게 어떠한 class에 속할지 categorical하게 예측하는 것입니다.
2. 로지스틱 모델에서 사용되는 odds는 무엇인가?
odds는 https://t1.daumcdn.net/cfile/tistory/9988AA395BF85AF10C의 링크의 식과 같습니다.
3. 신용카드 대금을 연체할 공산(odds)이 0.28인 사람 중 평균 몇 퍼센트가 실제로 연체할 것인가?
위의 식이 0.28를 가지니 약 57%입니다.
4. 통계 수업을 듣는 한 그룹의 학생들에 대한 데이터를 수집한다고 해보자. 여기서, 변수 X1 = 공부한 시간, X2 = GPA, 그리고 Y = A학점 취득을 나타낸다. 로지스틱 회귀를 적합하여 아래와 같은 결과를 얻었다.
a) 30시간 공부하고 GPA가 3.6인 학생이 통계수업에서 A를 받을 확률을 추정하라
-6 + 0.05 * 30 + 3.6 = -0.9
e^-0.9 = 0.406569
0.40569 / (1.40569) = 0.289 (약 28.9%)
b) (a)의 학생이 통계수업에서 A를 받을 가능성이 50%가 되려면 몇시간 공부를 해야하는가?
-6 + 0.05 * a + 3.6 = -2.4 + 0.05a
e^(-2.4 + 0.05a) / 1+e^(-2.4 + 0.05a) > 0.5
방정식을 풀면 48시간이 나옴.
5. LDA와 QDA에 대해 설명하라
Likelihood, 즉 y의 클래스 값에 따른 x의 분포에 대한 정보를 먼저 알아낸 후, 베이즈 정리를 사용하여 주어진 x에 대한 y의 확률 분포를 찾아낸다.
LDA : LDA에서는 각 Y 클래스에 대한 독립 변수 X의 조건부 확률 분포가 공통된 공분산 행렬을 가지는 다변수 가우시안 정규 분포(multivariate Gaussian normal distribution)이라고 가정한다
QDA : QDA에서는 독립 변수 가 실수이고 확률 분포가 다변수 가우시안 정규 분포라고 가정한다
6. 일반적으로 표본크기(sample size) n이 증가하면 QDA의 검정예측정확도가 LDA에 비해 개선되는가, 나빠지는가, 변함이없는가? 이유는? *
개선됨. LDA는 n이 작거나 클래스가 잘 분리되어 있을 경우에 적합.
7. 아래의 Confusion Matrix 테이블을 보고 모델의 Accuracy, Precision, Recall, F1-score를 계산하라.
정확도 : 23+18/23+15+18+20
Precision : 18/15+18 = 0.545
Recall : 18/20+18 = 0.473
F1-score : 2*0.545*0.473 / 0.545 + 0.473 = 0.5064
'EDA Study > 수학' 카테고리의 다른 글
Day 16 : K-fold Cross-Validation (0) | 2018.12.02 |
---|---|
Day15 : Resampling Methods (0) | 2018.12.02 |
Day12 : QDA and Naive Bayes (1) | 2018.11.24 |
Day11 : Multivariate Linear Discriminant Analysis and ROC Curves (0) | 2018.11.24 |
Day10 : Linear Discriminant Analysis(LDA) (0) | 2018.11.24 |