관리 메뉴

TEAM EDA

Day6 : 1주차 질의응답 본문

EDA Study/수학

Day6 : 1주차 질의응답

김현우 2018. 11. 19. 23:16
질문1) 유연한 통계학습방법과 덜 유연한 방법중 어느것이 일반적으로 성능이 더 나은지 말해보자. 



내 답변) 질문의도를 정확히 모르겠는데, a)의 경우 설명변수의 수에 비해 표본의 크기가 크니 덜 유연한 방법을 사용해도 충분히 학습되서 성능이 좋을 것 같습니다.
반대로 b)의 경우 p가 n에 비해 클 경우 선형회귀 같은 통계적인 방법을 사용할 수 없고 비모수적 기법(k-nearest)도 성능이 좋지 않으니 유연한 방법을 써야할 것 같습니다.



질문2) 각 시나리오가 분류 혹은 회귀문제 인지 설명하고, 가장 관심 있는것이 추론인지 혹은 예측인지 명시해보자. n과 p 또한 생각해보자. 

내 답변) A : 회귀문제 - 추론 / n=500개 p = 4 이익, 직원 수, 업종, CEO 연봉 / p에 비해 n이 많은 상황. 이

B : 분류문제 - 예측 / n = 20개. p = 14 성공 실패 여부, 판매 가격 등등해서 14개.



질문3) 회귀 또는 분류에 대한 기법 중, 매우 유연한 방법이 덜 유연한 방법에 비해 가지는 장점과 단점은 무엇인가? 어떤 경우에 더 유연한 기법을 선호하고, 또 어떤 경우에 덜 유연한 기법을 선호하는지 생각해보자. 


내 답변) 유연한 방법은 해석력이 떨어짐(단점)에도 불구하고 미래의 데이터(Test data)에 대해서 잘 작동한다는 장점이 있습니다. 해석력이 중요한 상황인 경우(예를들어, 설득해야하는 상황) 덜 유연한 방법을 쓰고 모델의 성능이 중요한 경우에 유연한 방법을 사용하면 될 것 같습니다.



질문4) 통계학습 기법에서 모수적 기법과 비모수적 기법의 차이는 무엇인가? 회귀 또는 분류에서 모수적 기법과 비모수적 기법의 장점과 단점은 무엇인가? 


내 답변) 모수적 기법 : 선형회귀분석에서 에러가 평균이 0이고 분산이 특정 상수값을 가진다는 정규분포를 가정하기에 모수적 방법이라고 합니다.
비모수적 기법 : k-nearest 기법처럼 특정 가정이 아닌, 관측치 주변k개의 관측치에 의해 값이 정해지는 방법을 의미합니다. 장단점은 정확하게 모르겠는데, 모수적 기법은 통계에 기반하기 때문에 다른사람이 받아들이기 쉽다.(신뢰성있음) 하지만 정규분포의 가정을 따라야한다든지 제약조건이 많기때문에 이를 맞춰주기가 힘들다. 반대로 비모수적 기법은 통계적인 가정이 없기 때문에 다양한 상황에서 사용이 가능하나, 모수적 기법에 비해서 설명력이 떨어지고 데이터가 많을 경우?차원이 클 경우 계산량이 높고 정확하지 않다.



질문5) 80페이지의 표 3.4에 주어진 p값에 대응하는 귀무가설을 기술하고 어떠한 결론을 내릴수 있는지 설명하여라. 설명은 sales, TV, radio, newspaper에 대하여 해야 한다. 



내 답변) p-value의 관점에서 보면, 유의미한 변수는 TV, radio, 상수항이고 newspaper의 경우는 유의미하다고 판단 할 근거가 없습니다. 그리고 각각이 sales에 어떠한 상관관계가 있는지는 coefficient와 관련있습니다.



질문6) KNN분류기와 KNN 회귀방법 사이의 차이를 설명하여라. 


내 답변) k-nn 분류기 : 새로운 관측치 주변의 k개의 관측치가 가지는 Target의 대다수에 따른다.(예를들어 k개의 관측치중 절반이상이 A,B,C중에 A로 분류되면 새로운 관측치는 A로 분류)
K-NN 회귀 : 새로운 관측치 주변의 k개의 관측치가 가지는 Target의 평균값.



이번주에 학습하시면서 이해가 안가셨거나 궁금하신 질문들을 모두 적어주세요.


1. 문제 1번 2번에서 n이 충분히 큰 상황과 p가 n에 비해 큰 상황 두가지를 봤는데, 각각의 상황에 대해 어떠한 모델을 사용해야하는지 궁금합니다. 2. 선형회귀분석(모수적기법)에서 가정을 맞춰주는것이 중요한데, 보통은 정규성가정정도만 맞춰주고 선형성가정이나 그 외의 가정들은 무시하고 사용하는것 같던데 이렇게 해도 괜찮은가요? 3. R-squared에 대한 설명에서 correlation값과 동일하다고 나오는데, 그냥 두 값이 같다고 생각하면 되는건가요? 4. 변수선택 방법에서 all subset의 경우 training error를 최소화 하는 방법을 선택한다고 나와있는데 1개부터 n개씩 제거한 모든 상황에 대해 MSE를 계산하고 그 중 가장 괜찮은것을 고른건가요? R코드로 돌려봤을 때는 all subset의 경우 r-squared와 aic, bic 모두 나오던데 어떻게 해석하면 되는걸까요?




'EDA Study > 수학' 카테고리의 다른 글

Day8 : Classification  (0) 2018.11.24
Day7 : 1주차 질의응답 해설  (0) 2018.11.19
Day4 : Linear Regression  (0) 2018.11.16
Day3 : Statistical Learning(2)  (0) 2018.11.16
Day2 : Statistical Learning(1)  (0) 2018.11.16