일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 추천시스템
- Segmentation
- 튜토리얼
- pytorch
- 알고리즘
- 프로그래머스
- 엘리스
- TEAM EDA
- Semantic Segmentation
- MySQL
- Recsys-KR
- eda
- Object Detection
- 협업필터링
- hackerrank
- DFS
- 파이썬
- TEAM-EDA
- 나는리뷰어다
- 코딩테스트
- 스택
- Python
- 큐
- 3줄 논문
- DilatedNet
- 입문
- 나는 리뷰어다
- Machine Learning Advanced
- Image Segmentation
- 한빛미디어
- Today
- Total
목록EDA Study (202)
TEAM EDA
개요 이번 자료는 Elo Merchant Category Recommendation - Help understand customer loyalty(https://www.kaggle.com/c/elo-merchant-category-recommendation)의 데이터 탐색부터 모델링 작업까지의 과정을 정리한 자료입니다. 마을의 익숙지 않은 지역에서 배고파하며 개인의 취향에 따라 적절한 순간에 레스토랑 추천을 받았다고 상상해보십시오. 이 추천서는 아주 가까이에 있는 지역의 신용 카드 제공 업체로부터 할인 된 가격으로 제공됩니다! 현재 브라질의 최대 결제 브랜드 중 하나 인 Elo는 카드 회원에 대한 프로모션 또는 할인을 제공하기 위해 상인과의 파트너십을 구축했습니다. 그러나 이러한 프로모션은 소비자 또는 ..
참고 : 이 내용은 Sheldon_Ross의 Introduction to probability and statistics의 ch10을 번역, 정리한 내용입니다. ONE-WAY-ANALYSIS OF VARIANCE TWO-FACTOR ANALYSIS OF VARIANCE TWO-WAY ANALYSIS OF VARIANCE WITH INTERACTION 예제 1번 A college administrator claims that there is no difference in first-year grade point averages for students entering the college from any of three different city high schools. The following data g..
참고: 아래의 포스터 내용은 Sheldon_Ross - Introduction to Probability 교재의 ch9 : Regression을 정리한 자료입니다. 9.1 Introduction 많은 분야에서 사람들은 *변수들간의 관계*를 알고 싶어 했습니다. 고민 끝에 그들은 단순하면서도 강력한 방법을 고안해내게 되고 이것이 바로 선형회귀(linear regression)입니다. 선형 회귀의 공식은 아래와 같습니다. dependent variable(독립변수) X를 가지고 reponse variable(반응변수) Y를 예측해 내는 방법입니다. 이를 통해서 베타값을 구해내게 되고 베타가 변수들간의 관계를 표현해내는 값이 됩니다. 추가로, random하게 발생하는 error를 보정하기 위해서 평균값 0을 ..
참고 : https://www.analyticsvidhya.com/blog/2018/01/factorization-machines/ 링크의 글을 번역한 글입니다. Introduction 나는 아직도 클릭 예측 문제로 처음 만났던 순간을 기억합니다. 이전에는 나는 데이터 과학을 배우고 있었고 나의 진전에 대해 기분이 좋았습니다. ML hackathons에 대한 자신감을 갖기 시작했고 나는 몇 가지의 도전을 하기로 결심했습니다. 더 잘하기 위해서, 나는 16GB RAM과 i7 프로세서를 갖춘 기계를 조달했습니다. 그러나 데이터 세트를 처음 보았을 때 불안감이 있었습니다. 압축을 풀 때의 데이터는 50GB 이상이었습니다. 그런 데이터 세트의 클릭을 예측하는 방법을 알지 못했습니다. 고맙게도 Factorizat..
*가볍게 시작하는 통계학습 3주차 Day 4*교재 5.2입니다. (영문: 187p~190p, 국문:214p~217p)The Bootstrap (11:29)https://www.youtube.com/watch?v=p4BYWX7PTBM&list=PL5-da3qGB5IA6E6ZNXu7dp89_uv8yocmf 1. 부트스트랩 Example 위의 내용을 요약하면 아래와 같습니다. 두가지 재정자산 A와 B에 투자를 했을 때, A는 X라는 return을 B는 Y라는 return을 내놓습니다. 그래서 A에는 얼마를 B에는 얼마를 투자할지 수익을 최대화하는 비율(알파)를 정해야 합니다. 여기에서는 그러한 방법을 Bootstrap이라는 방법을 도입하여 해결합니다. Bootstrap은 복원샘플입니다. 여기에서는 전체 dat..
*가볍게 시작하는 통계학습 3주차 Day 3*교재 5.1.4, 5.1.5입니다. (영문: 183p~187p, 국문:210p~214p)Cross-Validation: The Right and Wrong Ways (10:07)https://www.youtube.com/watch?v=S06JpVoNaA0&list=PL5-da3qGB5IA6E6ZNXu7dp89_uv8yocmf 개인적으로 이 부분은 필요없어 보입니다.
가볍게 시작하는 통계학습 3주차 Day 2 교재 5.1.2, 5.1.3을 공부하시면 됩니다. (영문: 178p~182p, 국문:205p~210p)K-fold Cross-Validation(13:33)https://www.youtube.com/watch?v=nZAM5OXrktY&list=PL5-da3qGB5IA6E6ZNXu7dp89_uv8yocmf K-fold Cross-Validation K-Fold Cross Validation은 Validation 과정을 총 K번 하는것을 의미합니다. 가운데 KFOLD 이미지는 4-Fold의 경우입니다. 트레인 / Validation을 4개로 나누어서 모든 데이터를 학습에 참여시키려는 목적을 가지고 있습니다. 만일 K가 데이터의 사이즈와 똑같은 경우에는 마지막 그림인..
Ch5: Resampling Methods *슬라이드*https://lagunita.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/cv_boot.pdf 교재 5.1.1을 공부하시면 됩니다. (영문: 176p~178p, 국문:202p~205p) *강의*Estimating Prediction Error and Validation Set Approach (14:01)https://www.youtube.com/watch?v=_2ij6eaaSl0&list=PL5-da3qGB5IA6E6ZNXu7dp89_uv8yocmf Training - versus Test set Training Sample에 대해 에러를 구하는 것은 Training Error이고 Test Sam..
1. 회귀를 사용하기 적절하지 않은 경우는 어떤 경우이며 회귀와 분류의 차이는 무엇인가? 반응변수가 Categorical한 경우에 회귀를 사용하기 힘듭니다. 그 이유는 프린트에 나와있듯이 클래스별 차이를 인식하기 때문입니다. 추가로 0~1사이를 예측할 경우 0이하 or 1이상도 예측가능하기 때문입니다. 분류는 회귀와는 다르게 어떠한 class에 속할지 categorical하게 예측하는 것입니다. 2. 로지스틱 모델에서 사용되는 odds는 무엇인가? odds는 https://t1.daumcdn.net/cfile/tistory/9988AA395BF85AF10C의 링크의 식과 같습니다. 3. 신용카드 대금을 연체할 공산(odds)이 0.28인 사람 중 평균 몇 퍼센트가 실제로 연체할 것인가? 위의 식이 0.2..
이번주 슬라이드: https://lagunita.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/classification.pdf 교재 4.4 중 4.4.4와 4.5를 공부하시면 됩니다. (영문: 149~153p, 국문: 172 ~ 178p)*Quadratic Discriminant Analysis and Naive Bayes (10:07)*https://www.youtube.com/watch?v=6FiNGTYAOAA&list=PL5-da3qGB5IC4vaDba5ClatUmFppXLAhE 1. Quadratic Discriminant Analysis ... 2. Naive Bayes 3. LDA 4. Summary 로지스틱 회귀 분석은 특히 K = 2인 경..