'2018/12 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2018/12 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Tags more

Archives

Today

Total

관리 메뉴

목록2018/12 (9)

TEAM EDA

[5차대회] Data Visualization Challenge 평가기준

description 이번 대회의 스폰서인 뱅크샐러드는 통합 자산조회, 맞춤형 자산관리, 금융상품 추천 등의 서비스를 제공하는 회사입니다. 또 마이데이터 사업(표준화된 정보 제공 방식을 통해 데이터의 주체인 국민, 즉 개인이 스스로 정보를 제공하고 관리할 수 있도록 하는 것을 말합니다.)을 시작으로 정부의 데이터 산업 활성화 전략에 앞장서 많은 사람들이 금융을 쉽게 알고, 부담없이 접근할 수 있도록 노력하고 있으며, 이러한 일환으로 이번 대회를 후원하게 되었습니다. 5회 대회는 1회 대회의 소상공인 신용카드 거래 내역 데이터를 사용하여 1회 대회에서 다 보여주지 못한 인사이트 발굴 및 시각화 대회를 진행합니다. R, Python의 시각화 패키지 및 라이브러리 등을 활용하여 데이터와 비즈니스를 보다 쉽게 ..

EDA Project/Dacon 2018. 12. 28. 13:38

Analysis of Variance (분산 분석)

참고 : 이 내용은 Sheldon_Ross의 Introduction to probability and statistics의 ch10을 번역, 정리한 내용입니다. ONE-WAY-ANALYSIS OF VARIANCE TWO-FACTOR ANALYSIS OF VARIANCE TWO-WAY ANALYSIS OF VARIANCE WITH INTERACTION 예제 1번 A college administrator claims that there is no difference in first-year grade point averages for students entering the college from any of three different city high schools. The following data g..

EDA Study/머신러닝 2018. 12. 23. 13:13

선형 회귀 : Linear Regression

참고: 아래의 포스터 내용은 Sheldon_Ross - Introduction to Probability 교재의 ch9 : Regression을 정리한 자료입니다. 9.1 Introduction 많은 분야에서 사람들은 *변수들간의 관계*를 알고 싶어 했습니다. 고민 끝에 그들은 단순하면서도 강력한 방법을 고안해내게 되고 이것이 바로 선형회귀(linear regression)입니다. 선형 회귀의 공식은 아래와 같습니다. dependent variable(독립변수) X를 가지고 reponse variable(반응변수) Y를 예측해 내는 방법입니다. 이를 통해서 베타값을 구해내게 되고 베타가 변수들간의 관계를 표현해내는 값이 됩니다. 추가로, random하게 발생하는 error를 보정하기 위해서 평균값 0을 ..

EDA Study/선형대수학 2018. 12. 21. 11:21

Introductory Guide – Factorization Machines & their application on huge datasets (with codes in Python)

참고 : https://www.analyticsvidhya.com/blog/2018/01/factorization-machines/ 링크의 글을 번역한 글입니다. Introduction 나는 아직도 클릭 예측 문제로 처음 만났던 순간을 기억합니다. 이전에는 나는 데이터 과학을 배우고 있었고 나의 진전에 대해 기분이 좋았습니다. ML hackathons에 대한 자신감을 갖기 시작했고 나는 몇 가지의 도전을 하기로 결심했습니다. 더 잘하기 위해서, 나는 16GB RAM과 i7 프로세서를 갖춘 기계를 조달했습니다. 그러나 데이터 세트를 처음 보았을 때 불안감이 있었습니다. 압축을 풀 때의 데이터는 50GB 이상이었습니다. 그런 데이터 세트의 클릭을 예측하는 방법을 알지 못했습니다. 고맙게도 Factorizat..

EDA Study/머신러닝 2018. 12. 19. 16:21

[Kaggle] Google Analytics Customer Revenue Prediction

Google Analytics Customer Revenue PredictionPredict how much GStore customers will spend 대회 목적 80/20 규칙은 많은 비즈니스에서 입증되었습니다. 적은 수의 고객 만이 대부분의 수익을 창출합니다. 따라서 마케팅 팀은 홍보 전략에 대한 적절한 투자를 유도해야합니다. RStudio는 팀을 위해 작업을 확장하고 공유 할 수있는 R 및 기업용 제품을위한 무료 및 개방형 도구 개발자로, Google Cloud 및 Kaggle과 파트너 관계를 맺어 철저한 데이터 분석에서 얻을 수있는 비즈니스 영향을 보여줍니다. 이 경쟁에서 고객 당 수익을 예측하기 위해 Google Merchandise Store (Google 판매원이 판매되는 GStore..

EDA Project/해외 공모전 2018. 12. 19. 09:32

Day 18 : The Bootstrap

*가볍게 시작하는 통계학습 3주차 Day 4*교재 5.2입니다. (영문: 187p~190p, 국문:214p~217p)The Bootstrap (11:29)https://www.youtube.com/watch?v=p4BYWX7PTBM&list=PL5-da3qGB5IA6E6ZNXu7dp89_uv8yocmf 1. 부트스트랩 Example 위의 내용을 요약하면 아래와 같습니다. 두가지 재정자산 A와 B에 투자를 했을 때, A는 X라는 return을 B는 Y라는 return을 내놓습니다. 그래서 A에는 얼마를 B에는 얼마를 투자할지 수익을 최대화하는 비율(알파)를 정해야 합니다. 여기에서는 그러한 방법을 Bootstrap이라는 방법을 도입하여 해결합니다. Bootstrap은 복원샘플입니다. 여기에서는 전체 dat..

EDA Study/수학 2018. 12. 2. 17:51

Day 17 : Cross-validation: right and wrong

*가볍게 시작하는 통계학습 3주차 Day 3*교재 5.1.4, 5.1.5입니다. (영문: 183p~187p, 국문:210p~214p)Cross-Validation: The Right and Wrong Ways (10:07)https://www.youtube.com/watch?v=S06JpVoNaA0&list=PL5-da3qGB5IA6E6ZNXu7dp89_uv8yocmf 개인적으로 이 부분은 필요없어 보입니다.

EDA Study/수학 2018. 12. 2. 16:32

Day 16 : K-fold Cross-Validation

가볍게 시작하는 통계학습 3주차 Day 2 교재 5.1.2, 5.1.3을 공부하시면 됩니다. (영문: 178p~182p, 국문:205p~210p)K-fold Cross-Validation(13:33)https://www.youtube.com/watch?v=nZAM5OXrktY&list=PL5-da3qGB5IA6E6ZNXu7dp89_uv8yocmf K-fold Cross-Validation K-Fold Cross Validation은 Validation 과정을 총 K번 하는것을 의미합니다. 가운데 KFOLD 이미지는 4-Fold의 경우입니다. 트레인 / Validation을 4개로 나누어서 모든 데이터를 학습에 참여시키려는 목적을 가지고 있습니다. 만일 K가 데이터의 사이즈와 똑같은 경우에는 마지막 그림인..

EDA Study/수학 2018. 12. 2. 16:28

Day15 : Resampling Methods

Ch5: Resampling Methods *슬라이드*https://lagunita.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/cv_boot.pdf 교재 5.1.1을 공부하시면 됩니다. (영문: 176p~178p, 국문:202p~205p) *강의*Estimating Prediction Error and Validation Set Approach (14:01)https://www.youtube.com/watch?v=_2ij6eaaSl0&list=PL5-da3qGB5IA6E6ZNXu7dp89_uv8yocmf Training - versus Test set Training Sample에 대해 에러를 구하는 것은 Training Error이고 Test Sam..

EDA Study/수학 2018. 12. 2. 15:14

이전 Prev 1 Next 다음

목록2018/12 (9)

TEAM EDA

티스토리툴바