지난 House price Advanced Regression에 이어 이번 EDA 2기 두번째 프로젝트로 진행했던 KUC Hackathon Winter 2018 : What can you do with the Drug Review dataset?(https://www.kaggle.com/jessicali9530/kuc-hackathon-winter-2018)에 대한 분석 보고서입니다. 코드(커널)은 https://www.kaggle.com/chocozzz/recommendation-medicines-by-using-a-review의 링크에 있습니다. (+추가) 이번 해커톤 우승팀중 하나인 저희팀의 인터뷰입니다.(http://blog.kaggle.com/2019/01/14/kuc-teameda/) 이번 대..
이번 자료는 지난 자료 House Prices: Advanced Regression Techniques(https://eda-ai-lab.tistory.com/8?category=765157)에 이어서 부족한 부분을 보충해보도록 하겠습니다. 목차 결측치 처리 변수 탐색 모델 해석 1. 결측치 처리 이 대회를 하면서 핵심 중 하나는 데이터의 많은 결측치를 처리하는 부분이었습니다. 이를 해결하기 위해서 결측치가 어떤 식으로 분포해 있고, 어떤 식으로 해결할지에 대해서 분석해보도록 하겠습니다. 81개의 변수 중 40% 정도인 34개의 변수가 결측치를 가지고 있고 몇몇 변수의 경우는 결측치의 비율이 75%가 넘어갑니다. 특징적인 부분으로는 결측치의 비율이 같은 변수들이 있는데, 5.44% : GarageFini..
Google Analytics Customer Revenue PredictionPredict how much GStore customers will spend 대회 목적 80/20 규칙은 많은 비즈니스에서 입증되었습니다. 적은 수의 고객 만이 대부분의 수익을 창출합니다. 따라서 마케팅 팀은 홍보 전략에 대한 적절한 투자를 유도해야합니다. RStudio는 팀을 위해 작업을 확장하고 공유 할 수있는 R 및 기업용 제품을위한 무료 및 개방형 도구 개발자로, Google Cloud 및 Kaggle과 파트너 관계를 맺어 철저한 데이터 분석에서 얻을 수있는 비즈니스 영향을 보여줍니다. 이 경쟁에서 고객 당 수익을 예측하기 위해 Google Merchandise Store (Google 판매원이 판매되는 GStore..
이번 EDA 2기 첫 프로젝트로 진행했던 kaggle의 House Prices: Advanced Regression Techniques(https://www.kaggle.com/c/house-prices-advanced-regression-techniques)에 대한 분석 보고서입니다. 코드(커널)은 https://www.kaggle.com/chocozzz/beginner-challenge-house-prices의 링크에 있습니다. 추가적으로 해당 내용에 대해 결측치 처리와 모델의 변수 중요도에 대한 해석이 들어간 자료는 [Kaggle] House Prices: Advanced Regression Techniques(2)를 참고하시기 바랍니다. 집의 가격을 예측하는 문제로 사용한 모델은 ridge,las..