일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 나는 리뷰어다
- pytorch
- MySQL
- 엘리스
- Segmentation
- DilatedNet
- 협업필터링
- DFS
- Machine Learning Advanced
- 입문
- 한빛미디어
- 코딩테스트
- TEAM-EDA
- Image Segmentation
- 추천시스템
- Recsys-KR
- Semantic Segmentation
- 나는리뷰어다
- TEAM EDA
- 3줄 논문
- 프로그래머스
- 알고리즘
- Object Detection
- 큐
- Python
- 튜토리얼
- 스택
- 파이썬
- hackerrank
- eda
- Today
- Total
목록TEAM EDA /EDA 1기 ( 2018.03.01 ~ 2018.09.16 ) (10)
TEAM EDA
기간 : 2018.07.01 ~ 2018.07.29 멤버 : 김현우, 박주연, 이주영 데이터 : Favorita Grocery Sales ( https://www.kaggle.com/c/favorita-grocery-sales-forecasting ) 주제 : 전통적인 수요 예측 모델과 최신 모델 사이의 성능비교 결과 : 예선 탈락 분석자료 : https://eda-ai-lab.tistory.com/158?category=725446 피드백(비공개) : https://eda-ai-lab.tistory.com/159?category=725446
기간 : 2018.07.10 ~ 2018.11.30 멤버 : 김현우, 박주연, 이주영, 이지예, 민은주 주제 : 금융 데이터를 활용한 “나의 금융생활정보 지수” 개발 결과 : 우승(과학기술부 장관상) 이번 자료의 내용은 다음의 링크에 정리해두었습니다. 링크 : https://eda-ai-lab.tistory.com/166 피드백(비공개) : https://eda-ai-lab.tistory.com/167
NOTE : 이번 자료는SRK님의 글을 토대로 외부자료의 내용을 가져와서, 직접 모델링 코드를 짜보도록 하겠습니다. 외부자료 다른 주에있는 날씨 데이터가 이 포럼 게시물에 있습니다. santiagomota의 csv 파일. 이 게시물에는 주에 상점을 매핑하는 데이터가 있습니다.[코드] 2014 년 7 월 1 일에서 2014 년 12 월 31 일 사이에 시리즈 중간에 180 개의 데이터가 184 일 누락되어여기에 볼 수 있습니다. 테스트 집합의 저장소 622에서 "열림"열에 대한 누락 된 데이터 중 일부는 이게시물에서 볼 수있는 0으로 바꿀 수 있습니다 월드컵 날짜에 대한 외부 데이터 포럼 게시물의 매크로 표시기 데이터 Google 트렌드데이터 그 외 참고 할 만한 시도들. 실업률시도 소비자 물가 지수,월별..
Note : 이번자료는 집적만든 자료가 아니라 Rossmann Store sales Prediction을 진행하고 있는 다른사람들의 EDA자료를 살펴봄으로써 데이터 탐색을 하는 방법과 다양한 아이디어를 얻어보도록 하겠습니다. 원문저자의 허락을 받아서 번역을 진행하였고 원문의 링크는 아래와 같습니다. Python : Time Series Analysis and Forecasts with Prophet by elenapetrova (https://www.kaggle.com/elenapetrova/time-series-analysis-and-forecasts-with-prophet) 저자 : elenapetrova (Blog: https://datageekette.com , instagram: @datagee..
Author: Team-EDA 김현우,박주연,이주영,이지예,주진영,홍정아 NOTE : 아래의 자료는 Christian Thieli의 자료를 토대로 스터디원이 함께 배운 내용과 IDEA를 추가해서 만든 자료입니다. 첫번째 자료에서는 Vote가 가장높은 자료를 토대로 팀원들의 아이디어를 합쳐서 데이터 탐색을 진행하고, 두번째 자료에서는 다른사람들의 EDA자료를 통해서 아이디어를 더 발굴할 것 입니다. 마지막으로는 얻을 아이디어를 통해서 모델링을 하도록 하겠습니다. 1. 대회 소개 ( Introduction ) 2.데이터 설명 ( Data Description ) 3.패키지 설치 및 불러오기 ( Retrieving the Data ) 4.데이터 구조 확인 ( Data Structure ) 5.데이터 전처리 (..
Note: 이번 내용은 Jaeyoon Han님의 자료를 저희 스터디원이 진행 한 발표내용을 중심으로 추가적인 discussion을 정리했습니다. 의사결정나무의 개념과 추가적인 내용 및 파이썬 코드에 관한 부분은 아래의 링크를 참고하시기 바랍니다. 개인적으로 이해한 내용으로 작성한 자료니 틀린 부분이나 모르는 부분은 댓글로 남겨주시기 바랍니다!!! 의사결정나무는 마치 스무고개를 하듯이 Rules에 의해서 Predictors로 Target을 예측하는 모델입니다. 위의 내용에서 Play Golf라는 목적값을 예측하기 위해서 날씨(Outlook), Temp(온도) ,습도(Humidity), 바람(windy)의 4가지 요소를 나누는 것입니다. 오른쪽 그림에서 예를 들면 Outlook이 Sunny이고 Windy가 ..
Note: 이번 내용은 Jaeyoon Han님의 자료를 저희 스터디원이 진행 한 발표내용을 중심으로 추가적인 discussion을 정리했습니다.회귀분석의 개념과 추가적인 내용 및 파이썬 코드에 관한 부분은 아래의 링크를 참고하시기 바랍니다. 개인적으로 이해한 내용으로 작성한 자료니 틀린 부분이나 모르는 부분은 댓글로 남겨주시기 바랍니다!!! 링크 : http://blog.naver.com/choco_9966/221254266558 목차 1. 지도학습/비지도학습/강화학습의 개념 2. 선형회귀법(Linear Regression) 3. 선형회귀법 실습 with R 1. 지도학습/비지도학습/강화학습의 개념 지도학습 (Supervised Learning) 목적값을 알고있는 data를 가지고 기계학습 알고리즘을 진..
NOTE: 대부분의 내용은 https://blog.naver.com/tjdudwo93/220976082118을 기반으로 Titanic 데이터에 실습을 적용하는 것으로 진행됩니다. 군밤고굼님의 설명에 따르면 결측치를 살펴보는 과정은 아래와 같은 과정으로 진행됩니다. 1. 결측 데이터의 종류 | 2. 결측값 유형 탐색하기 (표 만들기, 결측치간 상관관계) | 3. 결측 데이터의 원인 및 각각의 원인에 따른 처리 방법론 | 4. 결측치 처리 방법 선택 ( 1. 합리적 접근법 ) | 5. 결측치 처리 방법 선택 ( 2. 완전제거법 ) | 6. 결측치 처리 방법 선택 ( 3. 다중대체 ) 1. 결측 데이터의 종류 데이터가 누란 된 이유를 이해하는 것은 나머지 데이터를 올바르게 처리하는 데 중요합니다. 결측 데이터..
1.EDA란? 1) 정의 수집한 데이터가 들어왔을 때, 이를 다양한 각도에서 관찰하고 이해하는 과정입니다. 한마디로 데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정입니다. 2) 필요한 이유 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 더 잘 이해하고, 데이터에 대한 잠재적인 문제를 발견할 수 있습니다. 이를 통해, 본격적인 분석에 들어가기에 앞서 데이터의 수집을 결정할 수 있습니다. 다양한 각도에서 살펴보는 과정을 통해 문제 정의 단계에서 미쳐 발생하지 못했을 다양한 패턴을 발견하고, 이를 바탕으로 기존의 가설을 수정하거나 새로운 가설을 세울 수 있습니다. 3) 과정 기본적인 출발점은 문제 정의 단계에서 세웠던 연구 질문과 가설을 바탕으로 분석 계획을 세..
1기 (2018-03-25 ~ 2018-09-16) 기본적인 전처리 기법과 대표적인 분석방법인 선형회귀와 의사결정나무에 대해서 배우고, 다양한 프로젝트를 진행하여 연습하였습니다. 이론 Exploratory Data Analysis Missing Value Visualization Regression Decision Tree 프로젝트 Kaggle - Rossmann [상위10%] EDA #1 EDA #2 Model 네이버 데이터 컴피티션 2018 [예선탈락] 빅콘테스트 Innovation 금융 [대상] 신한은행 협엽 프로젝트