일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- DFS
- Segmentation
- 프로그래머스
- 엘리스
- Object Detection
- Machine Learning Advanced
- 협업필터링
- 튜토리얼
- 나는리뷰어다
- TEAM-EDA
- pytorch
- 입문
- Semantic Segmentation
- eda
- 스택
- 파이썬
- 알고리즘
- 한빛미디어
- 코딩테스트
- 3줄 논문
- 나는 리뷰어다
- Recsys-KR
- Python
- DilatedNet
- 추천시스템
- 큐
- Image Segmentation
- MySQL
- TEAM EDA
- hackerrank
- Today
- Total
목록2019/09 (35)
TEAM EDA
2019.09.17 회의 아파트 실거래가 데이터를 활용하여 이상치 탐지 거래내역 현재 부동산 거래를 하면 계약 체결일부터 60일 이내에 관할 시군구에 실거래가 신고를 해야 한다. 그런데 신고를 허위로 하는 경우가 많다. 2016년에만 실거래가 신고 위반이 3884건이나 됐다. 지난해에도 6월까지 신고 위반이 2748건이나 됐다. 특이한 점은 탈세를 노린 '다운 계약(실거래가 보다 낮은 금액으로 신고)'이 많지만, 가격을 올려 신고하는 '업계약'도 매년 200~300건씩 적발된다는 점이다. 이 자료는 김영진 더불어민주당 의원이 지난해 국정감사 때 국토부에서 제출받아 공개한 내용이다. [출처: 중앙일보] " 부동산 계약 취소해도 실거래가 그대로 남아" ...자전 거래 의혹에 신뢰 추락한 실거래가 공개시스템 ..
[빅콘테스트2019] 데이터탐색을 토대로 얻은 아이디어를 통해서 모델링을 한 과정입니다. 1. 전처리 [빅콘테스트2019] 데이터탐색에서 확인한 내용을 토대로 전처리를 한 부분은 아래와 같습니다. Train에만 존재하는 이벤트의 영향을 줄이기. 통신오류로 인해 낚시시간 > 플레이시간 혹은 30레벨 미만인데 낚시시간이 있는 경우 조정. Train과 Test의 플레이타임 등 스케일이 다른 것을 조정하기 위해서 파일별로 Normalization. 2. 28일의 정보를 1주차, 2주차, 3주차, 4주차의 평균으로 계산 기존의 데이터는 1일부터 28일까지 제공되었고, 이를 그대로 학습하게 될 경우 유저별로 다른 접속패턴에 의해서 모델이 안좋을 수 있습니다. 예를 들어서, 직장인의 경우 주말에만 접속할 가능성이 높..
빅콘테스트 2019 주제 : 게임 활동 데이터를 활용하여 “게임유저 잔존가치를 고려한 고객 이탈 예측 모형” 개발 엔씨소프트에서 제공하는 ‘리니지’ 고객 활동 데이터를 활용하여 향후 고객 이탈 방지를 위한 프로모션 수행 시 예상되는 잔존가치를 산정하는 예측 모형 개발 기간 : 2019.07.17 ~ 2019.09.10 0. Overview 데이터 activity: 캐릭터별 활동이력. combat : 캐릭터별 전투이력 pledge : 소속 혈맹 전투 활동 정보 trade : 거래 이력 payment : 결제 이력 day, server, acc_id, char_id 4가지에 의해서 결합되는 형태이고, payment의 경우는 char_id가 따로 없이 char_id의 모든합을 acc_id의 payment에 넣..
카카오 아레나 후기 안녕하세요. TEAM-EDA라는 팀명으로 대회에 나간 김현우라고 합니다. 다른분들에게 도움이 되고자 저희팀의 분석과정및 후기를 정리했습니다. 동기 카카오 추천팀 입사지원 혜택 추천시스템 분야에 대한 도전 분석과정 참고자료의 분석 카카오 추천시스템팀의 분석 브런치 / 유튜브 플랫폼 분석 EDA 진행 베이스라인 생성 및 모델 개선 베이스라인 최종 모델 코드 어려움 추천시스템이라는 생소한 분야 Github통해서 제출하는 점 대회기간이 한달로 짧은 점 소숫점까지 같을 때 sort의 순서가 바뀌는 문제 3가지 스코어를 모두 만족해야 하고 점수가 랭크로 체점되는 점 느낀점 대회기간이 짧고 하루에 제출이 10개까지 가능한 점에서 대회가 되게 속도감이 있었습니다. 그러다보니 많은 실험을 하고 분석하..
TEAM-EDA Kakao Arena Brunch Recommendation 설명 : 베이스라인을 토대로 계속 모델을 개선해서 만든 최종 모델입니다. 링크 : https://github.com/yeonmin/team-eda-brunch-recommendation 점수 : (공개) 0.095604 (3) 0.193543 (4) 10.921002 (3) / (파이널) 0.096109 (3) 0.191240 (8) 11.215200 (3) 폴더 구조 카카오 베이스라인 구조와 동일. res 폴더는 아래와 같이 폴더 구성 submission 폴더에 recommend.txt 파일 생성됨 . ├── res │ ├── predict │ │ └── test.users │ ├── read │ │ ├── 2018100010..
4. What is the Kakao Team Baseline ? 먼저, 우리팀의 베이스라인을 만들기 전에 주최측에서 만든 베이스라인을 확인하도록 하겠습니다. 주최측 베이스라인 링크 README.md의 파일 내용을 읽어보면, 추천방식은 Rule-based기반의 2월1일부터 3월1일까지 가장 인기가 좋았던 글 100건을 추천하는 방식이고 과정은 아래와 같습니다. 학습데이터와 개발데이터를 나눔. 개발데이터에서 평가할 사용자 리스트를 추출. 학습데이터로 만든 모델을 통해서 2에서 뽑은 사용자의 평가점수를 매김. 모든데이터를 학습데이터로 사용해서 3000명의 제출 모델을 만듬. 결론적으로, 제출물의 경우 아래와 같이 모든 유저 3000명이 똑같은 추천 결과물을 가지게 됩니다. -#user_1 @bakchacru..
이 글은 브런치 사용자를 위한 글 추천 대회 - 데이터 탐색(1)에서 이어지는 내용입니다. 이전의 내용이 카카오팀에서 진행하는 분석을 해석한 내용이라면 아래는 브런치와 유튜브를 탐색하면서 어떤식으로 추천시스템을 구성하는지 파악해본 자료입니다. 3) 브런치를 들어가보면서 얻은 아이디어 정리 로그인 하지 않았을 때의 화면 (컴퓨터) 평소에 브런치를 로그인해서 하지 않아서인지 로그인하고 들어가봐도 별로 달라진 것은 없었지만, 시간이 날때 폰과 컴퓨터를 통해서 브런치에서 어떤식으로 추천되는지 살펴봤습니다. 브런치 메인홈에서는 위의 4가지 사진에서 확인할 수 있는 것처럼 왼쪽 메뉴 : 브런치 홈, 브런치 나우, 브런치 책방으로 이루어져 있습니다. 홈에서는 위에서 볼 수 있는 사진이고 나우과 책방의 경우 각각 아래..
리스트와 링크드 리스트의 장점과 단점 스택, 큐 대표적인 자료구조 4가지 스택 : 마지막에 들어온 녀석이 먼저 나감 큐 : 먼저 들어온 녀석이 먼저 나감 스택과 큐는 두가지 원리를 가지고 그 이상도 그 이하도 아닙니다. 그렇다면 스택과 큐를 왜 사용할까요? 그 의미를 아는게 중요합니다. 스택이랑 큐는 언제 쓸까요? 스택은 상태(Status)를 저장하는 자료구조입니다. 예를들어, 아래의 그림과 같이 마켓에서 음식을 사러간다고 생각하겠습니다. 마켓에서 미역, 국간장, 후추를 사고 포인트를 적립하려고보니 집에 포인트 카드를 두고온 것을 기억했습니다. 그래서 집에 돌아가서 카드를 가져오려고하니 이번에는 세탁소에 맡긴 옷에 열쇠를 넣어둔게 기억이 났습니다. 이제 세탁소에 가서 열쇠를 찾고 집에가서 카드를 꺼내 마..
배열, 연결리스트, 클래스 데이터 구조 (자료구조)이란? 데이터 구조 : 데이터를 저장하는 구조 프로그래밍에서의 자료는 숫자를 의미 컴퓨터 공학의 기본적인 커리큘럼은 아래의 3가지로 구성됨 프로그래밍 언어 : Python, C / C ++ / Matlab 자료구조 : Stack, Queue, Tree (저장하는 방법) 알고리즘 : Brute-Force, Divide & Computer, Dynamic Programming (연산하는 방법) 예를들어, 아래와 같이 샴푸를 보관하는 통(자료구조)을 만들때 아래와 같이 4개를 생각할 수 있고 각자마다의 장단점이 있음. 즉, 나의 목적에 맞게 데이터를 담는 그릇을 디자인 해야한다. 변수, 리스트, 링크드 리스트 변수 : 가장 기본적인 자료구조 리스트 (List)..
원문 : https://www.kaggle.com/c/ieee-fraud-detection/discussion/108575#latest-624919 IEEE-CIS Fraud Detection Can you detect fraud from customer transactions? www.kaggle.com Feature Engineering Techniques Engineering features is key to improving your LB score. Below are some ideas on how to engineer new features. Create a new feature and then evaluate it with a local validation scheme to see if it..