일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- eda
- 스택
- 튜토리얼
- 한빛미디어
- DilatedNet
- TEAM EDA
- DFS
- Python
- 협업필터링
- pytorch
- 나는 리뷰어다
- 프로그래머스
- MySQL
- TEAM-EDA
- 엘리스
- Machine Learning Advanced
- 3줄 논문
- 입문
- 코딩테스트
- Object Detection
- 큐
- Semantic Segmentation
- Segmentation
- 나는리뷰어다
- hackerrank
- 알고리즘
- Image Segmentation
- 추천시스템
- Recsys-KR
- 파이썬
- Today
- Total
목록EDA Project (26)
TEAM EDA
안녕하세요, 이번 포스팅에서는 K-사이버 시큐리티 2020 아이온 게임봇 탐지대회의 분석 방법론에 대해 설명해 드리고, 간단한 참가 후기를 정리해볼 예정입니다. 해당 코드는 깃허브에서 볼 수 있고 영상은 유튜브에서 보실 수 있습니다. K-사이버 시큐리티 2020 아이온 게임봇 탐지대회 해당 대회는 KISA와 고려대학교 정보보안학과 해킹탐지 연구소의 주최로 진행되는 대회였습니다. 주제는 '게임 데이터를 분석하여 높은 정확도로 게임봇을 탐지할 수 있는** 머신러닝 & AI 기반 알고리즘 개발' 입니다. 게임봇은 사전적인 정의상 '사람을 대신하여 자동으로 게임플레이를 해주는 프로그램'입니다. 게임봇을 이용한 “작업장”은 MMORPG와 온라인 게임 내 재화, 아이템의 환금성을 악용하여 대량의 캐릭터를 운용하여 ..
지난 House price Advanced Regression에 이어 이번 EDA 2기 두번째 프로젝트로 진행했던 KUC Hackathon Winter 2018 : What can you do with the Drug Review dataset?(https://www.kaggle.com/jessicali9530/kuc-hackathon-winter-2018)에 대한 분석 보고서입니다. (+추가) 이번 해커톤 우승팀중 하나인 저희팀의 인터뷰입니다.(http://blog.kaggle.com/2019/01/14/kuc-teameda/) 이번 대회는 캐글을 하는 대학생팀들을 위한 해커톤으로 따로 문제가 있는 것이 아니라 팀별로 주제를 선정해서 한달 동안 각자의 분석을 진행하는 대회였습니다. 개인적으로 자연어처리..
이번 자료는 지난 자료 House Prices: Advanced Regression Techniques(https://eda-ai-lab.tistory.com/8?category=765157)에 이어서 부족한 부분을 보충해보도록 하겠습니다. 목차 결측치 처리 변수 탐색 모델 해석 1. 결측치 처리 이 대회를 하면서 핵심 중 하나는 데이터의 많은 결측치를 처리하는 부분이었습니다. 이를 해결하기 위해서 결측치가 어떤 식으로 분포해 있고, 어떤 식으로 해결할지에 대해서 분석해보도록 하겠습니다. 81개의 변수 중 40% 정도인 34개의 변수가 결측치를 가지고 있고 몇몇 변수의 경우는 결측치의 비율이 75%가 넘어갑니다. 특징적인 부분으로는 결측치의 비율이 같은 변수들이 있는데, 5.44% : GarageFini..
대회 일정 : 2019.11.07 ~ 2019.11.08 팀원 : 김현우 주제 : 자동차용 침입탐지 문제 : 차량 내부 네트워크 데이터셋 기반의 침입 탐지를 할 수 있는 알고리즘 및 프로그램을 제시하시기 바랍니다. 정상적인 차량 네트워크에서 차량 공격에 대한 침입탐지 데이터셋 설명 구분설명 예선 데이터셋 차량 내부 네트워크 데이터 학습용 / 제출용 데이터셋 학습용 데이터셋 3개 차종 (SPARK, SONATA, SOUL)들에 대한 데이터셋 (Attack free, Flooding 공격, Fuzzy 공격, Malfunction 공격) 12개 파일 제출용 데이터셋 Class 라벨링이 제외된 데이터셋 7개 파일 본선 데이터셋 예선과 유사한 공격 유형의 새로운 데이터셋
1. 자바 설치 - https://java.com/ko/download/ 2. Spark 설치 - http://spark.apache.org/downloads.html3. winutils.exe 설치 - http://github.com/steveloughran/winutils4. Pyspark 설치- python -m pip install findspark5. 설치 확인 import findsparkfindspark.init() import pysparkfrom pyspark.sql import SparkSessionspark = SparkSession.buider.getOr.Create()df = spark.sql("select 'spark' as hello") df.show() 만약, 위와 같은 과정..
대회 일정 : 2019.10.26 ~ 2019.11.08 팀원 : 김현우, 김경환 주제 : 게임봇(Game Bot) 탐지 문제 : MMORPG와 같은 온라인 게임에서 게임 내 재화, 아이템의 환금성을 악용하여 대량의 캐릭터를 운용하여 수입을 얻는 “작업장”은 게임 밸런스를 해치고 게임 회사와 일반 이용자에게 큰 피해를 주고 있습니다.작업장에서 이용하는 게임봇은 환금성이 있는 재화나 아이템을 채굴하기 위해 특정 행위를 반복하는 경우가 많습니다.데이터셋 설명구분설명예선 데이터셋AION 게임 로그 15일치의 게임 로그 (2010.04.16~2010.04.30) 일반유저/게임봇 계정 목록 로그에 포함된 일부 유저 계정의 실제 클래스 (일반유저 7500개, 게임봇 600개) 제출용 계정 목록 분석결과를 제출해야 ..
[빅콘테스트2019] 데이터탐색을 토대로 얻은 아이디어를 통해서 모델링을 한 과정입니다. 1. 전처리 [빅콘테스트2019] 데이터탐색에서 확인한 내용을 토대로 전처리를 한 부분은 아래와 같습니다. Train에만 존재하는 이벤트의 영향을 줄이기. 통신오류로 인해 낚시시간 > 플레이시간 혹은 30레벨 미만인데 낚시시간이 있는 경우 조정. Train과 Test의 플레이타임 등 스케일이 다른 것을 조정하기 위해서 파일별로 Normalization. 2. 28일의 정보를 1주차, 2주차, 3주차, 4주차의 평균으로 계산 기존의 데이터는 1일부터 28일까지 제공되었고, 이를 그대로 학습하게 될 경우 유저별로 다른 접속패턴에 의해서 모델이 안좋을 수 있습니다. 예를 들어서, 직장인의 경우 주말에만 접속할 가능성이 높..
빅콘테스트 2019 주제 : 게임 활동 데이터를 활용하여 “게임유저 잔존가치를 고려한 고객 이탈 예측 모형” 개발 엔씨소프트에서 제공하는 ‘리니지’ 고객 활동 데이터를 활용하여 향후 고객 이탈 방지를 위한 프로모션 수행 시 예상되는 잔존가치를 산정하는 예측 모형 개발 기간 : 2019.07.17 ~ 2019.09.10 0. Overview 데이터 activity: 캐릭터별 활동이력. combat : 캐릭터별 전투이력 pledge : 소속 혈맹 전투 활동 정보 trade : 거래 이력 payment : 결제 이력 day, server, acc_id, char_id 4가지에 의해서 결합되는 형태이고, payment의 경우는 char_id가 따로 없이 char_id의 모든합을 acc_id의 payment에 넣..
카카오 아레나 후기 안녕하세요. TEAM-EDA라는 팀명으로 대회에 나간 김현우라고 합니다. 다른분들에게 도움이 되고자 저희팀의 분석과정및 후기를 정리했습니다. 동기 카카오 추천팀 입사지원 혜택 추천시스템 분야에 대한 도전 분석과정 참고자료의 분석 카카오 추천시스템팀의 분석 브런치 / 유튜브 플랫폼 분석 EDA 진행 베이스라인 생성 및 모델 개선 베이스라인 최종 모델 코드 어려움 추천시스템이라는 생소한 분야 Github통해서 제출하는 점 대회기간이 한달로 짧은 점 소숫점까지 같을 때 sort의 순서가 바뀌는 문제 3가지 스코어를 모두 만족해야 하고 점수가 랭크로 체점되는 점 느낀점 대회기간이 짧고 하루에 제출이 10개까지 가능한 점에서 대회가 되게 속도감이 있었습니다. 그러다보니 많은 실험을 하고 분석하..
TEAM-EDA Kakao Arena Brunch Recommendation 설명 : 베이스라인을 토대로 계속 모델을 개선해서 만든 최종 모델입니다. 링크 : https://github.com/yeonmin/team-eda-brunch-recommendation 점수 : (공개) 0.095604 (3) 0.193543 (4) 10.921002 (3) / (파이널) 0.096109 (3) 0.191240 (8) 11.215200 (3) 폴더 구조 카카오 베이스라인 구조와 동일. res 폴더는 아래와 같이 폴더 구성 submission 폴더에 recommend.txt 파일 생성됨 . ├── res │ ├── predict │ │ └── test.users │ ├── read │ │ ├── 2018100010..