일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- 한빛미디어
- 나는 리뷰어다
- DFS
- 추천시스템
- TEAM-EDA
- pytorch
- 알고리즘
- Python
- Object Detection
- 큐
- 프로그래머스
- eda
- 입문
- 협업필터링
- hackerrank
- DilatedNet
- Segmentation
- 튜토리얼
- 코딩테스트
- Machine Learning Advanced
- TEAM EDA
- 3줄 논문
- Semantic Segmentation
- 나는리뷰어다
- 엘리스
- Image Segmentation
- 스택
- MySQL
- Recsys-KR
- 파이썬
- Today
- Total
목록전체 글 (287)
TEAM EDA
이번 강의에서는 학습 된 모델을 평가하는 과정에 대해 알아보겠습니다. 주어진 데이터를 학습 및 검증, 평가 셋으로 나누는 방법론에 대해 배우고 장단점과 언제 어떤 방법을 선택할지에 대해 살펴봅니다. 평가함수에 대해 모델의 성능을 측정하고, 결과를 해석해서 머신러닝 프로세스를 반복하는 과정에 대해 이해해보도록 하겠습니다. 데이터 셋 분할은 무엇을 의미하며, 왜 하는 것일까요? 선택한 모델을 학습하기 위해서는 먼저 데이터를 Train / Valid / Test 총 3가지의 데이터로 나눠야 합니다. 일반적으로 저희가 가진 데이터는 전체 데이터의 일부분입니다. 그렇기에, 학습 데이터에서 엄청 잘 나온다고 실제 미래 데이터가 들어왔을때 잘 나온다는 보장이 없습니다. 그렇기에, 이러한 모델의 성능을 보장해줄 데이터..
이번 강의에서는 변수의 선택 (Feature Selection)에 대해 알아보겠습니다. 변수의 선택은 파생 변수가 만들어진 이후에 진행되기도 하고, 모델의 학습이 끝난 이후에 진행되기도 합니다. 어떤 방법, 모델, 목적에 따라 다른 모습을 보이는데 이번 강의에서는 Feature Selection의 의미와 왜 해야 하는지, 어떤 방법들이 있는지 살펴보고 마지막으로 최근 대회에서 사용되는 실용적인 기법들을 보면서 마무리하겠습니다. Feature Selection이란 무엇이고 왜 해야하는 것일까요? Feature Selection (변수 선택)은 학습에 필요한 변수들을 선택하는 과정을 의미합니다. 이 과정을 통해서 변수를 줄이게 되면 얻는 장점은 1. 차원의 저주 (Curse of Dimensionality)..
이전의 강의까지 해서 변수란 무엇인지, 변수에 결측치나 이상치가 있는 경우 어떻게 처리하는지, 연속형 변수의 값을 어떻게 변환하는지에 대해 살펴봤습니다. 이번 강의에서는 범주형 변수와 그 외 변수의 인코딩, 임베딩 방법에 대해 알아보도록 하겠습니다. 범주형 변수는 무엇이며 왜 처리해야하는 것일까요? 정형 데이터에서 범주형 변수를 처리하는 방법은 되게 까다롭습니다. 범주형 변수란 일종의 카테고리를 가지는 변수를 의미합니다. 예를들어 식물의 종도 일종의 카테고리가 되고 음식점의 종류 등 어떠한 집단을 의미하는 변수들을 의미합니다. 이러한 변수들은 컴퓨터가 인식할 수 없기에 인식할 수 있도록 해주는 작업이 필요합니다. 대표적으로 많이 알려진 방법으로는 One-Hot Encoding, Label Encoding..
이전 강의인 [Machine Learning Advanced] 2강. 머신러닝 강의 - 데이터 전처리 (결측치)에 이어서 이상치에 대해서 살펴보도록 하겠습니다. 이상치란 무엇일까요? 이상치(outlier)는 일반적인 데이터 패턴에서 벗어나거나 예외적인 값을 가지는 데이터 포인트를 의미합니다. 이러한 이상치는 주로 측정 오류, 혹은 특이한 상황 등으로 인해 발생하는 값입니다. 이러한 이상치는 통계적 결과를 왜곡 하는 원인이 되기도 하고, 모델의 학습을 방해하는 요소이기도 원인을 파악하고 원인에 따른 처리를 하는게 중요합니다. 예를들어, 위의 그래프처럼 축구선수의 평균연봉은 222000으로 크게 느껴지지만, 메시라는 선수 한명을 제외하면 10배 가까이 확 낮아지는 것을 볼 수 있습니다. 그렇기에, 이런 이상..
안녕하세요. 오랜만에 글로 찾아뵙게 되네요. 이번에 캐글 메달리스트가 알려주는 캐글 노하우라는 책을 출판하게 되었습니다. 총 8명의 저자가 각자의 파트를 맡아서 하나의 책으로 엮는 행태였는데 저는 IEEE-CIS Fraud Detection이라는 부분을 맡았습니다. 사실 작업은 3년전에 시작했지만, 이런저런 일들이 있으면서 올해 드디어 출판하게 되었네요. 몇몇 지인분들이 읽어주고 연락도 주셔서 기쁜 마음도 있지만 내가 쓴 글이 남들한테 어떻게 보이질 두려운 마음도 있는 것 같습니다. (확실한건 책은 다신 못쓸 것 같네요 ㅋㅋㅋ) 길고 긴 시간이었지만, 책 출판까지 도움주셨던 분들과 같이 작업하신 분들 너무 감사합니다. 그리고, 읽어주시는 분들께도 감사한 마음이며 이 책이 많은 도움이 되길 바랍니다.