일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 엘리스
- MySQL
- hackerrank
- 한빛미디어
- 협업필터링
- eda
- 큐
- DFS
- 스택
- Segmentation
- DilatedNet
- 나는 리뷰어다
- 알고리즘
- TEAM EDA
- 파이썬
- Machine Learning Advanced
- Semantic Segmentation
- 튜토리얼
- 입문
- Object Detection
- Image Segmentation
- 프로그래머스
- 3줄 논문
- Python
- 추천시스템
- TEAM-EDA
- Recsys-KR
- 나는리뷰어다
- pytorch
- 코딩테스트
- Today
- Total
목록2023/08/07 (3)
TEAM EDA

이번 강의에서는 변수의 선택 (Feature Selection)에 대해 알아보겠습니다. 변수의 선택은 파생 변수가 만들어진 이후에 진행되기도 하고, 모델의 학습이 끝난 이후에 진행되기도 합니다. 어떤 방법, 모델, 목적에 따라 다른 모습을 보이는데 이번 강의에서는 Feature Selection의 의미와 왜 해야 하는지, 어떤 방법들이 있는지 살펴보고 마지막으로 최근 대회에서 사용되는 실용적인 기법들을 보면서 마무리하겠습니다. Feature Selection이란 무엇이고 왜 해야하는 것일까요? Feature Selection (변수 선택)은 학습에 필요한 변수들을 선택하는 과정을 의미합니다. 이 과정을 통해서 변수를 줄이게 되면 얻는 장점은 1. 차원의 저주 (Curse of Dimensionality)..

이전의 강의까지 해서 변수란 무엇인지, 변수에 결측치나 이상치가 있는 경우 어떻게 처리하는지, 연속형 변수의 값을 어떻게 변환하는지에 대해 살펴봤습니다. 이번 강의에서는 범주형 변수와 그 외 변수의 인코딩, 임베딩 방법에 대해 알아보도록 하겠습니다. 범주형 변수는 무엇이며 왜 처리해야하는 것일까요? 정형 데이터에서 범주형 변수를 처리하는 방법은 되게 까다롭습니다. 범주형 변수란 일종의 카테고리를 가지는 변수를 의미합니다. 예를들어 식물의 종도 일종의 카테고리가 되고 음식점의 종류 등 어떠한 집단을 의미하는 변수들을 의미합니다. 이러한 변수들은 컴퓨터가 인식할 수 없기에 인식할 수 있도록 해주는 작업이 필요합니다. 대표적으로 많이 알려진 방법으로는 One-Hot Encoding, Label Encoding..

이전 강의인 [Machine Learning Advanced] 2강. 머신러닝 강의 - 데이터 전처리 (결측치)에 이어서 이상치에 대해서 살펴보도록 하겠습니다. 이상치란 무엇일까요? 이상치(outlier)는 일반적인 데이터 패턴에서 벗어나거나 예외적인 값을 가지는 데이터 포인트를 의미합니다. 이러한 이상치는 주로 측정 오류, 혹은 특이한 상황 등으로 인해 발생하는 값입니다. 이러한 이상치는 통계적 결과를 왜곡 하는 원인이 되기도 하고, 모델의 학습을 방해하는 요소이기도 원인을 파악하고 원인에 따른 처리를 하는게 중요합니다. 예를들어, 위의 그래프처럼 축구선수의 평균연봉은 222000으로 크게 느껴지지만, 메시라는 선수 한명을 제외하면 10배 가까이 확 낮아지는 것을 볼 수 있습니다. 그렇기에, 이런 이상..