일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- hackerrank
- Machine Learning Advanced
- 추천시스템
- DFS
- TEAM-EDA
- eda
- 입문
- 스택
- Semantic Segmentation
- 튜토리얼
- DilatedNet
- 파이썬
- 알고리즘
- Segmentation
- Image Segmentation
- MySQL
- TEAM EDA
- 협업필터링
- pytorch
- Python
- 프로그래머스
- 한빛미디어
- 나는리뷰어다
- 엘리스
- 큐
- 코딩테스트
- 나는 리뷰어다
- Recsys-KR
- Object Detection
- 3줄 논문
- Today
- Total
목록전체 글 (287)
TEAM EDA
이번 강의에서는 머신러닝 모델 중에서 Non-Linear 모델 중 두번째인 KNN(K-Nearest Neighborhood) 방법에 대해 알아보도록 하겠습니다. KNN 모델이란 무엇이고 왜 알아야 하는 것일까요? KNN (최근접 이웃법)은 비선형모델의 하나로서 Tree 방식과는 다르게, 가장 가까운 K개의 데이터를 보고 해당 데이터가 속할 그룹을 판단하는 방법입니다. 아래의 예시에서는 삼각형에 대한 분류를 K=1일때는 보라색 사각형으로, K=3일때는 핑크색 원으로 분류한 것을 볼 수 있습니다. 이러한 KNN은 모델을 별도로 구축하지 않는다는 의미로 게으른 모델(Lazy model)이라고 부르기도하고, memory-based learning, instance based model 등 여러 표현으로 부르기도..
이번 강의에서는 파생 변수를 만드는 방법(Feature Engineering)에 대해 알아보겠습니다. 파생 변수를 만드는 것은 ML의 성능을 좌지우지하는 가장 중요한 부분 중 하나입니다. 대회에서 많은 사람들이 시간을 투자하는 부분이고, 많이 어렵기도 한 부분입니다. 도메인이나 데이터의 특성마다 적용하는 방법이 다르며, 데이터의 분석이 뒷받침이 되어야 의미가 있는 경우도 많습니다. 해당 강의에서는 일반적으로 적용할 수 있는 Feature Engineering 기법들에 대해 살펴보고, 몇몇 사례를 통해서 특정 데이터나 도메인에 대해 파생 변수를 어떻게 만들었는지 익혀보겠습니다. 파생변수란 무엇이고, 왜 중요할까요? 파생변수란 기존의 데이터를 통해서 새롭게 만들어 낸 변수를 의미합니다. 이전에 배웠던 연속형..
이번 강의에서는 머신러닝 모델 중에서 Non-Linear 모델 중 첫번째인 의사 결정 나무(Decision Tree)에 대해 살펴보도록 하겠습니다. Tree 모델이란 무엇이고 왜 알아야 하는 것일까요? 트리 구조의 모델은 스무고개처럼 여러 개의 분기를 통해 데이터 내의 규칙을 찾아 Tree 구조로 데이터를 분류 / 회귀하는 모델입니다. 선형 모델과 달리 비선형 데이터의 패턴을 파악할 수 있다는 장점이 있으며, 최근 경진대회에서 사용되는 모델들인 LightGBM이 Tree 기반의 모델입니다. 이러한 Tree 모델들의 경우 의사결정 나무(Decision Tree)를 시작으로 Random Forest, AdaBoost, GBM 등 많은 확장을 가졌으며 현업에서 굉장히 중요한 모델 중 하나입니다. 실제 Ligh..
이번 강의에서는 머신러닝 모델 중에서도 특히, 선형 모델인 선형 회귀 (Linear Regression)에 대해 살펴보도록 하겠습니다. 선형 회귀가 어떤 것인지 개념에 대해 살펴본 후, 해당 모델의 장점, 주의해야할 점, 단점에 대해 살펴본 후 해당 모델의 한계를 개선할 모델인 Ridge, Lasso, ElasticNet에 대해 살펴보겠습니다. 선형 회귀란 무엇이고 왜 해야하는 것일까요? 선형 회귀는 x라는 독립변수(independent variable)에 대해서 y라는 종속변수(dependent variable)의 관계를 선형으로 학습하는 방법을 의미합니다. 여기서 독립변수 x가 한개인 경우 (ex. y = b0 + b1*x1)를 단순 선형 회귀라고 하고, x가 여러개인 경우를 다중 선형 회귀라고 부릅..
이번 강의서부터는 본격적으로 모델들에 대해 알아보겠습니다. 머신러닝 모델 프로세스에서 이제까지 배운 것들을 상기해보면, 저희는 데이터가 있다고 가정했을때 전처리를 진행했습니다. 해당 과정에서 결측치, 이상치에 대해 처리를 했고 연속형 변수와 범주형 변수를 컴퓨터가 더 잘 이해할 수 있도록 만들었습니다. 그리고, 필요에 따라 파생 변수의 생성 또한 진행했습니다. 이제 이렇게 준비한 재료들을 기반으로 모델을 구울 차례입니다. 모델의 종류가 어떤 것들이 있는지 대표 모델들에 대해서 살펴본 이후에, 최근 대회에서 많이 사용하는 Boosting 계열의 모델인 LightGBM과 CatBoost에 대해 공부해보겠습니다. 머신러닝 모델의 종류 먼저, 머신러닝 모델은 목적에 따라 분류를 수행하는 분류 모델과 예측을 진행..