일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- TEAM EDA
- Recsys-KR
- Machine Learning Advanced
- 알고리즘
- Image Segmentation
- 큐
- 튜토리얼
- Object Detection
- TEAM-EDA
- 파이썬
- MySQL
- Python
- 스택
- 한빛미디어
- 협업필터링
- pytorch
- 나는리뷰어다
- DilatedNet
- 입문
- 프로그래머스
- 나는 리뷰어다
- Segmentation
- Semantic Segmentation
- DFS
- hackerrank
- 코딩테스트
- 3줄 논문
- eda
- 추천시스템
- 엘리스
- Today
- Total
목록전체 글 (287)
TEAM EDA
올해 Recsys 2023 Challenge에 나가서 직장인 리더보드 순위 9등, 발표 당시 추정 5등을 달성했습니다. 관련한 발표 자료 공유드립니다.
이전 강의인 [Machine Learning Advanced] 1강. 머신러닝 강의 - 강의 개요에서는 머신러닝의 전체 프로세스를 살펴보면서 어떤 과정을 통해서 머신러닝을 적용하는지, 프로세스의 어떤 부분들을 강의에서 다루게 될지에 대해 살펴봤습니다. 이번 강의에서는 데이터의 전처리에 대해 살펴보겠습니다. 2강의 경우는 총 4개의 글로 구성되었으며 (데이터의 정의와 구성요소 / 결측치의 처리 / 이상치의 처리 / 범주형 변수의 처리) EDA 과정에 대해서는 따로 배우지는 않을 예정입니다. 만일 EDA에 관심이 있으신 분은 저의 예전 글을 참고하시기 바랍니다. Tabular 데이터는 무엇일까요? 데이터(Data)는 정보를 나타내는 숫자, 문자 또는 기호의 집합입니다. 데이터는 현실 세계에서 수집되거나 생성..
Machine Learning은 기계 학습이라고도 불리며, 컴퓨터에게 데이터를 제공하여 스스로 데이터의 패턴을 학습하고 결정을 내릴 수 있도록 만드는 것입니다. 그러면 우리는 왜 Machine Learning을 알아야 할까요? 크게는 3가지 이유가 있는 것 같습니다. 1. 구직시장에서의 새로운 기회 제일 중요한 부분인데 취업에서의 새로운 기회입니다. 머신러닝 분야에서의 전문가들은 현재 매우 높은 수요를 누리고 있으며 실력만 있으면 좋은 회사의 취업이 가능합니다. 저의 경우도 산업공학과를 나와 선배들처럼 생산시스템이나 물류관리쪽을 갈 수도 있었지만, 머신러닝쪽을 공부해서 AI Research Engineer가 될 수 있었습니다. 주변 친구들 중에서도 경영학과나 경제금융학과의 친구들이 머신러닝을 배워 데이터..
이번 글에서는 캐글에서 활용되는 알아두면 좋은 몇가지 팁들에 대해 알아보도록 하겠습니다. 먼저, 베이스라인을 만든 이후에 고려하면 좋을 사항들에 대해서 살펴본 이후 마지막 성능을 쥐어짤 테크닉들을 몇개 살펴보겠습니다. 실험을 하기 전 고려하면 좋을 사항들 첫째, 디버깅 모드가 있습니다. 디버깅은 프로그래밍에서 오류를 찾아내고 수정하는 필수적인 과정입니다. 특히 머신러닝에서는 전체 프로세스가 상당히 시간이 오래 걸리기 때문에 디버깅의 중요성이 크게 증가합니다. 예를 들어, Amazon KDD 추천 대회에 참여했을 때 전체 파이프라인을 완료하는 데 2~3일이 걸렸습니다. 딥러닝 대회에서도 학습 단계만으로 며칠이 소요되는 경우가 흔하며, 최근 인기 있는 LLM 모델의 경우 학습에 몇 십일이 걸릴 때도 있습니다..
연속형 변수를 전처리해야하는 이유는 무엇이 있을까요? 첫째, 일부 머신러닝 알고리즘은 입력 변수의 스케일에 따라 영향을 받아 학습이 불안정할 수 있습니다. 예를들어, 최근접이웃모델(KNN)의 경우 스케일의 전 후에 따라서 모델의 결과가 완전히 달라집니다. 해당 모델의 경우 간단하게 설명하면 새로운 입력이 들어왔을때 자신과 거리가 가까운 K개의 다른 데이터와 거리를 통해 분류 (or 회귀)를 수행하는 방법입니다. 하지만, 하나의 변수의 스케일이 너무 클 경우 거리의 계산이 해당 변수에 의해서만 진행됩니다. 유킬리디안 거리를 통해 보면 x가 proline, y가 hue로 보면거리가 proline 부분이 (800-700)^2으로 만단위이고 hue가 (1-0)^2으로 일의 단위라서 proline 변수에 의해서 ..