일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 프로그래머스
- 알고리즘
- pytorch
- 협업필터링
- 튜토리얼
- MySQL
- Machine Learning Advanced
- 3줄 논문
- 스택
- Segmentation
- 나는 리뷰어다
- 나는리뷰어다
- TEAM EDA
- Object Detection
- 큐
- 엘리스
- Python
- TEAM-EDA
- hackerrank
- 추천시스템
- DilatedNet
- 코딩테스트
- Semantic Segmentation
- 파이썬
- Recsys-KR
- eda
- DFS
- Image Segmentation
- 한빛미디어
- 입문
- Today
- Total
목록전체 글 보기 (287)
TEAM EDA
이번 강의에서는 학습 된 모델을 평가하는 과정에 대해 알아보겠습니다. 주어진 데이터를 학습 및 검증, 평가 셋으로 나누는 방법론에 대해 배우고 장단점과 언제 어떤 방법을 선택할지에 대해 살펴봅니다. 평가함수에 대해 모델의 성능을 측정하고, 결과를 해석해서 머신러닝 프로세스를 반복하는 과정에 대해 이해해보도록 하겠습니다. 데이터 셋 분할은 무엇을 의미하며, 왜 하는 것일까요? 선택한 모델을 학습하기 위해서는 먼저 데이터를 Train / Valid / Test 총 3가지의 데이터로 나눠야 합니다. 일반적으로 저희가 가진 데이터는 전체 데이터의 일부분입니다. 그렇기에, 학습 데이터에서 엄청 잘 나온다고 실제 미래 데이터가 들어왔을때 잘 나온다는 보장이 없습니다. 그렇기에, 이러한 모델의 성능을 보장해줄 데이터..
이번 강의에서는 변수의 선택 (Feature Selection)에 대해 알아보겠습니다. 변수의 선택은 파생 변수가 만들어진 이후에 진행되기도 하고, 모델의 학습이 끝난 이후에 진행되기도 합니다. 어떤 방법, 모델, 목적에 따라 다른 모습을 보이는데 이번 강의에서는 Feature Selection의 의미와 왜 해야 하는지, 어떤 방법들이 있는지 살펴보고 마지막으로 최근 대회에서 사용되는 실용적인 기법들을 보면서 마무리하겠습니다. Feature Selection이란 무엇이고 왜 해야하는 것일까요? Feature Selection (변수 선택)은 학습에 필요한 변수들을 선택하는 과정을 의미합니다. 이 과정을 통해서 변수를 줄이게 되면 얻는 장점은 1. 차원의 저주 (Curse of Dimensionality)..
이전의 강의까지 해서 변수란 무엇인지, 변수에 결측치나 이상치가 있는 경우 어떻게 처리하는지, 연속형 변수의 값을 어떻게 변환하는지에 대해 살펴봤습니다. 이번 강의에서는 범주형 변수와 그 외 변수의 인코딩, 임베딩 방법에 대해 알아보도록 하겠습니다. 범주형 변수는 무엇이며 왜 처리해야하는 것일까요? 정형 데이터에서 범주형 변수를 처리하는 방법은 되게 까다롭습니다. 범주형 변수란 일종의 카테고리를 가지는 변수를 의미합니다. 예를들어 식물의 종도 일종의 카테고리가 되고 음식점의 종류 등 어떠한 집단을 의미하는 변수들을 의미합니다. 이러한 변수들은 컴퓨터가 인식할 수 없기에 인식할 수 있도록 해주는 작업이 필요합니다. 대표적으로 많이 알려진 방법으로는 One-Hot Encoding, Label Encoding..
이전 강의인 [Machine Learning Advanced] 2강. 머신러닝 강의 - 데이터 전처리 (결측치)에 이어서 이상치에 대해서 살펴보도록 하겠습니다. 이상치란 무엇일까요? 이상치(outlier)는 일반적인 데이터 패턴에서 벗어나거나 예외적인 값을 가지는 데이터 포인트를 의미합니다. 이러한 이상치는 주로 측정 오류, 혹은 특이한 상황 등으로 인해 발생하는 값입니다. 이러한 이상치는 통계적 결과를 왜곡 하는 원인이 되기도 하고, 모델의 학습을 방해하는 요소이기도 원인을 파악하고 원인에 따른 처리를 하는게 중요합니다. 예를들어, 위의 그래프처럼 축구선수의 평균연봉은 222000으로 크게 느껴지지만, 메시라는 선수 한명을 제외하면 10배 가까이 확 낮아지는 것을 볼 수 있습니다. 그렇기에, 이런 이상..
안녕하세요. 오랜만에 글로 찾아뵙게 되네요. 이번에 캐글 메달리스트가 알려주는 캐글 노하우라는 책을 출판하게 되었습니다. 총 8명의 저자가 각자의 파트를 맡아서 하나의 책으로 엮는 행태였는데 저는 IEEE-CIS Fraud Detection이라는 부분을 맡았습니다. 사실 작업은 3년전에 시작했지만, 이런저런 일들이 있으면서 올해 드디어 출판하게 되었네요. 몇몇 지인분들이 읽어주고 연락도 주셔서 기쁜 마음도 있지만 내가 쓴 글이 남들한테 어떻게 보이질 두려운 마음도 있는 것 같습니다. (확실한건 책은 다신 못쓸 것 같네요 ㅋㅋㅋ) 길고 긴 시간이었지만, 책 출판까지 도움주셨던 분들과 같이 작업하신 분들 너무 감사합니다. 그리고, 읽어주시는 분들께도 감사한 마음이며 이 책이 많은 도움이 되길 바랍니다.
이번 글에서는 추천 모델을 생성한 후에 적용하는 후처리에 대해서 알아보겠습니다. 요새 개인적으로 많이 고민하는 주제인데, 후처리는 추천 모델이 제공한 추천 결과를 보완하여 사용자에게 더욱 적합한 추천을 제공하는 과정입니다. 예를 들어, 사용자의 취향을 더욱 정확하게 반영하여 추천 나가는 상품의 순서를 섞거나 특정 상품을 구매하지 않은 이유를 분석하여, 추천 모델이 해당 상품을 추천하지 않도록 제외시킬 수 있습니다. 혹은, 문제가 될만한 상품들 (ex. 성인 상품)을 추천에서 제외해주기도 합니다. [일부 추천 상품 제외] 추천 상품을 제외하는 대표적인 필터링 기법 중에 하나는 이미 구매한 상품을 추천에서 제외하는 로직입니다. 모델의 추천결과를 보게 되면 실제 클릭하거나 구매, 좋아요를 누른 상품들이 대부..
지난 글에서 공유했던 것처럼 카이스트 대학원을 졸업하고 22년도 10월에 업스테이지 정규직에 합격했습니다. 업스테이지는 인공지능(AI)을 기반으로 하는 스타트업으로 OCR과 추천 AI Pack을 만들어서 기업에 제공하는 회사입니다. 최근에는 한화생명에 OCR Pack을 브랜디에 Recsys Pack을 제공한 기사가 나면서 기술력을 입증하기도 했습니다. 저는 업스테이지의 챌린지스팀에 AIRE (AI Research Engineer) 직군으로 합류를 하였는데, 챌린지스팀은 다양한 대회에 참가해 수상하여 기술력을 홍보하고 이때 대회에서 얻은 노하우들을 제품에 녹여내는 역할을 하는 팀입니다. 대표적으로는 RecSys 2022 챌린지나 캐글 AI 대회들에서 좋은 성과를 거두었고 최근에는 브랜디라는 쇼핑몰에 추천 ..
2020년도에 "2020년 취업뽀개기 상반기 결과"라는 주제로 글을 올렸고, 여러 대회경험에도 불구하고 대부분 서류탈락을 해서 좌절도 컸고 많은 응원 댓글도 받았습니다. 다행히 카이스트 대학원에 입학해서 2년이라는 시간을 보냈습니다. 그 후 졸업 심사가 끝난 작년 7월부터 취업 준비를 시작해서 10월쯤 업스테이지에 합류했는데, 취업을 위해 준비했던 과정에 대해서 공유드리겠습니다. (대학원에서 보낸 생활에 대해 궁금하신 분은 KAIST 대학원 졸업 후기 글을 참고하시기 바랍니다.) 2년전 석사 졸업 후 캐글 캐글 익스퍼트 상위5% 6번 (최고 0.5%), 상위10% 2번 캐글 마스터 + 상위 5% 5번 공모전 데이콘 3회 수상 (우승2번, 3등 1번) 빅콘테스트 우승 (과학기술부 장관상) COMPAS 동메..
2년 전에 KAIST 대학원 1학기를 다니면서 글을 올렸습니다. 그리고 이제 드디어 대학원을 졸업하게 되었습니다. 사실 졸업은 작년 8월에 이미 했지만, 취업 시즌과 최근 글쓰기에 대한 흥미가 적어져서 글을 쓰는 것이 조금 늦어졌습니다. 졸업 심사 준비로 논문을 쓰면서 같은 글을 반복적으로 보면서 퇴고하는 과정에서 지치게 되었던 것 같습니다. 하지만, 요즘에는 집에서 계속 놀기만 하다 보니 지친 느낌이 사라졌고, 2년 동안의 대학원 경험을 되돌아보고 싶어서 글을 작성하게 되었습니다. 2020년도 8월쯤에 대학원을 최종 입학하게 되었고, 대전에서 연구실 생활을 해야했습니다. 기숙사 생활이 처음이라 설렘 반 긴장 반을 가졌는데, 생각보다 기숙사는 좁고 학식은 맛없어서 놀랬던 게 아직도 기억납니다. 코로나 시..
안녕하세요. 최근 대학원을 졸업하고 회사에 취업해서 정신없는 나날을 보내고 있었습니다. 회사생활도 어느정도 적응했고, 최근 4년만에 열렸다는 LG TECH CONFERENCE 2023에 참여할 기회를 얻었어서 관련 내용을 공유드리고자 합니다. LG TECH CONFERENCE는 우수 R&D 인재들을 초청하여 LG 연구개발 현황 및 최신 기술 트렌드를 소개하고, '고객을 위한 가치 창출’ 이라는 LG의 꿈을 함께 나누는 자리로 저는 LG CNS의 초대를 받아서 갈 수 있었습니다. 행사는 마곡 LG 사이언스 파크에서 열렸는데 생각보다 너무 넓어서 놀랬습니다. 행사 날 날씨가 좀 쌀쌀하지만 되게 맑았는데, 돌아다니 좋았습니다. 컨퍼런스의 오프닝은 구현모 회장의 연설 이었습니다. 다들 학생들만 모인 자리였는데,..