관리 메뉴

TEAM EDA

[Machine Learning Advanced] 5강. 머신러닝 강의 - 기본 ML 모델 (개요) 본문

EDA Study/Machine Learning Advanced

[Machine Learning Advanced] 5강. 머신러닝 강의 - 기본 ML 모델 (개요)

김현우 2023. 8. 9. 15:52

이번 강의서부터는 본격적으로 모델들에 대해 알아보겠습니다. 머신러닝 모델 프로세스에서 이제까지 배운 것들을 상기해보면, 저희는 데이터가 있다고 가정했을때 전처리를 진행했습니다. 해당 과정에서 결측치, 이상치에 대해 처리를 했고 연속형 변수와 범주형 변수를 컴퓨터가 더 잘 이해할 수 있도록 만들었습니다. 그리고, 필요에 따라 파생 변수의 생성 또한 진행했습니다. 이제 이렇게 준비한 재료들을 기반으로 모델을 구울 차례입니다. 모델의 종류가 어떤 것들이 있는지 대표 모델들에 대해서 살펴본 이후에, 최근 대회에서 많이 사용하는 Boosting 계열의 모델인 LightGBM과 CatBoost에 대해 공부해보겠습니다. 

 

머신러닝 모델의 종류 

먼저, 머신러닝 모델은 목적에 따라 분류를 수행하는 분류 모델과 예측을 진행하는 회귀 모델로 나뉠 수 있습니다. 분류 (Classification)의 경우 스팸스팸이 아닌 메일을 예측하는 형태이고 회귀 (Regression)의 경우 내일의 주식의 오픈 가격과 같은 형태입니다. 또한, 이러한 모델은 크게 선형 모델과 비선형 모델로 나뉠 수 있습니다. 

 

Linear vs Non-Linear 모델

 

선형모델 (예를들어, 선형 회귀, 로지스틱 회귀 등)은 입력 변수들간의 선형 관계를 이용하여 예측을 수행하는 모델입니다. 이러한 모델은 주어진 입력 변수들을 가중치(weight)와 결합하여 출력을 생성하며, 이때 가중치는 각 입력 변수가 예측에 얼마나 영향을 미치는지를 조절합니다. 공간을 선형으로 분리하는 특징을 가지고 있습니다. 

 

하지만 현실 세계의 데이터는 종종 복잡하고 비선형적인 관계를 가지는 경우가 많습니다. 이때 비선형 모델 (예를들어, 의사결정트리, 랜덤 포레스트, SVM, 신경망 등)은 선형 관계로는 적절하게 설명되지 않는 데이터의 특징을 더 정확하게 모델링할 수 있습니다. 비선형 모델은 입력 변수들 간의 비선형적인 변환을 사용하여 예측을 수행하며, 이로써 더 복잡한 패턴을 잡아낼 수 있습니다. 

 


예를 들어, 공부량과 성적에 대한 관계를 생각해보겠습니다. 단순히 생각하면 공부량이 늘어나면 성적은 늘어나는 관계를 가집니다. 하지만, 해당 이는 선형관계는 아닙니다. 보통 공부량이 늘어나도 성적이 정체되는 구간이 있다가 어느순간 확 증가하고, 다시 정체되었다가 늘어나는 모습을 보입니다. 이런 비선형적인 관계를 선형 모델로는 정확하게 모델링하기 어려울 수 있습니다. 그렇기에, Tree 계열의 모델(Decision Tree, Random Forest, LightGBM 등)들은 조건 분기를 통해 이러한 관계를 학습 (공간을 박스형태로 분리하는 특징이 있습니다) 하고, 신경망은 다양한 레이어와 노드(뉴런)들을 연결하면서 비선형 함수를 삽입하여 이러한 관계를 학습합니다. 이렇게 학습하여 결정경계를 스무스하게 해서 공간을 분리하는 특징이 있습니다. 

 

출처 : https://rasbt.github.io/mlxtend/user_guide/plotting/plot_decision_regions/

 

결국, 어떤 모델을 선택할지는 위의 그래프처럼 주어진 데이터와 문제의 복잡성에 따라 달라집니다. 선형 모델은 간단하고 설명하기 쉬우며, 데이터가 선형적인 패턴을 가지고 있는 경우에 효과적일 수 있습니다. 반면에 비선형 모델은 데이터의 복잡한 관계를 더 정확하게 모델링할 수 있으며, 데이터가 비선형적인 패턴을 가지고 있을 때 유용하지만 과적합의 위험이 높은 문제도 있습니다. 그렇기에, 두가지 형태의 모델 모두 이해하고 주어진 데이터, 목적, 상황에 맞게 잘 취사선택하여 사용할 필요가 있습니다.