AI, ML, DL

[인공지능 기초] 회귀(Regression)와 분류(Classification) 뜻과 차이점

나비🦋 2025. 1. 22. 20:51

안녕하세요! 나비입니다 🦋

 

이번 글에서는 회귀(Regression)분류(Classification)의 뜻과 차이점에 대해 알아보려고 합니다.

 

지난 글에서 양적 변수(Quantitative Variable)와 질적 변수(Categorical Varaible)에 대해 알아보았는데요, 그 연장선으로 양적변수와 관련된 회귀, 질적변수와 관련된 분류에 대해 설명해보겠습니다.

 

 

양적변수, 질적변수

양적변수는 연속형변수라고도 불리며, 연속된 숫자로 이루어진 변수를 말합니다. 예시로 질량, 속도, 길이, 온도 등이 있습니다. 모두 연속되는 실수로 표현가능한 변수들입니다.

 

질적변수는 양적변수와 달리 변수의 분포가 연속적이지 않고 뚝뚝 끊어지는 변수를 말합니다. 다른 말로 범주형 변수라고도 하는데요. 대표적으로 성별(남/여), 감염 여부(감염/감염X), 결혼여부(미혼/결혼/이혼/사별) 등이 있습니다.

 

양적변수는 주로 회귀(예측)에 활용되며, 질적변수는 분류 모델에 활용되는 경우가 많습니다.

 

아래에서 회귀와 분류의 뜻과 사례를 알아본 후, 차이점과 공통점에 대해서도 설명하겠습니다 ✅

 

(양적변수, 질적변수에 대한 더 자세한 개념설명은 아래 링크를 참고해주세요)

https://butterflytothesea.tistory.com/42

 

 

회귀(예측)의 뜻과 사례

회귀는 독립변수에 따라 종속변수가 어떻게 변화할지를 예측하는 것을 말합니다. 예를 들어 흡연 기간에 따른 폐암의 발병 확률을 2차원 좌표평면으로 표현한다면 양의 상관관계를 보이겠죠?

 

이처럼 독립변수와 종속변수 사이의 함수 관계를 추론하는 알고리즘을 회귀 알고리즘이라고 합니다. 이 함수는 직선일 수도 있고, 곡선일 수도 있고, 구간에 따라 다르게 정의될 수도 있습니다.

 

이 함수가 어떤 식으로 표현되든, 데이터의 경향성을 잘 나타내고 새로운 독립변수에 대한 종속변수 값을 잘 예측하기만 하면 됩니다.

 

출처 : https://statisticsbyjim.com/regression/curve-fitting-linear-nonlinear-regression/

 

 

 

분류의 뜻과 사례

분류는 범주형 변수에 적용되는 알고리즘으로, 특정 데이터가 어떤 카테고리로 들어가야 하는지를 판정하는 알고리즘을 의미합니다. 예를 들어 환자의 MRI 영상을 바탕으로 질병을 진단할 때, 이 환자의 양성/음성 여부를 판단하는 데 분류 알고리즘이 쓰일 수 있습니다.

 

아래 그림은 2차원 좌표평면에 표시된 데이터를 3개의 카테고리(Class)로 분류한 모습인데요, 데이터를 가장 잘 분류할 수 있는 "분류 기준선"을 찾는 것이 분류 알고리즘의 목표입니다.

 

출처 : https://iaviral.medium.com/classification-models-cb4ba55c6f4d

 

 

 

회귀와 분류의 공통점과 차이점

회귀와 분류는 겉보기에 분명 차이를 가지고 있습니다. 회귀는 다양한 미래 현상에 대한 예측을 목표로 하고, 분류는 이 사진이 강아지인지 고양이인지, 모델에게 주어진 데이터를 판정하는 것에 집중하기 때문입니다.

 

그러나 본질적으로 두 가지 알고리즘은 "가장 적합한 선"을 찾는다는 점에서 유사합니다. 회귀에서도 가장 적합한 함수 선을 찾는 게 목표이고, 분류에서도 가장 적합한 기준선을 찾는 것을 목표로 합니다.

 

각각의 알고리즘에서 선이 의미하는 바가 다를 뿐, 둘 다 미지의 선을 찾아 헤맨다는 점은 똑같습니다.