모노산달로스의 행보

[Machine Learning] 단순 선형 회귀(Simple Linear Regression) 본문

AI/MachineLearning

[Machine Learning] 단순 선형 회귀(Simple Linear Regression)

모노산달로스 2024. 7. 9. 23:31

MachineLearning - 단순 선형 회귀

컴퓨터 과학의 아버지 앨런 튜링

머신러닝은 데이터를 분석하고 패턴을 학습하여 자동으로 예측하거나 결정을 내리는 기술입니다. 다양한 산업에서 효율성을 극대화하고 혁신을 촉진하기 때문에 머신러닝은 현재 주목받는 기술입니다. 이러한 상황에서 미래 기술 발전의 핵심 역량을 갖추기 위해서 머신러닝의 공부는 필수적입니다.

단순 선형 회귀 모델 (Simple Linear Regression Model)

 

What is regression model?

 

 

회귀 모델이란 무엇일까요? 하나 혹은 그 이상의 독립 변수와 하나의 종속 변수 사이의 관계를 표현하는 함수입니다. 해당 모델은 연속되는 실수를 예측하는 것이 목표입니다. 급여 혹은 온도나 연속되는 숫자값이 그 예시입니다.

 

단순 선형 회귀 모델은 하나의 독립 변수와 하나의 종속 변수 사이의 관계를 의미합니다. 고유한 식에서 도출되므로 데이터의 테스트 셋과 트레이닝 셋의 회귀선이 같다는 특징이 존재합니다.

 


선형 회귀 방정식 (Linear Regression Equation)

 

선형 회귀 방정식

 

왼쪽에는 종속 변수, 오른쪽에는 독립 변수가 존재합니다. y 절편인 b0는 상수라고 하며 b1은 기울기 계수입니다. 예시를 통해서 해당 식에 대해서 살펴보겠습니다.

 

비료 사용량에 따른 감자의 수확량을 예측하는 식을 세운다면, Potatoes[t] = b0 + b1 * Fertilizer[kg]이 됩니다. 만약 단순 선형 회귀 알고리즘을 실행하여 b0 = 8[t], b1 = 3[t/kg]이 나왔다고 가정하겠습니다. 그 결과 다음과 같은 산점도가 나타납니다.

 

https://www.youtube.com/watch?v=HYgHKxWs1b4

 

여기서 y 축은 감자 생상량 그리고 x축은 사용한 비료량을 의미합니다. 파란 점을 통해 각기 다른 수확량이 표시되고 있습니다. 위에서 구한 식은 이 점을 통과하며 그려지는 선을 나타냅니다. y 절편이 8[t]으로 표시되어 있고 비료량이 1kg 증가하면 감자 생산량이 3t 늘어나는 것을 확인할 수 있습니다.

 


최소 제곱법(Ordinary Least Squares)

 

https://www.researchgate.net/figure/Ordinary-least-squares-OLS-linear-regressions-between-climate-data-and-glaciological_fig3_325879777

 

 

각 점들은 실제 데이터의 값을 의미하고 선은 예측된 데이터의 값을 의미한다는 것을 알았습니다. 또한, 실제 데이터의 값과 예측값에는 차이가 존재합니다. 이러한 상황에서, 우리는 어떤 것이 가장 적절한 예측선일까요? 이를 최소 제곱법(Ordinary Least Squares)를 통해서 알아낼 수 있습니다. 간단히 말해서 가장 적합한 기울기를 정하는 방법입니다.

 

잔차를 구하는 방정식

 

 

실제 데이터의 값과 예측 데이터의 값 차이를 잔차(residual)이라고 합니다. 잔차의 값이 적다는 것은 예측의 오차가 적다는 것을 의미합니다. 따라서 우리는 잔차 제곱의 합이 가장 작은 식을 찾아야 합니다. 즉, 모든 데이터 포인트에서 잔차를 제곱한 뒤 더하여 총합을 구합니다. 이 값이 가장 작은 회귀선이 바로 가장 적합한 회귀선을 의미합니다.