단순회귀분석 이론, 공식, 검증절차
1. 회귀식 찾기 (SSx,SSy,SSxy,SSE를 구하기 위해 표 정리 필요) 2. 검증 통계량 계산 (t obs) 3. 설명계수(결정계수r제곱) 계산(0~1)
단순회귀분석(Simple Regression Analysis)은 통계학에서 두 변수 간의 관계를 모델링하고 분석하는 방법입니다. 이 방법은 하나의 독립 변수(설명 변수)와 하나의 종속 변수(반응 변수) 간의 선형 관계를 탐색합니다. 단순회귀분석의 주된 목적은 두 변수 사이의 관계의 강도와 방향을 파악하고, 독립 변수의 변화가 종속 변수에 어떠한 영향을 미치는지를 이해하는 데 있습니다.
단순회귀분석의 의의
- 인과 관계 파악: 단순회귀분석을 통해 하나의 변수가 다른 변수에 어떤 영향을 주는지, 즉 인과 관계를 추정할 수 있습니다. 예를 들어, 광고 지출이 매출에 어떠한 영향을 미치는지 분석할 수 있습니다.
- 예측: 독립 변수의 특정 값이 주어졌을 때 종속 변수의 값을 예측할 수 있습니다. 이는 비즈니스 결정, 과학 연구 등 다양한 분야에서 중요한 응용을 가집니다.
- 의사결정 지원: 단순회귀분석 결과는 정책 결정, 전략 수립, 자원 배분 등의 의사결정 과정에서 유용한 정보를 제공합니다. 예를 들어, 기업이 추가 광고비 지출이 매출 증가에 미치는 영향을 파악하여 마케팅 예산을 결정할 수 있습니다.
- 관계의 강도와 방향 파악: 단순회귀분석은 두 변수 사이의 관계가 양의 관계인지 음의 관계인지, 그리고 그 관계의 강도가 얼마나 되는지를 보여줍니다. 이는 변수 간의 연관성을 이해하는 데 중요합니다.
단순회귀분석 과정
단순회귀분석에서는 종속 변수 (Y)와 독립 변수 (X) 간의 선형 관계를 다음과 같은 회귀 방정식으로 표현합니다:

분석 과정에서는 주로 최소제곱법(Least Squares Method)을 사용하여 데이터에 가장 잘 맞는 회귀선을 찾고, 이를 바탕으로 B0, B1의 값을 추정합니다. 이후, 추정된 회귀 모델의 적합성을 평가하고, 모델이 데이터를 얼마나 잘 설명하는지를 분석합니다.
단순회귀분석은 그 구조가 비교적 간단하면서도 강력한 분석 도구로, 변수 간의 관계를 명확하게 이해하고 미래를 예측하는 데 큰 도움을 줍니다.
최소자승법(최소제곱법)이란, 각 관측값들의 추정오차의 제곱의 합이, 최소가 되도록 회귀계수를 추정하는 방법
문제로 이해하기
광고비 지출과 매출액 간의 관계를 조사하기 위해 10개월 간의 자료를 수집했고, 그 결과 표와 같이 나왔다.

단순회귀식 검증 과정은 데이터로부터 변수 간의 관계를 파악하고, 이 관계의 통계적 유의성을 평가하는 단계를 포함합니다. 여기에는 회귀식의 구성, 독립변수의 유의성 검증, 그리고 모델의 설명력 평가가 포함됩니다. 아래에서 각 단계를 자세히 살펴보겠습니다:
단순회귀식을 도출하기 위해서는 표 정리가 필요합니다.

SSxy (xy의 공분산)은 23.34이고
SSx (x의 분산)은 0.444
SSy (y의 분산) 은 1600.9
입니다.

SSy는 종속변수 Y의 총 변동성을 나타낸다. 모든 관측값이 그 평균으로부터 얼마나 떨어져있는지 측정하는 지표로, 종속변수의 분산을 계산한다. SSx는 독립 변수 X의 총 변동성을 나타낸다. 모든 X의 값이 그 평균으로 부터 얼마나 떨어져있는지 나타내며, 독립변수의 분산을 계산한다. SSxy는 X와 Y간의 공통 변동성을 바타냅니다. 두 변수가 함께 어떻게 변하는지를 나타내는 지표로, 두 변수간의 선형관계의 강도를 추정합니다. 각 X와 Y의 실제 관측값에서, 각각 X와 Y의 평균값을 빼 준 후 곱한 값을 모두 더합니다.
1) 단순 회귀식 구하기 (회귀계수 구하기)
단순회귀분석에서의 회귀식은 아래와 같은 형태로 표현됩니다. 여기서 (Y)는 종속변수, (X)는 독립변수, (\beta_0)는 y-절편, (\beta_1)는 기울기(회귀계수), 그리고 (\epsilon)은 오차 항입니다. 기울기와 상수(절편)는 다음 공식을 사용하여 구할 수 있습니다:


따라서 기울기는 23.34/0.444 = 52.567 입니다.
상수항은 (Y절편), 95.9 – (52.567)*0.94 = 46.49가 나옵니다.
단순회귀식 : Y=46.49+52.57X
2) 독립변수 계수의 유의성 검증
독립변수의 유의성을 검증하기 위해 t-통계량을 사용합니다. t-통계량은 회귀계수가 통계적으로 유의미한지를 평가하는 데 사용됩니다. t-통계량은 다음과 같이 계산됩니다:

회귀계수는 기울기와 같습니다. 즉 위에서 구한 52.57입니다. 그렇다면 귀무가설로 설정된 B1의 값은 무엇일까요 ? 귀무가설은 B1=0이다. 즉 어떤 광고비 지출에도 매출액이 일정하다. 이기 때문에 0을 대입합니다.
SSx는 위에서 도출한 대로 0.444 구요.
s를 구하기 위해서는 SSE를 구해야 하는데요, SSE(SSE는 관측된 값과 회귀 모델을 통해 예측된 값 사이의 차이(잔차)의 제곱합입니다. 이는 회귀 모델이 데이터를 얼마나 잘 맞추는지를 나타내는 오차의 크기를 측정)는 설명이 되지 않는 분산을 말합니다. SSy – 회귀계수*SSxy로 계산됩니다. 즉 1600.0-52.567*23.34 = 373.98이 도출되고,
s식에 대입합니다 n은 10이니까, 계산 하면 6.84가 나옵니다.
t obs를 계산하면 5.12가 도출됩니다.
t crit(a/2;n-2) = t crit(0.025; 8) = 2.306
t obs가 더 크므로, 기각역에 위치하여 귀무가설은 기각되고 광고비 지출은 매출액에 영향을 미친다는 결론을 내릴 수 있습니다.
3) 독립변수의 설명력(결정계수) 구하기 (0~1)
결정계수(R-squared)는 회귀모델이 얼마나 잘 데이터를 설명하는지를 나타내는 지표입니다. 결정계수는 0에서 1 사이의 값으로 표현되며, 1에 가까울수록 모델이 데이터를 더 잘 설명한다는 의미입니다. 결정계수는 다음 공식으로 계산됩니다:

이 세 단계를 통해 구한 회귀모델과 검증 결과를 바탕으로, 모델이 데이터를 얼마나 잘 설명하는지, 그리고 변수 간의 관계가 통계적으로 유의미한지를 평가할 수 있습니다.
결정 계수를 구하는데 필요한 요소들은 SSy, SSE, SSy인데 이미 위에서 다 도출된 값입니다.모두 대입하면 0.766이 나오고, 이를 제곱하면 단순회귀분석의 결정계수(r2)값이 나옵니다.
혹은 상관분석에서 상관계수 공식(r을) 써서 도출된 값을 제곱해도 같습니다.

이 값에 대입을 하면 23.34/0.444X1600.9(루트) = 0.875가 나오게 됩니다. 즉 상관계수 (r)은 0.875입니다. 이것을 제곱하면 0.766이 나옵니다.
즉, 매출액의 분산 중 76.6%는 광고비 지출에 의해 설명됩니다.