다중회귀분석 이론, 공식, 검증절차
여러개의 독립변수와 하나의 종속변수 사이의 관계를 분석하는 통계 기법이다. 1) 회귀식을 먼저 구한다. (보통 계수표가 주어짐) 2) 결정계수(R2)를 구한다. 해당 회귀식이, 종속변수를 얼마나 잘 설명하는지 나타내는 지표임 (0~1) (R2 구하는 공식 있음, 모형요약표 필요) 3) F 통계량을 구한다. 회귀식의 유의성을 검정하기 위해서임 (독립변수가 종속변수를 예측하는 데 유의미한지) (H0,H1) (F 공식 있음, 분산분석표 필요) 4) t 통계량을 구한다. 개별 독립변수 계수의 통계적 유의성 검증을 위해서이다. (H0,H1) (T obs 공식 있음) 공선성 통계량에서 공차와 VIF
다중회귀분석은 여러 개의 독립변수(예측변수)와 하나의 종속변수(결과변수) 사이의 관계를 분석하는 통계 기법입니다. 이 방법을 사용하면 여러 예측변수가 결과변수에 어떤 영향을 미치는지, 그리고 그 영향의 정도는 얼마나 되는지를 알아볼 수 있습니다. 다중회귀분석의 검증 과정은 모델이 데이터를 잘 설명하고 있는지, 예측변수들이 실제로 종속변수와 관련이 있는지를 확인하기 위해 필요합니다.
다중회귀분석의 검증 과정은 크게 다음과 같은 단계로 이루어집니다:
1. 회귀모델의 적합성 검정
- 결정계수(R²): 모델이 데이터의 변동성을 얼마나 잘 설명하는지를 나타내는 지표입니다. R² 값이 1에 가까울수록 모델이 데이터를 잘 설명하고 있다고 볼 수 있습니다.
- F-통계량: 모델의 전체적인 유의성을 검증합니다. F-통계량을 통해 모델에 포함된 모든 독립변수가 종속변수를 예측하는 데에 유의미한지를 판단합니다.
2. 변수의 유의성 검정
- t-통계량: 각 독립변수가 종속변수와의 관계에서 유의미한지를 검증합니다. p-value를 통해 해당 변수의 유의성을 판단하며, 일반적으로 p-value가 0.05 미만이면 유의미하다고 봅니다.
3. 모델의 진단
- 잔차 분석: 잔차는 실제 관측값과 모델에 의해 예측된 값 사이의 차이입니다. 잔차의 패턴을 분석하여 모델이 데이터의 특성을 잘 반영하고 있는지, 이상치나 영향력이 큰 관측값이 있는지 등을 검토합니다.
- 다중공선성: 두 개 이상의 독립변수가 서로 높은 상관관계를 보이는 경우, 이를 다중공선성이라 합니다. 다중공선성이 높으면 모델의 안정성과 해석성이 저하될 수 있습니다. 분산팽창계수(VIF)를 통해 다중공선성을 검증할 수 있으며, 일반적으로 VIF 값이 10 이상이면 다중공선성이 있다고 판단합니다.
4. 모델의 개선
- 검증 과정을 통해 발견된 문제점(예: 높은 다중공선성, 유의하지 않은 변수 등)을 해결하기 위해 모델을 수정하고 다시 검증하는 과정을 반복합니다. 예를 들어, 유의하지 않은 변수를 제거하거나, 데이터 변환을 수행하는 등의 조치를 취할 수 있습니다.
다중회귀분석의 검증 과정은 모델의 정확성과 신뢰성을 확보하기 위해 매우 중요합니다. 이 과정을 통해 모델이 실제 상황을 잘 반영하고 있는지, 어떤 변수
가 결과에 영향을 미치는지 등을 보다 정확하게 이해할 수 있습니다.
다중공선성과 공차, VIF
공선성(다중공선성) 문제는 회귀분석에서 독립변수들 간에 높은 상관관계가 있을 때 발생합니다. 이러한 상황은 회귀분석의 결과를 해석하거나 예측을 수행하는 데 어려움을 초래할 수 있습니다. 공선성을 진단하기 위해 주로 사용되는 통계량에는 공차(Tolerance)와 분산팽창계수(Variance Inflation Factor, VIF)가 있습니다.
공차 (Tolerance)
공차는 1에서 해당 독립변수의 결정계수(R²)를 뺀 값으로 계산됩니다. 여기서의 결정계수는 해당 독립변수를 다른 독립변수들을 사용하여 선형회귀분석했을 때의 결정계수를 의미합니다. 공차 값이 작으면 작을수록, 해당 변수는 다른 변수와 높은 상관관계를 가지고 있다는 것을 의미하며, 공선성 문제가 있을 가능성이 높습니다.
분산팽창계수 (Variance Inflation Factor, VIF)
VIF는 공차의 역수로 계산됩니다. 즉, VIF가 높을수록 공선성의 문제가 크다는 것을 의미합니다. 일반적으로 VIF 값이 10 이상일 경우, 높은 공선성이 있어 해당 변수가 모델에 미치는 영향을 정확히 평가하기 어렵다고 판단합니다. VIF가 1이라면, 해당 변수는 다른 변수와 전혀 상관관계가 없다는 의미이며, VIF 값이 커질수록 공선성 문제의 심각성이 증가합니다.
한 방송국에서, 65살 이상 시청자들을 위한 TV프로그램을 개발하기로 하였다. 이를 위한 기초 정보를 취득하기 위해 25명의 시청자를 대상으로 설문조사를 하여 네 가지 변수에 관한 자료를 수집한 결과 표와 같이 나타났다. 이 자료를 이용하여 동거여부, 연력, 고육기간이 각각 TV 시청시간에 어떤 영향을 미치는지 조사한다. Y = 일일 평균 TV 시청시간 X1 = 배우자와의 동거 여부 (동거중이면 1, 아니면 0) X2 = 연령 X3 = 교육기간(연수)

TV 시청 관련 자료의 다중 회귀 분석 결과

이 표는 다중회귀분석에서 도출된 계수를 나타냅니다. 각각의 행은 회귀모델의 한 변수(독립변수)에 해당하며, 해당 변수가 종속변수(예: 일일 평균 TV 시청시간)에 미치는 영향을 나타냅니다. 표의 각 항목을 설명하겠습니다:
비표준화 계수 (Unstandardized Coefficients)
- B(기울기, 회귀계수): 회귀계수는 독립변수가 한 단위 변할 때 종속변수가 얼마나 변하는지를 나타내는 수치이며, 회귀식에서 변수의 계수로, 독립변수가 한 단위 증가할 때 종속변수가 얼마나 변화하는지를 나타냅니다.
- 상수(B)는 절편을 의미하며, 모든 독립변수의 값이 0일 때 예측되는 종속변수의 값입니다. 여기서는 1.50입니다.
- 동거여부의 B는 -1.18로, 동거 여부가 1(동거중)에서 0(비동거)으로 바뀔 때, TV 시청시간이 평균적으로 1.18 시간 감소함을 나타냅니다.
- 연령의 B는 0.04로, 연령이 한 살 증가할 때마다 TV 시청시간이 평균적으로 0.04시간 증가함을 나타냅니다.
- 교육기간의 B는 -0.15로, 교육기간이 한 해 증가할 때마다 TV 시청시간이 평균적으로 0.15시간 감소함을 나타냅니다.
Step 1. 계수표의 비표준화계수, 회귀계수로부터 회귀식을 도출하면 Y=1.5-1.18X1+0.04X2-0.15X3 입니다.
표준오차 (Standard Error)
- 표준오차: 계수의 추정치가 얼마나 정밀한지를 나타냅니다. 표준오차가 작을수록, 추정치가 더 정확합니다.
표준화 계수 (Standardized Coefficients)
- 베타 (Beta): 비표준화 계수를 표준화하여, 서로 다른 독립변수들의 영향력을 비교 가능하게 합니다. 이 값은 변수들이 종속변수에 미치는 상대적 중요도를 비교하는 데 사용됩니다.
t-통계량 (t-Statistic)
- t: 계수가 통계적으로 유의미한지를 검정하는 값으로, 계수를 표준오차로 나눈 것입니다. t값이 크면 클수록, 해당 계수가 0이 아니라고 결론지을 수 있는 확신이 커집니다.
유의확률 (P-Value)
- 유의확률: t-통계량에 대한 p-value로, 계수가 통계적으로 유의미한지를 나타냅니다. 보통 p-value가 0.05 미만이면, 계수가 유의미하다고 간주합니다.
- 동거여부와 교육기간은 p-value가 각각 0.00과 0.01로, 이 변수들이 TV 시청시간에 유의미한 영향을 미치는 것으로 나타납니다.
- 연령은 p-value가 0.23로 나타났는데, 이는 유의미한 영향을 미친다고 보기 어렵다고 평가합니다.
공차 (Tolerance)
- 공차: 다중공선성을 진단하는 데 사용되며, 값이 작을수록 다중공선성 문제가 있을 가능성이 높습니다.
분산팽창계수 (VIF)
- VIF: 공차의 역수로, 다중공선성의 정도를 나타냅니다. 일반적으로 VIF가 10 이상이면 다중공선성이 문제가 될 수 있습니다. 여기서 모든 VIF 값이 1.05, 1.39, 1.38로 10 이하이므로 다중공선성은 큰 문제가 되지 않는 것으로 보입니다.
요약하면, 이 표는 동거여부와 교육기간이 TV 시청시간에 유의미한 영향을 미친다는 것을 나타내며, 이 변수들은 각각 TV 시청시간을 감소시키는 것으로 나타납니다. 연령의 경우에는 p-value가 잘못 입력되었을 가능성이 있습니다. 전체적으로 다중공선성은 이 모델에서 문제가 되지 않습니다.

이 표는 다중회귀분석 모형 요약표로서, 일일 평균 TV 시청시간을 예측하기 위해 배우자와의 동거 여부(X1), 연령(X2), 교육기간(X3) 이라는 세 가지 독립변수를 사용한 회귀분석의 결과를 나타냅니다. 각 항목에 대한 설명은 다음과 같습니다:
- 모형(Model): 분석에 사용된 회귀모형을 나타냅니다. 이 경우 ‘1.00’은 단일 모형이 사용되었음을 의미하며, 여기서는 세 개의 독립변수가 모두 포함된 기본 모형일 것입니다.
- R(상관계수): 모형의 종속변수(일일 평균 TV 시청시간)와 독립변수들 간의 상관관계의 강도를 나타냅니다. 0.79라는 값은 독립변수들과 종속변수 사이에 상당히 높은 양의 상관관계가 있음을 의미합니다.
- R제곱(R-Squared, 결정계수): 모형이 데이터의 변동성을 얼마나 잘 설명하는지를 나타내는 결정계수입니다. 이 경우, 0.63은 모형이 전체 변동성 중 약 63%를 설명한다는 것을 의미합니다.
- 조정된 R 제곱(Adjusted R-Squared, 조정된 결정계수): 독립변수의 수를 고려하여 조정된 결정계수입니다. 일반적으로 독립변수가 많을수록 R제곱이 높아지는 경향이 있기 때문에, 이를 보정하기 위해 조정된 R제곱을 사용합니다. 0.57은 모형이 독립변수의 수를 고려할 때 여전히 데이터의 변동성을 잘 설명하고 있음을 나타냅니다.
- 추정값의 표준 오차(Standard Error of the Estimate): 회귀선 주변으로 실제 데이터 포인트들이 퍼져 있는 정도를 나타냅니다. 값이 작을수록 모형에 의한 예측값과 실제 관측값이 더 가깝다는 것을 의미하며, 여기서는 0.75입니다. 이는 평균적으로, 모형에 의한 예측치와 실제 TV 시청시간이 평균적으로 0.75 시간 범위 내에서 차이가 난다는 것을 의미할 수 있습니다.
이 통계치들은 모두 모형이 얼마나 잘 데이터를 설명하는지에 대한 정보를 제공하며, 일반적으로 R제곱과 조정된 R제곱이 높고, 추정값의 표준 오차가 낮을수록 좋은 모형으로 평가됩니다.
참고로 결정계수(R2)은 분산분석표의 SSR/(SSR+SSE)로 도출이 가능합니다. (해당 회귀선으로 설명되는 데이터의 변동성 / 해당 회귀선으로 설명되는 데이터의 변동성 + 설명되지 않는 데이터의 변동성)
Step 2, 회귀식을 발견한 후, 회귀식이 종속변수를 설명하고 예측하는데 얼마나 유용한가를 조사해야 합니다. 이를 위해서는 R2이라는 결정 계수를 보아야 합니다. 결정계수는 회귀모델이 데이터에 얼마나 잘 맞는지를 나타내는 척도입니다. 표에 나와있듯이, R2은 0.63이고, 조정된 R제곱은 0.572입니다.
이때의 가설은 H0(귀무가설) =어떠한 독립 변수도 Y를 설명하지 못한다는 것이고, 대립가설은 적어도 한 개의 독립변수가 Y를 설명할 수 있다는 것입니다.
이 경우 검증 통계량은 F인데 F obs는아래에 나와있듯이 11.7이고 F crit(a;독립변수수, n-독립변수수-1) 이므로 F crit (0.5, 3.21)인데, 아래 분산분석 표에서 나왔듯이 회귀식의 유의확률은 0.00으로 유의 수준인 0.05보다 작기 때문에 귀무가설은 기각된다.
즉, 세개의 독립 변수 중 어느 하나는 종속변수에 영향을 미친다고 볼 수 있다. 따라서 회귀식은 통계적으로 유의미하다.
이때 종속변수 분산의 63%는 (결정계수가 0.63) 회귀식에 의해 설명된다.
R(상관계수와), R2 (결정계수)의 차이는? R과 R²(결정계수)은 회귀분석에서 관계의 강도와 모델의 적합도를 나타내는 두 가지 다른 통계적 척도입니다. R (상관계수) - R은 상관계수로, 종속변수와 독립변수 간의 선형 관계의 방향과 강도를 나타냅니다. - R의 값은 -1에서 +1 사이에 위치하며, +1은 완벽한 양의 선형 관계를, -1은 완벽한 음의 선형 관계를, 0은 아무런 선형 관계가 없음을 의미합니다. - R이 양수이면 독립변수가 증가할 때 종속변수도 증가하는 양의 관계가 있음을, 음수이면 반대의 관계가 있음을 나타냅니다. - 이 값은 독립변수와 종속변수가 얼마나 밀접하게 연관되어 있는지만 나타내며, 예측의 정확성이나 모델의 적합도를 직접적으로 나타내지는 않습니다. R² (결정계수) - R²은 회귀모델이 데이터에 얼마나 잘 맞는지를 나타내는 척도로, 상관계수 R을 제곱한 값입니다. - R²의 값은 0과 1 사이에 있으며, 더 높은 값은 모델이 관찰된 변동성을 더 잘 설명한다는 것을 의미합니다. 예를 들어, R² 값이 0.8이라면, 독립변수들이 종속변수의 변동성의 80%를 설명한다고 해석할 수 있습니다. - R²은 모델의 적합도를 나타내는 지표로 사용되며, 회귀모델에 의한 예측이 실제 데이터를 얼마나 잘 반영하는지를 나타냅니다. 그러나 R²만으로 모든 것을 평가할 수는 없으며, 높은 R² 값이라도 모델이 잘못 지정되었거나 중요한 변수가 누락되었을 수도 있습니다. R은 상관관계의 강도와 방향을 나타내고, R²는 모델이 데이터를 얼마나 잘 설명하는지를 나타내는 적합도의 척도입니다. 이 두 통계치는 서로 관련이 있지만, 다른 정보를 제공하며 다른 목적으로 사용됩니다.


이 표는 회귀분석 결과의 일부인 분산분석(ANOVA, Analysis of Variance) 표를 나타냅니다. 분산분석은 회귀모델의 유의성을 검증하는 데 사용됩니다. 표에서의 각 항목은 다음과 같이 해석할 수 있습니다:
제곱합(Sum of Squares, SS)
- 회귀(SSR, Regression Sum of Squares): 회귀선으로 설명되는 데이터의 변동성을 나타냅니다. 이 경우, 제곱합이 19.93이며, 이는 모델이 설명하는 변동의 총량을 의미합니다.
- 잔차(오차, SSE, Error Sum of Squares): 모델이 설명하지 못하는 데이터의 변동성, 즉 실제 값과 예측 값 사이의 차이를 나타냅니다. 여기서는 11.93입니다.
- 전체(SST, Total Sum of Squares): 데이터의 전체 변동성으로, 회귀로 설명되는 변동과 설명되지 않는 변동을 모두 합한 값입니다. 이 경우 31.86입니다.
자유도(Degrees of Freedom, df)
- 회귀(dfR): 회귀에 사용된 독립변수의 수를 나타냅니다. 여기서는 3(세 개의 독립변수)입니다.
- 잔차(dfE): 잔차의 자유도로, 데이터 포인트의 수에서 독립변수의 수와 상수항(1)을 뺀 값입니다. 여기서는 21(전체 25개의 데이터 포인트에서 세 개의 독립변수와 하나의 상수항을 뺀 값)입니다.
- 전체(dfT): 전체 자유도로, 전체 데이터 포인트의 수에서 1을 뺀 값입니다. 여기서는 24(25개의 데이터 포인트에서 하나를 뺀 값)입니다.
평균제곱(Mean Square, MS)
- 회귀(MSR): 회귀 제곱합을 회귀 자유도로 나눈 값입니다. 이는 회귀로 인한 평균 변동성을 나타냅니다. 여기서는 6.64입니다.
- 잔차(MSE): 잔차 제곱합을 잔차 자유도로 나눈 값으로, 잔차의 평균 변동성을 나타냅니다. 여기서는 0.57입니다.
F 통계량(F-Statistic)
- F: 회귀 평균제곱을 잔차 평균제곱으로 나눈 값입니다. F 통계량은 회귀 모델이 통계적으로 유의미한지를 판단하는 데 사용됩니다. 큰 F값은 모델이 유의미하게 데이터의 변동성을 설명한다는 것을 의미합니다. 여기서는 11.70이며, 이는 모델이 유의미하다는 것을 나타냅니다.
유의확률(p-value)
- 유의확률: 모델의 F 통계량이 관찰된 값이나 그보다 더 극단적인 값을 얻을 확률입니다. 일반적으로 0.05 미만이면 모델이 통계적으로 유의미하다고 여겨집니다. 이 경우 p-value가 0.00으로 나타나며, 이는 회귀모델이 매우 유의미하다는 것을 나타냅니다.
종합적으로, 이 표는 회귀모델이 통계적으로 유의미하고, 독립변수들이 종속변수(일일 평균 TV 시청시간)의 변동성을 설명하는 데 상당한 기여를 하고 있음을 나타냅니다.
Step by Step 문제풀기

Step 1. 계수표를 참고하여 회귀식을 도출한다.
계수표의 비표준화계수, 회귀계수로부터 회귀식을 도출하면 Y=1.5-1.18X1+0.04X2-0.15X3 입니다.


Step 2, 모형요약 표와 분산분석 표를 통해 회귀식의 설명력과, 회귀식의 통계적 유의성(F)을 검증 (전체 회귀식은 F 검증)
회귀식을 발견한 후, 회귀식이 종속변수를 설명하고 예측하는데 얼마나 유용한가를 조사해야 합니다.
1) 가설 설정하기 : 이때의 가설은 H0(귀무가설) =어떠한 독립 변수도 Y를 설명하지 못한다는 것이고, 대립가설은 적어도 한 개의 독립변수가 Y를 설명할 수 있다는 것입니다. 즉 결정계수 B1=B2=B3=0 이다 (귀무가설) 즉, 회귀식은 전혀 유의하지않다 / 결정계수(기울기) B1,B2,B3중에 어느 하나는 0이 아니다 -> 적어도 하나의 회귀식은 유의하다. 로 만들어주세요
2) 가설 검증을 위해 F 통계량과 F crit 비교 혹은 회귀식의 유의확률 확인하기: 이 경우 검증 통계량은 F인데 F obs는아래에 나와있듯이 11.7이고 F crit(a;독립변수수, n-독립변수수-1) 이므로 F crit (0.5, 3.21)인데, 아래 분산분석 표에서 나왔듯이 회귀식의 유의확률은 0.00으로 유의 수준인 0.05보다 작기 때문에 귀무가설은 기각된다.
즉, 세개의 독립 변수 중 어느 하나는 종속변수에 영향을 미친다고 볼 수 있다. 따라서 회귀식은 통계적으로 유의미하다.
3) 결정계수(R2)로 설명 확률 확인하기 : R2이라는 결정 계수를 보아야 합니다. 결정계수는 회귀모델이 데이터에 얼마나 잘 맞는지를 나타내는 척도입니다. 표에 나와있듯이, R2은 0.63이고, 조정된 R제곱은 0.572입니다.
이때 종속변수 분산의 63%는 (결정계수가 0.63) 회귀식에 의해 설명된다.

Step 3, 개별독립변수 계수의 통계적 유의성 검증하기 (내부 개별 독립변수는 t 검증)
회귀식이 유의한 것으로 판단되었으면 이제 각각의 독립변수가 종속변수에 영향을 미치는지 조사해야 합니다.
1) 가설 설정하기 : H0: Bi=0, H1: Bi=/0) * 추가 설명 아래에
2) 변수 하나하나 유의성 검증 하기
– 동거여부 계수의 유의성 검증: t obs=-3.72이며, 이때 유의확률은 0.00이므로, 유의 확률이 유의수준인 0.05보다 작기 때문에 귀무가설이 기각됩니다. 따라서 동거여부 계수는 TV 시청 시간에 유의미한 영향을 미친다. 라고 결론냅니다.
– 연령 계수의 유의성 검증: t obs=1.22이며, 이때 유의확률은 0.24이므로, 유의확률이 유의 수준인 0.05보다 크기 때문에 귀무가설은 기각되지 않습니다. 따라서 연령은 TV 시청 시간에 유의미한 영향을 미치지 않습니다.
– 교육 기간 계수의 유의성 검증 : t obs=-3.04이며 유의확률은 0.01 이므로 유의수준인 0.05보다 작기 때문에 귀무가설이 기각됩니다. 따라서 교육기간은 TV 시청시간간에 유의미한 영향이 있습니다.
*가설 설정시 추가 설명 회귀분석에서 개별 독립변수의 계수에 대한 통계적 유의성 검증을 진행할 때 설정하는 귀무가설(H0)이 "추정된 회귀계수(Bi)가 0이다"라는 것은, 그 독립변수가 종속변수에 아무런 영향을 미치지 않는다는 의미입니다. 통계학에서 귀무가설은 일종의 '변화가 없음' 또는 '효과가 없음'의 가정을 세우는 것입니다. 여기서 말하는 '변화'나 '효과'는 독립변수가 종속변수에 미치는 영향입니다. 즉, 귀무가설은 기본적으로 "이 독립변수는 종속변수에 영향을 주지 않는다"라고 주장합니다. 회귀분석에서의 Bi는 독립변수 i의 회귀계수를 말하며, 이 계수는 해당 독립변수가 한 단위 변할 때 종속변수가 얼마나 변하는지를 나타냅니다. Bi = 0이라는 것은 이 독립변수의 변화가 종속변수의 변화에 기여하지 않는다는 것을 의미합니다. 즉, Bi = 0인 귀무가설을 설정하고 통계적 검정을 진행합니다. 만약 충분히 낮은 p-value를 얻어 귀무가설을 기각하면, 이는 독립변수가 통계적으로 유의미하게 종속변수에 영향을 미친다는 것을 의미합니다. 반대로, p-value가 높아 귀무가설을 기각하지 못하면 독립변수가 종속변수에 유의미한 영향을 미치지 않는다고 결론 내릴 수 있습니다.

Step 4 다중공선성 확인하기
다중공선성이란, 독립변수들 간에 높은 상관관계가 존재하는 현상을 말하며, 공차는 작을수록, VIF는 높을 수록 다중공선성이 발생할 확률이 높습니다. 위의 표에서 보면 공차는 0.95, 0.72, 0.73이고, VIF는 1점 대로, 10보다 작기 때문에 다중공선성의 문제는 발생하지 않은 것으로 보입니다. (VIF<10 이면 다중공선성 X) 참고로 공차의 역수는 VIF입니다.