단일 모집단 비율 검증(Z) 정의, 공식, 절차
단일 모집단 비율검증 정의
자, 단일 모집단 평균 차이 검증이 어떠한 평균과 모집단의 평균을 비교하는 것이었다면 비율검증은 어떠한 비율과 비교하는 것입니다.
단일 모집단 비율 검증에서 사용되는 Z 검정은, 우리가 가지고 있는 샘플(표본)에서 관찰된 비율이 모집단의 특정 비율과 다른지를 검사하기 위해 사용되는 통계적 방법입니다. 이를 통해 우리는 어떤 사건의 발생 비율이나 어떤 선택의 비율 등이 예상한 비율과 같은지, 다른지를 알아볼 수 있습니다.
쉽게 설명하자면, 예를 들어 학교에서 학생들 중 50%가 점심시간에 운동장에서 농구를 한다고 가정합시다. 이제 우리는 실제로 그 비율이 50%인지 아닌지를 확인하고 싶습니다. 그래서, 우리는 100명의 학생을 무작위로 선택하고, 그 중 60명이 농구를 한다는 것을 발견했습니다. 이제 우리는 실제 비율(60%)이 우리가 가정한 비율(50%)과 다른지를 통계적으로 검증하고 싶습니다.
이 때 사용하는 것이 바로 Z 검정입니다. Z 검정은 다음 공식을 사용해 계산됩니다:


여기서:
- 관찰된 비율은 표본에서 관찰된 실제 비율입니다 (예: 60명 중 농구를 하는 학생의 비율, 즉 0.6).
- 귀무가설의 비율은 우리가 검증하고자 하는 모집단의 비율입니다 (예: 0.5).
이 Z 값이 얼마나 크거나 작느냐에 따라, 우리는 귀무가설(학생들의 50%만이 농구를 한다)을 기각할지 말지를 결정할 수 있습니다. 일반적으로 Z 값이 크다면, 이는 관찰된 비율과 귀무가설의 비율 사이에 큰 차이가 있음을 의미하고, 우리는 귀무가설을 기각할 가능성이 높아집니다. 반대로 Z 값이 작다면, 귀무가설을 기각할 충분한 증거가 없다는 것을 의미합니다.
논리적 설명:
- 분자 : 이 부분은 표본 비율과 귀무가설에 따른 모집단의 기대 비율 사이의 차이를 나타냅니다. 이 차이가 클수록, 우리가 관찰한 데이터가 귀무가설로부터 멀어진 것이고, 이는 우리의 표본 결과가 모집단의 가정된 비율과 다르다는 것을 의미할 수 있습니다.
- 분모 : 이 부분은 귀무가설 하의 모집단 비율을 사용하여 계산된 표준오차입니다. 이는 귀무가설이 사실일 때 우리가 예상하는 표본 비율의 변동량을 나타냅니다. 분모가 크면 Z 점수는 작아지고, 분모가 작으면 Z 점수는 커집니다. 즉, 표본 크기가 크면 표준오차는 작아지고, 이로 인해 Z 점수는 더 커질 수 있습니다. (즉 표본의 크기가 클수록, 가설 검증력이 높아집니다.) – 표준오차를 잘 모르겠다면 참고해주세요.
- Z 점수: 이 결과 값은 우리가 관찰한 비율이 귀무가설로 설정된 모집단의 비율과 얼마나 다른지를 나타내는 지표입니다. Z 점수가 매우 크거나 매우 작으면(즉, 통계적 유의성의 임계값을 넘으면), 우리는 귀무가설을 기각할 수 있습니다. 이는 우리의 표본 데이터가 귀무가설이 제안하는 모집단의 비율과 유의미하게 다르다는 것을 의미합니다.
(추가) 표본(n)의 크기가 커지면, 가설 검증력이 높아지나?
네, 맞습니다. 표본의 크기가 클수록 가설 검증력, 즉 통계적 검정력(statistical power)이 높아집니다. 이는 큰 표본이 모집단을 더 잘 대표하기 때문에 발생하는 현상입니다. 구체적으로: 1. 표준오차 감소: 표본 크기가 커지면 표준오차(standard error)가 감소합니다. 표준오차는 표본 평균이 모집단 평균에서 얼마나 벗어날 가능성이 있는지를 나타내는 지표입니다. 따라서 표준오차가 작아지면, 표본 평균이 모집단 평균에 더 가까울 것으로 예상할 수 있으며, 이는 검정의 정확성을 높입니다. 2. 검정력 증가: 표본 크기가 커질수록 통계적 검정력이 증가합니다. 즉, 실제로 차이가 있을 때 이를 발견할 확률이 높아집니다. 이는 또한 우리가 귀무가설을 잘못 기각할 가능성(제1종 오류)을 유지하면서도, 실제로 차이가 있을 때 이를 정확히 감지할 수 있음을 의미합니다. 3. 결과의 신뢰도 증가: 큰 표본 크기는 결과의 변동성을 줄여주며, 이로 인해 우리의 추정치와 통계적 결론이 더 신뢰할 수 있게 됩니다. 큰 표본은 모집단의 실제 특성을 더 정확하게 반영하기 때문에, 우리가 내리는 결론은 모집단에 대해 더 일반화할 수 있습니다. 따라서, 표본 크기가 클수록 가설 검증에서의 오류를 줄이고, 실제로 존재하는 효과나 차이를 감지할 가능성이 높아집니다. 이는 통계적 분석에서 매우 중요한 원칙입니다.
기본적으로, Z 점수가 임계값(예를 들어, -1.96 또는 1.96 이상일 때, 유의 수준이 0.05인 경우)을 초과하면, 우리는 귀무가설(표본의 비율과 모집단의 비율이 같다는 가설)을 기각할 근거가 있습니다. 이는 실제로 표본에서 관찰된 비율이 모집단에서 예상한 비율과 통계적으로 유의한 차이가 있다는 것을 의미합니다.
실제 문제로 검증 방법 이해하기
치약제조회사는 전체 가구 중 10% 정도가 자사의 브랜드를 사용하는 것으로 알고있다. 마케터는 시장점유율을 높이기 위해 6개월간 프로모션을 실시했고 이와 같은 활동에 따라 점유율이 높아졋는지 알기 위해 표본추출에 의한 조사를 실시했는데 조사결과 전체조사대상 200가구 중 26가구가 우리브랜드를 구매한다는 것으로 나타났다. 과연 시장점유율이 향상되었다고 할 수 있을까? 유의수준=0.05 |
1. 가설 설정:
- 귀무가설 (H0): 시장 점유율은 향상되지 않았다. 즉, 시장 점유율은 여전히 10%이다. (( p0 = 0.10 ))
- 대립가설 (H1): 시장 점유율이 향상되었다. 즉, 시장 점유율은 10%보다 크다. (( p > 0.10 ))
2. 유의 수준 설정:
유의 수준은 a = 0.05로 설정됩니다. 이는 귀무가설을 기각하는 데 있어 5%의 오류 확률을 허용한다는 의미입니다.
3. 통계량 계산:
표본에서의 관찰된 비율은 26/200 = 0.13입니다. 단일 모집단 비율 검증을 위한 Z 점수는 다음 공식을 사용해 계산됩니다:

이제 Z 값을 계산해 보겠습니다:
계산 결과, Z 점수는 약 1.41입니다.
4. 임계값 결정 및 결론 도출:
이 문제는 오른쪽 단측 검정(one-tailed test)입니다. 유의 수준 0.05에서 오른쪽 단측 검정의 임계값은 일반적으로 1.645입니다(표준 정규 분포 테이블을 참조).
여기서 계산된 Z 점수(1.41)는 임계값(1.645)보다 작습니다. 이는 우리의 Z 점수가 임계 영역 밖에 있다는 것을 의미하며, 따라서 우리는 귀무가설 ( H_0: p = 0.10 )을 기각할 수 없습니다.
여기서 왜 우리는 오른쪽 단층 검정이라고 확신하는가?
오른쪽 단측 검정(one-tailed test)이라고 판단하는 이유는 대립가설(H1)이 특정 방향으로 설정되었기 때문입니다. 이 경우, 대립가설은 “시장 점유율이 향상되었다”로 설정되어 있습니다. 즉, 우리는 점유율이 10%보다 ‘더 큰’지 여부만을 검증하고자 합니다.
대립가설이 ‘더 크다'(>), ‘더 작다'(<), 또는 ‘다르다'(≠)와 같이 특정한 방향을 가리키면, 이는 단측 검정을 의미합니다. 여기서는 대립가설이 시장 점유율이 ‘10%보다 크다’는 것을 주장하므로, 우리는 값이 증가한 ‘한 방향’만을 고려하고 있습니다. 따라서 이는 ‘오른쪽 단측 검정’입니다.
오른쪽 단측 검정: 이는 대립가설이 관찰된 값이 더 클 것이라고 가정할 때 사용됩니다. 여기서는 시장 점유율이 이전의 10%보다 높아졌다는 것을 증명하려고 하므로, 우리는 값의 오른쪽 꼬리 쪽(즉, 더 큰 값 쪽)을 검사하고 있습니다.
따라서, ‘시장 점유율이 향상되었다’는 대립가설에 따라 우리는 점유율이 기존 비율인 10%보다 높아질 것을 기대하고, 이 기대에 따라 오른쪽 단측 검정을 실시합니다.
결론:
계산된 Z 점수와 임계값을 비교한 결과, 유의 수준 0.05에서 귀무가설을 기각할 충분한 증거가 없습니다. 이는 우리가 가진 데이터로는, 프로모션 활동 후 시장 점유율이 통계적으로 유의미하게 10%보다 높아졌다고 말할 수 없다는 것을 의미합니다. 따라서, 현재의 데이터를 바탕으로 볼 때, 시장 점유율이 향상되었다고 할 수 없습니다.