분산분석 무작위 블럭 디자인 이론, 공식, 검증절차
무작위 블럭 디자인 필수 체크포인트 블럭이 존재한다 (외생변수) 처리가 존재한다 (실험에서 적용하는 다양한 조건, 요인) 처치(집단간 SST), 블럭 SSB, 오차(집단내 SSE)의 제곱합을 구해야 한다 (상당히 복잡한 작업) SST,SSB,SSE 제곱합을 토대로 분산분석표를 작성하고 F통계량을 구한 후 임계치와 비교한다. SST의 자유도는 t-1, SSB의 자유도는 b-1, SSE의 자유도는 (t-1)(b-1)이다. F crit (임계치)는 F crit(a;t-1,(t-1)(b-1))이다.
분산분석 무작위 블럭 디자인(Randomized Block Design, RBD) 검증법은 실험 설계 방법 중 하나로, 실험의 오차를 줄이기 위해 사용됩니다. 이 방법은 실험 대상에 영향을 줄 수 있는 알려진 변동 요인을 통제하기 위해 ‘블럭’이라는 동질의 그룹을 형성하여, 각 블럭 내에서 처리(실험 조건)를 무작위로 배정합니다. RBD는 주로 실험 대상 간에 변동성이 클 때, 그 변동성의 영향을 최소화하면서 처리 효과를 보다 명확히 관찰하기 위해 사용됩니다.
기본 이론 이해하기
RBD의 주요 개념
- 블럭(Block): 실험 대상을 유사한 특성을 기준으로 그룹화한 것입니다. 블럭은 실험의 오차를 줄이는 데 도움을 줍니다. 예를 들어, 식물 성장 실험에서는 햇빛이나 토양의 조건 등으로 블럭을 형성할 수 있습니다.
- 처리(Treatment): 실험에서 적용하는 다양한 조건이나 요인입니다. 예를 들어, 다양한 비료 종류나 교육 프로그램이 될 수 있습니다.
- 무작위 배정(Randomization): 각 처리를 블럭 내에서 무작위로 배정하는 과정입니다. 이는 처리 간의 비교를 공정하게 만들고, 편향을 최소화합니다.
RBD의 검증 절차
- 가설 설정
- 귀무 가설(H0): 모든 처리의 효과는 동일하다.
- 대립 가설(H1): 적어도 하나의 처리의 효과가 다르다.
- 블럭과 처리 결정
- 실험에서 고려해야 할 블럭(예: 시간, 위치 등)과 처리(예: 비료 종류, 교육 프로그램 등)를 결정합니다.
- 데이터 수집
- 각 블럭 내에서 무작위로 배정된 처리에 대한 반응(예: 식물의 성장률, 판매 실적 등)을 측정합니다.
- 분산 분석
- 블럭 효과, 처리 효과, 그리고 오차(잔차)를 포함한 분산 분석을 수행합니다.
- 결론 도출
- F-통계량을 계산하여, 처리 효과의 통계적 유의성을 평가합니다. P-값을 통해 귀무 가설의 기각 여부를 결정합니다.
RBD의 장점
- 실험 대상 간의 알려진 변동 요인을 통제함으로써 실험의 정확성을 향상시킵니다.
- 처리 효과에 대한 더 정확한 추정과 결론을 도출할 수 있습니다.
RBD는 실험 설계에서 변동 요인을 통제하고자 할 때 매우 유용한 방법입니다. 이를 통해 실험의 오차를 줄이고, 처리 효과의 신뢰도를 높일 수 있습니다.

만약 마케팅관리자가 패키지 디자인으로 두 가지가 아닌 세 가지를 비교하고 자 하는 경우, 선정된 수퍼마켓을 세 집단으로 나누어 각 집단의 수퍼마켓에 A, B. C중 한 가지 패키지 디자인의 비누를 진열하여 매출을 비교한다면 수퍼마켓의 크기. 내점고객수, 그 지역의 소득, 경쟁상황 등 여러 가지 요인들이 매출에 영향을 줄 수 있다(외생변수). 그러므로 다음과 같이 실험디자인을 무작위 블럭디자인으로 해야 한다. 이 실험에서는 4개의 수퍼마켓을 선정하여 각 수퍼마켓에 세 가지 패키지 디자인(처치변수)의 비누를 모두 진열하였다. 그 결과 각 수퍼마켓에서 패키지 디자인별로 <표>과 같이 매출이 실현되었다. 이 경우 각 수퍼마켓의 조건이 세 가지 디자인의 비누판매에 공통적으로 영향을 미치며, 이와 같은 변수를 블럭변수 라고 한다. 이러한 자료로부터 패키지 디자인에 따라 매출이 다르다고 할 수 있는 가? (a=.05)

이 문제를 해결하기 위해 무작위 블럭 디자인(Randomized Block Design, RBD)을 사용하여 패키지 디자인에 따른 매출 차이를 검정하는 절차를 단계별로 설명하겠습니다.
1. 가설 설정
- 귀무 가설(H0): 모든 패키지 디자인(A, B, C)의 매출 평균은 동일하다.
- 대립 가설(H1): 적어도 하나의 패키지 디자인의 매출 평균이 다르다.
2. 블럭과 처리 결정
- 블럭(Blocks): 이 실험에서 블럭은 각각의 수퍼마켓입니다. 수퍼마켓의 크기, 내점 고객 수, 지역 소득, 경쟁 상황 등 외생 변수의 영향을 통제하기 위해 사용됩니다.
- 처리(Treatments): 패키지 디자인 A, B, C입니다. 이는 실험에서 변화를 주는 요인입니다.
이 경우에 "블록"은 외생변수(크기, 위치, 고객 유형, 지역 경쟁 등)의 영향을 고려하여 형성된 각 수퍼마켓을 의미합니다. 따라서, 각 수퍼마켓이 하나의 블록이 되며, 여기서는 4개의 수퍼마켓이 4개의 블록을 형성합니다. 요약하면, 블록은 외생변수의 종류나 개수를 의미하는 것이 아니라, 외생변수의 영향을 최소화하기 위해 형성된 그룹(여기서는 각각의 수퍼마켓)을 말합니다.
3. 데이터 수집
- 제공된 표에 따라, 각 수퍼마켓(블럭)별로 세 가지 패키지 디자인(처리)의 매출을 수집했습니다.
4. 제곱합 구하기 (SST,SSB, SSE)
분산분석에서 제시한 구성요소에 따라 전체 제곱합(Total Sum of Squares, SST), 처치 제곱합(Treatment Sum of Squares, SSTr), 블록 제곱합(Block Sum of Squares, SSB), 그리고 오차 제곱합(Error Sum of Squares, SSE)을 계산하는 방법을 상세히 설명하겠습니다. 이러한 계산은 실험에서 처리(패키지 디자인)의 효과가 통계적으로 유의미한지를 판단하는 데 필요합니다.
1. 행과 열의 평균, 전체 평균을 계산합니다.

자, 이제 행과 열의 평균, 전체 평균 표를 바탕으로 해서 처치(집단간)SST, 블럭(SSB), 오차(집단내)SSE를 구할 준비가 완료되었습니다.
2. 처치(집단간) SST

처치 제곱합은 처리(패키지 디자인)에 의한 변동성을 측정합니다. 각 처리의 평균에서 전체 평균을 뺀 값의 제곱을, 해당 처리에 속한 관측값의 수로 곱한 합으로 계산됩니다.
처치(집단간) 제곱합은 아래와 같이 구합니다.

여기서 62.67이라는 값은 첫 열의 평균인 9.75에 전체 평균값인 17.67을 뺀 후에 제곱을 해준 것입니다. > 이후 뺀 값에서 X 4를 해줍니다. >250.69가 나옵니다. 294.69라는 값은, 두번째 열의 평균인 26.25에서 전체 평균인 17.67을 뺀 후 제곱을 해줍니다. > 이후 뺀 값에서 X 4를 해줍니다. > 294.69가 나옵니다 1.78은 세번째 열의 평균인 17에서 전체 평균인 17.67을 뺀 후 제곱을 한 값입니다. > 이후 뺀 값에서 X 4를 해줍니다. > 1.78이 나옵니다. 도출 된 값을 모두 더해줍니다. 이것이 바로 처치 집단간 제곱합 (SST)입니다. 250.69 + 294.69 + 1.78 = 547.167
3. 블록 제곱합 (SSB)
블록 제곱합은 블록(수퍼마켓)에 의한 변동성을 측정합니다. 각 블록의 평균에서 전체 평균을 뺀 값의 제곱을, 해당 블록에 속한 관측값의 수로 곱한 합으로 계산됩니다.
블럭(SSB)를 구해봅시다.


블럭은 4개의 수퍼마켓입니다.
기본 데이터에서 첫 행의 평균인 24.67에서 - 전체 평균인 17.67를 빼준 후에 제곱을 합니다. > 이후 뺀 값에서 X3을 합니다. > 147이 나옵니다. 기본데이터에서 두번째 행의 평균인 20.67에서 - 전체 평균인 17.67을 빼준 후에 제곱 합니다. > 이후 뺀 값에서 X3을 합니다. > 27이 나옵니다. 세번째 행의 평균인 10.67 - 17.67에 제곱 후 > X3 > 147 네번째 행의 평균인 14.67 - 17.67 제곱 후 > X3 > 27 도출 된 값을 모두 더해줍니다. 이것이 바로 블럭(SSB)입니다. 147+27+147+27=348
4. 오차(집단내) SSE
오차(집단내)를 구해봅시다 (SSE)

오차(집단내) 제곱합의 경우, 해당 내용에서 변수가 두개(처치, 블록)이므로 전체 자료(12개)에서 각 행과 열의 평균을 빼고 전체 평균을 더한 값의 제곱의 합 입니다
0.06은 기본 데이터 1행 1열인 (17)에서 - 1행의 평균값 (24.67) - 1열의 평균값 (9.75)를 빼준 후 + 총 평균 값 (17.67)을 더해준 후 제곱합니다. 이런식으로 총 12번의 계산을 해줍니다.... 모든 도출 값을 더하면 45.50이 나오며, 이것이 오차(집단내) 제곱합인 SSE입니다.
SS, SST, SSB, SSE
전체 제곱합(SST): 모든 데이터 포인트를 전체 평균과 비교하여 계산합니다. 이는 전체 데이터의 변동성을 나타냅니다.
처치 제곱합(SSTr): 각 처리(패키지 디자인)의 평균을 전체 평균과 비교하여 계산합니다. 이는 처리에 의한 변동성을 나타냅니다.
블록 제곱합(SSB): 각 블록(수퍼마켓)의 평균을 전체 평균과 비교하여 계산합니다. 이는 블록에 의한 변동성을 나타냅니다.
오차 제곱합(SSE): 처리와 블록 효과를 제외한 나머지 변동성입니다. 전체 제곱합에서 처치 제곱합과 블록 제곱합을 뺀 값으로 계산됩니다.
6.분산분석표 작성하고 F통계량 도출하기

위의 도출값을 토대로 F통계량을 도출했으며, 여기서 관심 대상은 패키지 디자인에 따라 매출이 다른가 이므로 36.077이 F통계량입니다.
5. 임계치 찾기 & 결론 도출
- F-통계량을 계산하여, 처리 효과(패키지 디자인의 차이)가 통계적으로 유의미한지 평가합니다. P-값을 통해 귀무 가설의 기각 여부를 결정합니다. 유의 수준은 0.05로 설정됩니다.
이제 실제 데이터를 사용하여 분산 분석을 수행해보겠습니다.
무작위블럭 모형에서는 임계치 구하는 수식이 F crit (a; t-1, (b-1)(t-1)) 입니다. 즉 F crit(0.05;2,6)이고, = 5.14가 나옵니다.
임계치보다 F통계량 값이 36.077로 더 크므로 귀무가설은 기각되고 (기각역에 위치) 결론은 패키지 디자인에 따른 매출 차이가 통계적으로 유의미하다. 라고 결론을 내릴 수 있습니다.