비즈니스 서식, 문서, 다운로드 사이트 위폼

Docly

요인 분석 이론, 공식, 검증절차

Estimated reading: 1 minute 0 views

요인분석에는 독립변수와 종속변수가 없다.
변수들 간의 상관관계가 요인분석의 토대가 된다.
따라서 모수, 통계량, 가설검증 등의 개념은 적용되지 않는다.
요인분석의 변수는 간격척도 혹은 비율척도이다.
변수들을 비슷한 집단으로 축약하는 것이다.

고윳값과 공통성의 개념을 잘 정리해야 한다.

요인분석 검증(Factor Analysis Validation)은 통계적 방법을 사용하여 설문조사, 테스트 점수, 또는 다양한 종류의 데이터 세트에서 변수들 간의 관계를 탐색하고, 그 변수들을 소수의 요인(또는 구성요소)으로 요약하거나 축소하는 과정에서 그 분석의 타당성을 확인하는 과정입니다. 이 과정을 통해 수집된 데이터가 연구 목적에 부합하는지, 그리고 분석 모델이 실제 데이터를 잘 반영하고 있는지를 검증합니다. 요인분석 검증 과정은 크게 다음과 같은 단계로 이루어집니다:

  1. 요인 추출(Factor Extraction): 데이터에서 변수들 간의 상관관계를 기반으로 요인들을 추출합니다. 이때, 주성분 분석(PCA) 또는 공통 요인 분석 등의 방법을 사용할 수 있습니다. 이 단계의 목적은 데이터 세트 내의 변동성을 최대한 설명할 수 있는 요인들을 찾아내는 것입니다.
  2. 요인 회전(Factor Rotation): 추출된 요인들이 변수들과 더 명확하게 대응되도록 요인 축을 회전합니다. 직교 회전(예: 바림악스 회전)과 사각 회전(예: 프로맥스 회전)이 이에 해당합니다. 회전의 목적은 요인들 사이의 해석을 용이하게 만드는 것입니다.
  3. 요인 수 결정: 추출된 요인들 중에서 실제로 데이터 설명에 유의미한 요인들의 수를 결정합니다. 여기에는 고유값 1 이상 규칙(Kaiser criterion), 스크리 테스트(scree test) 등의 방법이 사용됩니다.
  4. 타당성 검증(Validity Verification): 요인분석의 결과가 신뢰할 수 있고, 연구 목적에 부합하는지를 검증합니다. 여기에는 구성 타당성, 수렴 타당성, 판별 타당성 등이 포함됩니다. 이는 분석된 요인들이 실제로 연구하고자 하는 개념을 잘 대표하는지 확인하는 과정입니다.
  5. 신뢰도 검증(Reliability Verification): 요인들이 일관되고 신뢰할 수 있는 결과를 제공하는지를 평가합니다. 크론바흐의 알파(Cronbach’s alpha) 또는 분할 반의 신뢰도(split-half reliability)가 이를 위해 자주 사용됩니다.

요인분석 검증 과정을 통해 연구자들은 변수들 간의 복잡한 관계를 명확히 이해하고, 데이터 내의 핵심 구조를 식별할 수 있습니다. 이러한 분석은 심리학, 사회학, 교육학 등 다양한 분야에서 중요한 도구로 활용됩니다.

요인분석의 주성분분석

요인분석에서의 주성분 분석(Principal Component Analysis, PCA)은 다변량 데이터의 변동성(variability)을 최대한으로 포착하기 위해 사용되는 통계적 절차입니다. PCA는 고차원의 데이터 세트를 저차원의 요인이나 주성분으로 축소하여, 데이터의 주요 패턴이나 구조를 보다 쉽게 이해하고 해석할 수 있도록 돕습니다. 주성분 분석은 데이터의 차원 축소, 시각화, 노이즈 제거, 특징 추출 등 다양한 목적으로 널리 사용됩니다.

주성분 분석의 기본 원리

  1. 변동성 최대화: PCA는 데이터에서 가장 많은 변동성을 가진 방향을 찾아내고, 그 방향을 첫 번째 주성분(PC1)으로 설정합니다. 이 과정은 데이터 세트의 분산이 최대가 되는 축을 찾는 것과 같습니다.
  2. 직교성: 첫 번째 주성분을 결정한 후, 그와 직교(orthogonal)하는 방향 중에서 가장 많은 변동성을 가진 다음 방향을 찾아 두 번째 주성분(PC2)으로 설정합니다. 이 과정을 반복하여, 원하는 수의 주성분을 찾아냅니다.
  3. 차원 축소: 이렇게 찾아낸 주성분들은 원래 데이터 세트의 변수들보다 훨씬 적은 수이며, 이 주성분들을 사용하여 데이터를 새로운 저차원 공간으로 투영(mapping)할 수 있습니다. 이렇게 하면, 복잡하고 고차원의 데이터를 보다 쉽게 해석하고 이해할 수 있게 됩니다.

주성분 분석의 적용

  • 데이터 압축: 고차원 데이터를 저차원으로 압축하여 저장 공간을 절약하고 계산 효율을 높일 수 있습니다.
  • 시각화: 고차원 데이터를 2D 또는 3D 공간에 투영하여 데이터의 구조와 패턴을 시각적으로 파악할 수 있습니다.
  • 특징 추출과 데이터 전처리: 기계 학습 모델을 학습하기 전에 데이터의 중요한 특징을 추출하고, 노이즈를 제거하는 데 사용됩니다.

PCA는 데이터의 기본 구조를 파악하고 요약하는 강력한 도구입니다. 하지만 PCA를 적용할 때는 데이터가 선형적인 관계를 가지고 있다는 가정 하에 작동한다는 점을 고려해야 하며, 모든 분석 상황에 적합한 것은 아닙니다. 데이터의 비선형 구조를 파악하기 위해서는 다른 방법이 필요할 수 있습니다.

요인분석 검증 및 해석법

요인분석에서 요인의 추출, 회전, 그리고 요인행렬의 해석은 중요한 과정들입니다. 각 단계별로 세부적인 내용을 이해하는 것이 중요한데, 여기서는 특히 요인행렬의 해석 과정을 좀 더 자세히 설명하겠습니다.

1. 요인의 추출: 고유값(Eigenvalue) 방법

  • 고유값(Eigenvalue): 요인분석에서 고유값은 해당 요인이 설명하는 분산의 양을 나타냅니다. 고유값이 1 이상인 요인은 그 요인 하나로 변수들의 분산을 적어도 하나 이상 설명할 수 있다는 의미이므로, 일반적으로 고유값이 1 이상인 요인들을 추출 대상으로 합니다.

2. 요인의 회전

  • 회전의 목적: 요인의 회전은 추출된 요인들이 변수들과의 관계를 더 명확하게 해석할 수 있도록 도와줍니다. 회전은 직교 회전(예: 바리막스)과 사각 회전(예: 프로맥스)으로 나뉩니다.

3. 요인행렬의 해석

요인행렬의 해석은 크게 4단계로 이루어집니다:

1) 요인적재값의 범위와 유의성

  • 요인적재값(factor loading)은 -1에서 +1 사이의 값을 갖으며, 변수와 요인 간의 상관관계의 강도를 나타냅니다. 요인적재값이 +0.5 이상이면 그 변수가 해당 요인과 상당히 강한 관계를 가진다고 보고, 실제적 유의성이 있다고 판단합니다.

2) 가장 높은 적재값의 비교

  • 변수별로 여러 요인에 대한 적재값을 비교하여 가장 높은 적재값을 가진 요인에 밑줄을 긋습니다. 이는 해당 변수가 주로 어떤 요인에 의해 설명되는지를 식별하는 데 도움이 됩니다.

3) 공통성(Communality)의 검토

  • 공통성은 변수가 다른 모든 변수들과 공유하는 분산의 양을 나타냅니다. 이 값은 0에서 1 사이이며, 0.5 이상일 경우 해당 변수의 분산이 요인들에 의해 잘 설명되고 있다고 볼 수 있습니다. 높은 공통성 값을 가진 변수는 요인분석 모델에 잘 적합하다고 할 수 있습니다.

4) 요인의 명칭 부여

  • 각 요인이 무엇을 의미하는지 이해하기 위해 요인에 명칭을 부여합니다. 이 과정은 주관적일 수 있으며, 요인에 높은 적재값을 가진 변수들의 내용을 기반으로 요인의 성격을 파악하고, 관련된 개념이나 이론에 기초하여 적절한 이름을 결정합니다.

요인분석에서 이러한 단계를 거치는 것은 분석된 데이터 내에서 의미 있는 패턴을 발견하고, 이를 통해 변수들 간의 복잡한 관계를 이해하며, 마지막으로 그 결과를 효과적으로 해석하고 전달하는 데 도움을 줍니다.

실제 문제로 이해하는 요인 분석 단계

1. 상관계수 행렬

9개 변수들간의 상관계수 행렬이 아래와 같다고 가정하자.

2. 공통성의 검토 (0~1, 0.5 이상 OK)

각 변수의 분산이 추출된 요인들에 의해 설명되는 정도이다. 회전 후, 고품질의 요인적재값들을 제곱합 해줌으로서 계산된다. (아래의 회전된 요인행렬에서, 각 변수의 요인적재값들이 주어저야한다.)

각 변수 당 가장 큰 값에 칠한다

고품질의 요인적재값이 0.855, 0.062, 0.025라고 나와있으니 아래와 같이 계산이 가능하고, 고품질의 공통성은 0.736으로 도출된다.

고품질의 공통성은 = (0.855)제곱 + (0.062)제곱 + (0.025)제곱 = .736

이런식으로 모든 9개 변수의 공통성을 추출하면 모두 0.5 이상으로 공통성의 크기에는 문제가 없다.

3.고윳값 (1이상 채택) 과 설명된 분산

초기고윳값에서 추출제곱합 적재량으로 3개로 축약했다.

위의 표를 보면 세 부분으로 구성되어있는데, 좌측은 9개의 변수로부터 추출될 수 있는 최대 요인의 수인 9 개 요인이 추출된 경우 각 요인의 고윳값과 설명력을 보여준다.

예를 들어 요인 4의 고윳값은 0.826이므로, 세개의 요인이 추출된다. (고윳값이 1이상인 요인들만 추출되므로 성분 1,2,3만 추출된다.)

가운데 부분은, 추출된 요인의 회전 이전 고윳값과 설명령을 나타낸다.

맨 우측 부분은 회전 이후 고윳값과 설명력을 나타내며 맨 오른쪽 부분이 가장 중요하다.

참고로, 고윳값은 그 요인이 설명하는 분산의양을 나타내는 것으로, 갚이 높을 수록 중요한 요인이라고 판단된다. (또한 고윳값은 그 요인에 속한 요인 적재값의 제곱의 합계이다.)

예를 들어 회전 이후 요인 1의 고윳값 % 분산은 다음과 같이 계산된다.
0.902^2 +0.855^2+.....+0.293^2+(-0.035)^=2.385 => 2.385/9 => 26.502%

그리고, 누적 %는 추출된 요인들이 전체분산의 몇%를 설명하는지 나타낸다. 표에서는 세 개의 요인들이 전체분산의 71.784%를 설명함을 보여주고 가장 중요한 값이라고 할 수 있다.

4.요인행렬

각 변수 당 가장 큰 값에 칠한다

회전 후 요인 행렬은 매우 중요한데, 각 요인별로 높은 적재값에 밑줄을 긋고 각 요인에 높게 적재된 변수들을 중심으로 요인의 명칭을 부여하면,
요인 1- 품질 / 요인2-신뢰성/ 요인3-편의성 으로 나눌 수 있다.

따라서, 아홉 개 변수를 세 개의 요인으로 축약할 수 있다.

요인 분석에서 나오는 표 하나하나 분석하기

설명된 분산 표

초기고윳값에서 추출제곱합 적재량으로 3개로 축약했다.

이 표는 주성분 분석(PCA)을 통해 얻어진 결과를 나타내는 것으로 주성분 분석의 목적은 다변량 데이터에서 주요한 정보를 요약하는 것이며, 데이터 집합에서 변동(variation)의 대부분을 설명하는 주요 성분(주성분)을 찾아내는 것입니다.

표의 각 열은 다음과 같이 해석됩니다:

  • 선택된 성분: 데이터에서 추출된 주요 성분들의 순서입니다.
  • 초기 고유값: 각 주성분의 초기 고유값입니다. 고유값은 해당 성분이 데이터에서 설명하는 분산의 양을 나타냅니다. 더 높은 고유값은 더 많은 정보를 담은 성분을 의미*합니다.
  • 분산 %: 각 성분이 설명하는 전체 분산의 백분율입니다.
  • 누적 %: 첫 번째 성분부터 해당 성분까지의 누적 분산을 백분율로 표시합니다. 이는 성분들이 데이터의 얼마나 많은 분산을 함께 설명하는지를 보여줍니다.
  • 추출된 성분 후 고유값(1 이상): 성분 추출 후의 고유값으로, 추출 과정에서 성분의 중요도가 재평가될 때 사용됩니다.
  • 추출 후 분산 %: 추출된 성분이 설명하는 분산의 백분율로, 추출 과정 이후의 값입니다.
  • 추출 후 누적 %: 추출된 성분들의 누적 분산 백분율로, 이 또한 추출 과정 이후의 값입니다.

이 표에서는 9개의 성분이 추출되었고, 첫 번째 성분이 전체 분산의 약 32.56%를 설명하고 있으며, 두 번째 성분이 약 22.63%를 설명하는 것으로 나타납니다. 이 두 성분을 합하면 전체 분산의 약 55.19%를 설명합니다. 나머지 성분들은 상대적으로 작은 양의 분산을 설명하며, 모든 성분을 합쳤을 때 100%의 분산을 설명하는 것으로 보입니다.

주성분 분석에서는 일반적으로 누적 분산이 70~80% 이상인 성분까지를 유의미하게 고려하는데 (고윳값 1 이상), 이 표를 기준으로 하면 첫 3개 성분이 그 기준에 부합할 수 있습니다. 이를 통해 데이터 집합의 주요한 정보를 요약하고, 나머지 성분들을 제외함으로써 데이터를 더 간결하고 관리하기 쉬운 형태로 만들 수 있습니다.

고유값은 해당 성분이 데이터에서 설명하는 분산의 양을 나타냅니다. 더 높은 고유값은 더 많은 정보를 담은 성분을 의미* 
데이터의 '분산'은 데이터가 평균값에서 얼마나 멀리 떨어져 분포하는지를 나타내는 척도입니다. 분산이 크다는 것은 데이터 포인트들이 평균으로부터 넓게 퍼져 있다는 뜻이고, 이는 각 데이터 포인트가 독특한 정보를 많이 가지고 있음을 시사합니다. 즉, 모든 데이터 포인트가 평균값과 비슷하다면, 데이터 세트에는 다양성이 거의 없고 따라서 적은 '정보'만 담겨 있다고 볼 수 있습니다.

주성분 분석에서는 데이터 세트의 전체 변이를 여러 주성분으로 나누어 설명합니다. 첫 번째 주성분은 가능한 많은 변이를 포착하도록 설계되고, 그 다음 주성분들은 남아 있는 변이 중에서 가장 많은 부분을 설명하는 방향으로 설정됩니다. 이 과정에서 각 주성분의 고유값은 해당 주성분이 데이터 세트의 변이를 얼마나 많이 '설명'하는지를 나타내는 지표로 사용됩니다.

따라서 고유값이 크다는 것은 해당 주성분이 데이터 세트의 변이를 많이 포착하고 있으며, 다시 말해 데이터 내의 많은 정보를 요약하고 있다는 뜻입니다. '정보'는 이 경우 데이터 내의 변이 또는 다양성의 양을 의미하며, 데이터의 이러한 변이를 잘 포착하는 주성분은 그만큼 데이터에 대해 많은 것을 알려주는 것으로 간주됩니다.

요인적재표(회전된요인행렬)

각 변수 당 가장 큰 값에 칠한다

요인분석의 결과를 보여주는 요인적재표(팩터 로딩 매트릭스)입니다. 이 표는 변수들과 각각의 요인이 어떤 관계를 가지고 있는지를 수치적으로 나타낸 것으로, 각 숫자는 특정 변수와 요인 사이의 상관관계의 강도를 나타냅니다. 이를 통해 우리는 어떤 변수가 어떤 요인에 크게 영향을 받는지를 파악할 수 있습니다.

여기서 볼 수 있는 것들을 몇 가지 해석해보겠습니다:

  1. 첫 번째 컬럼(요인 1)은 ‘유명브랜드’, ‘고품질’, ‘값어치 있음’ 등의 변수들에서 높은 로딩 값을 가지고 있습니다. 이는 이들 변수가 요인 1에 크게 영향을 받는다는 것을 의미하며, 이 요인은 이러한 속성들을 반영하는 어떤 공통된 개념 이나 특성을 나타낼 수 있습니다.
  2. 두 번째 컬럼(요인 2)은 ‘환불 용이’과 ‘광고제품과 동일’ ‘분실염려없음’ 변수에서 높은 값을 보여주고 있습니다. 이는 요인 2가 이들 변수에 더 많이 영향을 미치는 요인임을 나타냅니다.
  3. 세 번째 컬럼(요인 3)은 ‘구매가용이’과 ‘원하는 장소에 배달’, ‘시간 절약’에서 높은 로딩 값을 가지며, 이 요인은 이러한 속성과 관련된 요인일 수 있습니다.

로딩 값이 높은 변수는 해당 요인과 강력한 관계가 있으며, 요인의 개념적 해석에 중요한 기여를 합니다. 반대로 로딩 값이 낮은 변수는 해당 요인과의 관계가 약하다는 것을 나타냅니다.

해석을 할 때는 각 요인에 대해 로딩 값이 높은 변수들을 찾아 그 요인이 대표할 수 있는 개념이나 특성을 유추해봅니다. 예를 들어, 첫 번째 요인이 ‘제품 품질’과 관련이 있을 수 있다면, 해당 요인을 ‘품질 요인’으로 명명할 수 있을 것입니다. 두번째는 ‘신뢰성’으로, 세번째 요인은 ‘편의성’으로 결론지을 수 있어요.

이 표에 표시된 ‘Kaiser 정규화’라는 주석은 요인분석 시 적용된 특정한 정규화 방법을 의미합니다. Kaiser 정규화는 변수들의 공통성을 반영하여 요인 로딩 값을 조정하는 과정입니다.

공통성 (0~1) 0.5이상이면 잘 설명됨

이 표는 요인분석에서 사용되는 ‘공통성(Communality)’ 값을 보여주고 있습니다. 공통성 값은 각 변수가 요인에 의해 얼마나 잘 설명되는지를 나타내는 지표로, 값이 1에 가까울수록 그 변수의 변동성이 요인들에 의해 완전히 설명될 수 있음을 의미합니다.

표에서 왼쪽 열에는 변수들의 목록이 있고, 중간 열에는 각 변수의 초기 공통성 값이, 오른쪽 열에는 추출된 공통성 값이 있습니다. 초기 공통성 값은 변수가 모든 요인들에 의해 완전히 설명될 것이라 가정할 때의 값이며, 보통 1로 설정됩니다. 추출된 공통성 값은 실제로 요인들에 의해 설명된 변수의 분산의 비율을 나타냅니다.

이 표를 보면 대부분의 변수들의 공통성 값이 매우 높음을 알 수 있습니다. 예를 들어, ‘음악브랜드’는 추출된 공통성 값이 .847로, 이 변수의 변동성의 84.7%가 요인들에 의해 설명되고 있다는 것을 의미합니다. ‘구매가능 요인’의 경우, 이 값이 .736으로, 이 변수의 변동성의 73.6%가 설명되고 있습니다.

일반적으로, 공통성 값이 높다는 것은 요인분석 모델이 그 변수를 잘 설명하고 있음을 나타내며, 변수가 요인들과 상당한 관련이 있다고 볼 수 있습니다. 반면에, 공통성 값이 낮다면(예를 들어 .5보다 낮음), 해당 변수가 요인들로부터 많은 설명을 받지 못하고 있음을 의미합니다. 그러나 이 표에서 모든 변수들의 공통성 값이 상대적으로 높으므로, 모델이 변수들의 변동성을 잘 포착하고 있는 것으로 해석될 수 있습니다.

요인분석에서의 공통성(Communality) = 개별 변수의 설명력
요인분석에서의 공통성(Communality)은 각각의 개별 변수가 전체 요인들에 의해 얼마나 잘 설명되는지를 나타내는 지표입니다. 다시 말해, 공통성은 해당 변수의 분산 중에서 공통 요인들이 설명할 수 있는 부분의 비율을 말합니다.

쉽게 이해하려면, 한 변수의 전체 분산을 100%라고 했을 때, 이 중에서 몇 퍼센트가 요인분석을 통해 추출된 공통 요인들로 설명이 가능한지를 보여주는 값입니다. 

예를 들어, 어떤 설문조사에서 사람들의 '운동 습관'과 '건강식 섭취' 등이 관련성이 높다고 나왔다면, 이 두 변수는 건강에 관련된 어떤 공통적인 요인에 의해 영향을 많이 받는다고 할 수 있습니다. '운동 습관'의 공통성이 0.8이라면, '운동 습관'의 분산 중 80%가 이 공통 요인에 의해 설명된다는 의미가 됩니다. 나머지 20%는 다른 요인들, 예를 들어 개인의 생활 스타일이나 성격 등에 의해 설명될 수 있습니다.

공통성이 높은 변수는 요인분석에서 중요한 변수로 간주되며, 요인들에 의해 많은 정보가 설명되는 것으로 보입니다. 반면, 공통성이 낮은 변수는 요인들에 의해 그다지 많이 설명되지 않는다고 볼 수 있습니다.

Leave a Comment

공유하기
CONTENTS