4장 독립성, 연관성 그리고 상관성
Part 2. 자료에서 분석으로
확률 지식을 이용해 자료를 분석하는 방법을 논의한다. 자료분석은 자료에서 드러나는 패턴을 찾아 읽고 해석하는 작업으로 부터 시작한다. 패턴해석의 기초개념은 연관성과 상관성이다. 상관성 분석을 확장해 회귀분석에 다다르며, 사회과학 분석 방법의 꽃인 회귀분석에 대해 집중적으로 살펴보며, 왜 20세기 사회과학방법론의 가장 중요한 방법론인지 설명한다.
- 통계적 추론: 확률변수와 분포에 대한 지식을 이용해 관측자료로부터 미지의 정보를 얻는 것
- 미지의 정보: 단순 기술통계를 제외하고 변수간의 관계를 뜻함
- 변수간 관계에 대한 4가지 통계적 개념
- 독립성(independence): X에 대한 정보는 Y에 대해 아무런 정보를 주지 못함.
- 연관성, 종속성 (association or dependence): X에 대한 정보가 Y에 대해 유의미한 정보를 제공한다는 것. 독립과 배타적.
- 상관성: 연관성이 독립성 여부에 대한 통계적 판단이라면 상관성은 이를 정량화한 것. X의 증감이 Y의 증감에 미치는 영향을 측정.
대표적으로 피어슨 상관성은 선형종속관계에 대한 측정치로 -1 ~ 1 사이의 값을 가지며, 독립성은 0으로 측정됨.
- 인과성: X, Y가 서로 연관성을 가진 관계중에서 X가 Y의 변화를 일으키는 관계.
연관성(종속성)은 범주변수 정량변수 모두 적용된다. 상관성은 정량변수에서만 측정 가능하다.
cf. 정량변수 정량변수 → Correlation coefficient
정량변수 범주변수 → Correlation ratio
연관성
- 범주 변수 일때:
빈도표 확인. (종속변수는 세로항에 놓는 것이 관례) 두 범주 변수의 조건부 분포 / 결합 분포를 살펴본다. ex. p(성별|정당)
한계분포(Marginal Distribution)가 각 조건부 분포와 얼마나 다른지 확인한다.
- 카이제곱 (독립성) 검정
- 카이제곱 분포: k개의 서로 독립적인 표준정규 확률변수를 각각 제곱한 다음 합해서 얻어지는 분포. 모수(파라미터) k는 자유도이라고 하며, k가 커지면 정규분포와 비슷한 모양을 띰
- 자유도의 의미: 카이제곱 독립성 검정에서 범주형 두 확률변수 r, c의 자유도는 (r-1) (c-1) 이다. 2x2 빈도 표에서 자유도는 1인 이유는 r, c에 대해서 주변분포를 알고 있어도, 조건부 분포를 알수는 없지만, 하나의 셀만 안다면 모든 결합/조건부 분포를 알 수 있기 때문이다.
- 카이제곱 검정
- 카이제곱 독립성 검정은 독립성 여부만 판단하고, 연관성의 정도나 크기에 대해서는 정보를 주지 못함 ← 표본 크기에 따라 검정 통계량의 크기가 달라짐 (카이제곱 검정 통계의 약점)
- p-value: 귀무가설이 참이라는 가정아래 얻은 통계량이 귀무가설을 얼마나 지지하는지를 나타낸 확률. 검정 통계량보다 같거나 더 극단적인 검정통계량이 클 수록 표본의 통계량이 귀무가설에서 주장한 통계량의 차이가 크기 때문에 귀무가설의 기각 가능성이 커진다.
검정통계량 t
ref. https://en.wikipedia.org/wiki/P-value, https://www.youtube.com/watch?v=tpow70KGTYY&t=2190s
- 귀무가설: 무너뜨리고 싶은 주장. 여기서는 정당일체감과 성별은 서로 독립이다.
- 기대빈도
기대 빈도로부터 관측값이 얼마나 이탈하는지가 종속성(연관성) / 독립성 판단 기준
각 사건마다 최소 5개 이상의 관측치가 있어야함 → 기대 빈도 예측이 잘 맞기 어려움
작은 표본의 경우에는 피셔의 정확도 검정(Fisher's exact Test)을 사용해 독립성 검정 진행 가능
- 카이제곱 검정 통계량
위 통계값을 통해 p-value 계산 가능
p값이 0.05보다 작다는 것은 7.009라는 검정통계량이 극단 적이며, 두 변수가 독립일 경우 우리의 관측한 자료 또는 이보다 더 극단적인 자료를 관측할 가능성이 매우 적다는 것.
- 표준 잔차 (standardized residuals)
표준정규분포, z 통계값으로 해석 가능
cf. 카이제곱검정 동질성 검정은 두 표본이 서로 같은 모집단으로 추출 되었는지 검정 가능
- 피셔 정확도 검정
- 카이제곱 검정에서 기대 빈도 가정 (모든 셀이 5 이상)을 충족하지 않을 때 사용
- 초기하 분포
확률변수: 유한집단에서 비복원 표본추출의 형태의 베르누이 실험
N: 전체 모집단 크기, k: 모집단에서 성공 개수, n: 실험에서 시도된 횟수, y: 관측된 성공횟수
. .
- 피셔 정확도 검정 : 2 x 2 빈도표에서
a+b: 모집단의 총 성공수, a: 관측된 성공 수, c+d: 모집단 총 실패수, 관측된 실패수, N 전체 빈도수 → 실제로 계산할 때는 빈도표의 수를 변해가면서 p값들을 합쳐서 계산
cf) 2x2에서
https://towardsdatascience.com/fishers-exact-test-from-scratch-with-python-2b907f29e593
상관성
카이제곱검정, 피셔정확성 검정을 이용한 독립성 확인의 약점
연속변수에 적용의 어려움, 서로 다른 검정값 상호 비교 어려움, 검정값 범위 제한이 없어 직관적 해석의 어려움
회귀분석의 기초가 되는 개념, 통계적 추론에서 중요한 개념
- 피어슨 상관성
- 피어슨 상관성 =
- 두 확률변수의 표본 공분산 =
- 표본 공분산의 자유도가 n-1인 이유:
표본 분산을 계산하기위해 두 변수 평균값 2개를 고정해야 함 → 2n-2
자유도가 두 변수의 차이의 곱을 구하기 위해 2로 나눠진다 → n-1
cf. 표본 공분산이 n-1로 나누는 이유, 가 되게 하기 위해 (최소분산불편추정, UMVUE, 표본으로 모분산을 추정한 것)
- 상관성 계수는 점 추정치이며 상관성의 통계적으로 유의미한가에 대한 정보를 주지는 못함
- 이를 확인하기 위해 상관성계수의 표준오차를 계산해 신뢰구간을 확인, 또는 t검정통계값을 계산
표준오차 =
상관성 계수에 대한 t-검정 통계값 =
cf) -0인 이유: 상관성 계수 = 0을 null hypothesis로 설정
상관성 계수의 95% 신뢰구간 =
- cf. 아래 예시는 상관성계수의 신뢰구간은 아래와 같은 공식으로 구한다
ref. https://en.wikipedia.org/wiki/Pearson_correlation_coefficient
- cf. 아래 예시는 상관성계수의 신뢰구간은 아래와 같은 공식으로 구한다
- example
http://www.cpedua.com/2.qme/2.3_qme_data/qme1-sqc-sample.pdf
https://zhiyzuo.github.io/Pearson-Correlation-CI-in-Python/
상관성 계수의 신뢰구간은 0을 포함하고 있어, -0.536의 상관성이 통계적으로 유의미하다고 볼 수 없음.
신뢰구간과 같은 정보인 p값도 0.05보다 큰 0.35로 귀무가설이 두 변수가 독립이라는 근거하면 두 변수의 관측치는 이례적으로 볼 수 없음. 따라서 상관성이 0이라는 영가설 기각 가능.
- 상관성 계수의 성질:
[-1,1]의 범위로 표준화된 특정치, 선형상관성의 정도를 표현, 독립이라면 상관성 계수가 0에 가깝지만 역은 성립하지 않음. 상관성 계수는 유클리디안 공간에서 두 벡터가 이루는 코사인 값과 연관되어있음.
- 피어슨 상관계수가 선형성에 근거하고 있는 한계를 극복하기 위한 시도
spearman 상관성: 순위(rank)를 이용해 상관성 측정
Kendall 상관성: 두 변수의 순위차순(rank order)와 조응성(correspondence)를 측정
- 앤스콤의 사중주 (Anscombe's quartet)
(x1, y1), (x2, y2)의 상관성 모두 0.817로 같으며, X의 평균과 분산, Y의 평균과 분산, 회귀 분석선 같다. → 시각화의 중요성, 선형분석방안의 한계