2 표본 가설 검정(Two-sample hypothesis testing)
- 2개의 그룹 표본의 평균의 차이가 유의미한지 검정하는 방안
- 먼저 다른 변수들이 있는 경우 개입이 있는지, 독립성(상관성) 검정을 한다.
- 정규성과 등분산성이 만족하는지 알아봐야 한다.
- 정규성: 종속변수는 각 그룹에서 정규 분포를 따른다.
- 확인 방법: 히스토그램, Shapiro Wilk, Kolmogorov-Smirnov
- 만족하지 않은 경우: Mann-Whitney U test (Wilcoxon rank sum), 부트스트랩 기반 검정
Mann-Whitney U test의 경우 평균이 아닌 분포에 대한 검정이므로, 부트스트랩 기반의 검정이 더 검정력이 좋은 듯 하다.
정규성을 만족하지 않은 경우, 변수 변환을 생각할 수 있지만 변환된 변수의 평균은 변환 전의 평균의 의미를 잃는다. (ex log 변수 변환은 기하평균에 대한 검정으로 바뀜)
- 등분산성 (Homogeneity of variance)
- 확인 방법: Levene’s test
- 만족하지 않은 경우: Welch-Satterthwaite 방법을 사용해 자유도를 조정하는 방안을 고려한다
- 정규성: 종속변수는 각 그룹에서 정규 분포를 따른다.
- 만족하는 경우 T-test 수행
- 대표본의 경우
중심극한 정리에 의해 분산이 유한한 모집단에 대해서는 표본의 평균은 모집단의 분포와 상관없이 정규분프로르 따른다. 작은 표본에서 정규성이 만족하지 않은 경우에는 t-검정이 유효하지 않지만, 큰 표본에서는 정규성을 만족하지 않더라도 t-검정은 유효.
https://stats.stackexchange.com/questions/9573/t-test-for-non-normal-when-n50
- 부트스트랩기반 신뢰구간 통계적 검정 검정 코드 예시
- 부트스트랩: 중복을 허용하여 표본으로 부터 1000개의 부트스트랩 샘플링
- 신뢰 구간: 1000개 부트스트랩의 [2.5%, 97.5%]
- 가설 검정 과정:
- 두 그룹의 표본을 랜덤하게 섞어 평균의 차이를 측정
- 위 과정을 1000번 수행했을 때와 부트스트랩들의 평균의 차이를 비교
https://wormlabcaltech.github.io/mprsq/stats_tutorial/nonparametric_bootstrapping.html
- T-test
- Mann-Whitnew Test
- 순위합 계산 예시
아래는 물이나 술을 마시고 반응시간에 대한 데이터이다. 그룹별 반응 시간은 정규분포를 따르지 않아 독립 표본 T 검정을 사용할 수 없다. Mann-Whitney test가 더 적절하며, 두 분포가 같다는 가설을 검정한다. 모든 데이터는 그룹과 무관하게 가장 빠른 것부터 가장 느린 것까지 정렬되고 순위를 매긴 뒤에, 각 그룹의 순위의 합을 검정통계량을 계산한다. 그룹간에 차이가 없으면 순위합이 비슷하다.
- 순위합 계산 예시
References
- log 변환 이 후의 t-test https://stats.stackexchange.com/questions/25738/is-a-log-transformation-a-valid-technique-for-t-testing-non-normal-data
- box-cox 변환 이후의 t-test https://stats.stackexchange.com/questions/55617/t-test-anova-on-box-cox-transformed-non-normal-data
- 부트스트랩 기반의 통계검정:
https://wormlabcaltech.github.io/mprsq/stats_tutorial/nonparametric_bootstrapping.html
- Mann–Whitney U test : https://en.wikipedia.org/wiki/Mann%E2%80%93Whitney_U_test
Further Readings
- Bootstrap 가설검정 논문:
https://www.researchgate.net/publication/229479542_On_bootstrap_hypothesis_testing
- 다른 2 표본 검정들(Two Sample Test)
- Kernel embedding of distributions#Kernel two-sample test