ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 통계적 가설 검정 (Statistical hypothesis testing)
    Math/etc. 2022. 9. 30. 22:27

    통계적 가설 검정 (Statistical hypothesis testing)

    Section 1. General Information


    • 데이터의 종류

    • 요약 통계량

      데이터가 정규분포를 따르는 경우: 평균과 표준편차로 요약이 적절

      정규분포를 따르지 않는 경우(skewed): 중앙값과 IQR 요약이 적절

      순위척도(ordinal): 중앙값과 IQR 요약이 적절

      명목적도: 최빈값

      → 이를 통해, 이상치를 확인할 수 있다.

    • 시각화
    • 적절한 통계적 검정 방안 고르기

      연구주제가 어떤 것인지, 변수들의 종류가 어떻게 되는지 알아야 한다. 그리고 종속 변수의 데이터가 연속형(정규성, 정규성X), 범주형(순위척도/명목척도)인지에 알아야한다.

      이외에 설명변수는 얼마나 많고 어떤 데이터 종류인지. 관계나 평균의 차이가 관심사인지. 동일한 실험자에게 반복적으로 측정하는 것인지에 따라 다를 수 있다.

      • 순위 척도(Ordinal Data)

        순위척도에 대해서는 경험적으로 7개 이상의 범주형 데이터라면, 정규분포를 따르면 모수검정(Parametric test)를 하는 것이 좋은 것으로 알려져 있다.(rule of thumb)

        순위 척도가 5개 정도로 예상된다면, 연속형 데이터로 간주하는 것이 위험할 수 있다. 이런 경우, 점수를 합산하거나 평균을 내어 모수검정을 수행할 수 있는 방안이 있다?

      • 비교에 관한 검정
      • 연관성에 대한 검정
      • 연속형 종속변수와 다양한 종류의 독립변수에 대한 검정

        연속형이나 binary 독립 변수가 있다면 회귀를 사용하고, 범주형 독립변수의 범주가 너무 많다면 ANOVA를 사용하는 것이 선호된다.

    • 정규성의 가정(Assumption of normality)

      모수적 검정(parametric test)은 데이터가 특정 분포를 따른다고 가정한다. (ex. t-test, ANOVA, Regression은 데이터가 정규분포를 따르는 것을 가정)

      데이터 분포에 대한 가정이 맞을 때, 모수적 검정은 비모수적 검정보다 더 강력하다. 이는 데이터의 관계나 차이를 더 잘 포착할 수 있다는 것을 의미한다.

      검정은 정규성을 띠지 않더라도 꽤 강력하므로, 데이터는 근사적으로 정규분포를 따르면 된다.

      관심있는 변수의 히스토그램이나 Q-Q plot을 확인하는 것은, 분포의 모양을 알 수 있다. 히스토그램에서는 중간에서 가장 높고, 평균에서 대칭이어야하며, Q-Q plot에서는 직선에 가까울 수록 정규분포에 가깝다.

      • Skewed data에 대한 시각화
      • 정규성을 위한 통계적 검정

        Shapiro-Wilk, Kolmogorov-Smirnoff와 같은 정규성을 검정하는 통계적인 방법은 작은 데이터셋(n<20)에 대해서는 비정규성을 탐지할 가능성이 낮고, 큰 데이터 셋(n>50)에서는 너무 민감하고 이상치에 취약할 수 있다. 따라서 히스토그램(큰 샘플), QQ Plot(작은 샘플)로 확인하는 것이 좋다

        • 검정별 정규성을 확인해야하는 것
      • 비모수 검정

        비모수 검정은 데이터의 분포에 대한 검정을 하지 않는다.

        실제 데이터 보다는 주로 순위(rank)나 부호(sign)를 기반으로 하며, 모수적 검정보다는 강력하지 않다.

        아래는 물이나 술을 마시고 반응시간에 대한 데이터이다. 그룹별 반응 시간은 정규분포를 따르지 않아 독립 표본 T 검정을 사용할 수 없다. Mann-Whitney test가 더 적절하며, 두 분포가 같다는 가설을 검정한다. 모든 데이터는 그룹과 무관하게 가장 빠른 것부터 가장 느린 것까지 정렬되고 순위를 매긴 뒤에, 각 그룹의 순위의 합을 검정통계량을 계산한다. 그룹간에 차이가 없으면 순위합이 비슷하다. 일반적인 통계 프로그램에서 순위를 정해주기 때문에 걱정할 필요는 없다.

        비모수적인 통계 검정은, 등분상성과 같은 다른 가정이 충족되지 않더라도 사용할 수 있다. 또한, 정규성을 확인하기 어려운 작은 샘플에 대해서도 비모수적 통계검정을 권장하기도 한다.

    • 다른 가정들
      • 독립표본 T-검정, ANOVA

        등분상성(Homogeneity of variances): Levene 검정 (귀무가설: 등분산성을 가진다)

        그룹의 평균의 차이를 비교할 때, 등분산성을 만족하는지 검정한다.

        이 가정의 위반은 정규성 가정을 위반하는 것보다 더 심각하지만 t-검정과 분산 분석 모두 이 가정으로부터의 편차에 대해 상당히 강력하다. t-검정, ANOVA에는 이 가정의 위반을 처리하기 위한 대체 검정이 있다.

      • 반복측정 분산분석(repeated measures ANOVA)

        구형성(Sphericity): Mauchly’s 검정 (귀무가설: 구형성을 가진다)

        모든 반복 측정값 간의 차이에 대한 분산이 모두 동일한지 여부를 나타낸다. 가정이 충족되지 않으면 F-통계량이 양의 편중되어 type 1 오차의 위험이 증가한다.

        귀무가설이 기각되는 경우, Greenhouse-Geisser correction을 자유도에 사용한다.

      • 관측의 독립성(Independent observation)

        대부분의 검정의 경우 관측치가 독립적이라고 가정한다. 한 실험 대상(사람, 관측, 하루)에 대한 결과는 다른 실험 대상의 영향을 받지 않는다.

        독립적이지 않은 데이터의 예로는 동일한 주제에 대한 반복 측정(특별한 다른 검정을 사용함)과 시간 경과에 따른 관측(회귀에서 Durbin Watson test)이 있다. 관찰이 독립적이지 않은 또 다른 상황은 대상이 공통의 영향을 받는 그룹 내에 내포되는 경우이다.

        예를 들어 어떤 반은 선생에게 영향을 받을 수 있다. 이러한 경우 반을 추가적인 랜덤 요인으로 multilevel modelling을 한다. 시간에 따라 독립적이지 않은 시계열 분석과 multilevel modelling은 여기서 다루지 않는다.

    • 신뢰구간

      대부분의 연구는 표본 데이터를 사용하여 더 넓은 모집단에 대해 추론한다. 모집단은 관심 있는 개인 그룹이다. 예를 들어 셰필드에서 태어난 아기의 체중에 대한 연구는 표본을 사용하지만 결과는 전체 모집단에 적용된다.

      모집단에서 추출한 모든 표본은 서로 다른 아기를 포함하므로 표본 크기가 작을 경우 특히 평균 값이 달라진다.

      신뢰 구간은 표본 점 추정치를 둘러싼 변동성을 설명한다. 구간이 넓을수록 모집단 평균의 추정치에 대해 신뢰도가 떨어질 수 있다. 일반적으로 모든 것이 동일하면 표본 평균 간의 변동이 적을 것으로 예상되므로 표본 크기가 클수록 추정치가 더 정확하다.

      모집단 표준 편차를 알 수 없고 표본 크기가 클 때(30을 초과) 모집단 평균에 대한 95% 신뢰 구간에 대한 방정식은 다음과 같다.

      신뢰 구간은 모집단 모수의 실제 값이 있다고 확신할 수 있는 값의 범위를 제공한다. 95% CI는 100번 정도 반복 샘플링을 해 보았을 때 95번 가량은 2 * 표준 오차안에 모평균이 들어있다는 뜻이라고 생각할 수도 있다.

      아래는 27개의 표본들에 대한 신뢰구간과 모평균에 대한 그래프이다.

      가설검정과 신뢰구간에는 깊은 관계가 있다. 예를 들어 Paired t test에서 P-value가 0.05보다 작다면, 평균의 차이에 대한 신뢰구간은 0을 포함하지 않을 것이다. p-value는 단순히 귀무가설을 지지하는 확률만을 의미한다면, 신뢰구간은 평균의 차이를 알려줄 수 있다.

    • 다중 검정(Multiple Testing)

      검정을 하면 할 수록, type 1 error(False positive)가 일어나기 쉽다. 더 많은 수의 검정에 대해 type 1 error를 낮게 유지하기 위한 조정은 분산 분석에서 사후 검정(post hoc tests)에 포함된다. 이것은 통계적으로 유의미한 결과가 적을 수 있다는 것을 의미한다. Tukey, Sidak의 사후검정이 주로 사용되지만, 의학에서는 Scheffe’s 사후 검정이 종종 사용된다.

      논문을 참고하는 것을 추천하며, 수작업으로 조정이 필요한 경우 Bonferroni adjustment이 가장 쉽게 설명된다. 처음의 유의수준(0.05)를 검정의 수로 나누어 더 작은 유의수준을 사용하는 방안이다.

      Kruskall-Wallis의 경우 p-값에 수행 중인 검정의 수를 곱하여 0.05와 비교한다.

    • 표본의 크기와 가설검정

      표본 크기가 클수록 유의한 결과가 나올 가능성이 높다.

      작은 표본 크기의 경우 유의한 차이를 결론짓기 위해 큰 차이가 필요하다.

      표본 크기가 큰 경우 작은 차이가 유의할 수 있지만, 차이가 유의한지 확인해야 한다다.

    • 효과 크기(Effect size)

      효과 크기는 종속 변수에 대한 독립 변수의 효과의 강도 또는 크기를 측정하는 것으로, 통계적으로 유의한 결과가 유의한지 여부를 평가하는 데 도움이 된다.

      t-검정의 경우 absolute effect size는 두 그룹간의 차이이다. standardised effect size는 변동성이 포함되며 산업 표준과 비교할 수 있다.

      cohen은 효과크기가 0.2~0.3(작은 효과), 0.5(중간효과), 0.8(큰 효과) 아래와 같은 가이드를 제시했지만, 항상 의미가 맞지는 않을 수 있다.

    • 부분 에타 제곱 (partial eta-squared)

      독립 변수에 의해 설명되는 종속 변수의 분산 비율을 나타내며, 효과크기를 표현하는 통계량이다. absolute effect size 해석을 위한 부분 에타 제곱의 해석은 아래와 같다

      η2 = 0.010 is a small association. η2 = 0.059 is a medium association. η2 = 0.138 or larger is a large association.

    References


    'Math > etc.' 카테고리의 다른 글

    2 표본 가설 검정(Two-sample hypothesis testing)  (0) 2022.09.30
    Information Theory  (0) 2022.03.16
    Lagrangian Multiplier & Equality Constraint  (0) 2022.03.16
    SVD  (0) 2022.03.16
    Spaces  (0) 2022.03.16

    댓글

Designed by Tistory.