ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 5장 회귀 분석
    ML DL DS/사회과학자를위한데이터과학 2022. 3. 16. 12:08

    5장 회귀 분석

    회귀분석이란


    • 회귀분석은 2개 이상의 확률변수들 사이의 관계를 추론하기 위해 등장
    • 상관성 분석과 달리 회귀분석에서는 변수들이 서로 상이한 지위를 가짐

      cf 공분산 Cov[X,Y]=E[(Xμ)(Yν)]Cov[X,Y] = E[(X-\mu)(Y-\nu)]

      상관계수 ρXYCov[X,Y]V[X]V[Y]\rho_{XY} \equiv {{Cov[X,Y]}\over{\sqrt{V[X]}\sqrt{V[Y]}}}

    • 종속변수가 불연속적인 경우, 종속 변수와 비선형관계를 가지는 경우로 확장되어 사용 가능
    • 기본 구조
      • 종속변수 = 체계적인 부분 + 비체계적 부분
      • 체계적 부분 = f(설명변수, 통제 변수)

        종속변수: 이론적 가설의 논리적 도착점에 해당되는 확률변수

        설명변수(독립변수): 과학적 논증에서는 원인, 실험적 연구에서 처치/자극. 가설의 논리적 출발점에 해당하는 확률 변수

        통제변수: 수학적 기능은 설명변수와 같으나 통계적의미의 의미와 해석은 다름.

        회귀 분석의 목적이 인과효과 측정이나 효과의 원인에 대한 추적에 있을 때: 통제변수는 실험 연구에서 무작위배분과 같은 역할을 하는 것이 이상적

        회귀 분석의 목적이 이해나 예측에 있을 때: 통제변수는 종속변수의 변이를 충분히 설명해 모형의 타당성을 높이는 역할을 수행해야 함

        설명 변수가 달라지면 통제 변수의 구성도 달라지는 것이 마땅함.

      • 회귀분석 통념 (필자 의견)
        • 사회현상은 우리가 체계적으로 설명할 수 있는 부분과 그렇지 않은 부분으로 나뉘며, 결정론적 법칙을 찾는 것은 불가능
        • 체계적으로 설명할 수 있는 부분 역시 불확실성을 포함하고 있으며, 불확실성은 인지적 불확실성과 존재론적 불확실성을 모두 포함.
        • 오차는 관측 자료의 변이를 설명할 수 있어야 함. 오차는 참값과의 차이가 아니라 자료 생성 과정에서 변이를 표현 하는 것.

          회귀분석의 목표는 연구자와 자료가 가진 불확실성을 토대로 모수의 조건부 분포 p(θD)p(\theta|D)에 대한 우리의 지식을 개선하는 것이다.

        • 이론적 설명과 경험적 설명에서 설명의 경제성은 오직 제한적인 맥락에서만 유의미한 목표과 될 수 있다. 통제 변수나 설명변수의 선택에서 설명의 경제성(Occam's Razor와 같은)을 기준으로 삼을 경우 중요한 변수를 누락하거나 불충분한 통계적 통제가 등장할 수 있음.
      • 회귀분석의 목적: 이해, 예측, 인과효과 측정, 추적
        • 이해: X를 토대로 Y의 변화를 이해하는 것을 목표로함

          ex. 실업증가와 민주당 하원의원 후보 득표율의 관계

        • 예측: 반사실적 추측이나 미래에 대한 전망과 관계

          ex. 실업율이 현재보다 2% 증가한다면 민주당 하원의원 후보들은 어떤 득표율을 올릴 것인가

        • 인과효과 측정:

          ex. 실업율의 변화가 민주당 하원의원 후보들의 평균 득표율에 미치는 고유한 효과(net effect)는 무엇인가

          ex. 다른 요인을 통제했을 때, 실업율의 변화는 민주당 하원의원 후보들의 평균 득표율에 어떤 영향을 주는가

        • 추적: Y에 변화에 대한 원인을 X에 귀속시킬 수 있는지를 확인하는 것.

          ex. 러스트 벨트 지역의 민주당 하원 후보 득표율이 예상보다 낮게 나옴. 실업율 증가, 제조업 무역 적자, 공장의 해외이전, 자동화 원인 중 어떤 것이 가장 중요한 영향을 미쳤는가?

    1차 선형함수


    y=α+βxy= \alpha + \beta x

    • 성질

      y=x의 선형함수

      α\alpha는 사회과학에서 해석하는 경우는 매우 드물다.

      β\beta는 x의 변수 개수가 2개 이상일 경우 k번째 변수의 기울기는 βk=p(yx)xk\beta_{k} = {{\partial p(y|x)}\over{\partial x_{k}}} 이며, 조건부 확률 분포를 특정 변수에 대해 편미분한 결과로 이해 가능. 자료의 측정 단위에 따라 달라지며, 선형 상관성에 중요한 정보를 담고 있음.

    • 선형 회귀분석을 기본 모형으로 사용하는 이유
      • 선형함수는 x의 y에 대한 영향을 증가/감소/변화 없음의 범주로 자료를 쉽게 요약함
      • 복잡한 비선형성도 상당 부분 선형관계로 치환해 설명 가능

        Logarithm, Polynomial, Taylor Series Expansion, Spline

        cf. 로그 선형 모형: log(y)=α+βx\log(y) = \alpha + \beta x

        선형 로그 모형: y=α+βlog(x)y = \alpha + \beta \log(x) → 기울기: x의 퍼센트 변화가 y의 한계변화의 영향

        로그 로그 모형: log(y)=α+βlog(x)\log(y) = \alpha + \beta \log(x) → 탄력성의 의미

        https://namu.wiki/w/탄력성

      • 고차원 함수를 이용한 분석이 선형함수를 이용한 분석보다 우월하지 않을 뿐만 아니라 독자를 현혹하는 경우도 많음 (Gelman and Imbens, 2018, "Why High-Order Polynomials Should Not Be Used in Regression Discontinuity Designs")

    선형 회귀모형의 기본 구조


    모형이 직관적이고 해석이 용이함. 변수 변환을 통해 비선형 관계 근사 가능.

    선형 모형의 변수를 자료로 관측된 확률변수의 관측치로 간주하고 모형과 실제 관측 자료의 오차를 우리가 아는 확률 분포로 근사하는 모형 → 확률변수 X와 Y의 관계를 선형함수로 표현하는 선형회귀모형

    • 선형회귀 모형의 일반적인 형태와 확률분포의 형태

      Y=α+βX+ϵY = \alpha+\beta X + \epsilon , ϵN(0,σϵ2)\epsilon \sim N(0, \sigma^{2}_{\epsilon})

      YXN(α+βX,σϵ2)Y|X \sim N(\alpha + \beta X, \sigma^{2}_{\epsilon})

      → (Y의 조건부 확률은 정규분포를 따른다.)

    • 오차의 분포로 정규분포가 사용되는 이유:
      • 0을 중심으로 대칭, 측정하지 못한 독립적인 작은 힘의 합
      • 확률 분포 중 최대 엔트로피를 가진 엔트로피 → 불확실성/무질서를 가장 보수적으로 하는 확률분포
    • 차원 축소 기법 - MDS Multidimensional Scaling Method: 변수 상관성을 모형화하는 방법 다른 방법 → X와 Y의 결합 분포를 요약

      선형회귀모형 → X와 Y의 조건부 분포를 요약

    선형 회귀 모형의 해석


    선형회귀 모형의 추론: 모형에 존재하는 모수(parameter)에 대한 우리의 지식을 관측 자료를 통해 학습하는 것

    • 학습:
      • 빈도주의: 표본 자료에서 측정된 통계자료를 이용해 모집단의 모수값에 대한 통계적 추정을 하는 것, 점 추정치, 구간 추정치, 유의성 검정의 형태
      • 베이지안: 자료의 분포와 사전분포를 이용해 사후분포에 대한 정보를 추출하는 것 → Bayesian Update
    • 선형회귀모형에서 관심을 갖는 것: SDEM(Significance, Direction, Effect Size, Model-fit)

      결과의 유의성 확인 → 계수 확인 → 유의성과 계수 방향이 유의미한 경우 효과의 크기 측정 → 해석 기반한 모형의 적합성 확인

      • 유의성(Significance):

        X 확률분포는 Y 확분포와 통계적으로 유의미한 상관성을 갖고 있는지

        • 빈도주의: 유사한 관측이 반복적으로 나타날 가능성 (ex. 20번 관찰에서 19번 이상)
        • 베이지안: 사후확률 분포가 0을 포함할 확률
      • 방향(Direction):

        Y의 X에 대한 조건부 분포는 이론적 설명에 예측한 바와 같은 관계를 갖는지. 계수의 방향 판단은 추론에 매우 중요하지만, 방향에 대한 판단이 유의성에 대한 판단에 선행되어서는 안됨. 유의하지 않은 모수의 부호는 무의미함.

      • 효과의 크기(Effect Size):

        X의 한 단위 증가가 Y에서 실질적으로 유의미한 변화를 야기하는가

        → 미분방정식 해법 찾기를 의미하는 것은 아님 대신 실제로 유의미한 차원에서

        ex. 교육예산 증가가 경제 성장과 통계적으로 유의미한 상관성을 가지고 있다고 확인이 되었다고 가정. 2021년 정부예산의 교육예산이 15% 차지할 때, 교육예산 1%의 증가가 경제성장률에 미치는 긍정적 결과가 매우 미미하다면, 분석 결과가 갖는 실제적 의미는 축소됨. 통계적으로 유의미 하지만 실제적으로 무의미 함.

      • 모형 적합성(Model-fit):

        위가 모두 만족되었을 때, 연구자의 회귀 모형이 적합한지 확인. 모형 부적합은 2가지가 있을 수 있음.

        • 과적합: 관측 자료에 비해 모수가 너무 많거나, 설명 변수가 종속변수의 내생변수, 모형이 관측자료에 지나치게 유연하게 설계된 경우
        • 과소적합: 관측자료의 극히 일부분만 설명하는 상태, 모수는 robustness가 떨어지고 설정 변경에 민감하게 반응

      실제적 유의미성을 확인하는 것의 중요성의 상세 논의: Gelman and Stern, 2006, http://www.stat.columbia.edu/~gelman/research/published/signif4.pdf

      통계적 유의성은 실제 유의성과 다르며, 유의성의 기준점은 모호하고, 영가설의 기각이 실제적 유의성을 보장하지 않다는 지적. 그럼에도 불구하고 많은 연구자들은 통계적으로 유의마한 변수가 큰 폭으로 변화해도 실제적인 관심값에서 변화는 미미할 수 있다는 점을 종종 무시함.

    • 골튼의 신장 유전 회귀분석 & 피어슨 상관성 검정
      • 표준화된 변수에 대한 회귀분석 계수는 피어슨 상관성 계수와 같다.
      • 상관성 계수의 95%구간은 0을 포함하고 있지 않음. t 검정 통계값이 매우 큼.
      • R2R^2값을 확인해 보면, 부모의 중간 신장으로 자녀들의 신장 변화의 약 21% 설명할 수 있다.
      • 평균으로의 회귀는 회귀분석의 오류일 수 있다.
      • 회귀분석의 오류

        자료의 패턴을 인과적으로 해석함으로써 발생하는 오류

        인과적 해석을 가능하게하는 다른 정보가 없다면, 회귀분석의 결과는 부분상관성 또는 조건부 분포의 특징으로만 해석되어야 함.

    댓글

Designed by Tistory.