6. Probability and Distribution
Construction of a Probability Space
확률의 철학적 기초와 우리가 논리적으로 사람들이 무엇을 사실(true)이라고 생각하는지에 대한 연구는 Cox에 의해 연구되었다. Jaynes는 plausibility(신뢰성, 타당성)에 적용되어야 하는 3가지 수학적 기준을 확인했다.
- Plausiblility의 수학적 기준 (Cox-Jaynes Theorem)
- Plausiblility의 정도는 실수로 표현된다.
- 상식의 규칙에 기반한 수여야 한다.
- 추론의 결과는 아래와 같이 일관성(consistency)이 있어야하한다. 일관성은 아래 3가지를 의미한다.
- Consistency or non-contradiction(일관성, 비모순성): 다른 수단을 통해 동일한 결과에 도달할 수 있는 경우, 모든 경우에 동일한 신뢰성 값(Plausibility value)을 찾아야 한다.
- Honesty(정직함?): 이용 가능한 모든 데이터는 고려되어야한다.
- Reproducibility(재현성): 서로 다른 두 문제에 대해 아는 지식의 상태가 같다면, 두 문제에 대한 plausibility의 정도는 동일하게 부여되어야 한다.
Cox-Jaynes 정리는 plausibility p에 적용되는 보편적 수학 규칙을 정의하기에 충분하다. 임의의 단조함수에 의한 변환까지 증명하였으며, 결정적으로 이러한 규칙은 확률의 규칙이다.
- ML과 통계학에서의 확률
- 베이지안: 믿음의 정도
- 빈도주의: 발생한 총 사건 수에 대한 관심 사건의 빈도
- 확률공간: 확률의 개념을 정량화할 수 있게함. 확률공간에서 직접작업하지 않음.
- 확률변수: 확률공간 대신, 확률을 확률변수를 통해 수치적 공간으로 전송
- Sample Space (표본 공간): 실험에서 나올 수 있는 모든 가능한 결과들의 집합, 로 표현.
- Event Space (사건공간): 실험에서 잠재적 결과에 대한 공간. 실험이 끝날 때, 특정 결과(표본)가 에 있다면, 표본공간 의 부분집합 A는 사건공간 에 있다.
- Probability (확률): 에 대해, P(A)는 A사건이 일어날 확률 또는 믿음의 정도를 측정.
- 확률공간 : 머신러닝에서 종종 확률 공간을 명시하지 않는 대신에, 로 관심있는 양(quantities of interest)의 확률을 사용한다. 이 책에서는 를 target space라고 하고, 의 요소를 state라고 한다.
- 확률변수: 표본공간을 타겟공간으로 사상하는 함수 X: : 표본을 입력으로 받아 관심있는 양으로 반환하는 함수이다. 예를 들어, 2번 동전 던지기에서 앞면이 나올 수는 아래와 같으며, 이 때, 타겟 공간은 아래와 같다.
참고로, 표본공간 오메가는 책마다 다르게 설명함. state space라고 하는 경우도 있으나 이는 동역학계의 상태를 의미하기도 한다. 표본공간을 다음과 같이 부르기도한다. “sample description space”, “possibility space,” “event space”
- PMF(확률질량함수): Target Space가 이산확률변수(discrete random variable)인 경우, 확률변수와 특정 값을 받아 확률을 반환
- CDF(누적분포함수): Target Space가 연속확률변수(discrete random variable)인 경우, 확률변수와 특정 값을 받아 확률을 반환 (특정값은 해당 값 이하일 확률)
- Univariate, Multivariate: 확률변수의 수
- PDF(확률밀도함수)
여기의 실수 확률 변수에 대해 보렐 시그마-대수로 본다. 에 속한 값을 갖는 확률변수를 벡터 실수 확률변수라 한다.
pmf에서, 시그마가 인테그랄로 바뀌었다. 위 1,2 조건에 따라 R^D에서 음수를 갖지 않고, 합이 1이되는 모든 함수는 pdf로 볼 수 있다.
- CDF
cdf 중 pdf가 없는 것도 있다. pmf, cdf, pdf 모두 종종 확률분포라는 표현을 사용한다.
- Sum Rule, Marginalization Property
- Product Rule
- Bayes Theorem
사후확률 p(x|y)는 베이지안 통계에서 quantity of interest 이다. 이는 우리가 관심있는 것을 정확하게 표현하며, y가 관측되었을 때, x가 나타났을 확률을 표현한다.
quantity of interest은 parameter vector 에 대한 함수 로 표현될 수 있다.
- Marginal Likelihood (evidence)
Summary Statistics and Independence
- 기댓값
- 평균
- median: 중앙값
- mode: 최빈값, pdf의 peak
- 공분산
이 책에서는 일반적으로 공분산 행렬은 positive definite 하다고 가정한다.
- Empirical Means and Covariances (sample Means, sample Covariance)
앞의 평균과 공분산은 모집단에 대한 개념. 실제로는 표본에 대한 데이터를 많이 다룸. 모공분산, 모평균과 다른점은, 유한한 데이터 N개가 있다는 것과, 확률변수에 대한 관측된 결과가 있다는 것이다.
위 표본 공분산으로는 N으로 사용했는데 이는 biased estimate(corrected)이다. unbiased estimate은 N-1로 나눈다.
- 3 Expression for Variance
단일 확률 변수 x에 대해 분산의 표현들을 보자.
- 에 대하여, 분산의 표준 표현. 라는 새로운 확률 변수의 평균으로 해석가능.
- raw-score formular for variznce
위와 같이 계산하면, 수치적으로 불안정 할 수도 있음. 우변의 좌항 우항이 너무 크거나, 거의 같을 수 있음. 또한, 부동소수점 제한으로 인해 수치적 정밀도가 떨어질 수 있음.
ML의 Bias-Variance Decompostion을 사용할 때 유용함.
- sum of pairwise differences between all pairs of observations
아래가 좀 더 올바른 표현(위키피디아), (2로 나누어 주지 않음, 실시간으로 데이터가 들어오고 분산을 tracking 한다면, 오른쪽 공식이 가장 빠르게 구할 것으로 판단됨.)
simple code example
- Sums and Transformation of Random Variables
- Statistical Independence
마지막은 역이 성립하지 않는다.
z에 대한 지식이 주어질 때, x와 y의 분포가 factorize하는 것으로 해석할 수 있다. product rule을 이용해 아래처럼 표현할 수 있다.
- Inner Product of Random Variable
상관성이 없는(cov(X,Y)=0, 독립은 아직 모름)인 두 확률변수에 대하여 아래가 성립한다.
이를 기하학적으로 위처럼 표현할 수 있다. 확률변수는 벡터공간에 있는 벡터로 생각할 수 있다. 확률변수의 기하학적 성질을 파악하기 위해 내적을 정의할 수 있다.
두 확률 변수 X, Y의 평균이 0이면 다음과 같이, inner product를 정의할 수 있다. (cf. 평균이 0이면 확률변수 X의 분산은 X.T @ X)
공분산은, symmetric, positive definite하고, 선형이다. 확률변수의 길이는 아래와 같이 표준편차로 볼수 있으며, 더 긴 확률 변수는 더 분산이 크다. 길이가 0이라면, deterministic 하다고 할 수 있다.
이 때, 벡터공간에서의 dot product처럼 두 확률변수의 각도를 아래와 같이 구할 수 있으며, 이는 correlation 값임을 확인 할 수있다.
두 확률 분포의 거리를 구하기 위해서 유클리디안 거리를 구하고 싶겠지만, 좋은 방법은 아니다. 확률분포(연속 이산)의 합이 1이라는 제약조건은 분포가 통계적 매니폴드에 있다는 것을 의미한다. 두 분포의 거리를 위해 사용하는것은 KL Divergence가 있으며, 이는 Bregman divergences와 f-divergences의 특별한 케이스이다. divergence에 대한 지식은 책의 범위를 넘으며 정보기하학 책을 보는 것을 추천한다. (Amari, 2016)
Gaussian Distribution (가우시안 분포)
선형회귀의 likelihood, prior, GMM, Gaussian process, 변분추론, 강화학습, 칼만필터(신호처리), linear quadratic regulator(제어), 가설검정(통계) 등에서 사용한다.
평균이 0벡터이고, 공분산 생렬이 단위행렬(Identity Matrix)인 행렬을 다변량 표준 정규분포라고 한다. 가우시안분포는 주변분포(Marginal)와 조건부분포에 대해 closed-form이기 때문에 통계적 추론이나 머신러닝에 많이 사용한다. 평균과 공분산에 의해 정해지기 때문에, 평균과 공분산을 변환해 사용한다.
- Marginals and Conditionals of Gaussians are Gaussians
이번 개념이 조금 헷갈린다면, X, Y를 일변량이라고 생각해도 좋다.
- 조건부 가우시안 분포
이 때, mu_x|y에서, y값은 관측된 값으로 더 이상 random하지 않다. (6.66)
조건부 가우시안 분포는 사후분포에 관심있는 경우 자주 사용한다.
- 결합 가우시안 분포의 주변분포
- 예시 (위의 6.66, 6.71을 통해 조건부 가우시안 분포를 구할 수 있다)
- 조건부 가우시안 분포
- Product of Gaussian Densities
베이지안 이론에서 가우시안 likelihood와 가우시안 prior를 고려한다면, 두 가우시안 분포를 고려할 수 있다. 이 때, 다음과 같이 계산된다.
scaling constant인 c는 가우시안 밀도로, 평균 벡터인 a 또는 b와 팽창된(inflated) 공분산행렬로 다음과 같이 표현 할 수 있다. 이는 a, b벡터가 확률변수가 아니더라도, 6.76처럼 표현하는 것보다 아래로 표현하는 것이 더 컴팩트하다.
- Sums and Linear Transformation
- 두 단변량 강우시안 밀도의 혼합(mixture)
(Expectation and Varaince of a mixture of two univariate Gaussian densities)
분산에 대한 증명에서는 raw score 표현을 사용한다. 증명은 203pg (pdf. 209 pg)
이 때, 혼합밀도도 두 강우시안 분포의 평균과 분산으로 표현할 수 있다.(closed-form)
혼함밀도(mixture density)는 각 요소를 조건부 분포로 볼 수 있다. 6.82 식은 조건부 분산(conditional variance) 공식의 예이며, law of total variance라고도 한다. 일반적으로 두 확률 변수 X, Y에 대하여, X의 분산(total variance)은 조건부 분산의 기댓값과 조건부 평균의 분산을 합한 것이다.
- 가우시안 확률변수의 선형/어파인 변환
이변량 표준 정규분포의 확률 변수 X에 대하여, 행렬 A로의 선형변환 (예시 6.17)의 결과는 평균은 0벡터이고 공분산은 AA^T가 된다. 상수 벡터를 더해주면, 공분산은 변하지 않고 평균만 변화하게 된다. 따라서 가우시안 확률변수에 대한, 모든 선형/어파인 변환은 가우시안 분포가 된다.
- Reverse Transformation
어떤 확률 변수의 평균은 다른 확률 변수의 선형변환된 것이다.
M ≥ N인 full rank matrix 에 대하여,
를 평균으로 갖는 가우시안 확률변수 을 생각 해보자.
이 때, 의 확률분포는 A가 가역행렬이라면, X=A^-1y를 통해 구할 수 있다. 하지만 보통 A는 비가역 행렬이기 때문에, pseudo inverse를 이용해 아래처럼 구할 수 있다.
- Sampling form Multivariate Gaussian Distributions
컴퓨터에서 랜덤샘플링을 어떻게 하는지 상세하게 다루지는 않는다. Gentle(2004)를 참고해라.
다변량 가우시안을 샘플링은 3가지 단계로 구성된다.
- [0,1] 균등분포에서 의사 난수(pseudo-random number)
- 일변량 가우시안 샘플을 만들기 위한 Box-Muller 변환과 같은 비선형 변환
- 다변량 표준 정규분포의 샘플을 만들기 위해 샘플들을 벡터로 만들어 collate한다.
평균이 0벡터가 아니고 공분산이 I가 아닌 일반 다변량 가우시안을 위해서는 가우시안 확률변수의 선형변환특성을 이용한다.
를 샘플링 하기 위해서는, 에서 샘플링한 데이터에, 로 변환 해주고 이때, 이다. 원하는 공분산 시그마로부터 A를 만들기 위한 편리한 방법 중 하나는 숄레스키 분해(4.3, Cholesky decomposition)을 사용하는 것이다.
- 두 단변량 강우시안 밀도의 혼합(mixture)
Conjugacy and the Exponential Family
- 기계학습의 맥락에서 확률분포를 조작하는 이유
- 확률의 법칙을 적용하면 “Closure property”가 있다. Closure property란 어떤 연산을 수행한 결과가 같은 종류의 결과가 나오는 것이다.
- 많은 데이터를 수집할 수록, 분포를 설명 분포를 표현하기 위한 파라미터의 수는 늘어나지 않는다.
- 데이터로 부터 학습을 원한다는 것은 파라미터 추정이 잘되는 것을 원한다는 것
지수 분포족은 효율적인 연산과 추론 성질을 유지한 채 일반화를 위한 좋은 균형을 갖고있다.
- 베르누이 분포(Bernoulli Distribution)
단일 이진 확률변수 X의 state x는 {0, 1}의 원소이며, 하나의 연속 파라미터()를 가지며 이는 [0,1] 구간에 있다. 베르누이 분포의 확률분포 , 기댓값과 분산은 아래와 같다.
- 이항분포(Binomial Distribution)
베르누이 분포를 정수에 대한 분포로 일반화한 것. (generalization of the Bernoulli distribution to a distribution over integers)
N개의 실험에서 X=1이 m 번 관측될 확률을 표현한다.
와 기댓값, 분산은 아래와 같다.
- 베타 분포(Beta Dist.)
유한한 구간에서 연속확률변수를 모델링하고 싶을 때, 베타 분포를 사용한다. (cf. 비율에 관심있을 때 주로 사용하는 확률 분포, https://www.youtube.com/watch?v=RNkT4YG8B3A)
연속확률변수 에 대한 분포이다. (distribution over a continuous random variable)
이 때, mu는 보통 이진 사건의 파라미터의 확률을 의미한다. 베타분포는 2개의 알파, 감마라는 파라미터가 있으며 이는 모두 양의 실수이며 아래와 같이 정의 된다. 감마함수는 베타 분포를 정규화한다.
베타분포는 아래와 같은 특징이 있다. (U는 균등분포)
- Conjugacy
베이즈 정리에 따르면, 사후확률은 사전확률과 가능도의 곱에 비례한다. 하지만, 사전확률을 구체화하는 것에는 어려움이 있다. 먼저 사전확률은 데이터를 보기 전에 문제에 대한 지식이 있어야 하지만 이는 어렵다. 또한, 사전확률과 가능도의 곱을 통한 사후확률을 수치적으로 계산할 수 없을 수 있다. 하지만, 켤레사전확률분포(Conjugate Prior)를 사용하면 계산적으로 편리할 수 있다.
사전확률과 사후 확률이 동일한 형태/유형인 경우, 사전확률은 가능도 함수에 대해 conjugate하다고 한다.
켤레성은 사전확률분포의 파라미터를 업데이트해 사후분포를 대수적으로(algebraically) 계산할 수 있어 편리하다. 또한, 확률분포의 기하학(geometry)를 고려할 때에도, 켤레사전분포는 가능도와 같은 거리구조를 갖고 있다.
- Beta-Binomial Conjugacy & Beta-Bernoulli Conjugacy
이산확률변수에 대해 정의된 이항분포와, 연속확률변수에 대해 정의된 베타분포
사후 분포 또한, 베타 분포로 사전분포와 같다. 베타 사전분포는 이항우도함수의 파라미터 와 켤레이다.
유사하게, 베타분포와 베르누이 분포를 확인하면, 아래와 같다. ,
- 가능도에 대한 켤레사전분포
베르누이 분포와 이항분포의 파라미터 에 대한 켤레사전 분포는 모두 베타이다.
가우시안 분포는 위 표에서 2개인 이유는 다변량과 일변량을 구분하기 위해서이다. 분산에 대하여 단변량인 경우 역감마분포를 사용하며, 다변량일경우 역 위샤트 분포를 사용한다. (변량 가우시안 분포의 precision(분산의 역수)에 대한 사전 분포는 감마분포이다. 다변량 가우시안 분포의 precision(공분산행렬의 역행렬)에 대한 사전 분포는 위샤트 분포이다.)
디리클레분포는 다항분포(Multinomial)에 대한 켤레사전 분포이다.
여러 분포에 대한 상세한 내용은 역감마, 역위샤트, 디리클레 분포는 다른 PRML과 같은 책에서 찾아보자.
- Beta-Binomial Conjugacy & Beta-Bernoulli Conjugacy
- Sufficient Statistics
통계량(statistics)은 확률변수의 deterministic한 함수이다.
피셔는 어떤 분포의 데이터의 모든 정보를 포함한 통계량이 있다는, 충분통계량(sufficient statistics)의 개념을 만들었다. 이는 모집단에 대한 추론에 필요한 모든 정보, 즉 분포를 표현하기 위해 충분한 통계량이다.
모든 정보를 포함한다는 것은, 주어진 에 대해 에 의존하지 않는 부분과 에 의존하는 부분으로 통계량 를 통해서만 나눌 수 있다는 것이다.
- Fisher-Neyman Factorization theorem
http://contents.kocw.net/KOCW/document/2015/chungbuk/najonghwa/5.pdf
머신러닝에서 우리는 유한한 샘플을 분포로부터 추출한다. 베르누이분포와 같은 간단한 분포에서 우리는 파라미터를 추정하기 위해 많은 샘플의 수가 필요하지 않다. 우리가 알지 못하는 분포에서 추철한 데이터에 대해서 어떤 분포가 가장 잘 맞는지, 많은 데이터를 관찰할 때 분포를 표현하기위한 얼마나 많은 파라미터가 필요한지는 비모수통계에서 다룬다.
어떤 분포들이 유한 차원의 충분통계량을 갖고 있는지, 이를 설명하기 위해 필요한 파라미터의 수가 임의로 증가하지 않는지는 지수족을 통해 알 수 있다.
- Fisher-Neyman Factorization theorem
- Exponential Family
- 연속/이산 확률분포의 3가지 추상화 단계
1단계: 특정 이름이 있는 분포와 고정된 파라미터가 있는 분포 (ex. 단변량 가우시안 N(0,1))
2단계: ML에서 주로 사용하는 파라미터를 설정하고, 데이터로부터 파라미터를 추정하는 단계. (ex. 를 따른다고 가정하고, 데이터로부터 평균과 분산을 MLE를 통해 추정)
3단계: 분포족(familes of distributions)를 고려하는 것. 많은 이름있는 분포들은 지수족에 포함된다. 지수족은 반복적인 독립 표본추출에서 유한차원의 충분통계량을 만족한다.
- 지수족
는 충분통계량이고, 어떤 inner product도 사용될 수 있다. 보다 상세한 설명을 위해 dot product라고 하자. 지수족의 공식은 Fisher-Neyman이론의 특별한 형태이다.
h(x)는 e^log h(x)로 표현하고, 이에 대응하는 파라미터는 로 설정해, h(x)를 충분통계량 항에 추가할 수 있다. 는 정규화 상수로 분포의 합이 1이되도록 하며, 이를 log-partition 함수라고 한다.
지수족을 h(x)와 정규화항을 제외하고 보면 더 직관적으로 이해할 수 있다.
위와 같은 표현에서, 는 natural parameter라고 한다. 지수족들은 지수함수와 dot product로 이루어진 단순해 보이지만, 충분통계량 를 통해 데이터의 정보를 얻을 수 있다는 사실을 기반해 편리한 모델링과 효율적인 계산을 가능하게 한다.
natural parameter 와 베르누이분포의 파라미터 의 관계는 sigmoid, logistic 함수이다.
특정 분포의 켤레분포의 parametric form을 찾는 것이 명확하지 않을 때가 종종 있다. 지수족은 켤레분포 쌍을 찾는 방법을 편리하게 제공한다.
확률변수 X가 지수족이라 하면 아래와 같다.
지수족의 켤래 사전 분포의 일반 형식에 대한 지식을 이용해, 특정 분포에 맞는 켤레사전 분포의 함수 형태를 도출할 수 있다. 아래는 베르누이분포로부터, 켤레사전분포인 베타 분포를 도출하는 것은 6.15 (214pg, pdf 219pg)에서 확인가능하다.
지수족은 유한차원의 통계량을 갖고 있다는 것이 가장 중요한 성질이며, 지수족의 켤레사전분포를 얻기 쉽다.
추론의 측면에서,충분통계량의 empirical estimates(경험적 추정)은 모집단의 충분통계량(가우시안의 평균, 공분산)의 최적 추정이(optimal estimates)기 때문에 MLE가 잘 작동한다. 최적화 관점에서는 로그우도함수가 concave해서 효율적으로 최적화 할 수 있다.
- 연속/이산 확률분포의 3가지 추상화 단계
Change of Variables / Inverse Transform
알려진 분포가 많아보이지만 이름을 가진 분포는 상당히 제한적이기 때문에, 확률변수의 변환 방법을 이해하는 것이 필요하다.
예를 들어 N(0,1)을 다르는 X에 대해, X^2의 분포나 (X1, X2)/2 의 분포를 위한 이름은 없다. X1, X2의 통계량인 평균과 분산을 계산하는 방법이 있을 수 있지만, 함수형태를 알 수 없는 경우도 있다. 또한, closed-form으로 쉽게 사용할 수 없는 확률변수의 비선형변환이 필요할 수도 있다.
- 변환된 확률변수의 분포를 구하는 방법
- cdf의 정의를 이용한 방식
- 적률생성함수를 이용한 방법 (Casella and Berger, 2002, chapter 2).
- 미적분학의 chain-rule을 이용한 변수변환(chage-of-variables) 방식: 가장 많이 사용
- 이산확률변수
이산확률변수에서는 곧바로 이해할 수 있다. pmf P(X=x)에 대하여, 가역함수 U(x)를 고려한다. Y:= U(X)라하고 변환된 pmf는 P(Y=y)는 아래와 같다. (6.125b)
- Distribution Function Technique
Distribution Function Technique은 cdf의 미분이 pdf임을 이용한다.
위 예시와 같이, f(x)가 강한 단조 증가함수(strictly monotonically increasing function)인 경우에는 역함수를 활용할 수 있다.
(https://hashmm.com/post/monotonic-functions/)
- Probability Integral Transform(확률 적분 변환)
X가 연속확률변수이고 cdf 가 강단조증가함수인경우, 확률변수 Y를 다음과 같이 정의하면, , Y는 균등분포이다.
확률적분변환이론은 균등분포의 확률변수를 샘플링한 결과를 변환해 분포의 원하는 샘플링 알고리즘을 도출하는데 사용한다. 균등분포에서 표본을 추출하고, inverse cdf(존재한다고 가정하에)로 변환해 원하는 분포의 표본을 얻는다.
또한, 표본이 특정 분포에서 추출되었는지에 대한 가설검정에 사용한다. cdf의 결과가 균등분포라는 것은 copula의 기초를 형성한다. (copula: 각 변수의 주변확률분포(marginal prob. dist.)가 [0, 1] 구간에서 균일한 multivariate cumulative distribution function)
- Change of Variables
위의 Distribution Function Technique는 2가지 사실에 기반한다.
- Y의 cdf를 X의 cdf로 표현할 수 있다.
- cdf를 미분해 pdf를 구할 수 있다.
더 일반적인 방법인 change-of-variable 방법을 이해하기 위해, 보다 단계별로 살펴보자.
cf. change of variable은 복잡한 적분을 해야할 때, 사용하는 치환적분의 아이디어를 사용하는 것이다.
→ U가 강단조증가함수일 경우를 가정했으며, 강단조감소함수인경우 음수이기 때문에 절댓값을 사용.
→ 이산확류변수(6.125b)와 비교하면 저 변화량 부분이 추가되었다. 모든 y에 대해 P(Y = y) = 0이기 때문에 연속형 경우에는 더 주의해야 한다. 확률밀도함수 f(y)에는 y와 관련된 사건의 확률로 기술되어 있지 않다.
→ 다변량 확률변수인 경우, 절댓값 대신에 Jacobian 행렬의 determinant를 사용한다. Jacobian 행렬은 편미분 행렬로, determinant가 0일 때 역행렬이 존재한다.
- Theorem 6.16
다변량 연속 확률변수 X에 대해 는 확률밀도함수이다. vector-valued function 가 의 정의역과 그 대응하는 값 에 대해 미분가능하고 역행렬이 존재할 때, 의 확률분포는 아래와 같다.
변환하는 순서는 일변량 변수변환과 같다. 먼저 inverse transform을 한 뒤에, 의 밀도로 치환하고, 야코비안행렬의 determinant를 구해 곱한다.
위 예시는, 으로의 변수 변환임을 알 수 있다.
- Theorem 6.16
Further Reading
- 보다 자세한 설명: Grinstead and Snell (1997), Walpole et al. (2011)
- 소프트웨어 공학과의 연관성: Downey (2014).
- 지수족 : Barndorff-Nielsen (2014)
- 변분추론: Goodfellow et al. (2016).
- 확률론적 모델링: MacKay (2003); Bishop (2006); Rasmussen and Williams (2006); Barber (2012); Murphy (2012).