- 수리통계학 내용 정리(추정 파트)

- 참고 : 수리통계학 제5판 송성주$\cdot$전명식 지음

추정

- 미지의 모수 $\theta \in \Omega$를 점추정하는 방법을 알아보자

- 통계량(statistic) : 미지의 모수를 포함하지 않는 랜덤표본 $X_1,X_2,\cdots,X_n$의 함수

- 추정량(estimator) : $g(\theta)$를 추정하기 위해 사용되는 통계량 $T(\boldsymbol{X})=T(X_1,X_2,\cdots,X_n)$

- 추정값(estimate) : 확률변수의 실현값을 통해 구해진 추정량의 특정값 $T(\boldsymbol{x})=T(x_1,x_2,\cdots,x_n)$

- 참고로 모수 $\theta$의 추정량은 $\hat\theta$으로 표기함

적률추정법(Method of Moment Estimation, MME)

- 대수의 법칙을 이용하여 모수를 추정: $m_r{'} \xrightarrow{~~p~~} u_r{'}$

- $ u_r{'} = E\left(X^{^r}\right),\quad m_r{'} = \dfrac{\sum\limits_{i=1}^{n}{X_i}^{^{r}}}{n}$

- 위에 대수의 법칙에서 $2$차 이상의 적률인 경우 ${X}^{^r} = Y$로 치환하면 된다

최대가능도 추정법(Maximum Likelihood Estimation, MLE)

- 우리가 알고있는 임의의 분포(모수만 모름)에서 뽑은 랜덤표본을 가지고 모수를 추정한다

- 가능도함수: $L(\theta)=L(\theta;x_1,x_2,\cdots,x_n)=f(x_1,x_2,\cdots,x_n;\theta)=\prod\limits^{n}_{i=1}f(x_i;\theta)$

- 확률밀도함수와 가능도함수는 특정한 $x_1,x_2,\cdots,x_n$과 $\theta$에 대해서 동일한 값을 가진다

- 가능도함수를 최대화하는 모수 $\theta$의 최대가능도 추정량을 구하면 된다

- 참고로 함수의 최대값을 구하기 위해 미분을 사용하는데 미분을 할 때 가능도함수에 로그를 취한다

- 로그를 취하면 미분이 편해지며 어차피 로그함수는 단조증가함수이므로 $L(\theta)$를 최대로 만드는 $\theta$에서 $\ell(\theta)$도 최대이다

- 만약 가능도함수의 support(토대)에 모수가 포함되어 있으면 미분이 불가능하여 그래프를 그려서 최대가능도 추정량을 구해야 함

- 참고로 최대가능도 추정량의 경우 불변성 원리가 성립한다

추정의 기준

- $T(X)$가 $g(\theta)$의 추정량일 때 $E[T(X)]-g(\theta)$를 $T(X)$의 편향(bias)이라고 하며

- 편향이 $0$이면 $T(X)$를 $g(\theta)$의 비편향추정량이라고 한다

- $\operatorname{MSE} = Var\left(T(X)\right) + (bias)^2$

- 일치성(consistency) : $T(X)\xrightarrow{~~p~~}g(\theta)$

- $\lim\limits_{n\to\infty} E \big [T_n(X)-g(\theta)\big]^2=0$이 성립하면 $T_n(X)$는 일치성이 있다(확률부등식 사용)

- $g(x)$가 $\theta$에서 연속인 함수이면 불변성 성립!

  • 비편향성(불편성)과 일치성의 차이

- 불편성은 고정된 표본크기에 대한 추정량의 기댓값이 $g(\theta)$인 것이고

- 일치성은 표본크기가 무한히 커지면 추정량 자체의 값이 $g(\theta)$로 확률수렴(확률적으로 수렴)하는 것

최소분산 비편향추정량(Minimum Variance Unbiased Estimator, MVUE)

- 다음을 만족하는 함수 $g(\theta)$의 추정량 $T^*(X)$를 최소분산 비편향추정량이라고 한다

1. $T^*(X)$는 $g(\theta)$의 비편향추정량

2. $Var\left(T^*(X)\right) \leq Var\left(T(X)\right)$

크래머-라오 하한값

- 적절한 조건하에서 비편향추정량이 가질 수 있는 분산의 하한값을 제공(조건은 교재 참고)

- 어떤 비편향추정량이 분산의 하한값을 분산으로 가지면 최소분산 비편향추정량이다(단, 유일성을 보이기는 어려움)

- 피셔의 정보 : $I(\theta)=E\left[\left(\frac{\partial}{\partial \theta}\log f(X;\theta)\right)^2\right]$

- 참고로 $f(X)$는 다음과 같음 : 확률변수 $X$ $\xrightarrow{\text{$f$: pdf of $X$}} f(X)$

- $f(X)$는 확률변수, $f(x)$는 확률변수 $f(X)$의 realization(?)

- 크래머-라오의 정보부등식: $Var(T(X)) \geq \dfrac{[g'(\theta)]^2}{nI(\theta)}$ $\to$ 크래머-라오 하한값

  • 주의할 점

1. 크래머-라오 하한값을 갖지 않아도 최소분산 비편향추정량이 될 수 있다

2. 적절한 조건을 어기는 경우 크래머-라오 하한값보다 더 작은 분산을 가지는 비편향추정량이 존재할 수 있다

충분통계량(sufficient statistic)

- 확률벡터 $\boldsymbol{X}$의 결합 확률밀도함수는 $f(x_1,\cdots,x_n;\theta_1,\cdots,\theta_k)$이고 $\boldsymbol{S}(\boldsymbol{X})$를 $l$개의 통계량의 벡터라고 하자

- 이때 조건부 확률변수 $(X_1,X_2,\cdots,X_n)\mid \boldsymbol{S}(\boldsymbol{X})$의 분포가 모수 $\boldsymbol{\theta}$에 의존하지 않으면

- 통계량 $\boldsymbol{S}(\boldsymbol{X})$를 결합 충분통계량(jointly sufficient statistic)이라고 한다

- $l=1$인 경우 $\boldsymbol{S}(\boldsymbol{X})$가 $\theta$의 충분통계량이라고 한다

- 참고로 결합 충분통계량의 $1:1$ 함수도 결합 충분통계량이다

  • 충분통계량의 의미

- 확률벡터 $\boldsymbol{X}$에는 모수에 대한 정보가 담겨있다

- 그런데 누군가가 $\boldsymbol{S}(\boldsymbol{X})$를 알려주면 더 이상 $\boldsymbol{X}$의 정보가 필요 없어짐

- 왜냐하면 $\boldsymbol{S}(\boldsymbol{X})$가 모수 $\boldsymbol{\theta}$에 대한 정보를 모두 가지고 있기 때문임

  • 인수분해 정리

- 충분통계량을 구하기 위해서 매번 조건부 확률밀도함수를 계산하기 힘듦

- 인수분해 정리를 통해 간편하게 주어진 통계량의 충분성을 확인할 수 있다

- $\boldsymbol{S}$가 결합 충분통계량일 필요충분조건은 $f(x_1,x_2,\cdots,x_n; \boldsymbol{\theta})$가 $\boldsymbol{s}$와 $\boldsymbol{\theta}$만의 함수인 $g$와

$(x_1,x_2,\cdots,x_n)$만의 함수인 $h$와의 곱의 꼴로 나타내어지는 것이다

- $f(x_1,x_2,\cdots,x_n;\boldsymbol{\theta})=g(\boldsymbol{s}(x);\boldsymbol{\theta})\times h(x_1,x_2,\cdots,x_n)$

- $X_1,X_2,\cdots,X_n$의 결합 확률밀도함수를 구하고 통계량과 모수에 대한 함수와 $x_1,x_2,\cdots,x_n$의 함수끼리의 곱으로 나타내면 되는 것

- 만약 불가능하다면 $\boldsymbol{S}$는 결합 충분통계량이 아닌 것이다

- 예제는 교재 확인

라오-블랙웰 정리

- $S$가 $g(\theta)$의 충분통계량이고 $T(X)$를 $g(\theta)$의 비편향추정량이라고 하자

- $\delta(S)=E\left(T(X)\mid S\right)$이면 $\delta(S)$도 $g(\theta)$의 비편향추정량이며 모든 $\theta$에 대해 아래가 성립(분산 분해 사용)

$$\begin{aligned} Var\left(T(X)\right) &= E\left(Var\left(T(X)\mid S\right)\right) + Var\left(E\left(T(X)\mid S\right)\right)\\[10pt] &=E\left[E\left(\left(T(X)-\delta(S)\right)^2\mid S\right)\right] +Var\left(\delta(S)\right)\\[10pt] &\geq Var\left(\delta(S)\right)\end{aligned}$$

- 이중 기댓값 정리에 의하여 $E\left(\delta(S)\right)=E\left(E(T(X)\mid S)\right)=g(\theta)$ 이므로 $\delta(S)$도 $g(\theta)$의 비편향추정량이다

완비통계량(complete statistic)

- 랜덤표본 $X_1,X_2,\cdots,X_n$으로 부터 계산된 통계량 $S$에 대하여

- $E\left(g(S)\right)=0$을 모든 $\theta\in\Omega$에 대해서 만족하는 $\theta$와 무관한 함수 $g$가 $g(\cdot)\equiv 0$ 뿐이라면

- $S$를 완비통계량이라고 하며 만약 $S$가 $\theta$에 대한 충분통계량이라면 완비 충분통계량(C.S.S)라고 한다

  • 예시

- $X_1,\cdots,X_n \overset{iid}\sim Bernoulli(p)$ 라고 하자

- $X_1-X_2$는 완비통계량이 아니다 $\to$ $g=I, S(X) = X_1-X_2$ 라고 하자

- $E\left[g\left(S(X)\right)\right]=E(X_1-X_2)=0 \to g\left(S(X)\right) = X_1-X_2\neq0$

  • 완비성의 의미

- $S(X)$가 완비통계량이면 $S(X)$의 서로 다른 두 함수가 같은 기댓값을 가지지 못한다

- $E\left[g_{_1}\left(S(X)\right)\right] = g(\theta), E\left[g_{_2}\left(S(X)\right)\right] = g(\theta)\Longrightarrow E\left[g_{_1}\left(S(X)\right)-g_{_2}\left(S(X)\right)\right] =0$

- 그런데 완비성에 의해 $S(X)$에 임의의 함수$g$ 를 취한 확률변수의 기댓값이 $0$이라면 $g\left(S(X)\right)=0$이므로

- $g_{_1}\left(S(X)\right)=g_{_2}\left(S(X)\right)$이 성립한다

- 같은 기댓값을 가지지 못한다는 것은 완비통계량의 함수로서 비편향추정량은 하나 뿐이라는 것이고

- 이때의 비편향추정량은 하나 뿐이니 당연하게도 최소분산 비편향추정량이 된다

레만-쉐페 정리

- 모수 $\theta$에 대해 $S$가 완비 충분통계량이고 $T(X)$가 $g(\theta)$의 비편향추정량이라고 하자

- 이때 $\delta(S)=E\left(T(X)\mid S\right)$는 $g(\theta)$의 유일한 최소분산 비편향추정량(MVUE)이다

  • 모수 $\theta$에 대한 MVUE 찾는 방법

1. 크래머-라오 하한값을 분산으로 가지는 비편향추정량 찾기

2. 완비 충분통계량의 함수 중에서 비편향추정량 찾기

3. 비편향추정량에 완비 통계량으로 조건부 기댓값 취하기

지수족(exponential family)

- 확률밀도함수 $f(x;\boldsymbol{\theta})=a(\boldsymbol\theta)b(x)\exp\left[\sum\limits_{i=1}^{k}c_i(\boldsymbol\theta)t_i(x)\right]I(x:f(x;\boldsymbol{\theta})>0),\boldsymbol\theta=(\theta_1,\cdots,\theta_n)$

- 위의 확률밀도함수를 $k$개의 모수 $\theta_1,\cdots,\theta_k$를 가진 지수족에 속한다고 한다

- 참고로 $f(x;\boldsymbol{\theta})$의 support는 모수 $\boldsymbol{\theta}$에 의존하지 않는다

- $X_1,\cdots,X_n \overset{iid}{\sim} f(x;\boldsymbol\theta)$일 때 통계량 $S_1=\sum\limits_{i=1}^{N}t_1(X_i),\cdots,S_k=\sum\limits_{i=1}^{N}t_k (X_i)$는 모수 $\theta_1,\cdots,\theta_k$에 대한 결합 완비 충분통계량이다

- 완비 충분통계량의 $1:1$ 함수도 완비 충분통계량이다