통계적 추론
작성 중
-
수리통계학 내용 정리(추정 파트)
-
참고 : 수리통계학 제5판 송성주$\cdot$전명식 지음
-
미지의 모수 $\theta \in \Omega$를 점추정하는 방법을 알아보자
-
통계량(statistic)
: 미지의 모수를 포함하지 않는 랜덤표본 $X_1,X_2,\cdots,X_n$의 함수
-
추정량(estimator)
: $g(\theta)$를 추정하기 위해 사용되는 통계량 $T(\boldsymbol{X})=T(X_1,X_2,\cdots,X_n)$
-
추정값(estimate)
: 확률변수의 실현값을 통해 구해진 추정량의 특정값
$T(\boldsymbol{x})=T(x_1,x_2,\cdots,x_n)$
-
참고로 모수 $\theta$의 추정량은 $\hat\theta$으로 표기함
-
대수의 법칙을 이용하여 모수를 추정: $m_r{'} \xrightarrow{~~p~~} u_r{'}$
-
$ u_r{'} = E\left(X^{^r}\right),\quad m_r{'} = \dfrac{\sum\limits_{i=1}^{n}{X_i}^{^{r}}}{n}$
-
위에 대수의 법칙에서 $2$차 이상의 적률인 경우 ${X}^{^r} = Y$로 치환하면 된다
-
우리가 알고있는 임의의 분포(모수만 모름)에서 뽑은 랜덤표본을 가지고 모수를 추정한다
-
가능도함수
: $L(\theta)=L(\theta;x_1,x_2,\cdots,x_n)=f(x_1,x_2,\cdots,x_n;\theta)=\prod\limits^{n}_{i=1}f(x_i;\theta)$
-
확률밀도함수와 가능도함수는 특정한 $x_1,x_2,\cdots,x_n$과 $\theta$에 대해서 동일한 값을 가진다
-
가능도함수를 최대화하는 모수 $\theta$의 최대가능도 추정량을 구하면 된다
-
참고로 함수의 최대값을 구하기 위해 미분을 사용하는데 미분을 할 때 가능도함수에 로그를 취한다
-
로그를 취하면 미분이 편해지며 어차피 로그함수는 단조증가함수이므로 $L(\theta)$를 최대로 만드는 $\theta$에서 $\ell(\theta)$도 최대이다
-
만약 가능도함수의 support(토대)에 모수가 포함되어 있으면 미분이 불가능하여 그래프를 그려서 최대가능도 추정량을 구해야 함
-
참고로 최대가능도 추정량의 경우 불변성 원리가 성립한다
-
$T(X)$가 $g(\theta)$의 추정량일 때 $E[T(X)]-g(\theta)$를 $T(X)$의 편향(bias)
이라고 하며
-
편향이 $0$이면 $T(X)$를 $g(\theta)$의 비편향추정량
이라고 한다
-
$\operatorname{MSE} = Var\left(T(X)\right) + (bias)^2$
-
일치성(consistency)
: $T(X)\xrightarrow{~~p~~}g(\theta)$
-
$\lim\limits_{n\to\infty} E \big [T_n(X)-g(\theta)\big]^2=0$이 성립하면 $T_n(X)$는 일치성이 있다(확률부등식 사용)
-
$g(x)$가 $\theta$에서 연속인 함수이면 불변성 성립!
- 비편향성(불편성)과 일치성의 차이
-
불편성은 고정된 표본크기에 대한 추정량의 기댓값
이 $g(\theta)$인 것이고
-
일치성은 표본크기가 무한히 커지면 추정량 자체의 값이 $g(\theta)$로 확률수렴(확률적으로 수렴)하는 것
-
다음을 만족하는 함수 $g(\theta)$의 추정량 $T^*(X)$를 최소분산 비편향추정량
이라고 한다
1.
$T^*(X)$는 $g(\theta)$의 비편향추정량
2.
$Var\left(T^*(X)\right) \leq Var\left(T(X)\right)$
-
적절한 조건
하에서 비편향추정량
이 가질 수 있는 분산의 하한값
을 제공(조건은 교재 참고)
-
어떤 비편향추정량이 분산의 하한값을 분산으로 가지면 최소분산 비편향추정량이다(단, 유일성을 보이기는 어려움)
-
피셔의 정보
: $I(\theta)=E\left[\left(\frac{\partial}{\partial \theta}\log f(X;\theta)\right)^2\right]$
-
참고로 $f(X)$는 다음과 같음 : 확률변수 $X$ $\xrightarrow{\text{$f$: pdf of $X$}} f(X)$
-
$f(X)$는 확률변수, $f(x)$는 확률변수 $f(X)$의 realization(?)
-
크래머-라오의 정보부등식: $Var(T(X)) \geq \dfrac{[g'(\theta)]^2}{nI(\theta)}$ $\to$ 크래머-라오 하한값
- 주의할 점
1.
크래머-라오 하한값을 갖지 않아도 최소분산 비편향추정량이 될 수 있다
2.
적절한 조건을 어기는 경우 크래머-라오 하한값보다 더 작은 분산을 가지는 비편향추정량이 존재할 수 있다
-
확률벡터 $\boldsymbol{X}$의 결합 확률밀도함수는 $f(x_1,\cdots,x_n;\theta_1,\cdots,\theta_k)$이고 $\boldsymbol{S}(\boldsymbol{X})$를 $l$개의 통계량의 벡터라고 하자
-
이때 조건부 확률변수 $(X_1,X_2,\cdots,X_n)\mid \boldsymbol{S}(\boldsymbol{X})$의 분포가 모수 $\boldsymbol{\theta}$에 의존하지 않으면
-
통계량 $\boldsymbol{S}(\boldsymbol{X})$를 결합 충분통계량(jointly sufficient statistic)이라고 한다
-
$l=1$인 경우 $\boldsymbol{S}(\boldsymbol{X})$가 $\theta$의 충분통계량
이라고 한다
-
참고로 결합 충분통계량의 $1:1$ 함수도 결합 충분통계량이다
- 충분통계량의 의미
-
확률벡터 $\boldsymbol{X}$에는 모수에 대한 정보가 담겨있다
-
그런데 누군가가 $\boldsymbol{S}(\boldsymbol{X})$를 알려주면 더 이상 $\boldsymbol{X}$의 정보가 필요 없어짐
-
왜냐하면 $\boldsymbol{S}(\boldsymbol{X})$가 모수 $\boldsymbol{\theta}$에 대한 정보를 모두 가지고 있기 때문임
- 인수분해 정리
-
충분통계량을 구하기 위해서 매번 조건부 확률밀도함수를 계산하기 힘듦
-
인수분해 정리를 통해 간편하게 주어진 통계량의 충분성을 확인할 수 있다
-
$\boldsymbol{S}$가 결합 충분통계량일 필요충분조건은 $f(x_1,x_2,\cdots,x_n; \boldsymbol{\theta})$가 $\boldsymbol{s}$와 $\boldsymbol{\theta}$만의 함수인 $g$와
$(x_1,x_2,\cdots,x_n)$만의 함수인 $h$와의 곱의 꼴로 나타내어지는 것이다
-
$f(x_1,x_2,\cdots,x_n;\boldsymbol{\theta})=g(\boldsymbol{s}(x);\boldsymbol{\theta})\times h(x_1,x_2,\cdots,x_n)$
-
$X_1,X_2,\cdots,X_n$의 결합 확률밀도함수를 구하고 통계량과 모수에 대한 함수와 $x_1,x_2,\cdots,x_n$의 함수끼리의 곱으로 나타내면 되는 것
-
만약 불가능하다면 $\boldsymbol{S}$는 결합 충분통계량이 아닌 것이다
-
예제는 교재 확인
라오-블랙웰 정리
-
$S$가 $g(\theta)$의 충분통계량이고 $T(X)$를 $g(\theta)$의 비편향추정량이라고 하자
-
$\delta(S)=E\left(T(X)\mid S\right)$이면 $\delta(S)$도 $g(\theta)$의 비편향추정량이며 모든 $\theta$에 대해 아래가 성립(분산 분해 사용)
-
이중 기댓값 정리에 의하여 $E\left(\delta(S)\right)=E\left(E(T(X)\mid S)\right)=g(\theta)$ 이므로 $\delta(S)$도 $g(\theta)$의 비편향추정량이다
-
랜덤표본 $X_1,X_2,\cdots,X_n$으로 부터 계산된 통계량 $S$에 대하여
-
$E\left(g(S)\right)=0$을 모든 $\theta\in\Omega$에 대해서 만족하는 $\theta$와 무관한 함수 $g$가 $g(\cdot)\equiv 0$ 뿐이라면
-
$S$를 완비통계량
이라고 하며 만약 $S$가 $\theta$에 대한 충분통계량이라면 완비 충분통계량(C.S.S)
라고 한다
- 예시
-
$X_1,\cdots,X_n \overset{iid}\sim Bernoulli(p)$ 라고 하자
-
$X_1-X_2$는 완비통계량이 아니다 $\to$ $g=I, S(X) = X_1-X_2$ 라고 하자
-
$E\left[g\left(S(X)\right)\right]=E(X_1-X_2)=0 \to g\left(S(X)\right) = X_1-X_2\neq0$
- 완비성의 의미
-
$S(X)$가 완비통계량이면 $S(X)$의 서로 다른 두 함수가 같은 기댓값을 가지지 못한다
-
$E\left[g_{_1}\left(S(X)\right)\right] = g(\theta), E\left[g_{_2}\left(S(X)\right)\right] = g(\theta)\Longrightarrow E\left[g_{_1}\left(S(X)\right)-g_{_2}\left(S(X)\right)\right] =0$
-
그런데 완비성에 의해 $S(X)$에 임의의 함수$g$ 를 취한 확률변수의 기댓값이 $0$이라면 $g\left(S(X)\right)=0$이므로
-
$g_{_1}\left(S(X)\right)=g_{_2}\left(S(X)\right)$이 성립한다
-
같은 기댓값을 가지지 못한다는 것은 완비통계량의 함수로서 비편향추정량은 하나 뿐이라는 것이고
-
이때의 비편향추정량은 하나 뿐이니 당연하게도 최소분산 비편향추정량이 된다
-
모수 $\theta$에 대해 $S$가 완비 충분통계량이고 $T(X)$가 $g(\theta)$의 비편향추정량이라고 하자
-
이때 $\delta(S)=E\left(T(X)\mid S\right)$는 $g(\theta)$의 유일한 최소분산 비편향추정량(MVUE)
이다
- 모수 $\theta$에 대한 MVUE 찾는 방법
1.
크래머-라오 하한값을 분산으로 가지는 비편향추정량 찾기
2.
완비 충분통계량의 함수 중에서 비편향추정량 찾기
3.
비편향추정량에 완비 통계량으로 조건부 기댓값 취하기
-
확률밀도함수 $f(x;\boldsymbol{\theta})=a(\boldsymbol\theta)b(x)\exp\left[\sum\limits_{i=1}^{k}c_i(\boldsymbol\theta)t_i(x)\right]I(x:f(x;\boldsymbol{\theta})>0),\boldsymbol\theta=(\theta_1,\cdots,\theta_n)$
-
위의 확률밀도함수를 $k$개의 모수 $\theta_1,\cdots,\theta_k$를 가진 지수족에 속한다고 한다
-
참고로 $f(x;\boldsymbol{\theta})$의 support는 모수 $\boldsymbol{\theta}$에 의존하지 않는다
-
$X_1,\cdots,X_n \overset{iid}{\sim} f(x;\boldsymbol\theta)$일 때 통계량 $S_1=\sum\limits_{i=1}^{N}t_1(X_i),\cdots,S_k=\sum\limits_{i=1}^{N}t_k (X_i)$는 모수 $\theta_1,\cdots,\theta_k$에 대한 결합 완비 충분통계량이다
-
완비 충분통계량의 $1:1$ 함수도 완비 충분통계량이다