- 수리통계학 내용 정리

- 참고 : 수리통계학 제5판 송성주$\cdot$전명식 지음

확률이론

- 확률모형 ---> 동전 던지기와 같이 가능성(chance)에 의존

표본공간과 사건

- 표본공간(sample space) : 모든 관찰 가능한 결과들의 집합 ---> $S$ 또는 $\Omega$

- 사건(event) : 표본공간의 일부분(부분집합) ---> $A, B$ 등 영어 알파벳 대문자

- 실험(experiment) 또는 시행(trial) : 어떤 현상의 관찰결과를 얻기위한 과정

  • 예시

- 동전의 앞면을 H, 뒷면을 T라 할 때 동전을 2회 던지는 실험을 시행하자

- 표본공간 $S = \{HH, HT, TH, TT\}$

- $S$의 원소는 $HH, HT, TH, TT$이다

- 1회 앞면이 나오는 사건 $A = \{HT, TH\}$

- 2회 뒷면이 나오는 사건 $B = \{TT\}$

- 참고로 집합을 나타나낼 땐 $\{ \}$를 사용한다

- ex) $HT$: $S$의 원소(집합X), $\{HT\}$ : $S$의 부분집합(집합O)

- 또한 $HT \in S$, $\{HT\} \subset S$

  • 정의

- 사건 $A$와 $B$가 동시에 속하는 사건 ---> $A$와 $B$의 공통부분(intersection) ---> $A \cap B$

- 사건 $A$ 또는 $B$에 속하는 사건 ---> $A$와 $B$의 합(union) ---> $A \cup B$

- $A \cap B$ = $\phi$ ---> 두 사건 $A$와 $B$는 상호배반(mutually exclusive)

- 사건 $A$에 포함되지 않은 모든 $S$의 원소의 집합 ---> $A$의 여사건(complement) ---> $A^c$

  • 사건에 대한 분배법칙과 드 모르간 법칙

- $(A \cup B)^c = A^c \cap B^c$ ---> 드 모르간(De Morgan) 법칙

- $(A \cap B)^c = A^c \cup B^c$ ---> 드 모르간 법칙

- $A \cup (B \cap C) = (A \cup B) \cap (A \cup C)$ ---> 분배법칙

- $A \cap (B \cup C) = (A \cap B) \cup (A \cap C)$ ---> 분배법칙

확률의 정의

- 확률은 함수임

  • 고전적 정의

- 표본공간이 유한 개($N$)의 결과로 구성되고 모든 가능한 실험결과들이 일어날 가능성이 동일한경우 $M$개의 실험결과로 이루어진 사건 $A$의 확률 $P(A) = \dfrac{M}{N}$

  • 상대도수의 극한

- 실험을 독립적으로 n회 반복했을 때 사건 $A$의 발생횟수를 m이라 하면 실험이 무한히 반복되면 $P(A) = \dfrac{m}{n}$

확률 공리

1. 임의의 사건 $A$에 대해 $P(A) \geq 0$

2. $P(S)=1$

3. 표본공간 $S$에 정의된 사건열 $A_1, A_2, \cdots$가 있다고 할 때 모든 $i\neq j$에 대하여 $A_i \cap A_j = \phi$이면 $P\bigg(\bigcup\limits_{i=1}^{\infty} A_i\bigg) = P(A_1 \cup A_2 \cup A_3 \cup \cdots) = \sum\limits_{i=1}^{\infty} P(A_i)$

- 3번째 공리는 쉽게 말하자면 서로소인 두 사건 $A$와 $B$에 대해 $P(A) + P(B) = p(A\cup B)$이다 + 집합열 이해 안되면 통계수학 책 참고하셈

- 확률 ---> 표본공간의 부분집합의 모임(특별한 성질 만족)을 정의역으로 하면서 확률공리를 만족하는 함수

  • 정리

- 증명은 교재 참고

1. $P(A^c) = 1- P(A)$

2. $P(\phi) = 0$

3. $A\subset B$이면 $P(A) \leq P(B)$

4. $P(A\cup B)=P(A)+P(B)-P(A\cap B)$

- 정리 4번 사건 3개 버전

- $P(A \cup B \cup C) = P(A) + P(B) + P(C) - P(A\cap B) - P(B \cap C) - P(C \cap A) + P(A \cap B \cap C)$ ---> 벤 다이어그램을 그려보면 간단히 알 수 있음

조건부 확률

- 사건$A$와 $B$가 표본공간 $S$상에 정의되어 있으며 $P(B) > $일 때 $B$가 일어났다는 가정하에 사건 $A$가 일어날 조건부 확률은$P(A \mid B) = \cfrac{P(A\cap B)}{P(B)}$로 정의됨

- 조건부 확률도 확률 공리를 만족함

전확률 공식(total probability)

- 사건 $B_1, B_2,\cdots,B_k$ 는 상호배반이며 $(B_1\cap B_j = \phi,\;i \neq j),\;\bigcup\limits_{i=1}^{k}B_{i}=S$라고 하자

- 이때 임의의 사건 $A$에 대하여 $P(A) = \sum\limits_{i=1}^{k}P(B_i)P(A\mid B_i)$가 성립함

- $P(A) = P(A\cap S) = P\bigg[A\cap\bigg(\bigcup\limits_{i=1}^{k}B_i\bigg)\bigg] = \sum\limits_{i=1}^{k}P(A\cap B_i)=\sum\limits_{i=1}^{k}P(B_i)P(A\mid B_i)$

베이즈 정리(Bayes' theorem)

- 사건 $B_1, B_2,\cdots,B_k$ 는 상호배반이며 $(B_1\cap B_j = \phi,\;i \neq j),\;\bigcup\limits_{i=1}^{k}B_{i}=S$라고 하자

- 이때 사건 $A$가 일어났다는 조건하에서 사건 $B_j$가 일어날 확률은 $P(B_j\mid A)=\cfrac{P(B_j)P(A\mid B_j)}{\sum\limits_{i=1}^{k}P(B_i)P(A\mid B_i)}$

- $P(B_j\mid A)=\cfrac{P(A\cap B_j)}{P(A)}=\cfrac{P(B_j)P(A\mid B_j)}{P(A)}=\cfrac{P(B_j)P(A\mid B_j)}{\sum\limits_{i=1}^{k}P(B_i)P(A\mid B_i)}$

- $P(B_1),\cdots,P(B_k)$는 $B$의 사전확률(prior probability)

- 사건 $A$가 일어났다는 정보가 추가됨 ---> $P(B_1 \mid A),\cdots,P(B_k\mid A)$는 $B$의 사후확률(posteriori probability)

사건의 독립

- 두 사건 $A$와 $B$가 $P(A\cap B) = P(A) \cdot P(B)$를 만족시키면 서로 독립(independent)이다

경우의 수

순열(permutation)

- 서로 다른 n개의 원소 중에서 r개를 선택하여 순서 있게 놓는 것(${_n\rm P_r}$)

조합

- 서로 다른 n개의 원소 중에서 순서에 관계없이 r개를 선택하는 것($_n\rm C_r$)

이항정리

- $(a+b)^n = \sum\limits_{k=0}^{n}\dbinom{n}{k}a^{k} b^{n-k}$

같은 것이 있는 순열

- $\dbinom{n}{\;r_1\; r_2\;\cdots\;r_k\;} = \cfrac{n!}{r_1!\; r_2!\; \cdots\; r_k!}$

다항정리

- $(a_1+a_2+\cdots+a_k)^n=\sum\limits_{r_1,\cdots,r_k\in\mathbb N}^{r_1+\cdots+r_k=n}\dbinom{n}{\;r_1\; r_2\;\cdots\;r_k\;}\,a_1^{r_1}\,a_2^{r_2}\cdots a_k^{r_k}$

확률변수

- 확률변수(random variable) : 실험결과를 표현하는 수치적인 양

- 확률변수의 값은 실험결과에 따라 정해지므로 비결정적(non-deterministic)

- 확률분포(probability distribution) : 확률변수의 값들이 나올 가능성

확률변수의 정의

- 확률변수 : 표본공간 $\Omega$에 정의된 실수값을 가지는 함수(real-valued function) $\to$ $X:\Omega\to\mathbb{R}$

- 예컨대 $X(\omega)=x$, 참고로 $x$를 realization(실현)이라고 한다

- 이산형(discrete) - 가질 수 있는 값이 유한개 (finite) 또는 셀 수 있는 무한개(countably infinite)인 확률변수

- 연속형(continuous) - 가질 수 있는 값의 범위가 실직선상의 어떤 구간인 확률변수

- 혼합형 - ex) $\{1, 2, (5, 10)\}$

확률공간(probability space)

- 확률 공간($\Omega,\mathcal{F}, \Pr)$은 전체 측도가 $1$인 측도 공간이다

- 측도는 집합에 크기를 부여하기 위해 만든 개념으로 가산집합에 실수로 가는 함수를 부여한 것

- 확률적인 현상에서 확률공간의 측도는 확률을 정의한다

- 확률공간이 같다는건 $\Omega$가 동일하고 (주사위 던지기 $\Omega=\{1,2,3,4,5,6\}$)

- $\mathcal{F}$가 동일하고(예컨대 짝수, 홀수에만 관심이 있어서 $\mathcal{F}=\{\phi,\{1,3,5\},\{2,4,6\},\Omega\}$)

- $Pr$이 동일하다는 것(예컨대 짝수, 홀수가 나올 가능성이 다른 주사위라 확률측도가 다음과 같다)

$$\begin{aligned}\Pr(\phi)&=0.0\\ \Pr(\{1,3,5\})&=0.4\\ \Pr(\{2,4,6\})&=0.6\\ \Pr(\Omega)&=1.0\end{aligned}$$

- 참고 : https://ko.wikipedia.org/wiki/%ED%99%95%EB%A5%A0_%EA%B3%B5%EA%B0%84

표본공간

- 확률실험에서 발생할 수 있는 모든 결과들의 집합을 표본공간(Sample Space) 이라고 한다

- 표본공간은 $S$ 또는 $\Omega$ 기호로 나타낸다

- $\Omega=\{\omega_1,\omega_2,\cdots,\omega_n\}$는 가능한 모든 결과를 포함하고 각 원소끼리는 배반이다

- 예컨대 동전던지기 실험에서 표본공간은 다음과 같이 나타낼 수 있음 ---> $\Omega=\{H,T\}$

- 참고 : https://en.wikipedia.org/wiki/Sample_space

사건공간

- 표본공간 $\Omega$의 $\sigma$-field를 사건공간(event space) 이라 한다

- 사건공간의 원소를 사건이라고 한다

- 사건 : 표본공간의 부분집합

- 사건공간($\mathcal{F}$) : 사건의 집합 $\Longleftrightarrow$ 표본공간의 $\sigma$-field

- 동전던지기의 경우 사건은 $\phi,\{H\},\{T\},\Omega$이므로 사건공간 중 하나를 다음과 같이 나타낼 수 있음

- $\mathcal{F}=\{\phi,\{H\},\{T\},\Omega\}$ ---> $\mathcal{F}$의 원소 하나하나가 사건에 해당함

- 사건공간 중 하나라고 표현한건 $\sigma$-field 정의에 의해 사건공간은 여러개가 될 수 있기 때문

- 예컨대 주사위 던지기의 경우에서 주사위의 특정값이 아닌 단지 짝인지 홀인지에만 관심이 있으면 $\mathcal{F}=\{\phi,\{1,3,5\},\{2,4,6\},\Omega\}$로 설정해도 된다

- 참고 : https://en.wikipedia.org/wiki/%CE%A3-algebra

확률측도

- 측도공간 $(\Omega,\mathcal{F})$에 대해서 어떤 함수 $\Pr:\mathcal{F}\to [0,1]$가 다음 세 조건(확률 공리)을 만족하면 $\Pr$을 확률측도라고 한다

1. $\Pr(A)\geq 0,\quad \forall A\in\mathcal{F}$

2. $\Pr(\Omega)=1$

3. Countable, pairwise disjoint set $\{A_1,A_2,\cdots\mid A_i\in \mathcal{F}\}$에 대하여 $\Pr\bigg(\bigcap\limits_{i=1}^{\infty}A_i\bigg)=\sum\limits_{i=1}^{\infty}\Pr(A_i)$

- 예컨대 동전던지기의 사건공간이 $\mathcal{F}=\{\phi,\{H\},\{T\},\Omega\}$ 라면 위의 조건을 만족하는 확률측도를 아래와 같이 만들 수 있다

$$\begin{aligned}\Pr(\phi)&=0.0\\ \Pr(\{H\})&=0.5\\ \Pr(\{T\})&=0.5\\ \Pr(\Omega)&=1.0\end{aligned}$$

- 위의 경우 함수 $\Pr(A)$는 $\cfrac{\text{집합 $A$의 원소 개수}}{\text{표본공간 $\Omega$의 원소 개수}}$로 정의된다고 할 수 있다

- 바로 위의 $\Pr$정의에 따르면 동전 던지기나 주사위 굴리기 같은 것은 $\Pr$이 동일하다

- 그러나 확률측도는 위의 세 조건인 Kolmogorov axioms를 만족하기만 하면 되기에 확률측도는 하나가 아니다

- 예컨대 아래와 같이 확률측도를 일반적이지 않게 만들 수 도 있다는 것

$$\begin{aligned}\Pr(\phi)&=0.0\\ \Pr(\{H\})&=0.4\\ \Pr(\{T\})&=0.6\\ \Pr(\Omega)&=1.0\end{aligned}$$

- 참고로 함수 $\Pr$의 정의역은 $\mathcal{F}$이고 치역은 $\{s\in R:0\leq s \leq 1\}$이다

- 참고 : https://gem763.github.io/probability%20theory/%ED%99%95%EB%A5%A0%EC%9D%98-%EC%9D%B4%ED%95%B4.html

- 그런데 $\Pr$이랑 $P$랑 다른거야? ---> https://stats.stackexchange.com/questions/108441/which-notation-and-why-textp-pr-textprob-or-mathbbp

확률공간 추가 정리

- 찾아볼수록 더 헷갈려서 추가로 정리함

- 틀릴 수 있음

- Q1 : 확률변수 $X_1$과 $X_2$가 동일한 확률공간에서 정의될 때 둘의 CDF는 다를 수 있는가?

- 확률공간이 같은데 둘의 CDF가 다르다라......

- 가능하다

- $\Omega = \{T\}$라고 하자

- 즉 확률실험에서 발생할 수 있는 모든 결과가 $\{T\}$ 하나다 ---> 예컨대 앞면 뒷면 둘다 학이 그려진 동전을 던진다면 항상 학만 나올 것임

- $\mathcal{F}=\{\phi,\Omega\}$라고 하자

- 그러면 $\Pr(\Omega)=1,\;\Pr(\phi)=0$ ---> 확률공리를 만족시켜야 하니까

- 이제 $X_1=0,X_2=2$라고 하자($X_1(T)=0,X_2(T)=2$와 동일함)

- 확률변수 $X_1$과 $X_2$는 같은 확률공간에서 정의됐으며 둘의 차이점이라곤 $\Omega$의 원소 $T$를 $0$으로 맵핑하냐 $2$로 맵핑하냐 뿐이다

- 자 $X_1>1$일 확률과 $X_2>1$일 확률이 같은가? ---> 아니다 $\Pr(X_1>1)=0,\;\Pr(X_2>1)=1$이다

- 그러니 CDF는 다르다

- $\Pr(X_1>1)=0,\;\Pr(X_2>1)=1$을 보고 둘다 $X>1$일 확률인데 값이 다르니 $\Pr$도 다르다고 하면 안된다

- $X_1>1 = \phi$이고 $X_2>1=\Omega$이다, $\Pr(\phi)$와 $\Pr(\Omega)$는 당연히 다르다

- 하지만 $\Pr$은 동일하다($\Pr(\phi)=0$, $\Pr(\Omega)=1$)

- 다른 예시도 있음

- 주사위던지기를 생각하자

- $\Omega=\{1,2,3,4,5,6\}$ 이고 $\mathcal{F}=\{\phi,\{1\},\{2\},\{3\},\{4\},\{5\},\{6\},\Omega\}$라 하자

- 즉 주사위를 한번 던져서 나온 결과에만 관심이 있음

- 그리고 $\Pr(\{\omega\})=\dfrac{1}{6},\,1\leq \omega \leq 6$

- 확률변수 $X(\omega)=I(\text{$\omega$ is odd})$라 하고 $Y(\omega)=\omega$라고 하자

- 즉 확률변수 $X$는 주사위를 던져서 나온값이 홀수이면 $1$로 맵핑하고 짝수이면 $0$으로 맵핑한다

- 반면 확률변수 $Y$는 주사위를 던져서 나온값으로 맵핑한다(확률변수 $Y$는 항등함수)

- 확률변수 $X$와 $Y$는 같은 확률공간을 가진다, 둘의 차이점이라곤 주사위를 던져서 나온값을 어떤 실수로 맵핑하냐 뿐이다

- 하지만 둘의 cdf는 다르다

$$F_X(x)=\begin{cases}0,\quad x<0 \\ \frac{1}{2},\quad 0 \leq x <1 \\ 1,\quad x\geq 1\end{cases}$$

$$F_Y(y)=\begin{cases}0,\quad y<1 \\[5pt] \dfrac{1}{6},\quad 1\leq y <2 \\[7pt] \dfrac{2}{6},\quad 2\leq y <3 \\[7pt] \dfrac{3}{6},\quad 3\leq y <4 \\[7pt] \dfrac{4}{6},\quad 4\leq y <5 \\[7pt] \dfrac{5}{6},\quad 5\leq y <6 \\[5pt] 1,\quad y\geq 6\end{cases}$$

- 참고로 cdf뿐만 아니라 pdf도 다르다

- 참고 : https://math.stackexchange.com/questions/2596665/x-and-y-are-defined-on-the-same-probability-space-omega-mathcalf-ma?rq=1

- Q2 : 확률변수 $X$가 임의의 확률분포를 따른다는건 무슨 의미일까?

- 예컨대 $X\sim B(10,0.5)$

- 내 생각 : $X$의 pdf는 $B(10,0.5)$이다

- 또한 등호($=$)를 쓰지않고 $\sim$을 쓰는건 확률변수는 시행마다 다른 값을 가질 수 있기 때문이다

확률(probability)

- 확률공간 $(\Omega, \mathcal{F}, \Pr)$과 특정사건 $A\in \mathcal{F}$에 대하여 $Pr(A)$을 사건 $A$의 확률이라고 한다

확률밀도함수(pdf) 및 누적분포함수(cdf)

확률밀도함수(probability density function, pdf)

이산형의 경우 pdf의 조건

1. 모든 실수 $x$에 대하여 $f(x) \geq 0$

2. 확률변수 $X$가 가질 수 있는 값 $x_1,\,x_2,\,\cdots$ 에 대하여 $f(x_i)>0$ 이며 $\sum f(x_i)=1$

- $f(x)$는 $P(X=x)=f(x)$ 를 만족하고 확률질량함수(probability mass function, pmf)라고도 함

연속형의 경우 pdf의 조건

1. 모든 실수 $x$에 대하여 $f(x) \geq 0$

2. $\int^{\infty}_{-\infty}f(x)\,dx = 1$

- 연속형 확률변수는 가질 수 있는 값이 셀 수 없는 무한개이므로 가능한 값 하나하나에 확률을 부여하지 않음

- 대신에 구간에 확률을 부여함

- $P(X=x)=0$ 이고 $-\infty < a < b < \infty \longrightarrow \int_{a}^{b}f(x)\,dx=P(a\leq X \leq b)$

  • pdf 헷갈려서 정리

- $X$를 전북대학생들의 맥박수를 실수로 맵핑하는 함수라고 하자

- $\Omega = \{x:x\in A\}$, 여기서 $A$는 맥박수로 가능한 실수의 집합이라고 하자

- 맥박수에서 평균을 뺀다든가 할 수 있지만 측정한 맥박수를 그 자체로 맵핑한다고 생각하자(별다른 처리를 하지 않음)

- 그러면 $X$는 $X:A\to A$인 항등함수이다

- 맥박수의 분포가 평균이 $\mu$, 분산이 $\sigma^2$인 정규분포를 따른다고 가정하자

- 그러면 $f_X(x;\mu,\sigma^2) = \dfrac{1}{\sqrt{2\pi\sigma^{2}}}e^{-\dfrac{(x-\mu)^{2}}{2\sigma^{2}}}$ 이다

- 그러면 전북대학생들의 맥박수를 측정하는 것 부터 이에 대한 분포(pdf)를 구하는 것 까지의 과정은 아래와 같다(내 생각)

- input: $\Omega$ (전북대학생들의 맥박수로 가질 수 있는 모든 값들의 집합), function: $X$ (항등함수), output: $A(=\Omega)$

- input: $A$, function: $f_X$ (pdf), output: $f(x;\mu,\sigma^2) = \dfrac{1}{\sqrt{2\pi\sigma^{2}}}e^{-\dfrac{(x-\mu)^{2}}{2\sigma^{2}}}$

- 참고로 $f_X$는 위의 pdf조건을 만족하기만 하면 되므로 무수히 많다(그런데 여기서는 정규분포로 가정한 것)

- 이를 한번에 정리하면 아래와 같다(잘 알아두자)

- $\Omega \xrightarrow{~~X~~} A \xrightarrow{~~f_X~~} \dfrac{1}{\sqrt{2\pi\sigma^{2}}}e^{-\dfrac{(x-\mu)^{2}}{2\sigma^{2}}}$

- 만약, $X$대신 $X+1$의 pdf를 구하면 $f_{X+1}(x;\mu,\sigma^2) = \dfrac{1}{\sqrt{2\pi\sigma^{2}}}e^{-\dfrac{(x+1-\mu)^{2}}{2\sigma^{2}}}$ 이다

- 여기서 $X$도 함수이고 $+1$도 함수인데 적용 순서는 아래와 같을 것이다

- $\Omega \xrightarrow{~~X~~} A \xrightarrow{~~+1~~} B$ (맥박수를 측정하고 항등함수를 취하고 여기에 1을 더한다)

- 이제 궁금한 점(함수 적용 순서를 바꾸면 안되나?)

- $\Omega \xrightarrow{~~+1~~} B \xrightarrow{~~X~~} B$ (맥박수를 측정하고 1을 더하고 여기에 항등함수를 취한다)

- $X$가 항등함수니까 결과가 똑같지 만약 제곱을 취하는 함수였다면 다른 결과가 나오게 된다

- 안되는 이유(이건 진짜 내 생각): 만약 $\Omega$의 원소가 수가 아니라면 연산이 불가능하다

- 위의 예시처럼 real number 라면?: 먼저 적용하는 함수를 확률변수로 취급하자

- $\Omega \xrightarrow{~~+1(=f)~~} B \xrightarrow{~~X~~} B$는 아래와 같이 해석할 수 있음

- $X$가 항등함수가 아니라 표본 공간에 각 원소에 $+1$을 한 값으로 맵핑하고 $f$가 항등함수인 것

- 아무튼 확률변수 $X$를 먼저 적용하고 후에 다른 함수를 적용한다

  • 간략하게 다시 정리

- 확률변수 $X$에 임의의 연산을 하는 함수 $f$를 생각하자

- 그러면 $f(X)$도 당연히 확률변수인데 이를 생각해보면 $f$는 $X$의 output에 적용한다

- 애초에 확률변수 $X$에 연산을 하는 것이 아니라 표본공간에 연산을 한다고 생각할 수도 있는데

- 표본공간에 연산을 취해서 실수로 맵핑하는 함수가 확률변수임(사실 이건 좀 그렇고(+1이 확률변수는 아니니까...))

- 그냥 표본공간에 $+1$ 할 이유가 없음...

- 사실 확률변수 $X$는 $X(\omega)$를 간략히 나타낸 것임

- 따라서 $X + 1 = X(\omega) + 1$이므로 당연히 아웃풋에 $1$을 더하는게 맞다

  • 위치모수와 척도모수

- 확률변수 $X$가 분포A를 따를때 $X + b$도 분포A를 따르면 분포A는 위치모수를 가진다

- 확률변수 $X$가 분포B를 따를때 $aX$도 분포B를 따르면 분포B는 척도모수를 가진다

- 확률변수 $X$가 분포C를 따를때 $aX+b$도 분포C를 따르면 분포C는 위치모수와 척도모수를 가진다

- 정규분포는 위치모수와 척도모수를 둘 다 가지는데

- 예컨대 확률변수 $X$가 정규분포를 따른다면 $X+1$이나 $2X$도 정규분포를 따른다

- $g(X)$의 pdf를 구하는 방식은 누적분포함수를 이용 또는 결합 확률밀도함수(자코비안) 이용

누적분포함수(cumulative distribution function, cdf)

- 누적분포함수 $F(x) = P(X \leq x)$

- $X\sim f(x)$ : 확률변수 $X$가 확률밀도함수 $f(x)$를 가진다

- $X\sim F(x)$ : 확률변수 $X$가 누적분포함수 $F(x)$를 가진다

- $P(a< X \leq b) = F(b) - F(a)$

- $f(x) = \dfrac{d}{dx}F(x)$

누적분포함수의 조건

1. $\lim\limits_{x\to-\infty}F(x)=0$

2. $\lim\limits_{x\to\infty}F(x)=1$

3. $\lim\limits_{h\to0+}F(x+h)=F(x) \longrightarrow$ 우연속 함수

4. $a<b$ 이면 $F(a) \leq F(b)$

결합 및 조건부 확률분포

결합 확률분포

- 여러 개의 확률변수들을 한번에 고려하는 경우에 사용 ---> ex) 아빠와 아들의 키를 함께 고려

- 확률벡터 ---> $\boldsymbol{X} = (X_1,\,X_2,\,\cdots,\,X_k)$

- 두 확률변수 $X$와 $Y$의 결합 확률밀도함수 $f_{\,X,\,Y}(x,y)$

- 이산형인 경우 : $f_{\,X,\,Y}(x,y)=P(X=x,\,Y=y)$

- 연속형인 경우 : 임의의 영역 $A$에 대하여 $P[(X,\,Y)\in A]=\iint_{\,A}f_{\,X,\,Y}(x,y)\,dxdy$ 를 만족하는 $f_{\,X,\,Y}(x,y)$

- 통계수학 교재의 통계학에서의 적분과 미분적분학 교재의 적분 공부하기

결합 누적분포함수

- 결합 누적분포함수 : $F(x_1,\,x_2,\,\cdots,\,x_k) = P(X_1\leq x_1,\,X_2\leq x_2,\,\cdots,\,X_k\leq x_k)$

- $f(x_1,\,x_2,\,\cdots,\,x_k) = \cfrac{\partial^k}{\partial x_1\cdots\partial x_k}F(x_1,\,x_2,\,\cdots,\,x_k)$

주변 확률분포

- 결합분포가 주어졌다고 하자 그런데 각 변수만의 분포가 필요할 수 있음

- 결합 확률밀도함수 $f_{X,Y}(x,y)$가 주어졌을 때 $f_X(x),\;f_Y(y)$를 주변 확률밀도함수라고 함

- 주변 확률밀도함수 ---> marginal probability density function

  • 이산형인 경우

$$f_X(x) = \sum\limits_{\text{모든 $y$}}f_{X,Y}(x,y),\quad f_Y(y) = \sum\limits_{\text{모든 $x$}}f_{X,Y}(x,y)$$

  • 연속형인 경우

$$f_X(x) = \int^{\infty}_{-\infty}f_{X,Y}(x,y)\,dy,\quad f_Y(y) = \int^{\infty}_{-\infty}f_{X,Y}(x,y)\,dx$$

- 여러개의 확률변수에 대해서도 확장 가능함

조건부 확률분포

- 조건부 확률의 확률변수 버전

- 어떤 몇 개의 확률변수 값이 주어졌을 때 다른 확률변수들의 분포

- $X=x$가 주어졌을 때 $Y\mid X=x$의 조건부 확률밀도함수는 $f_{Y\mid x}(y\mid x)$ 이다

- 편의상 $Y\mid X = x \Longleftrightarrow Y\mid x$

- 조건부 확률밀도함수 ---> conditional probability density function

$$f_{Y\mid X=x}(y\mid x)=\cfrac{f_{X,Y}(x,y)}{f_X(x)}\qquad\text{단, } f_X(x)>0$$

- 그런데 $f(x\mid \theta)$와 $f(x;\theta)$는 다른거야? ---> https://stats.stackexchange.com/questions/10234/meaning-of-probability-notations-pzd-w-and-pzd-w

독립확률변수

- 두 확률변수 $X$와 $Y$는 임의의 실구간 $A$와 $B$에 대하여 $$ P(X\in A,\,Y\in B)=P(X\in A) \cdot P(Y\in B)$$ 가 성립할 때 서로 독립(independent)이라고 함

- 위의 정리를 확률밀도함수를 사용하여 나타내보자

- 두 확률변수 $X$와 $Y$가 서로 독립일 필요충분조건은 $$f_{X,Y}(x,y)=f_X(x)\cdot f_Y(y)$$

- 두 확률변수 $X$와 $Y$의 독립여부 파악하는 방법!

1. 결합 확률밀도함수를 통해 $X$와 $Y$의 주변 확률밀도함수를 구한다

2. 그리고 $f_{X,Y}(x,y)=f_X(x)\cdot f_Y(y)$가 성립하는지 확인한다

Tip: 쉬운방법은 $f_{X,Y}(x,y)$가 $X$만의 함수와 $Y$만의 함수로 인수분해 되는지 파악하는 것

기댓값

- 확률변수 $X$의 확률밀도함수가 $f(x)$일 때 $X$의 기댓값(expectation)은 $$E(X)=\begin{cases}\sum\limits_{\text{모든 }x_i}x_{i}f(x_i)\quad \text{이산형인 경우} \\ \int_{-\infty}^{\infty}xf(x)\,dx\quad \text{연속형인 경우}\end{cases}$$

- 단 $E(|X|)<\infty$

- 확률변수 $X$의 기댓값이 아닌 $2X+3$이나 $X^2$ 같은 확률변수의 기댓값이 궁금할 수 있다

- $Y=g(X)$의 확률밀도함수를 $f_Y(y)$라고 하면 $$E_X[g(X)]=E_Y(Y)=\begin{cases}\sum\limits_{\text{모든 }y_i}y_{i}f_{Y}(y_i)\quad \text{이산형인 경우} \\ \int_{-\infty}^{\infty}yf_{Y}(y)\,dy\quad \text{연속형인 경우}\end{cases}$$

- 만약 $X$의 확률밀도함수를 알고 있으면 $Y$의 확률밀도함수를 구할 필요가 없다

$$E_X[g(X)]=E_Y(Y)=\begin{cases}\sum\limits_{\text{모든 }x_i}g(x_{i})f_{X}(x_i)\quad \text{이산형인 경우} \\ \int_{-\infty}^{\infty}g(x)f_{X}(x)\,dx\quad \text{연속형인 경우}\end{cases}$$

- $Y=g(X)$의 기댓값을 구하는 데는 위의 두 가지 방법이 가능함

기댓값의 성질

- $E(c)=c$

- $E(aX+b)=aE(X)+b$

- 두 확률변수 $X$와 $Y$가 서로 독립인 경우

- $E(XY)=E(X)\cdot E(Y)$

- $E[g(X)\cdot h(Y)]=E[g(X)]\cdot E[h(Y)]$

분산과 공분산

$$Var(X)=E[X-E(X)]^2=E(X^2)-[E(X)]^2\\ \sigma_{X}=\sqrt{Var(X)}$$

- 두 확률변수 $X,Y$의 공분산은 다음과 같다

$$\begin{aligned}Cov(X,Y)&=E[(X-EX)(Y-EY)]\\ &=E(XY)-E(X)E(Y)\end{aligned}$$

분산의 성질

1. $Var(aX+b)=a^2Var(X)$

2. 확률변수들이 서로 독립이면 $Var\bigg(\sum\limits^{n}_{i=1}X_{i}\bigg)=\sum\limits^{n}_{i=1}Var(X_i)$

3. $Cov(X,X)=Var(X)$

4. 두 확률변수가 서로 독립이면 $Cov(X,Y)=0$

5. $Cov(aX+b,cY+d)=acCov(X,Y)$

6. $Var\bigg(\sum\limits^{n}_{i=1}X_{i}\bigg)=\sum\limits^{n}_{i=1}Var(X_{i})+2\mathop{\sum\sum}\limits_{j<k}Cov(X_j,X_k)$

조건부 기댓값

$$E(Y\mid X=x)=E_Y(Y)=\begin{cases}\sum\limits_{\text{모든 }y_i}y_{i}f_{Y\mid x}(y_i\mid x)\quad X,Y\text{가 이산형인 경우} \\ \int_{-\infty}^{\infty}yf_{Y\mid x}(y\mid x)\,dy\quad X,Y\text{가 연속형인 경우}\end{cases}$$

- (이중 기댓값 정리) 두 확률변수 $X,Y$에 대하여 $E[E(Y\mid X)]=E(Y)$ 가 성립함

- 확률변수 $X$와 $Y$가 독립이면 $E(Y\mid x)=E(Y),\;E(X\mid y)=E(X) \to$ 사건의 독립 확률변수 버전

- 조건부 분산 : $Var(Y\mid x)=E[\{Y-E(Y\mid x)\}^2\mid x] = E(Y^2\mid x)-[E(Y\mid x)]^2$

- 분산 분해 : $Var(Y) = E[Var(Y\mid X)]+Var[E(Y\mid X)]$

- 조건부 분산($E[Var(Y\mid X)]$)이 무조건부 분산($Var(Y))$보다 평균적으로 더 작음

- $Var(E(Y\mid X))\leq Var(Y) \longrightarrow$ 개별 개체의 산포보다 그룹별 평균의 산포가 작음

확률부등식

- 마코프 확률부등식 : 실함수 $u(X) > 0$라고 할 때 $P[u(X)\geq c] \leq \dfrac{E[u(X)]}{c}$

- $P[u(X) < c] = 1-P[u(X)\geq c] \geq 1-\dfrac{E[u(X)]}{c}$

  • 마코프 확률부등식 증명

- $A=\{x:u(x)\geq c\}$인 $A$에 대하여 아래가 성립한다

$$\begin{aligned}E_X[u(X)]&=\int^{\infty}_{-\infty}u(x)f(x)dx\\[10pt] &=\int_A u(x)f(x)dx+\int_{A^c} u(x)f(x)dx\\[10pt] &\geq\int_A u(x)f(x)dx\\[10pt] &\geq\int_A cf(x)dx\quad(\therefore u(x)\geq c)\\[10pt] &=cP(X\in A)\\[10pt] &=cP\big(u(X)\geq c\big)\quad(\therefore A=\{x:u(x)\geq c\}) \end{aligned}$$

- 체비셰프 부등식(확률부등식의 응용) : $P(|X-\mu| < k\sigma)\geq 1-\dfrac{1}{k^2}$

- 코시-슈바르츠 부등식 : $[E(XY)]^2 \leq E(X^2)\cdot E(Y^2)$

- 젠센 부등식 : $E[\phi(\boldsymbol{X})]\geq \phi[E(\boldsymbol{X})]$ ($\therefore \phi(x)$는 이차 미분가능하고 convex)

표본분포 및 그의 근사

대수의 법칙과 중심극한정리

확률 수렴

- 확률변수의 열 $X_1,X_2,\cdots,X_n,\cdots$과 확률변수 $X$가 같은 확률공간에 정의된다고 하자

- 확률변수의 열을 모르면 다음을 참고하자 : https://www.probabilitycourse.com/chapter7/7_2_2_sequence_of_random_variables.php

- 확률변수의 수렴 : https://www.probabilitycourse.com/chapter7/7_2_0_convergence_of_random_variables.php

- 만약 임의의 $\epsilon>0$에 대해 $\lim\limits_{n \to \infty}P(|X_n-X|\geq \epsilon)=0$ 또는 $\lim\limits_{n\to\infty}P(|X_n-X|< \epsilon)=1$ 이라면

- $X_n$이 $X$로 확률적으로 수렴한다고 하고 $X_n{\xrightarrow{~~p~~}} X$로 표기한다 : 확률 수렴(convergence in probability)

- 확률 수렴이 무엇인지 뭔가 직관적으로 와닿지 않는다

- 일단 수열의 수렴을 생각해보자

- 예컨데 $1,\frac{1}{2},\frac{1}{4},\frac{1}{8},\cdots $ 와 같은 수열이 있다고 하자

- 위의 수열을 다음과 같이 나타낼 수 있다 ---> $a_n=\dfrac{1}{2^n},\;n\in \mathbb{N}$

- 여기서 $n\to\infty$ 이면 $a_n\to 0$임을 알 수 있다

- 즉 $n$이 커지면 어떠한 상수 $a$로 수렴한다는 것

- 수열 대신 확률변수의 열인 경우도 똑같이 생각하면 된다

- 단지 확률변수는 변동성 때문에 값이 완전히 똑같을 수는 없으니 확률을 도입한 것이다

- 예컨대 두 확률변수가 표준정규분포를 따를 때 적당히 표본을 1억개 정도 뽑고 값을 비교한다고 해보자(kde 그려보자)

- 그러면 거의 비슷하겠지만 완전히 똑같지는 않다(random vaiable이니까 당연하다)

- 그러니 직접 값을 비교하는게 아니고 확률을 도입하여 비교하는 것이다

- 예시에서 두 확률변수가 표준정규분포를 따른다고 표현한 것도 변동성 때문이다($X = Z$가 아니라 변동성 때문에 $X \sim Z$로 표현)

  • 확률변수의 열 헷갈리는 점 짚고 가기

- $X_1,X_2,\cdots,X_n \longrightarrow n$에 의존한다(여기서 $n$은 표본크기 의미하는게 아님; 일련번호(또는 표본 개수)라고 생각하자)

- 그러니까 $X_n$ 자체는 그냥 어떤 확률분포를 따를 뿐 밑첨자가 $n$이라고 확률분포에서 표본 $n$개를 뽑는 것이 아님

- 그런데 $\overline{X}_n$과 같은 경우는 $n$이 표본크기를 나타내는데 왜냐면 $\overline{X}_n = \cfrac{X_1+\cdots+X_n}{n}$ 이기 때문

  • 다시 본론으로 돌아와서 다음과 같은 확률변수의 열이 있다고 해보자

- $X_1\sim EXP(1),\; X_2\sim EXP(2),\;\cdots,\;X_n\sim EXP(n)$ 라고 하자

- 즉 $X_n\sim EXP(n)$, 예컨대 $n=3$이면 $X_3\sim EXP(3)$

- 참고로 $EXP(n)$에서 $n$은 포아송분포의 모수 $\lambda$를 의미한다

- 만약 $n\to\infty$ 이면 $X_n\to 0$가 되고 이는 $X_n\xrightarrow{~~p~~}0$

$$\begin{aligned}\lim\limits_{n\to\infty} P(|X_n-X|\geq \epsilon)&=\lim\limits_{n\to\infty} P(|X_n-0|\geq \epsilon)\\ &=\lim\limits_{n\to\infty} P(X_n\geq \epsilon)\quad (X_n\geq 0 \text{ as } X_n\sim EXP(n))\\ &=\lim\limits_{n\to\infty} 1-F_{X_n}(\epsilon)\\ &=\lim\limits_{n\to\infty} 1-(1-e^{-n\epsilon})\\ &=\lim\limits_{n\to\infty} e^{-n\epsilon}\\ &=0,\quad \forall \epsilon > 0\end{aligned}$$

- 따라서 $X_n\xrightarrow{~~p~~}0$

- 다시 말하자면 확률변수의 열 $X_1,X_2,\cdots,X_n$은 zero random variable $X$로 확률 수렴한다

- 참고 : https://www.probabilitycourse.com/chapter7/7_2_5_convergence_in_probability.php

- 근데 문득 궁금한점이 생겼다

- $X_1,X_2,\cdots,X_n$은 같은 확률공간에 존재하는건가?

- $\Omega,\mathcal{F}$는 같다

- 그런데 $\Pr$은?

- $\Pr$이 같다면 예컨대 $\Pr(1<X<2)$가 $X_1,X_2,\cdots,X_n$에 대해서 같아야 하는거 아닌가?

- 하지만 $X_1,X_2,\cdots,X_n$ 각각의 pdf는 다르기에 $\Pr(1<X<2)$도 다르다

- 그럼 같은 확률공간이 아닌건가?

- 아니면 임의의 실수 $a$에 대해서 $\Pr(a)=0$이니까 똑같나?

- 그냥 내가 확률공간의 의미를 잘못알고 있는 걸수도...

  • 위에 대한 나의 생각 : $\Pr$은 $\mathcal{F}$를 $[0,1]$로 맵핑하는 함수다 ---> 예컨대 동전던지기의 경우 $\Pr(\{H\})=\dfrac{1}{2}$

- $\Pr(1<X<2)$에서 $1<X<2$는 $\mathcal{F}$ 중에서 하나의 사건에 해당한다(?)

- $\Pr$은 $1<X<2$를 $f_X(x)$ 그래프 상에서 전체면적($1$) 대비 $1<x<2$ 아래의 면적의 차지 비율에 맵핑한다

- 예컨대 정규분포의 경우 $\Pr(0<X<\infty) = 0.5$이다

- 위의 경우 $\Pr$은 $\mathcal{F}$를 $f_X(x)$ 그래프 상에서 전체면적($1$) 대비 $\mathcal{F}$에 해당하는 아래의 면적의 차지 비율에 맵핑한다

- 즉 $X_1,X_2,\cdots,X_n$ 각각의 pdf는 다르기에 $\Pr(1<X<2)$도 다르지만 $\Pr$ 함수의 규칙은 같으므로 같은 확률공간에 있다고 한다(?)

- $\Pr(A)=\int_A f(x)dx,\quad A\in\mathcal{F}$ ---> $\Pr$은 동일함!

- 다시 말하지만 $\Pr$은 함수이다

- $y=f(x)$에서 함수는 $f$이다 ---> 예컨대 $y=2x$이면 함수는 $\times 2$, $x$는 input, $y$는 output

- 당연히 $x$가 달라지면 $y$도 달라진다 ---> $y=2x$에서 $x=1$이면 $y=2$, $x=2$이면 $y=4$

- 아니 그런데 $1<X<2$는 다 같은거 아님?

- $1<X<2$는 pdf상에서 $1<x<2$인 영역이므로 pdf에 따라 다르다(?) ---> 그러니 $1<X<2$는 다 같은것이 아니다(?)

- 같은 게 맞다. $1<X<2$ 영역에 존재하는 점의 밀도가 $X_1$, $X_2$에서 다르므로 $P(1 < X < 2)$이 다르다

- 헷갈리면 위의 같은 확률 공간, 다른 cdf 예시를 보고 오자

import matplotlib.pyplot as plt
import numpy as np
from scipy.stats import expon


xx = np.linspace(0, 6, 1000)
x = np.linspace(2, 4, 100)
y1 = expon.pdf(x, scale = 1)
y2 = expon.pdf(x, scale = 2)

with plt.style.context('seaborn-darkgrid'):
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize = (15, 5))
    
    ax1.plot(xx, expon.pdf(x = xx, scale = 1))
    ax1.set_title('$\lambda = 1$')
    ax1.set_xlim(0, 6)
    ax1.set_ylim(0, 1)
    ax1.fill_between(x, y1, 0)
     
    ax2.plot(xx, expon.pdf(x = xx, scale = 2))
    ax2.set_title('$\lambda = 0.5$')
    ax2.set_xlim(0, 6)
    ax2.set_ylim(0, 1)
    ax2.fill_between(x, y2, 0)
    
    fig.suptitle('exp dist', fontsize = 16)
    plt.show()

- 결론은 $\Pr$은 보통의 연속형확률변수이면 지수분포이든 정규분포이든 면적을 구하는 함수이니 동일하다는 것

대수의 법칙

- 평균이 $\mu<\infty$인 확률밀도함수 $f(x)$로부터 랜덤표본($i.i.d$) $X_1,X_2,\cdots,X_n$을 얻었다면 $\overline{X}_n\xrightarrow{~~p~~}\mu$가 성립 : 대수의 법칙(law of large numbers)

  • 증명 ($f(x)$가 분산 $\sigma^2<\infty$를 가진다고 가정)
$$\begin{aligned} P\left(\left\lvert\,\overline{X}_n-\mu\,\right\rvert < \epsilon\right)& = P\left(\left|\,\overline{X}_n-\mu\,\right|^2 < \epsilon^2\right)\\ &\leq 1 - \dfrac{E\left(\overline{X}_n-\mu\right)^2}{\epsilon^2}\\ &= 1 - \dfrac{ \sigma^2 / n}{\epsilon^2} \xrightarrow{~~n \to \infty~~} 1 \end{aligned}$$

- 표본크기가 커질수록 표본평균은 모평균에 가까워진다

분포 수렴

- 확률변수의 열 $X_1,X_2,\cdots,X_n,\cdots$이 누적분포함수 $F_{X_1},F_{X_2},\cdots,F_{X_n},\cdots$을 각각 갖고 $X\sim F_X$라고 하자

- 만약 함수 $F_X$가 연속인 모든 점 $x$에서 $\lim\limits_{n\to\infty}F_{X_n}=F_X(x)$가 만족된다면

- $X_n$이 $X$로 분포 수렴한다고 말하고 $X_n{\xrightarrow{~~d~~}} X$로 표기 : 분포 수렴(convergence in distribution)

- 여기서 $X$의 분포를 $X_n$의 극한분포(Limiting Distribution) 또는 점근적분포(Asymptotic Distribution)라고 한다

Note: $X_n{\xrightarrow{~~p~~}} X$ 이면 $X_n{\xrightarrow{~~d~~}} X$ 이지만 역은 항상 성립하진 않는다

Note: $c$가 상수일 때 $X_n{\xrightarrow{~~p~~}} c$ 와 $X_n{\xrightarrow{~~d~~}} c$ 는 서로 동치이다

중심극한정리

- 확률변수 $X_1,X_2,\cdots$의 cdf가 $F_1,F_2,\cdots$이고 mgf가 $M_1(t),M_2(t),\cdots$라고 하자

- 이때 어떤 $t$의 개구간 $-h<t<h$에 대하여 $\lim\limits_{n\to \infty}M_n(t)=M(t)$이고

- $M(t)$가 누적분포함수 $F(x)$를 갖는 어떤 확률분포의 mgf라고 하면 $F(x)$가 연속인 모든 점에서 $\lim\limits_{n\to \infty}F_n(x)=F(x)$가 성립한다

- 즉, 적률생섬함수열의 극한이 임의의 확률변수 $X$의 mgf로 수렴하면 $X_n{\xrightarrow{~~d~~}} X$가 성립한다

- 평균과 분산이 각각 $\mu$와 $\sigma^2<\infty$인 $f(x)$로부터 랜덤표본 $X_1,X_2,\cdots,X_n$을 얻었다면 이때 확률변량

$$Z_n=\dfrac{\sum\limits_{i=1}^{n}X_i-E\left(\sum\limits_{i=1}^{n}X_i\right)}{\sqrt{Var\left(\sum\limits_{i=1}^{n}X_i\right)}}=\dfrac{\sum\limits_{i=1}^{n}(X_i-\mu)}{\sqrt{n}\sigma} =\dfrac{\overline{X}_n-E\left(\overline{X}_n\right)}{\sqrt{Var\left(\overline{X}_n\right)}}=\dfrac{\overline{X}_n-\mu}{\left. \sigma \middle/ \sqrt n \right.}$$

- 는 표본의 크기 $n$이 무한대에 접근함에 따라 표준정규분포 $N(0,1)$로 분포수렴한다 : 중심극한정리(central limit theorem)

  • 증명(적률생성함수가 존재하는 경우)

- 랜덤표본이므로 $X_i-\mu$의 mgf는 모든 $i$에 대해 동일하고 이를 $m(t)=E\left[e^{t(X_i-\mu)}\right]$라고 하자

- 그러면 $m'(0)=E(X_i-\mu)=0,\; m''(0)=E(X_i-\mu)^2=\sigma^2$이고 테일러 전개의 의해 아래가 성립

$$\begin{aligned}m(t)&=m(0)+m'(0)t+\dfrac{m''(\xi)t^2}{2} \quad (0<\xi<t)\\ &=1+\dfrac{m''(\xi)t^2}{2}\\ &=1+\dfrac{\sigma^2 t^2}{2}+\dfrac{(m''(\xi)-\sigma^2)t^2}{2}\end{aligned}$$

- $Z_n = \dfrac{\overline{X}_n-\mu}{\left. \sigma \middle/ \sqrt n \right.}=\dfrac{\sum\limits_{i=1}^{n}(X_i-\mu)}{\sqrt{n}\sigma}$ 라고 하면 $Z_n$의 mgf는 아래와 같다

$$\begin{aligned}M_{_{Z_{_n}}}(t)&=M_{{\Sigma(X_i-\mu)}}\left(\frac{t}{\sqrt{n}\sigma}\right)\\ &=\prod\limits_{i=1}^{n}M_{{(X_i-\mu)}}\left(\frac{t}{\sqrt{n}\sigma}\right)\\ &=\left[M_{{(X_i-\mu)}}\left(\frac{t}{\sqrt{n}\sigma}\right)\right]^n\\ &=\left[m\left(\frac{t}{\sqrt{n}\sigma}\right)\right]^n \end{aligned}$$

이고, $0<\xi < \dfrac{t}{\sqrt n\sigma}$인 $\xi$에 대해 $M_{_{Z_{_n}}}(t)=\left[1+\dfrac{\sigma^2 t^2}{2n\sigma^2}+\dfrac{\left(m''(\xi)-\sigma^2\right)t^2}{2n\sigma^2}\right]^n$

- 그런데 $n\to\infty$일 때 $\dfrac{t}{\sqrt n\sigma}\to0,\,\xi\to 0$, 그리고 $m''$의 연속성에 의해 $m''(\xi)\to\sigma$이므로 $\lim_{n\to\infty}M_{_{Z_{_n}}}(t)=\exp\left(\dfrac{t^2}{2}\right)$

- 이는 표준정규분포의 mgf이므로 확률변량 $Z_n$에 대하여 $Z_n\xrightarrow{~~d~~}N(0,1)$이 성립한다

Slutsky 정리

Note: 확률변수열 $u_n$과 $u$에서 연속인 함수 $g$와 상수 $u$에 대하여 $u_n\xrightarrow{~~p~~}u$이면 $g(u_n)\xrightarrow{~~p~~}g(u)$가 성립한다

- 확률변수열 $X_1,X_2,\cdots,X_n$이 상수 $c$로 확률적으로 수렴($X_n\xrightarrow{~~p~~}c$)하며

- 확률변수열 $Y_1,Y_2,\cdots,Y_n$은 확률변수 $Z$로 분포수렴($Y_n\xrightarrow{~~d~~}Z$)한다고 하면

- $X_n+Y_n\xrightarrow{~~d~~}Z+c$와 $X_nY_n\xrightarrow{~~d~~}cZ$가 성립한다

- Slutsky 정리 응용 예시

- 평균과 분산이 각각 $\mu$와 $\sigma^2 < \infty$인 모분포루터 랜덤표본 $X_1,X_2,\cdots,X_n$을 얻었다고 하자

- $\dfrac{\overline{X}_n - \mu}{\left. S_n \middle/ \sqrt n \right.}\sim t(n-1)$를 스튜던트화된 표본평균이라 한다

- 그런데 중심극한정리에 의해 $\dfrac{\overline{X}_n - \mu}{\left. \sigma \middle/ \sqrt n \right.}\xrightarrow{~~d~~}N(0,1)$ 이고 $S_n\xrightarrow{~~p~~}\sigma$ 이므로 다음이 성립한다

- $\dfrac{\overline{X}_n - \mu}{\left. S_n \middle/ \sqrt n \right.}=\dfrac{\overline{X}_n - \mu}{\left. \sigma \middle/ \sqrt n \right.}\times \dfrac{\sigma}{S_n} \xrightarrow{~~d~~}N(0,1)$

델타 방법

- 임의의 함수 $g(\theta)$의 연속인 도함수 $g'(\theta)$가 존재하고 $0$이 아니라고 하자

- 확률변수의 열 $X_1,X_2,\cdots,X_n,\cdots$에 대해서 $\sqrt{n}(X_n-\theta)\xrightarrow{~~d~~}N(0,\sigma^2)$ 이라고 하자

- 평균값 정리에 의하여 $X_n$과 $\theta$ 사이에 있는 $\tilde{\theta}$에 대하여 $\dfrac{g(X_n)-g(\theta)}{X_n-\theta}=g'(\tilde{\theta})$가 성립한다

- 한편 $X_n\xrightarrow{~~p~~}\theta$이므로 $X_n$과 $\theta$사이에 있는 $\tilde{\theta}$에 대해서도 $\tilde{\theta}\xrightarrow{~~p~~}\theta$이며 $g'(\tilde{\theta})\xrightarrow{~~p~~}g'(\theta)$가 성립한다

- 따라서 $\sqrt{n}\big[(g(X_n)-g(\theta)\big]=g'(\tilde{\theta})\sqrt{n}(X_n-\theta)$으로부터 슬럿츠키 정리를 사용하여

- $\sqrt{n}(g(X_n)-g(\theta))\xrightarrow{~~d~~}N(0,\sigma^2[g'(\theta)]^2)$을 보일 수 있다

- 델타 방법은 때로는 점근적 정규성에 대한 가정을 하지 않고 확률변수 $g(X)$의 기댓값과 분산을 확률변수 $X$를 통해 근사할 때도 사용된다

- 테일러 전개 : $E\big[g(X)\big]\approx E\big[(g(\mu)+g'(\mu)(X-\mu)\big]=g(\mu)=g\big(E(X)\big)$

- 테일러 전개 : $Var\big(g(X)\big)\approx Var\big((g(\mu)+g'(\mu)(X-\mu)\big)=g(\mu)=\big\{g'(\mu)\big\}^2 Var(X)$

순서통계량

- 확률밀도함수가 $f(x)$이고 누적분포함수가 $F(x)$인 모집단으로부터

- 크기가 $n$인 랜덤표본 $X_1,X_2,\cdots,X_n$을 얻었다고 하자

- 이때 랜덤표본을 작은 것부터 크기순으로 나열하여 다음과 같은 순서통계량(order statistic)을 구할 수 있다

$$X_{(1)} \leq X_{(2)} \leq \cdots \leq X_{(n-1)} \leq X_{(n)}$$

- 예컨대 모집단이 표준정규분포일 때 크기가 $n$인 랜덤표본 $X_1,X_2,\cdots,X_n$를 얻었다면

- 확률변수의 순서통계량은 $1:1$ 변환이 아니다($n!:1$ 변환)

- 그렇기에 순서통계량의 결합 확률밀도함수는 $n!f(x_{(1)})f(x_{(2)})\cdots f(x_{(n)})$이다

- 한편, $k$번째 순서통계량 $X_{(k)}$의 확률밀도함수는 다음과 같다

$$f_{X_k}(x_{(k)})=\cfrac{n!}{(k-1)!(n-k)!}(F(x_{(k)}))^{k-1}(1-F(x_{(k)}))^{n-k}f(x_{(k)})$$