- 참고 교재1 : SAS와 R을 활용한 선형회귀분석(자유아카데미)

- 참고 교재2 : 통계수학강의(자유아카데미)

- 행렬의 기초를 간단히 정리하자

행렬 (Matrix)

- 행렬(matrix): 아래와 같이 $m$ 개의 행(row) 과 $n$ 개의 열(column) 을 $mn$ 개의 숫자로 채운 모양

$$\boldsymbol{A} = \begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n}\\ \vdots & \vdots & \ddots & \vdots\\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{pmatrix}$$

- 벡터행렬볼드체로 적어야 함

- 행렬의 원소는 볼드체 사용 안함 ---> 행렬의 원소가 벡터 또는 행렬이면 볼드체 사용

- 행렬의 기본인 벡터를 알고가자

- 열벡터($\boldsymbol{a}$) : $m\times 1$ 행렬 ---> 보통 벡터라고 하면 열벡터임

- 행벡터($\boldsymbol{a'}$) : $1\times n$ 행렬

- 스칼라 : 원소가 하나인 행렬

- ${\bf 0}$ : 모든 원소가 $0$인 벡터

- ${\bf 1}$ : 모든 원소가 $1$인 벡터

- $\boldsymbol{e_i}$ : $i$번째 원소만 $1$이고 나머지 원소는 모두 $0$인 벡터

행렬의 종류

- 정사각행렬(square matrix) : $m=n$ 인 행렬

- 대각행렬(diagonal matrix, $\boldsymbol{D}$) : 정사각행렬 중에 대각원소를 제외한 모든 원소가 $0$인 행렬

- 단위행렬(identity matrix, $\boldsymbol{I}$) : 대각행렬 중에 대각의 원소가 모두 $1$인 행렬 ---> $\boldsymbol{I_m}$(차수가 $m$)

- 위삼각행렬(upper triangular matrix) : 대각원소와 그 오른쪽 위의 원소를 제외한 나머지 원소는 모두 $0$인 행렬

- 아래삼각행렬(lower triangular matrix) : 대각원소와 그 왼쪽 아래의 원소를 제외한 나머지 원소는 모두 $0$인 행렬

- 전치행렬(transpose matrix) : 행과 열이 바뀐 행렬 ---> $m \times n$ 행렬의 전치행렬은 $n \times m$ 이 되고 $\boldsymbol{A'}$ 또는 $\boldsymbol A^\top$ 로 표현

- 대칭행렬(symmetric matrix) : $\boldsymbol{A = A^\top}$

행렬의 연산

- 행렬의 덧셈 뺄셈은 교재 참고

행렬의 곱

- 각 행렬은 행벡터 또는 열벡터로 분할될 수 있음

- 행렬의 곱 $\boldsymbol{AB}$ 는 행렬 $\boldsymbol A$ 가 $m$ 개의 행벡터로 분할되어 있고 행렬 $\boldsymbol B$ 가 $n$ 개의 열벡터로 분할되어 있다고 할 때 곱의 계산을 나타낸 것 ---> 교재 참고

$$\boldsymbol{AB}=\begin{pmatrix} {\boldsymbol{a_{1\,\cdot}}}\,'\\ {\boldsymbol{a_{2\,\cdot}}}\,'\\ \vdots\\ {\boldsymbol{a_{m\,\cdot}}}\,' \end{pmatrix} \big(\boldsymbol{b_{\,\cdot \,1}},\, \boldsymbol{b_{\,\cdot \,2}},\, \cdots,\, \boldsymbol{b_{\,\cdot\, n}}\big) = \begin{pmatrix} {\boldsymbol{a_{1\,\cdot}}}\,'\boldsymbol{b_{\,\cdot \,1}} & {\boldsymbol{a_{1\,\cdot}}}\,'\boldsymbol{b_{\,\cdot \,2}} & \cdots & {\boldsymbol{a_{1\,\cdot}}}\,'\boldsymbol{b_{\,\cdot \,n}}\\ {\boldsymbol{a_{2\,\cdot}}}\,'\boldsymbol{b_{\,\cdot \,1}} & {\boldsymbol{a_{2\,\cdot}}}\,'\boldsymbol{b_{\,\cdot \,2}} & \cdots & {\boldsymbol{a_{2\,\cdot}}}\,'\boldsymbol{b_{\,\cdot \,n}}\\ \vdots & \vdots & \ddots & \vdots\\ {\boldsymbol{a_{m\,\cdot}}}\,'\boldsymbol{b_{\,\cdot \,1}} & {\boldsymbol{a_{m\,\cdot}}}\,'\boldsymbol{b_{\,\cdot \,2}} & \cdots & {\boldsymbol{a_{m\,\cdot}}}\,'\boldsymbol{b_{\,\cdot \,n}} \end{pmatrix}$$

- ${\boldsymbol{a_{1\,\cdot}}}\,'\boldsymbol{b_{\,\cdot \,1}}$ 부터 ${\boldsymbol{a_{m\,\cdot}}}\,'\boldsymbol{b_{\,\cdot \,n}}$ 까지 각각은 스칼리임

- 위 식에서 행렬 $\boldsymbol{A}$ 가 $p$ 개의 열벡터로 행렬 $\boldsymbol{B}$ 가 $p$ 개의 행벡터로 분할되어 있다고 하자

- 그러면 행렬의 곱 $\boldsymbol{AB}$ 는 아래와 같이도 표현 가능함

$$\boldsymbol{AB}=\big(\boldsymbol{a_{\,\cdot \,1}},\, \boldsymbol{a_{\,\cdot \,2}},\, \cdots,\, \boldsymbol{a_{\,\cdot\, p}}\big) \begin{pmatrix} {\boldsymbol{b_{1\,\cdot}}}\,'\\ {\boldsymbol{b_{2\,\cdot}}}\,'\\ \vdots\\ {\boldsymbol{b_{p\,\cdot}}}\,' \end{pmatrix} = \boldsymbol{a_{\,\cdot \,1}}{\boldsymbol{b_{1\,\cdot}}}\,' + \cdots + \boldsymbol{a_{\,\cdot \,p}}{\boldsymbol{b_{p\,\cdot}}}\,'$$

- $\boldsymbol{a_{\,\cdot \,1}}{\boldsymbol{b_{1\,\cdot}}}\,'$ 부터 $\boldsymbol{a_{\,\cdot \,p}}{\boldsymbol{b_{p\,\cdot}}}\,'$ 까지 각각은 $p \times p$ 행렬임

대각합(trace)

- 정사각행렬의 특성을 나타내는 수치

- 행렬의 대각원소의 합

- $\operatorname{tr}(\boldsymbol{A}) = \sum\limits_{i=1}^{m}a_{ii}$

대각합의 성질

- $\operatorname{tr}(\boldsymbol{A}) = \operatorname{tr}(\boldsymbol{A'})$

- $\operatorname{tr}(\boldsymbol{AB}) = \operatorname{tr}(\boldsymbol{BA})$

- 나머지는 간단하니 교재 참고

역행렬

- 행렬식(determinant) : $\begin{vmatrix}\boldsymbol{A}\end{vmatrix}$ or $\det(\boldsymbol{A})$

- 행렬 $\begin{vmatrix}\boldsymbol{A}\end{vmatrix}$ 가 $m\times m$ 일 때 $|\boldsymbol{A}|=\sum\limits_{i=1}^{m}(-1)^{i+1}a_{1i}\begin{vmatrix}\boldsymbol{M_{1i}}\end{vmatrix}$

- $\boldsymbol{M_{ij}}$ 는 행렬 $\boldsymbol{A}$ 에서 $i$ 번째 행과 $j$ 번째 열을 제외한 $(m-1)\times(m-1)$ 부분행렬

- $\boldsymbol{A_{ij}} = (-1)^{i+j}\boldsymbol{M_{ij}} \longrightarrow \boldsymbol{A_{ij}}$ 를 원소 $a_{ij}$ 의 여인수라고 함

- 행렬 $\boldsymbol{A}$ 의 역행렬의 $(i,j)$ 번째 원소 $\boldsymbol{{(A^{-1})}_{ij}} = \cfrac{1}{\begin{vmatrix}\boldsymbol{A}\end{vmatrix}}(-1)^{i+j}\begin{vmatrix}\boldsymbol{M_{ij}}\end{vmatrix}$

- 대각행렬, 위삼각행렬, 아래삼각행렬의 행렬식은 대각선 원소들의 곱

- 특이행렬(singular matrix) : 행렬식이 $0$인 행렬

- 정칙행렬(nonsingular matrix) : 행렬식이 $0$이 아닌 행렬

행렬식의 성질

- 스칼라 $\alpha$ 와 $m\times m$ 행렬 $\boldsymbol{A,B}$ 에 대하여 다음이 성립

  1. $\det(\boldsymbol{A}) = \det(\boldsymbol{A'})$

  2. $\det(\alpha\boldsymbol{A}) = \alpha^{m}(\det(\boldsymbol{A}))$

  3. $\boldsymbol{A}$ 가 대각행렬이면 $\det(\boldsymbol{A}) = a_{11}\times a_{22}\times \cdots \times a_{mm}$

  4. 행렬 $\det(\boldsymbol{AB}) = \det(\boldsymbol{A})\times \det(\boldsymbol{B})$

  5. 정사각행렬 $\boldsymbol{P, \,Q}$ 에 대하여 $\begin{vmatrix}\begin{pmatrix} \boldsymbol{P} & \boldsymbol{0} \\ \boldsymbol{X} & \boldsymbol{Q} \end{pmatrix}\end{vmatrix} = \begin{vmatrix}\boldsymbol{P}\end{vmatrix}\cdot\begin{vmatrix}\boldsymbol{Q}\end{vmatrix}$

$n$ 차 연립방정식의 해

- $n$ 개의 미지수 $(x_1,x_2,\cdots,_n)'=x$에 대하여 $n$ 차 연립방정식을 생각해보자

$$a_{11}x_1 + a_{12}x_2+\cdots+a_{1n}x_n=d_1\\ a_{21}x_1 + a_{22}x_2+\cdots+a_{2n}x_n=d_2\\ \quad\vdots\\ a_{n1}x_1 + a_{n2}x_2+\cdots+a_{nn}x_n=d_n$$

- 위의 $n$ 차 연립방정식은 다음과 같이 표현이 가능 $\to \boldsymbol{Ax} = \boldsymbol{d}$

- 만약 $\boldsymbol{A^-1}$이 존재하면 $\boldsymbol{A^{-1}Ax} = \boldsymbol{A^{-1}d}\Longrightarrow\boldsymbol{x} = \boldsymbol{A^{-1}d}$

역행렬의 성질

- 스칼라 $\alpha$ 와 $m\times m$ 정칙행렬 $\boldsymbol{A,B}$ 에 대하여 다음을 만족

  1. $(\alpha\boldsymbol{A})^{\boldsymbol{-1}}=\alpha^{-1}\boldsymbol{A^{-1}}$

  2. $(\boldsymbol{A'})^{\boldsymbol{-1}}=(\boldsymbol{A^{-1}})'$

  3. $\begin{vmatrix}\boldsymbol{A^{-1}}\end{vmatrix}=\begin{vmatrix}\boldsymbol{A}\end{vmatrix}^{-1}$

  4. $\boldsymbol{A} = \operatorname{diag}(a_{11},a_{22},\cdots,a_{mm}) \Longrightarrow \boldsymbol{A^{-1}} = \operatorname{diag}(a_{11}^{\,-1},a_{22}^{\,-1},\cdots,a_{mm}^{\,-1})$

  5. $(\boldsymbol{AB})^{\boldsymbol{-1}}=\boldsymbol{B^{-1}}\boldsymbol{A^{-1}}$

  6. 정칙행렬 $\boldsymbol{P},\boldsymbol{Q}$ 에 대하여 $\begin{pmatrix}\boldsymbol{P} & 0\\ 0 & \boldsymbol{Q}\end{pmatrix}^{\boldsymbol{-1}} = \begin{pmatrix} \boldsymbol{P^{-1}} & 0\\ 0 & \boldsymbol{Q^{-1}}\end{pmatrix}$

직교행렬

- 직교행렬(orthogonal matrix) : 정사각행렬 중에 전치행렬이 역행렬인 행렬 $\longrightarrow \boldsymbol{A'} = \boldsymbol{A^{-1}}$

직교행렬의 조건

$${a_j}'a_j = \begin{cases} 1 & \text{for $i=j$}\\ 0 & \text{for $i \neq j$}\end{cases}$$

- 각 열벡터는 길이가 $1$이고 다른 열벡터와 직교한다 ---> 정규직교벡터

- $\boldsymbol{P}$ 가 직교행렬이면 $\begin{vmatrix}\boldsymbol{PP'}\end{vmatrix} = {\begin{vmatrix}\boldsymbol{P}\end{vmatrix}}^{2} = 1$ 이므로 직교행렬의 행렬식은 $\pm 1$

멱등행렬

- 멱등행렬(idempotent matrix) : $\boldsymbol{A}^2=\boldsymbol{AA}=\boldsymbol{A}$ 를 만족하는 행렬

- 멱등행렬의 대표적인 예(회귀분석) ---> $\boldsymbol{H} = \boldsymbol{X{(X{\,'}X)}^{-1}X{\,'}}$

- 다양한 예는 교재 참고

2차형식

- 2차형식(quadratic form) : 대칭행렬을 사이에 두고 양옆에 같은 벡터가 곱해지는 형태($\boldsymbol{x'Ax}$)

(준)정부호행렬

- 모든 벡터 $\boldsymbol{x}\neq 0$ 에 대하여 각 조건을 만족시키는 대칭행렬 $\boldsymbol{A}$ 는 다음과 같이 정의함

  1. $\boldsymbol{x'Ax} > 0$ 이면 $\boldsymbol{A}$ : 양의 정부호행렬(positive definite matrix) ---> 양정치

  2. $\boldsymbol{x'Ax} \geq 0$ 이면 $\boldsymbol{A}$ : 양의 준정부호행렬(positive semi-definite matrix) ---> 양반정치

벡터공간

벡터공간(vector space)

- 벡터들을 포함하는 집합 $S$가 다음을 만족하면 벡터공간이라 한다

1. $\boldsymbol{0} \in S$

2. $\boldsymbol{x} \in S,\; \boldsymbol{y} \in S \longrightarrow \boldsymbol{x}+\boldsymbol{y} \in S$

3. $\boldsymbol{x} \in S \longrightarrow \alpha \boldsymbol{x} \in S$

선형결합

- 다음과 같은 벡터 $\boldsymbol{v}=\sum\limits_{i=1}^{n}\alpha_i \boldsymbol{x_i} $를 벡터 $\boldsymbol{x_1},\cdots, \boldsymbol{x_n}$의 선형결합(linear combination)이라고 한다

생성집합

- 벡터공간 $S$에 속하는 모든 벡터 $\boldsymbol{s}$에 대해 $\boldsymbol{s}=c_1\boldsymbol{x_1}+\cdots+c_m\boldsymbol{x_m}$을 만족하는

- 벡터 $\boldsymbol{c}=(c_1,\cdots,c_m)^\top \in \mathbb{R}^m$가 존재할 때 $\{\boldsymbol{x_1},\cdots,\boldsymbol{x_m}\}$을 $S$의 생성집합(spanning set)이라고 한다

- 예컨대 $S_2 = (a,b,a+b)^\top$의 경우 $\{(1,0,1)^\top,(0,1,1)^\top\}$가 생성집합의 예가 될 수 있다

- 두 개의 벡터공간 $S_a,S_b$에 대해 $S_a \subset S_b$이면 $S_a$를 $S_b$의 벡터 부분공간(subspace)라고 표현하기도 한다

선형독립과 선형종속

- 벡터공간 $S$에 포함되는 영벡터가 아닌 $m$개의 벡터로 이루어진 집합 $\{\boldsymbol{x_1},\cdots,\boldsymbol{x_m}\}$에 대해

- $\sum\limits_{i=1}^{m}\alpha_i\boldsymbol{x_i}=\boldsymbol{0}$을 만족시키는 벡터 $\alpha \neq \boldsymbol{0}$가 존재하면

- $\{\boldsymbol{x_1},\cdots,\boldsymbol{x_m}\}$는 선형종속(linearly dependent)이다

- $\sum\limits_{i=1}^{m}\alpha_i\boldsymbol{x_i}=\boldsymbol{0}$을 만족시키는 벡터 $\alpha \neq \boldsymbol{0}$가 존재하지 않을 때

- $\{\boldsymbol{x_1},\cdots,\boldsymbol{x_m}\}$는 선형독립(linearly independent)이다

Note: 임의의 벡터집합이 선형종속이기 위한 필요충분조건은 벡터집합의 최소한 하나의 벡터는 다른 벡터들의 선형결합으로 표현되는 것

행렬의 계수

- 선형독립인 벡터들의 모임 $\boldsymbol{x_1},\cdots,\boldsymbol{x_m}$이 벡터공간 $S$의 생성집할일 때

- 이를 벡터공간 $S$의 기저(basis)라고 하고 벡터의 수 $m$을 벡터공간 $S$의 차원(dimension)이라고 한다

- 정규직교기저(orthonormal basis) : 벡터공간 $S$의 기저 $B$를 이루는 다음을 만족하는 벡터, $\lVert \boldsymbol{x} \rVert= 1, \lVert \boldsymbol{y} \rVert = 1,\; \boldsymbol{x^\top} \boldsymbol{y} = 0,\; \forall \boldsymbol{x},\boldsymbol{y}\in B$

- 쉽게 말하면 각 벡터의 크기는 $1$이며 벡터들은 서로 직교한다

행렬의 계수와 관련된 성질

- $\boldsymbol{A} : m \times n$ 행렬, $\boldsymbol{B} : n \times p$ 행렬, $\boldsymbol{C} : n \times n$ 행렬, $\boldsymbol{H} :$ 멱등행렬

1. $\operatorname{rank}(\boldsymbol{A}) = \operatorname{rank}(\boldsymbol {A^\top}) = \operatorname{rank}(\boldsymbol {AA^\top}) = \operatorname{rank}(\boldsymbol{A^{\top}A})$

2. $\operatorname{rank}(\boldsymbol{A}) \leq \min(m,n)$

3. $\operatorname{rank}(\boldsymbol{AB}) \leq \min(\operatorname{rank}(\boldsymbol{A}),\, \operatorname{rank}(\boldsymbol{B}))$

4. $m=n$ 일 때, $\det(\boldsymbol{A})=0$이면 $\operatorname{rank}(\boldsymbol{A})<m$

5. $\operatorname{rank}(\boldsymbol{AC}) = \operatorname{rank}(\boldsymbol{A})$

6. $\operatorname{rank}(\boldsymbol{H}) = \operatorname{tr}(\boldsymbol{H})$

고유값과 고유벡터

- $m\times m$ 정사각행렬 $\boldsymbol{A}$에 대하여 $\boldsymbol{0}$이 아닌 벡터 $\boldsymbol{x}\in \mathbb{R}^m$와 스칼라 $\lambda$가 $\boldsymbol{Ax}=\lambda \boldsymbol{x}$를 만족할 때

- $\boldsymbol{x}$를 고유값(eigenvalue) $\lambda$에 대응하는 고유벡터(eigenvector)라고 한다

- $\boldsymbol{x}\neq \boldsymbol{0}$에 대하여 $\boldsymbol{Ax}-\lambda \boldsymbol{Ix}=(\boldsymbol{A}-\lambda \boldsymbol{I})\boldsymbol{x}=\boldsymbol{0}$

- 한편, $\boldsymbol{B}=(\boldsymbol{A}-\lambda \boldsymbol{I})$일 때 만약 $\boldsymbol{B}$의 역행렬이 존재한다면

- $\boldsymbol{B^{-1}Bx} = \boldsymbol{B^{-1}0}$이므로 $\boldsymbol{x}$는 영벡터인데 조건에서 $\boldsymbol{x}$는 영벡터가 아니라고 했으므로

- $(\boldsymbol{A}-\lambda \boldsymbol{I})$는 특이행렬이고 그 행렬식은 $0$이다

- 즉 $\operatorname{det}(\boldsymbol{A}-\lambda \boldsymbol{I}) = 0$을 통해 고유값 $\lambda$를 구하고

- 각 고유값 $\lambda$에 대하여 $\boldsymbol{Ax}=\lambda \boldsymbol{x}$를 통해 고유벡터 $\boldsymbol{x}$를 구한다

고유값과 고유벡터에 대한 성질

1. 행렬 $\boldsymbol{A}$의 고유값과 행렬 $\boldsymbol{A^\top}$의 고유값은 동일하다

2. $\lambda_{i}^{k}$는 행렬 $\boldsymbol{A^k}$의 고유값이고 이에 대응하는 고유벡터는 $\boldsymbol{x_i}$이다(고유벡터는 동일함)

3. $f(\boldsymbol{A})$의 고유값은 $f(\lambda)$이다(ex : $\boldsymbol{A} \to \lambda,\; \boldsymbol{A^2+A} \to \lambda^2 + \lambda$

행렬의 분해

특이값 분해(SVD)

- 임의의 $n\times m$ 매트릭스 $\boldsymbol{X}_{n\times m}$은 다음과 같은 매트릭스들의 행렬곱으로 나타낼 수 있다

- $ \boldsymbol{X}_{n\times m} = \boldsymbol{U}_{n\times n}\boldsymbol{D}_{n\times m}\boldsymbol{V'}_{m\times m}$

- 여기서 $\boldsymbol{U}, \boldsymbol{V}$는 직교행렬이며 $\boldsymbol{D}$는 대각행렬은 아니다

- 위의 식을 살짝 변형하면 다음과 같이 나타낼 수 있다

  1. $n\geq m$

$$ \boldsymbol{X}_{n\times m} = \boldsymbol{U}_{n\times m}\boldsymbol{D}_{m\times m}\boldsymbol{V'}_{m\times m}$$

- $\boldsymbol{V^\top}\boldsymbol{V}=\boldsymbol{V}\boldsymbol{V^\top}=\boldsymbol{I}_{m}$

- $\boldsymbol{U^\top}\boldsymbol{U}=\boldsymbol{I}_{n}$

  1. $n\leq m$

$$ \boldsymbol{X}_{n\times m} = \boldsymbol{U}_{n\times n}\boldsymbol{D}_{n\times n}\boldsymbol{V'}_{n\times m}$$

- $\boldsymbol{U^\top}\boldsymbol{U}=\boldsymbol{U}\boldsymbol{U^\top}=\boldsymbol{I}_{m}$

- $\boldsymbol{V^\top}\boldsymbol{V}=\boldsymbol{I}_{n}$

  • 분해 표현

$$ \boldsymbol{X}_{n\times m} = \boldsymbol{U}\boldsymbol{D}\boldsymbol{V^\top}=\sum\limits_{i=1}^{n\wedge m}d_iU_iV_i^\top$$

스펙트럼 분해

- 모든 원소가 실수인 대칭행렬 $\boldsymbol{A}$(대각화가 가능, 실수인 고유값을 가짐, 고유벡터행렬이 직교행렬)는 다음과 같이 표현이 가능하다

$$ \boldsymbol{A}=\boldsymbol{\Psi}\boldsymbol{\Lambda}\boldsymbol{\Psi^\top}$$

- 행렬 $\boldsymbol{A}$를 직교대각화(orthogonally diagonalizable)가 가능하다고 부른다

- 위에서 $\boldsymbol{\Lambda}$는 $\boldsymbol{A}$의 고유값행렬이고 $\boldsymbol{\Psi}$는 $\boldsymbol{A}$의 고유벡터행렬이다