2 3 4 5 6 Basic for Regression Analysis - Quadratic Form
본문 바로가기
Statistics/Regression Analysis

Basic for Regression Analysis - Quadratic Form

by Philip Ha 2022. 7. 8.

이번 포스팅은 Quadratic form을 다룬다. 회귀분석에서 가설검정을 할 때, 대부분의 통계량이 quadratic으로 표현되기 때문에, 꼭 알아야 되는 개념이라고 할 수 있다.

 

Quadratic Form

Quadratic form이란, 모든 term의 차수가 2인 다항식(polynomial)을 의미한다. 이는 아래와 같이 표현된다.

\[Q(x_1,...,x_n) = \sum_{i=1}^{n}\sum_{j=1}^{n}a_{ij}x_ix_j\]

이 때, \(x=(x_1,...,x_n)^T \) and \(A=(a_{ij})\)이다.

또한, A행렬은 항상 symmetric하며, symmetric이 아니더라도 아래와 같이 변형하여 symmetric으로 만들어줄 수 있다.

\[Q(x) = x^T(\frac{A+A^T}{2})x\]

이런 이유로, Quadratic Form에서 A행렬은 symmetric으로 간주한다.

 

Expectation

random vector X가 평균 \(\mu\), 분산행렬\(\Sigma\)을 가지고 A가 real symmetric matrix일 때,이차식의 기댓값은 아래와 같이 정리된다.

\[E(X^TAX)=tr(A\Sigma) + \mu^TA\mu\]

증명은 아래와 같다.

Expectation: Example

이차식의 기댓값 공식을 이용한 예시를 풀어보자.

\(X_1,...,X_n\)을 평균 \(\mu\), 분산 \(\sigma^2\)을 가진 분포로부터의 random sample이라고 하자.

이 때, \(ES^2=\sigma^2\)이다.

증명은 아래와 같다.

표본분산 s^2이 quadratic form으로 표현되므로, 기댓값을 구하는 technique을 통해 표본분산이 unbiased estimator라는 것을 쉽게 증명해냈다.

 

Covariance with Vector

random vector \(X \sim N_n(\mu,\Sigma )\)의 분포를 따를때, real symmetric matrix A에 대해 아래가 성립한다.

\[Cov(X,X^TAX)=2\Sigma A\mu\]

증명은 아래와 같다.

먼저, 다변량 표준정규분포를 따르는 Z를 생각한다. 

즉, \(Cov(Z,Z^TAZ)= 0\)라는 것을 derive하였다.

이제, 다변량 정규분포를 생각한다. 이는 아래와 같다.

 

Independence

random vector \(X \sim N_n(\mu,\Sigma )\)의 분포를 따를때, 아래 두 가지 사실이 성립한다.

(a) 모든 \(A\in R^{m\times n}\)와 symmetric matrix \(B\in R^{n\times n}\)에 대해,

\[A\Sigma B=0 \Leftrightarrow AX\; and \; X^TBX \; are\; independent\]

(b) 두 개의 symmetric matrix  \( A \in R^{n\times n}\)   \( B\in R^{n\times n} \)에 대해,

\[A\Sigma B=0 \Leftrightarrow X^TAX\; and \; X^TBX are\; independent\]

이차식의 Independence 정리는 F분포 통계량을 구할 때 강력하게 사용되므로, 꼭 숙지하고 있어야하고, 증명도 할 줄 알아야한다.

증명은 아래와 같다.

(b)의 증명은 학부 범위를 벗어나기 때문에, 증명은 (a)만 하도록 한다.

 

Example: Fundamental Theorem in Normal Sampling

quadratic form의 정규분포~independent 성질을 통한 예시를 풀어보자.

\(X_1,...,X_n\)을 평균 \(\mu\), 분산 \(\sigma^2\)을 가진 분포로부터의 random sample이라고 하자. 

이 때, \(\bar{X},S^2\)은 서로 independent하다.

증명은 아래와 같다.

Distribution

\(Z \sim N_n(0,I_n)\)이고 A가 symmetric matrix일 때, 아래가 성립한다.

\[A\;is\;idempotent\Leftrightarrow Z^TAZ \sim \chi^2(r)\;with\;r=rank(A)\]

증명은 아래와 같다.

더 일반적으로, \(X\sim N_n(0,\Sigma)\)이고 \(\Sigma\)가 positive definite matrix일때, 아래가 성립한다.

\[A\Sigma\;is\;idempotent\Leftrightarrow Z^TAZ \sim \chi^2(r)\;with\;r=rank(A)\]

증명은 아래와 같다. 위의 Theorem을 적극 활용한다.

 

댓글