이번 포스팅은, 기본 MLRM으로 다시 돌아온다. MLRM의 추정방법, 가설검정, 신뢰구간 구하는 방법들을 공부하며, Model Selection을 공부하기 위한 지식들을 복원하고자 한다. MLRM - (1)은 identifiable과 관련된 포스팅이 올라갈 예정이다.
Least Square Estimation
LSE란, \(\varepsilon\)의 제곱합을 최소로 하는 \(\hat{\beta}\)를 의미한다. 이는 아래와 동치다.
이를 vectorized form으로 다시 나타내면 아래와 같다.
여기서, \(X\beta=Z\)로 두자. 그리고, \(X\hat{\beta}=\hat{Z}\)로 두자. 그러면 아래와 같은 논리를 펼칠 수 있다.
projection의 'the close vector property' therom에 의해, \(\left\|y-z \right\|^2\)가 최소가 되는, 다시 말해 벡터 Y와 Z가 최소가 되는 벡터 Z는 Y를 C(X)에 정사영한 벡터인 \(\Pi_XY\)가 된다.
이를 좀 더 정리하면, LSE를 구할 수 있다. 이는 아래와 같다.
\[X\hat{\beta} = \Pi_XY,\quad \hat{\beta} = (X^TX)^{-1}X^TY\]
이를 직관적으로 그림으로 나타내면 아래와 같다.
Normal Equation
위의 그림을 다시 보면, C(X)와 \(y-X\hat{\beta} = Y-\Pi_XY\)가 orthogonal하다는 것을 알 수 있다.
그 말은 곧 X의 column vector와 \( Y-\Pi_XY \)가 내적이 0이 된다는 것과 같다.
즉, 아래와 같이 표현하는 것을 Normal Equation이라고 한다.
\[\textbf{1}^T(y-X\hat{\beta})=0,\quad x_j^T(y-X\hat{\beta})\]
Least Square Estimators: Alternative Derivation
이번엔, Projection 관점이 아닌, Vector Calculus 관점으로 LSE를 구해보겠다.
즉, 처음 gradient를 구해서 critical point를 구한다음, 실제로 critical point에서 최소가 되는지 Hessian matrix를 구해서 positive definite matrix가 되는지 확인한다.
Projection 관점에서의 LSE와 같다는 것을 알 수 있다.
Least Square Estimatiors: Basic Property
LSE의 평균과 최소를 구해보자. 이는 아래와 같다.
여기서, \(E(\hat{\beta})=\beta\)가 된다는 것은, \(\hat{\beta}\)이 Unbiased Estimator(불편추정량)이라는 것을 의미한다.
이전 포스팅(Ch.7 Biased Regression)에서도 언급했듯, 보통 추정량이 Unbiased Estimator인 것이 중요한게, 추정량의 목적은 결국 모수를 잘 추정하는 것이기 때문이다. 즉, \(\hat{\beta}\)이 평균적으로 모수를 잘 맞추는 것인 불편추정량이 좋은 성질이라는 것이다. 다만, multicollinearity가 발생하면 분산이 폭증하는 문제가 있기 때문에, 불편추정량의 성질을 내려놓는 대신 분산을 낮추려는 시도가 바로 Ridge Regression, Principal Component Regression에 해당한다.
Least Square Estimators: Intercept and Slopes
\(\beta\)라는 vector를 절편과 기울기로 쪼개보자. 이에 해당하는 design matrix와 기울기 vector는 아래와 같다.
\[X = (\mathbf{1}\;X_1), \quad where\;X_1=(x_1,...,x_p)\]
\[\beta = (\beta_0\;\;r_1^T)^T,\quad where\;r_1=(\beta_1,...,\beta_p)^T\]
이제, 우리의 목표는 scalar형태의 \(\hat{\beta_0}\),
그리고 나머지 slope의 vector형태인 \( \hat{r}_1 \)을 추정하는 것이다.
Orthogonal Decomposition of Column Space
추정을 위해서는 밑작업이 필요하다. 먼저, 아래와 같은 matrix를 정의한다.
\( X_{1,\perp } = X_1-\Pi_1X_1\)
직관적인 의미는, \(X_1\)에서 \(\textbf{1}\)과 평행한 성분들을 모두 제거하고 \(\textbf{1}\)과 수직한 성분들만 남겨둔다는 것이다.
위와 관련해서 아래와 같은 두 가지 statement가 성립한다.
(a) C(\(X_{1,\perp }\)) is orthogonal to C(1)
(b) C(X) = C(1) + C(\(X_{1,\perp }\))
증명은 아래와 같다.
(a) 증명은 \((I_n-\Pi_1)\)이 1벡터의 공간과와 수직한 공간에 projection시키고, 그 결과 0에 된다는 사실에 따른 것이다. (Linear Algebra의 바로 다음 포스팅에 Projection이 다뤄질 예정이다.)
(b) 증명에서, dim(C(\(X_{1,\perp }\)))=p가 되는 이유는 그 밑줄인 *에서 기인한다.
즉, X가 애초에 full rank, linearly independent하기 때문이다.
또한, (b)를 증명하는 것이 ①,②를 보이는 것과 같은 이유는 또한 선형대수의 Dimension과 관련된 Theorem 때문인데, 이것 역시 차후 Linear Algebra 카테고리에서 다루도록 하겠다.
Orthogonal Decomposition of Orthogonal Projection
(a) C(\(X_{1,\perp }\)) is orthogonal to C(1)
(b) C(X) = C(1) + C(\(X_{1,\perp }\))
라는 사실을 바탕으로, Projection을 decompose하는 아래와 같은 사실을 이해해보자.
The projection operator \(\Pi_X\) is decomposed as follows:
\[\Pi_X = \Pi_\textbf{1}+\Pi_{X_{1,\perp}}\]
In other words, we have shown
\[X(X^TX)^{-1}X^T=\frac{1}{n}\textbf{1}\textbf{1}^T+X_{1,\perp}(X_{1,\perp}^TX_{1,\perp})^{-1}X_{1,\perp}^T\]
증명은 두 가지로 이루어진다.
첫 번째로, \(\Pi_\textbf{1}+\Pi_{X_{1,\perp}}\)가 실제로 projection인지 증명한다.
위와 같은 동치관계가 성립하는 것은 Projection의 합성과 분해를 이해해야하는데, 이후 관련 내용을 다룰 예정이다.
두 번째로, \(\Pi_\textbf{1}+\Pi_{X_{1,\perp}}\)이 projection하는 공간이 \(C(\textbf{1}) + C(X_{1,\perp})\)인지 증명한다.
C(\(X_{1,\perp }\)) is orthogonal to C(1)라는 것을 알기 때문에 위가 성립한다.
그렇다면 아래가 자연스럽게 성립한다.
위의 사실을 기하적으로 확인해보면 아래와 같다.
Intercept and Slopes
본격적으로 \(\hat{\beta_0}\), \( \hat{r}_1 \)을 구해보자. 이는 아래와 같다.
\(\Pi_X = \Pi_\textbf{1}+\Pi_{X_{1,\perp}}\)라는 사실로, 위의 두개가 같게 되는것이다. 다시 써보면, 아래와 같다.
이젠, \(\hat{\beta_0}\), \( \hat{r}_1 \)의 평균과 분산을 각각 구해보자. 이는 아래와 같다.
위 증명에서 가장 중요하게 사용된 개념은, C(X) = C(1) + C(\(X_{1,\perp }\))이다.
'Statistics > Regression Analysis' 카테고리의 다른 글
Ch.3 MLRM - (4) (검토예정) (0) | 2022.07.08 |
---|---|
Ch.3 MLRM - (3) (0) | 2022.07.07 |
Introduction to Regression Analysis - (1) (0) | 2022.07.03 |
Ch.7 Biased Regression - (3) (0) | 2022.07.02 |
Ch.7 biased Regression - (2) (0) | 2022.06.30 |
댓글