이번 글은 아래 포스팅에 연관되는 내용이다. 즉, multicollinearity가 발생했을때 어떻게 대처해야되는가?에 대해 다룬다.
https://taesungha.tistory.com/9?category=1286656
Ch.7 Biased Regression - (1)
이번 챕터는 Biased Regression에 대해 다룬다. 지금까지 다뤘던 우리의 MLRM은 Unbiased Regression이었다. 즉, Estimator의 평균이 모수가 되는 Regression이었다. 이와 달리, Biased Regression은 Estimator의..
taesungha.tistory.com
위의 포스팅 내용을 간략히 요약하면, 다중공선성이란 design matrix가 nearly linearly dependent이라고 정의하였고, 다중공선성이 발생하는 방법과, 다중공선성이 발생하면 분산이 폭증한다는것, 그리고 Central MLRM에 대해 배웠다.
이번 포스팅은, Centered MLRM에서 Ridge Regression이 무엇인지, estimator는 어떻게 구하는지, 그리고 Unbiased Regression과 비교해서 어떤 효과가 있는지에 대해 다룬다.
Ridge Estimator
아래 Centered MLRM이 있다고 하자.
\[y_c = X_cr+\varepsilon_i,\quad where \; \varepsilon_1,...,\varepsilon_n \sim^{iid}(0,\sigma^2)\]
이 때, Ridge estimator는 아래와 같이 정의된다.
여기서, \(\hat{r}^R(k)\)는 \(\hat{r}\)과 단지 \(k\left\|r \right\|^2\)의 차이만 있다. 즉, 최소화하는 대상이 하나가 추가된 셈인데, 이 추가된 term을 penalty라고 부른다.
그러면, \(\hat{r}^R(k)\)를 본격적으로 증명해보자. 먼저, L(r)을 아래와 같이 정리해준다. 여기서 L(r)은, 최소화할 대상이 되는 함수이다.
이제, 처음 미분을 통해 0이 되는 점을 찾는다. 이는 아래와 같다.
그리고, 두번 미분을 통해 Hessian matrix를 찾는다. 이는 아래와 같다. <해당 derivation은 확인 후 수정될 예정입니다>
\(X_c^TX_c\)가 decomposition되고, \(X_c\)가 full column matrix를 가정하고 있으므로(맞는지 확인할것, 그리고 Principal Component 다시 공부할것), non-singular matrix이다. 또한, symmetric matrix이므로 positive definite matrix이므로, 모든 eigenvalue가 양수이다. 그러므로, Hessian matrix는 positive definite이고, 미분을 통해 0이 되는 점 \(\hat{r}^R(k)\)에서 최솟값을 가진다는 것을 알 수 있다. 즉, \(\hat{r}^R(k) = (X_c^TX_c + kI_p)^{-1}X_c^Ty_c\)임을 증명했다.
여기에 덧붙여, 그러면 왜 \(\hat{r}^R(k)\)는 penalty로 \(k\left\|r \right\|^2\)까지 최소화해야하는가? 그 이유는, 만약 multicollinearity가 발생했을때, Unbiased Regression에서는 estimator 컴퓨터상으로 계산이 매우 어려워지기 때문이다.
저번 포스팅(맨 위 링크 참고)을 되돌이켜보면, Unbiased Regression의 LSE는 아래와 같았다.
\[\hat{r}\ = (X_c^TX_c )^{-1}X_c^Ty_c\]
여기서, 다중공선성이 발생하면 \(X_c^TX_c\)의 값이 매우 불안정해져서 계산의 정확도가 떨어진다. 이는 컴퓨터에서 \(\frac{1}{0.000000000001}\)의 값이 매우 커지고, 분모의 값이 0에 가까울수록 무한대로 결과값을 반환하는것과 같은 이치이다. 그렇기 때문에, Ridge Regression의 estimator에 \(kI_p\)를 더해줌으로써, 계산을 용이하게 해주기 위해 Ridge Regerssion의 penalty term이 그렇게 정의된 것이다.
Alternative Formulation
Ridge Regression의 estimator는 아래와 같이도 구할 수 있다.
이번에는 penalty term이 없는 대신 제약조건이 생겼다.
일단, 이 Theorem이 맞는지 증명부터 해보자. 먼저, 아래와 같은 u함수를 정의한 다음, Lagrange Multiplier Method를 이용한다.
Lagrange Multiplier Method는 위와 같이, 먼저 \(\lambda\)를 고정시킨 상태에서 \(u(r,\lambda)\)를 최소화하는 \(\hat{r}(\lambda)\)를 찾는다. 두 번째로, \(\left\|\hat{r}(\lambda^*) \right\|^2=d\)를 만족하는 \(\lambda^*\)를 구한다.
위 procedure를 거친 \(\hat{r}(\lambda^*)\)는 제약조건 \(\left\|r^2\right\| < d\)일 때의 \(\left\|y_c-X_cr \right\|^2\)를 최소로 하는 estimator가 된다는 것이다.
이번에는, 논리를 두 파트로 나눈다.
1) 위 과정의 Largrange Multiplier Method로 나오는 \(\hat{r}(\lambda^*)\)가 실제로 제약조건 하에서, 최소제곱을 만드는지 확인하는 증명
위 증명처럼, \(\left\|y_c-r \right\|^2 \geq \left\|y_c-\hat{r}(\lambda^*) \right\|^2\)이 성립하므로 \(\hat{r}(\lambda^*)\)가 실제로 제약조건 하에서, 최소제곱을 만드는 것을 확인하였다. 그러면, 이제 Lagrange Multiplier Method로 estimator를 구해보자.
2) Lagrange Multiplier Method로 estimator를 구하기
위 증명에서 \(u(r,\lambda)\)의 argmin을 구하는 것은 결국 우리가 맨 처음 정의했던 Ridge Estimator \(\hat{r}^R(k)\)를 구하는 것과 같다. 그 이유는, \(\lambda d\)는 \(r\)을 이용해서 \(u(r,\lambda)\)를 최소화하는데 영향을 주지 않기 때문에, 없어도 되는 term으로 볼 수 있기 때문이다. 그러면, \(\hat{r}^R(\lambda)\) = \(\hat{r}(\lambda)\)가 된다.
그리고, 제약조건을 만족시키는 \(\lambda^*\)는 증명의 흐름을 따라가면 결국 k와 같다.
결과적으로, Alternative Formulation을 통해 구한 제약조건에서의 LSE와 Ridge Regression의 LSE가 같다는 것을 알 수 있다.
그리고, 아래 또한 성립한다.
Geometric Interpretation(추후 추가 예정)
Mean, Variance and MSE
\( \hat{r}^R(k) \)의 평균, 분산, MSE와 그 증명은 아래와 같다.
MSE는 평균제곱오차(Mean Squared Error)를 의미한다.
\(\hat{r}^R(k)\)의 MSE를 구하는 것은 추정치 \(\hat{r}^R(k)\)과 모수 \(r\)의 차이의 제곱의 평균을 계산하는 것인데, 3번은 vector관점에서의 제곱을 내적으로 표현한 것이다. 그리고, 그 다음 equation의 경우는 quadratic technique을 이용해서 넘어간 것이다.
***quadratic technique
MSE를 계산할때 유용한 테크닉이기 때문에 알아두면 좋다.
Random Variable Y가 평균 \(\mu\), 분산 \(\sum\)을 따른다고 했을때, 행렬 A에 대해
\[Ey^TAy = tr(A\sum ) + \mu ^TA\mu\]
를 만족한다.
quadratic technique을 이용하여 MSE(\(\hat{r}^R(k)\))을 본다면 결국 값에 영향을 주는것은 estimator의 분산의 크기와 편차의 크기라는 것을 알 수 있다.(바로 다음 포스팅에 소개되는 PCR의 이점을 설명할때도 MSE를 사용하니 잘 이해해두자)
Advantage of Ridge Regression
우리가 Biased Regression을 배우는 이유는, Estimator의 평균이 모수가 되지 않는데도 불구하고, 분산이 작아져 그 정확도를 높일 수 있을 것을 기대하기 때문이다. 이를 확인하기 위한 방법이 MSE다. 더 수학적으로 확인해보면, 아래와 같다.
위는 MSE를 k에 대해 편미분하여 k=0을 넣어서 음수가 되는 것을 확인한 것이다. 이를 그래프로 직관적으로 표현하면 아래와 같다.
k=0 근처에서 MSE는 감수함수기 때문에 위와 같이 그래프를 그려볼 수 있다.
여기서, 만약 multicollinearity가 발생하면, 특정 eigenvalue 값이 0에 가까워지면서, 위 함수가 k=0 근처에서 더 가파르게 감소할 것(빨간색 그래프)이다. 그리고, 이는 k=0 근처에서 더 큰 차이로 \(MSE(\hat{r}) > MSE(\hat{r}^R(k^*))\)가 성립한다는것을 알 수 있다.
앞서 설명했듯, MSE는 편차에 대한 오차와 분산에 의한 모수추정의 오차를 둘 다 반영하기 때문에, 비록 Biased Regressor의 estimator의 평균이 모수가 되지 못하더라도, 분산에 대한 추정 오차가 줄어들기 때문에 둘의 MSE를 비교했을때 Ridge Regression이 다중공선성이 발생했을 때 더 유용하다는 것을 보여준다.
'Statistics > Regression Analysis' 카테고리의 다른 글
Introduction to Regression Analysis - (1) (0) | 2022.07.03 |
---|---|
Ch.7 Biased Regression - (3) (0) | 2022.07.02 |
Ch.4 Constrained Least Square Estimation - (1) (0) | 2022.06.29 |
Ch.7 Biased Regression - (1) (0) | 2022.06.25 |
Ch.6 Non-full-rank Model-(1) (0) | 2022.06.22 |
댓글