2 3 4 5 6 Ch.7 Biased Regression - (1)
본문 바로가기
Statistics/Regression Analysis

Ch.7 Biased Regression - (1)

by Philip Ha 2022. 6. 25.

이번 챕터는 Biased Regression에 대해 다룬다. 지금까지 다뤘던 우리의 MLRM은 Unbiased Regression이었다.

즉, Estimator의 평균이 모수가 되는 Regression이었다. 이와 달리, Biased Regression은 Estimator의 평균이 모수가 되지 않는 Regession이다. 즉, 추정치의 평균이 모수와 다르기 때문에, Unbiased Regression보다 좋지 못한 회귀모델이라고 볼 수 있다. 그렇다면, 굳이 우리가 왜 Biased Regression을 배워하는가? 그 이유는 Multicollinearity(다중공선성)때문이다. Ch.7을 요약하자면, 다중공선성 문제는 추정치의 분산을 폭증시키는 원인이 되고, 기존의 Unbiased Regression에서의 회귀계수의 추정이 의미가 없게 만든다. 그렇기 때문에, 우리는 Biased Regression인 Ridge Regression, Principal Component Regression 모델을 배울 필요가 있다.

 

일단, 목차를 먼저 살펴보자.

 

1. Multicollinearity

2. Ridge Regression

3. Principal Component Regression

 

이번 포스팅에서는 Multicollinearity에 대해 다룰 것이다. 즉, Multicollinearity를 정의하고 이것을 어떻게 측정하는지, 그리고 Multicollinearity가 발생하면 어떤 문제가 발생하는지에 대해 공부할 것이다.

 

Multicollinearity의 정의

\(y= X\beta  + \varepsilon ,\qquad where\; \varepsilon_i,...,\varepsilon _n\,~\,\sim iid\,(0,\sigma^2) \)

에서, design matrix X가 거의 선형종속이라면, 이를 multicollinearity가 존재한다고 부른다.

'거의 선형종속'의 뜻이 무엇인가?

즉, 모두가 0이 아닌 \(a_0,a_1,...a_p\)인 실수가 존재해서, \(a_0\textbf{1}+a_1x_1 + ...+ a_px_p\simeq 0\)이라면

nearly linearly dependent라고 한다.

 

Diagnogics: Regregression between Predictors

그러면, 다중공선성은 어떻게 진단할까? 앞선 정의에서,

다중공선성이 존재하면 모두가 0이 아닌 \(a_0,a_1,...a_p\)인 실수가 존재해서, \(a_0\textbf{1}+a_1x_1 + ...+ a_px_p\simeq 0\)이라고 했다. 그렇다는 얘기는, \(1\leq j\leq n\)인 적당한(0이 되지않는) \(a_j\)에 대해, 다음과 같은 사실을 만족한다는 것이다.

\[x_j= -\frac{a_0}{a_j}\textbf{1}-\frac{a_2}{a_j}x_1-...-\frac{a_n}{a_j}x_j\]

이는  \(x_j\)를 response variable과 나머지 predictor간의 선형 관계가 있다는 것을 의미하고,

이는 다시 다음과 같은 regression model을 쓸 수 있다는 것을 의미한다.

\[x_j= X_{(j)}\alpha +\delta ,\quad where\, X_{(j)}=(\textbf{1},x_1,...,x_{j-1},x_{j+1},...,x_p)\]

여기서, 만약 multicollinearity가 존재한다면 response를 predictor의 선형회귀로 잘 설명할 수 있을 것이다.( \(a_0\textbf{1}+a_1x_1 + ...+ a_px_p\)가 0과 매우 가까울 것)

지금 우리는 기존의 MRLM을 도입 했으므로,  \(x_j\)가 나머지 predictor로 얼마나 설명되는지는 위 회귀직선의 \(R^2\)으로 알 수 있다.

해당 derivation은 아래와 같다.

여기서 \(\Pi _X_{(j)}\) 는 the orthogonal projection onto the column space of \(X_{(j)}\)를 의미한다.

여기서 \(R^2\)값이 1이 가까워지면, 우리는 multicollinearity가 그만큼 크다는 것을 의미한다.

 

multicollinearity가 무엇인지도 알았고, 어떻게 찾는지도 알았으니까 이제는 multicollinearity가 왜 문제가 되는지 알아보자.



Effect: Variance Inflation Factor

우리는 \(y= X\beta  + \varepsilon ,\qquad where\; \varepsilon_i,...,\varepsilon _n\,~\,\sim iid\,(0,\sigma^2) \) 에서, 

X를 X1, X2로 쪼개서 아래와 같이 회귀식을 변형하고 각각을 추정할 수 있다. 

이를 현재 우리 상황에 맞게 plug-in한 회귀식과 추정치의 분산은 다음과 같다.

\(Var(\widehat{\beta_j})\)의 식을 살펴보면, \(R^2\)의 값이 커짐에 따라 분산도 그에 맞게 커진다는 것을 알 수 있다. 그런데,  \(R^2\)은 최대가 1이므로, 1에 가까워진다면 \(Var(\widehat{\beta_j})\)은 무한에 가깝게 커진다. 즉, 분산이 폭증하기 때문에 아무리 unbiased regression이라도 추정치를 제대로 맞출 수 없게 되는 문제가 발생한다.

여기서, multicollinearity의 영향을 받는 값은 \(\frac{1}{1-R_j^2}\)이므로, 이를 Variance inflation factor, 일명 VIF라고 한다.

참고로, \(R^2\)이 0이 되는것은 \(x_1,...,x_p\)이 uncorrelated하다는 것을 의미한다. 해당 사실의 derivation은 아래와 같다.

 

정리하면, multicollinearity는 estimator의 variance를 크게 만들고, MLRM의 제대로된 추정을 못하게 만드는 결과를 초래한다. 

 

MLRM: centered version

이번에는, 우리의 MLRM을 약간 변형시켜서 multicollinearity를 확인해보자. 변형은 다음과 같이 한다.

즉, 기존의 \(y= X\beta  + \varepsilon ,\qquad where\; \varepsilon_i,...,\varepsilon _n\,~\,\sim iid\,(0,\sigma^2) \)에서,

X를 (1벡터, X1)으로 나눠서 다시 쓰고, 이를 아래와 같이 변형한다.

여기서, \(X_c = \begin{pmatrix}
x_1-\bar{x_1}\textbf{1} & ... & x_p-\bar{x_p}\textbf{1} \\
\end{pmatrix}\)이므로, X의 각각 column vector이 중심화(centered) 됐기 때문에 MLRM의 centered version이라고 부른다.

 

centered MLRM의 추정치를 구해보자. 이는 아래와 같다.

여기서 눈 여겨봐야할 점은, \(\beta_0'\), \(r\) 의 estimator를 구할때 각각은 독립적으로 구할 수 있다는 것이다. 즉, 각각의 추정치를 구할때는 거기에 해당하는 design matrix만 관여한다는 것이다. 이는 각각의 design matrix가 orthogonal 하기 때문이다. 

우리는 절편이 아닌, slope에 해당하는 \(r=(\beta_1,...,\beta_p)\)에만 관심이 있기 때문에, 이를 추정하는데 영향을 주지 않는 term은 과감히 삭제하여 아래와 같이 쓴다.

\[y_c=X_cr +\varepsilon \]

여기서 \(y_c\)와 \(y\)는 썼을때 똑같은 slope추정치를 만들어내기때문에 통일성을 고려하여 \(y_c\)로 쓴다.

 

Principal Component

 

centered MLRM을 다시 살펴보자.

\[y_c = X_cr + \varepsilon, \qquad where\,\varepsilon _1,...,\varepsilon _n \sim iid\;(0,\sigma ^2)\]

여기서,  \(X_cX_c^T\)은 symmetric matrix이므로 다음과 같은 eigenvalue decomposition이 가능하다.

다음과 같이 decomposition 되는것, 그리고 \(X_c^TX_c\)가 non.negative definite matrix기 때문에 모든 eigen value가 0보다 크다는 것은 선형대수에 대한 이해가 필요한데, 바로 다음 포스팅에 관련 정리들을 올려보겠다.

여기서, principal component \(z_j\)를 아래와 같이 정의한다.

그리고, principal component의 내적square 값은 해당값의 eigenvalue와 같다. 증명은 아래와 같다.

다음으로, principal component와 관련된 statement 3개가 있다. 이 3개의 statement는 서로 equivalent하다.

(a) \(X_c^TX_c\)의 j번째 eigenvalue \(\lambda_j\)은 0이다.

(b) j번째 principal component \(z_j\)은 0벡터이다.

(c) \(X_c\)의 열벡터들이 linearly dependent한다.

derivation은 아래와 같다.

{"originWidth":2272,"originHeight":618,"style":"alignCenter","caption":"여기서 (a)와 (b)가 동치에 대한 증명은, \\(\\left\\

centered MLRM의 분산에 대해 principal component를 이용하여 나타내면 다음과 같다.

\(X_c^TX_c\)의 j번째 eigenvalue가 \(\lambda_j\)라고 할때, 

\[\sum_{j=1}^{p} Var(\widehat{\beta_j})=\sigma ^2\sum_{j=1}^{p}\frac{1}{\lambda_j}\]

즉, centered MLRM의 추정치의 분산의 합은 \(X_c^TX_c\)의 1/eigenvalue * 모분산이라는 것이다. 

해당 derivation은 아래와 같다.

 

이는 위 \(R^2\)으로도 확인했듯, multicollinearity가 있으면, 추정치의 분산이 폭증한다는 것을 의미한다.

 

이렇게, Ch.7 biased Regression의 첫번째 목차 multicollinearity를 마치겠다.

 

댓글