Ch.4 Constrained Least Square Estimation - (1)
Ch.7 Unbiased Regression을 이어서 포스팅하기 전에, 먼저 선형제약조건 하의 MLRM에 대한 이야기를 하고 가고자한다.
진도가 뜬금없을 수 있지만, Largrange Multiplier method를 이용한 LSE 방법이 Ch.4 Constrained Least Square Estimation 에서 처음 다뤄지기 때문에 꼭 짚고 넘어가야한다고 생각했다. Largrange Multiplier method를 이용한 LSE는 Ch.7 Unbiased Regression의 Ridge Regression에도 등장한다. ( Ch.4 회귀계수의 일부, 제약조건의 MLRM을 하면 Simple Linear Regression까지 모두 정리가 되기 때문에, 블로그 포스팅 순서는 Ch.7이 마무리되고 Ch.4까지 차차 정리가 될 것같다.)
Introduction
A를 q x (p+1) full row rank matrix, t를 \(\in \mathbb{R^q} \)인 어떠한 vector라고 하자.
그러면, 우리는 constrained version of the mulitple linear regression model을 생각할 수 있다.
\[y= X\beta_r + \varepsilon,\quad such\; that\; A\beta_r=t\]
즉, 기존의 MLRM에서 제약조건인 \(A\beta_r=t\)이 추가된 형태를 constrained version of the mulitple linear regression model라고 한다.
이번 포스팅의 목표는, 위의 제약조건이 있는 MLRM에서 LSE인 \(\hat{\beta_r}\)을 찾는 것이다
\(\hat{\beta_r}\)을 찾기 전, 왜 A가 full row rank matrix란 가정이 필요할까? 이는, A와 t에 해당하는 것이 우리가 원하는 조건이기 때문이다. 예를 들어, 우리가 아래와 같은 귀무가설을 test하고 싶다고 하자.
\[H_0:2\beta_1-\beta_2=\beta_2-2\beta_3+3\beta_4=0,\beta_1-\beta_4=1\]
이를 matrix form으로 바꿔보면 \(A\beta_r=t\)이고, 아래와 같다.
여기서, 만약 row가 선형종속이라면 두 가지 case가 존재한다. 첫 번째로, \(4\beta_1-2\beta_2=0\)와 같은 중복된 조건이 발생하는 경우이다. 이 경우, 중복된 조건은 하나만 쓰면(삭제)하면 된다. 두 번째로, \(4\beta_1 - 2\beta_2=1\)과 같은 모순된 조건이다. 이 조건은, 모순되는 조건 중 하나를 삭제해야 한다. 즉, A와 t는 우리가 원하는 조건이 들어가는 것이기 때문에, 선형종속과 같은 경우는 발생하지 않는다고 가정하는 것이다.
Constrained Least Square Estimation: When \(A\beta_r=0\)
먼저, \(A\beta_r=0\)일 때의 LSE를 구하고, 이를 t로 일반화 시키는 과정을 이후 논의할 것이다.
수식이 너무 길어지는 것을 방지하기 위해, 먼저 아래를 정의하고 간다.
\[X_r = X(X^TX)^{-1}A^T\]
그리고, \(X_r\)이 위와 같을 때, LSE를 구하는 식은 아래와 같다.
\[X\hat{\beta_r} = (\Pi -\Pi_r)y\]
증명은 아래와 같다.
\(X\hat{\beta_r}\)를 LSE라고 했을때, 아래를 만족한다.
그리고, \(\hat{z}=X\hat{\beta_r}, \; z=X\beta_r\)로 두면, 아래 사실을 만족한다.
즉, \(z \in C(X)\cap ker(X_r^T)\)기 때문에, 아래와 같이 수식이 전개된다.
추가로, 위의 사진에서 \(ker(X_r^T)=C(X_r)^\perp\)인 이유는, 아래 증명으로부터 비롯된다.
지금까지의 논의를 간단히 정리하면,
\(A\beta_r=0\)인 선형제약조건의 MLRM의 LSE를 구하는 것은 결국 \(\Pi(y|C(X)\cap C(X_r)^\perp)\)라는 것이다.
다시 말해서, \(A\beta_r=0\)인 Constrained LSE는 projection onto \(C(X)\cap C(X_r)^\perp\)이다.
다만, 우리는 \(\Pi(y|C(X)\cap C(X_r)^\perp)\)이 수식적으로 어떻게 정리되는지 알지 못한다.
즉, projection onto가 교집합,합집합이 아닌 단지 matrix라면 쉽게 식을 쓸 수 있다.(예를 들어, \(\Pi_Xy = X(X^TX)^{-1}X^Ty\)처럼)
그런데, 선형제약조건의 MLRM의 LSE는 두 영역의 교집합으로 표현되기 때문에 쉽게 식으로 쓰기 어렵다.
그렇기 때문에 일단 graph로 수식이 어떻게 나올 수 있을지 직관적으로 이해해보자.
Constrained Least Square Estimation: First Proof
위 그림에서, \(C(X_r) = X(X^TX)^{-1}A^Ta \in C(X)\)이므로, \(C(X_r) \in C(X)\)기 때문에 위와 같은 x,y축 그리고 x,y평면이 정의되었다. \(C(X_r)^\perp\)은 \(C(X)\)와 orthogonal하기 때문에, yz평면에 표현되었다. 우리가 관심 있는건 projection onto \(C(X)\cap C(X_r)^\perp\)이므로, 그림의 y벡터를 y축으로 projection한 벡터가 곧 우리가 구하고자 하는 수식(보라색)이 될 것이다.
즉, \(A\beta_r=0\)인 Constrained LSE는 projection onto \(C(X)\cap C(X_r)^\perp\ = (\Pi -\Pi_r)y\)가 된다.
우리는 그래프로 3차원으로밖에 표현을 못하기 때문에, 위 그래프를 통한 증명은 엄밀하지는 않다. 그렇기 때문에 이번에는 엄밀하게 증명을 해보겠다.
Constrained Least Square Estimation: Second Proof
우리가 증명하고자 하는것은 아래와 같다.
먼저, \(\Pi - \Pi_r\)이 symmetric & idempotent인지(projection인지)를 증명한다. 선형대수의 Projection은 선형대수 카테고리에서 더 자세히 다루도록 하겠다. 이는 아래와 같다.
두 번째로, \(\Pi - \Pi_r\)가 projection되는 영역 \(C(\Pi - \Pi_r)\)이 \(C(X)\cap ker(X_r^T)\)인지 증명한다.
이로써, Projection 관점에서 \(A\beta_r=0\)인 Constrained LSE는 projection onto \(C(X)\cap C(X_r)^\perp\ = (\Pi -\Pi_r)y\)가 된다는 것을 수학적으로 엄밀히 증명하였다.
Constrained Least Square Estimation: Third Proof
우리는 Projection 또는 Vector calculus를 통해 LSE를 계산해냈다. 위 과정까지는 Projection관점으로 LSE를 계산한 것이고, 지금 해볼 내용은 Vector Calculus를 이용한 것이다. 우리가 기존의 제약조건이 없는 MLRM의 LSE를 구할 때는 단순히 처음 미분(gradient)해서 0이 되는 지점(최대/최소 후보)을 찾고, 그 다음 두번 미분한 결과(Hessian matrix)로 실제 최대/최소가 되는지를 검증했었다. 다만, 이번에는 제약조건이 걸려있기 때문에 OLS처럼 구할 수는 없고, Largrange multipier method를 이용한다.
즉, 아래와 같은 상황에서
\[ (y-X\beta_r)^T(y-X\beta_r), \quad A\beta_r=0 \]
선형제약조건의 LSE를 \(\hat{\beta_r}(\lambda^*)\)라고 했을때,
Lagrange muliplier method의 step은 두 개이다.
1) 고정된 어떤 \(\lambda \in \mathbb{R^q}\)에 대해서, 아래의 \(u(\beta_r,\lambda)\)를 최소화하는 \(\hat{\beta_r}(\lambda)\)을 찾는다.
\[u(\beta_r,\lambda) = (y-X\beta_r)^T(y-X\beta_r)-\lambda^T(A\beta_r-0)\]
2) \(A\hat{\beta_r}(\lambda^*)=0\)를 만족하는 \(\lambda^* \in \mathbb{R^q}\)를 찾는다. 그러면 결과적으로, 우리는
\(\hat{\beta_r}=\hat{\beta_r}(\lambda^*)\)을 알게 된다.
먼저, Lagrange multiplier method로 실제로 선형제약조건에서의 LSE가 나오는지 확인하자.
즉, \(\hat{\beta_r}=\hat{\beta_r}(\lambda^*)\)인지를 보자.
이를 위해서는 \(\hat{\beta_r}(\lambda^*)\)이 제약조건을 만족하는지, 그리고 \(\hat{\beta_r}(\lambda^*)\)이 잔차제곱합을 최소로 만드는지를 보면 된다.
증명은 아래와 같다.
첫번째는, 애초에 \(A\hat{\beta_r}(\lambda^*)\)를 만족하는 \(\hat{\beta_r}(\lambda^*)\)를 구한 것이므로 당연하다.
두번째는, 제약조건을 만족하는 열벡터(p+1 x 1) \(\beta_r\)에 대해서, \(y-X\beta_r\)의 내적을 정리하면서 나오는 결과이다. 즉, \(u(\beta_r,\lambda^*) \geq u(\hat{\beta_r},\lambda^*)\)기 때문에 성립한다.
이렇게 2)번이 맞는지 확인했다. 즉, lagrange multiplier method로 구하는 \(\hat{\beta_r}(\lambda^*)\)이 곧 선형제약조건에서의 LSE라는 것을 확인했다.
이제, lagrange multipier method로 LSE를 구해보자.
먼저, 벡터 미분을 위해 함수 u를 첫줄처럼 정리해준다.
이후, 함수 u의 gradient를 구하고, 함수 u를 최대/최소화하는 \( \hat{\beta_r}(\lambda) \)점을 \(\lambda\)를 기준으로 정리해 놓는다.
두번째로, gradient를 한번 더 벡터미분하였다. \(2X^TX\)가 non negative definite이면서 non-singular(X가 full rank를 가정하고 있으므로) positive definite하다는 것을 밝혔다. 즉, 함수 u가 \( \hat{\beta_r}(\lambda) \)에서 최소화되는 점이라는 것을 알았다.
그리고, \(A\beta_r(\lambda^*)=0\)을 만족시키는 \(\lambda^*\)을 찾아서, \(\hat{\beta_r}(\lambda)\)에 대입시켜주면, 선형제약조건에서의 LSE를 구할 수 있게 된다. 그리고, 이 LSE는 projection관점에서의 LSE와 같게 된다.
다음 포스팅에서는 이번 포스팅의 Lagrange multiplier method를 활용한 Ch.7 Unbiased Regression의 Ridge Regression을 포스팅할 것이다. 그리고 난 뒤, 다시 Ch.4의 \(A\beta_r=t\)인 일반적인 선형제약조건의 LSE를 구하고, estimation을 포스팅할 계획이다.(그러면서, 선형대수의 projection을 같이 포스팅하도록 하겠다)