2 3 4 5 6 Ch.5 Model Validation and Diagnotics-(3)
본문 바로가기
Statistics/Regression Analysis

Ch.5 Model Validation and Diagnotics-(3)

by Philip Ha 2022. 6. 21.

저번 포스팅에 이어서, Ch.5 Model Validation and Diagnotics을 마무리하고자 한다.

https://taesungha.tistory.com/2

 

Ch.5 Model Validation and Diagnotics-(1)

Ch.5전까지 우리는 data를 linear regression model로 fitting하고, 이 model의 prediction power가 어떤지, 또는 회귀계수 전체 또는 일부에 대한 가설검정, 또는 회귀계수에 대한 confidence interval을 구하는..

taesungha.tistory.com

https://taesungha.tistory.com/5

 

Ch.5 Model Validation and Diagnotics-(2)

전 포스팅에 이어 목차 3의 Generalized Least Squares Regression에 대해 포스팅하겠다. https://taesungha.tistory.com/2 Ch.5 Model Validation and Diagnotics-(1) Ch.5전까지 우리는 data를 linear regressio..

taesungha.tistory.com

 

이번 포스팅은 Ch 5의 목차 4번째, Lack of Fit Test를 다룬다.

Ch 5는 챕터의 제목에서도 알 수 있듯이, 우리가 사용하려는 Multiple Linear Regression Model(이하 MLRM)의 가정을 확인해보고, 맞지 않으면 어떤 행동을 취해야하는지에 대해서 논의하고 있다. 아래는 Ch.5 4개의 목차다.

  1. Leverage and Influential Observation
  2. Scaled Residual
  3. Generalized Least Squares Regression
  4. Lack of Fit Test

  1부터 3까지의 story를 간단히 풀어내자면, 일단 우리가 사용하는 모델에서 영향을 많이 주는 observation이 무엇인지(Leverage and Influential Observation) 확인하는 방법을 공부했다. 만약, 특정 observation이 회귀직선에 너무나도 큰 영향을 끼치는데, EDA 관점에서 확인했을 때 이상치에 해당한다면, 우리는 그 데이터를 제거하거나 대체할 것이다. 두 번째로 우리는 MLRM이 깔고 있는 기본적인 가정들(Normality Assumption, homoskedasticity, 독립성)을 확인하는 방법으로 Scaled Residual을 공부하였다. 구체적인 예로는 externally Studentized Residual의 분포를 통해 t분포를 따르는지 확인하여 위의 가정을 만족하는지에 대해 알 수 있었다. 세 번째 Generalized Least Squares Regression(이하 GLS)은 위 가정을 따르지 않을 때, 더 구체적으로는 모든 가정은 똑같은데, 만약 MLRM의 분산이 \(\sigma^2V\)을 따를 때, 어떻게 대처해야하는지(GLS를 구한다), 그리고 그 GLS가 가장 최선의 방법인지(Gauss-Markov Theorem)에 대해 공부하였다.

 목차 4 Lack of Fit Test는 좀 더 model에 대한 근본적인(?) 질문을 하고자 한다. 즉, 우리의 model이 정말 MLRM이 맞느냐? 선형적이냐?라는 것이다. 

이러한 우리의 물음은, Hypothesis 관점으로 볼 때 다음과 같이 표현이 가능하다.

\[ y=f(x_1,x2,\,...\,,x_p) +\,\varepsilon ,\quad\varepsilon \sim  N(0,\sigma ^2)\]일 때,

 \(H_0:\,y=f(x_1,x2,\,...\,,x_p) = \beta _0+\beta _1x_1+...+\beta _px_p\)  versus  \(H_1:\,not\,H_0\)

그러면, 이 가설을 어떻게 검정할 것인가?

먼저, under H0일 때(귀무가설이 참이라고 했을 때) 다음과 같이 표현할 수 있다.

\[ E(y)=\beta _0+\beta _1x_1+...+\beta _px_p \]

여기서, 우리는 H0가 참이라고 가정했으므로, 우변에 대해서 저렇게 쓰여지는 건 자연스럽게 이해할 수 있다. 

문제는, 물론 MLRM일 때 \(E(y))\가 우변과 같겠지만, 우리는 정말 MLRM이 맞는지 보고 싶기 때문에 좌변의 \(E(y)\)를 다른 방법으로 표현해서 좌변과 우변의 discrepancy가 어느 정도인지 평가하고 싶은 것이다. 만약 discrepancy가 작다면, 우리는 가설을 기각할 수 없을 것이다.

' 좌변의 \(E(y)\)를 다른 방법으로 표현'하기 위해 우리는 \(i\)번째 predictor value인 \(x_{1,i},x_{2,i},...,x_{p,i}\)를 고정하고 이에 해당하는 \(y_i\)를 반복측정해준다. 이런 방법으로, \(n\)개의 관측치에 대해 각각 수행하면 우리는 아래와 같은 수식을 얻는다. 

우리는 vector form일 때 더 간단해지고, test를 하기 쉬워지기 때문에 위 식을 vector form으로 다시 표현해보겠다. 이는 아래와 같다.

우리는 predictor는 고정해두고 response 변수만 여러 번 측정했기 때문에, 위와 같은 vector form을 얻을 수 있다. 이를 좀 더 축약해보면 아래와 같다.

이제 vector form까지 얻었으니, LSE를 구하는건 문제도 아니다. 다만 여기서 추가적으로 알아두면 좋은 점은, \(y_F\)의 LSE가 weighted LS로 표현이 가능하다는 것이다. 해당 derivation은 아래와 같다.

 


\(Y_F\)의 LSE도 알았고, 이제는 SSE를 구하고, decompose 해보자.

보는 바와 같이 우변의 3번째 term은 0이 되어 없어진다. SSPE와 SSLF의 의미를 살펴보자. 

SSPE = \(\sum _i \sum _j(y_{ij}-\bar y_i)^2\) 로 표현된다. SSPE는 Sum of Square Pure Error인데 식을 보면, model이 어떻게 fitted 되던 간에 상관없이 SSPE는 존재한다는 것을 알 수 있다. 이름처럼 순수한 에러에 해당한다고 볼 수 있다.

SSLF= \(\sum _i \sum _j(\bar y_i-\hat y_i)^2\)로 표현된다.SSLF는 Sum of Square Lack of FIt인데, 식에서는 model이 data를 잘 맞추는 식으로 fitted된다면, 충분히 값이 줄어들 수 있다.  여기서 우리는 SSLF의 값을 기준으로 \(H_0\)을 검정하고자 한다. 즉, SSLF가 낮으면 \(H_0\)을 기각한다. 다만, SSLF의 식을 그대로 가져가서 검정할 수는 없고, 우리가 아는 카이검정제곱과 F분포로 통계량을 만들어 검정해야한다.

 

일단, \(\bar Y_F\)와 \(\hat Y_F\)를 다음과 같이 정의해보자.

또한, \(X_P\), \(X_F\)를 다음과 같이 써보자.

그리고, \(C(X_P)\)로의 projection인 \(\Pi_P\)을 정의해주고, \(Y_F\)를 , \(C(X_P)\)로의 projection하면 다음과 같아진다. 즉, \(\bar y_F\)가 된다.

이를, SSPE에 적용시켜보자. 그러면 다음과 같은 식을 얻을 수 있다.

한편, \(\hat Y_F\)은 아래처럼 \(\Pi_F Y_F\)가 된다.

이제, SSLF에 적용시켜보자.

여기에서, \((\Pi_P-\Pi_F)^2\) 가 \(\Pi_P-\Pi_F\)가 되는 것은 선형대수적인 이해가 필요한데, 이 포스팅에 모든 것을 다 설명하기에는 부족하므로, 차후 Linear Algebra 카테고리에 개념을 정리하도록 하겠다.

이제, quadratic form으로 변형된 SSLF,SSPE에 대해 다음과 같은 사실을 증명한다.

(a)

이는, \(SSLF/\sigma^2\)가 카이제곱(n-p-1)을 따른다는 사실을 증명한 것이다. 이는, \(Y_F\)가  N(\(X\beta,sigma^2I)\)를 따른다는 것에서부터 비롯되는 정규분포 관련 Theorem을 확인하면 알 수 있다.

(b)

(b)에 대한 증명도 위와 같다.

(c)

SSLF와 SSPE가 모두 정규분포 행렬 곱 사이에 껴있는(?) 형태이므로,  SSLF와 SSPE의 사이의 행렬 2개의 곱이 0이면 independent하다는 사실에서, SSLF와 SSPE가 독립이라는 것을 알 수 있는 증명이다. 위에 대한 증명들이 이해가 안될 수 있는데, 차후 관련된 Theorem들을 포스팅으로 정리해보겠다. 

 

이제, (a),(b),(c)를 통해, 우리는 가설검정이 가능해졌다. 즉, \(H_0\)가 참이라는 가정 하에(MLRM is True),

 

\( F=\frac{SSLF/(n-p-1)}{SSPE/(N-n)}\)이 \(F(n-p-1,N-n)\)을 따르기 때문이다. 여기서, F분포가 SSLF에 대한 증가함수라는 사실도 가설검정할 수 있는 통계량이라는 근거가 된다.

 

이로서, Ch.5 Model Validation and Diagnotics를 마친다.

 

댓글