Ch.5전까지 우리는 data를 linear regression model로 fitting하고, 이 model의 prediction power가 어떤지, 또는 회귀계수 전체 또는 일부에 대한 가설검정, 또는 회귀계수에 대한 confidence interval을 구하는 과정을 공부하였다. 또한, 우리는 위의 통계적 추론을 위해 error term이 등분산을 만족하고, 평균이 0이며, 분산이 sigma squared * identity matrix라는 가정을 두었다. 회귀분석에서의 통계적 추론은 위의 가정으로부터 비롯된다.
Ch.5 Model Validation and Diagnotics는 우리의 Multiple Regression model의 가정이 과연 제대로 충족되는지 확인하는 방법(수단), 그리고 그 가정이 제대로 충족되지 않으면 어떻게 해야하는지에 대해 다루고 있다.
해당 챕터의 목차는 다음과 같다.
- Leverage and Influential Observation
- Scaled Residual
- Generalized Least Squares Regression
- Lack of Fit Test
이번 포스팅에서는 1~3까지를 다룬다.
- Leverage and Influential Observation
Leverage와 Influential point는 outlier detecting과 관련된 내용이다. 회귀직선이 fitting될 때 가장 크게 영향을 주는 observation이 무엇인지, 이를 어떻게 확인할지에 대해 다룬다.
Hat matrix의 정의는 다음과 같다.
<Hat matrix 정의 사진>
또한, leverage의 수식은 다음과 같다.
<hii 수식 사진>
이는 Hat matrix의 대각원소에 해당한다. hii로 표기한다. 이것이 leverage로 표현되는 이유는, hii의 값이 x의 표본평균에서 떨어질 수록 값이 커지는데, 이에 따라 y hat과 yi의 값이 거의 비슷해지기 때문이다. 이것이 마치 지렛대 원리처럼, 받침돌이라고 할 수 있는 x표본평균에서 떨어진 관측치일수록 회귀직선에 더 크게 영향을 줄 수 가능성이 높다는 것을 의미한다.
이에 대해 보충설명하자면, <yi hat이 y의 가중평균을 의미하는 수식 써놓을것>
다시 말해서, hii는 '관측치가 표본평균에서 괴리가 있는 정도'를 의미하고, hii가 1에 가까워질수록 회귀직선이 해당 관측치(i번째)에 더 가깝게 fitted된다.
Influential point: i번째 관측치가 있을 때와 i번째 관측치가 없을 때의 회귀직선을 비교해서, 회귀직선이 변하는 정도가 크다면, 그것을 influential point라고 정의한다. 그렇다면 그 기준을 어떻게 정의하는가? 많은 standard들이 있지만, 여기서는 Cook's Distance를 소개한다. Cook's Distance의 수식에서도 알 수 있듯, Cook's Distance는 i를 넣고 fiited된 값과 i를 빼고 fitted된 값의 inner product의 값에 크게 영향을 받는다. 그렇기 때문에, 만약 i번째 관측치가 outlier라면 Cook's Distance는 크게 변동할 것이다. 그게 아니라면, Cook's Distance는 다른 값과 거의 비슷하게 있을 것이다. 다만, 공식에서도 확인할 수 있듯, 모든 observation에 대해, 해당 관측치를 빼고 fitting하는 과정을 반복해야한다. 그렇기 때문에, Cook's Distance를 적당히 변환한다면, 위의 과정을 불필요하게 반복하지 않아도 된다. 이제, 우리는 Cook's Distance를 통해 influential point를 찾을 수 있게 됐다.
Leverage와 influential은 언뜻 보면 비슷해보이지만, 전자는 design matrix로만 계산한다는 점, influential은 y값을 본다는 점이 차이가 있다. 또한, Leverage는 outlier의 '가능성'을 보여주고, influential은 실제로 많이 변했는지에 대한 '결과'를 보여준다. 실제로, leverage가 크더라도, influential이 아닐 수 있다. (simple linear regression의 경우로 직관적으로 생각해보면)다시 말해서, 관측치가 표본평균과 많이 떨어져 있지만, y값이 군집과 크게 벗어나지 않는다면, 이는 influential이 아니다.
2. Scaled Residual
이번 목차에서는 우리가 multiple linear model의 가정 중 error term이 등분산성, 분산이 sigma square *Identity matrix를 만족하는지에 대해 확인하는 방법에 대해 다룬다. 다만, error term에 대한 등분산성은 확인하기 어려운게, 우리가 true model이 무엇인지 모르기 때문이다. 다시 말해서 y= B0 + B1x1 + ... Bpxp + error에서, 우리는 B0,B1...Bp를 모른다. 다만, 이를 가장 최선으로 추정할 수 있는 방법인 OLS로 모수의 추정치인 Bhat을 구했을 뿐이다. 따라서, 우리는 y-y.hat으로 정의되는 residual(잔차)로 등분산성 가정을 진단하고자 한다.
Var(residual)=(1-hii)*sigma^2으로 표현된다. 이는, hii의 값이1에 가까워지면(predictor의 값이 표본평균과 멀어지면), 분산이 0에 가까워진다는 것을 의미한다. 여기서, 잔차를 스케일링을 적절히 수행하면 값이 internally studentized residual과 externally studentized residual을 만들 수 있다. internal과 external의 차이는 i번째 관측치를 생각하는지, 하지않는지로 구분된다. 이에 따라 internal은 beta(1/2, n-p-2/2)를 따르고, external은 t(n-p-2)를 따른다. 여기까지 왔으면,정규성 가정, 등분산성 가정, 분산 값에 대한 가정이 맞는지에 확인이 가능하다. y축을 Studentized Residual로 두고, X축을 predictor value로 둔다면(simple linear라는 가정하에), 이 값이 x값과 상관없이 0을 대칭으로 t분포를 이루어야 하는데, 만약 값이 0을 기준으로 고르게 분포하지 않는다면 t분포를 따르지 않는다는 의미고, 그렇다면 등분산성, 분산에 대한 가정이 맞지 않는다는 뜻을 의미한다.
(*** 여기서 아직 이해가 되지 않는 부분은, 왜 t분포라면 0을 기준으로 고르게 분포해야되냐는 것이다. t분포에서 sample의 수가 충분하다면, 표본정규분포를 이루는데, 그렇다면 0이 가장 많이 나오고, 그 밖으로 갈 수록 적게 통계량 값이 나와야한다고 생각이 드는데, 이는 김영우 강사님께 질문으로 해결해야될 것 같다.)
(***이해하였다ㅋㅋ. 혼동하고 있던 부분은, 통상적으로 내가 보던 t분포의 y축은 pdf의 함숫값이다. 그런데, 강의안의 Studentized residual의 그래프는 x축이 predictor value이고, x축과 '상관없이' y축이 0을 기준으로 많이 분포하고 그 밖으로는 덜 분포하고 있다. 실제로, 2.5정도의 값은 1개, -2.5의 값도 많지 않다. '몇개인지'로 확인해야한다!! 그리고, 반대로 x와 '상관있다'면 x의 값이 커지거나 작아짐에 따라 갯수가 커지거나 많아지는 것을 의미하는데, 이는 t분포가 될 수 없음을 의미한다. Q&A까지 가면서 쓰면서 이해했네..)
곁다리 개념으로 PRESS가 있다. PRESS는 SSE의 upgrade version으로 이해할 수 있다. PRESS의 중요한 점은, y-y.fitted의 내적값을 구할 때 fitted value에서 i를 빼고 fitting한 값과 내적을 구한다는 것이다. 이것의 의미는,i관측치에서의 y의 값을 알고 fitting하는 것이, y의 값을 모르고 fitting한 값과 유사하다면, PRESS의 값이 작을 것이고, 예측력이 더 좋은 것인데, 이는 SSE와 비교했을 때 더 strong한 평가지표라고 할 수 있다. 또한, PRESS의 값은 항상 SSE의 값보다 크다.
3. Generalized Least Squares Regression
지금까지는 정규성 가정, 등분산성 가정, 분산에 대한 가정에 대한 확인방법을 공부했다. 이제는, 가정이 맞지 않는다면 어떤 방법을 취해야하는가에 대해 논의한다. Scaled Residual을 통해 가정이 맞지 않았다는 것을 확인했으면, regression model을 적용할 수 없는가? 그렇지 않다. 만약 error term의 variance가 sigma squared * V가 된다면(여기서 V는 known으로 간주하고, symmetric positive definite matrix로 가정한다 ), 우리는 Generalized Least Squares Regression을 활용한다. Theorem의 논리는, y=XB + epsilon에 V^(-1/2)를 곱해준다. 그러면, E(epsilon*)=0, V(epsilon*)=sigma squared * identitiy matrix가 된다. 그리고 기존의 B.hat을 구하는 식에 plug-in을 하면 Generalized Least Squares Regression 수식이 된다. 또한, 기존의 B.hat(기존 등분산성, 정규성, 분산이 sigma squared * identitiy matrix를 만족한다고 가정하고 LSE를 적용) regression을 OLS라고 하고, 만약 error term의 variance가 sigma squared * V가 된다고 하고 LSE를 구한 것을 GLS라고 하는데, 둘 중 무엇이 우월한지는 어떻게 판단할 수 있을까? 둘 다 unbiased estimator지만, variance(B.hat)이 GLS가 더 작기 때문에 GLS가 더 올바른 추정 방법이다. GLS의 V(B.hat)은 행렬인데 크기 비교를 어떻게 하는 것인가?는 다음 포스팅을 통해 논의하도록 하겠다.
수식을 사용하지 않고 포스팅하려고 하니까 너무 불편한 점이 많은 것 같다. 빠른 시일내로 LaTeX를 공부해서 활용하는 식으로 포스팅해야될 것 같다.
'Statistics > Regression Analysis' 카테고리의 다른 글
Ch.4 Constrained Least Square Estimation - (1) (0) | 2022.06.29 |
---|---|
Ch.7 Biased Regression - (1) (0) | 2022.06.25 |
Ch.6 Non-full-rank Model-(1) (0) | 2022.06.22 |
Ch.5 Model Validation and Diagnotics-(3) (0) | 2022.06.21 |
Ch.5 Model Validation and Diagnotics-(2) (0) | 2022.06.20 |
댓글