2 3 4 5 6 Ch.3 MLRM - (4) (검토예정)
본문 바로가기
Statistics/Regression Analysis

Ch.3 MLRM - (4) (검토예정)

by Philip Ha 2022. 7. 8.

Ch.3의 저번 포스팅까지 우리는 MLRM의 LSE를 계산했고, LSE의 평균과 분산을 공부했다. 또한, Y의 변동성인 분산(SST)을 SSR(y를 x를 기반으로 설명하는 부분) + SSE(모델로도 설명하지 못하는 부분)으로 나눴고, 모델의 성능을 \(R^2\)으로 확인할 수 있다는 것을 공부했다. 

 

이번 포스팅은, 이제 error term에 Normality Assumption을 추가하여 본격적으로 가설검정을 해보고자 한다.

 

Normality Assumption

In order to test hypothesis and derive confidence interval, assume further that the error is distributed as normal in the MLRM:

\[y= \beta_0+\beta_1x_1+...+\beta_px_p+\varepsilon\quad where\;\varepsilon\sim N(0,\sigma^2)\]

This model becomes much simpler in the matrix form:

\[y=X\beta + \varepsilon,\quad where\;\varepsilon \sim N_n(0,\sigma^2I_n)\]

 

Distribution of Slope Estimator

\(\hat{r}_1,\hat{\sigma}^2\)를 각각 \(r_1,\sigma^2\)의 estimator라고 했을때, Normality Assumption에 의해 아래 3개가 성립한다.

(a) \(\hat{r}_1 \sim N_p(r_1,\sigma^2(X_{1,\perp}^TX_{1,\perp})^{-1})\)

(b) \((n-p-1)\hat{\sigma}^2/\sigma^2 \sim \chi^2(n-p-1)\)

(c) \(\hat{r}_1\) and \(\hat{\sigma}^2\) are independent

 

(a)는 저번 포스팅에서 계산했던 LSE의 평균, 분산에 Normality Assumption이 붙은 결과이다.

(b)의 증명은 아래와 같다.

(b),(c)의 derivation은 정규분포, 카이제곱분포, quadratic에 대한 이해가 필요한데, 차후 관련된 부분을 업로드하고, 돌아와서 보충하겠다.

 

Testing for Slope

위 3개의 statement를 기반으로 기울기\(\hat{r}_1\)에 대한 가설검정이 가능하다. 아래와 같은 가설을 수립했다고 하자.

\[H_0:r_1=r_1^*\quad versus \quad H_1:r_1 \neq r_1^*\]

이 때, 만약 \(H_0\)가 참이라면 \(\hat{r}_1 \simeq r_1^*\)라고 할 수 있을 것이다.

그런데, 실제로 LSE\(\hat{r}_1\) 를 계산했을때, \(r_1^*\)과 차이가 크다면,

다시 말해서 \(\left\|\hat{r}_1 - r_1^* \right\|^2\)이 크다면 \(H_0\)를 기각하는 것이 맞을 것이다.

 

위의 논리를 기억하고, 귀무가설이 참이라고 가정했을 때 아래와 같이 식을 전개할 수 있다.

이 상황에서  바로 \(\left\|\hat{r}_1 - r_1^* \right\|^2\)를 계산하는 것은 올바르지 못하다.

이를 설명하기 위해 다시 아래를 보자.

 

예를 들어, 첫번째 기울기와 추정치의 차이에 대한 분산이 크고, 마지막 기울기와 추정치 차이에 대한 분산이 작다고 가정하자. 

귀무가설이 참이라고 가정해도, 다시 말해서 실제 기울기가 \(r_1^*\)과 같다고 하더라도, 첫 번째 기울기와 추정치의 차이에 대한 분산이 크기 때문에 \(\hat{\beta}_1 - \beta_1\)의 값이 크게 나올 것이다. 또한, 마지막 기울기와 추정치의 차이에 대한 분산이 작기 때문에

\(\hat{\beta}_p - \beta_1\)의 값이 거의 없게 나올 것이다. 그렇다면, 결과적으로 \(\left\|\hat{r}_1 - r_1^* \right\|^2\)이 크게 나오게 될 것이다.(귀무가설이 참이라고 해도!)

 

그렇기 때문에, 아래와 같이 표준화를 해준다.

즉, 특정 기울기와 추정치의 차이의 분산이 크면 그만큼 분산을 나눠줘서 결과값(내적값)에 최대한 영향을 덜 주게끔 조정을 해주는 것이다. 

 

이제, 위 random variable의 내적을 구해보자.

결국, 위 통계량은 자유도가 p인 카이제곱분포를 따르는데, 그 이유는 확률벡터가 p차원이고, 각 확률변수가 iid인 표준정규분포를 따르기 때문이다. 다만, 여기서 한가지 문제가 있다. 우리는 \(\sigma^2\)값을 알지 못한다.  \(\sigma^2\)는 모수에 해당하기 때문이다.

 

그렇기 때문에,  \(\sigma^2\)를 추정하는 \(\hat{\sigma}^2\)를 사용해서, 아래와 같이 쓴다.

분모, 분자에 p, n-p-1을 나누더라도 증가함수는 계속 유지되기 때문에, 내적값의 정신을 '계승'한다고 볼 수 있다. 즉, F값이 기각역 이상으로 커지면 기각하면 되는 것이다.

분포를 알면, alpha와 그에 맞는 quantile을 잘 설정해주어 가설검정하는 것이 가능해진다.

 

한편, 대립가설 하에서도 가설검정이 가능하다. 이 때 \(\hat{r}_1 - r_1^*\)의 기댓값은 0이 되지 않는다. 즉 아래와 같다.

그 말은 곧,  \(\left\|\hat{r}_1 - r_1^* \right\|^2\)이 더 이상 카이제곱분포가 아님을 의미한다. 이는 결과적으로 비중심카이제곱분포를 따르는데, 수식은 아래와 같다.

수식에서 *부분은 non-central 카이제곱분포와 quadratic에 대한 이해가 선행되어야하는데, 관련 부분은

Regression Analysis의 다음 파트에서 다룰 예정이다.

 

Testing for Individual Slope

이번에는, 기울기 전체가 아니라, 각각 기울기에 대해 가설검정하는 방법을 배워보자. 가설은 아래와 같이 수립한다.

\[H_0: \beta_j=\beta_j^*\quad versus \quad H_1:\beta_j \neq \beta_j^*\]

귀무가설이 참이라고 가정했을때, \(\left|\hat{\beta}_j-\beta_j^* \right|\)의 값이 크다면 귀무가설을 기각하면 된다.

 

각 기울기는 아래와 같이 표현된다

여기서, 아래를 보자.

이번에도, 우리는 \(\sigma^2\)값을 알지 못한다.  \(\sigma^2\)는 모수에 해당하기 때문이다.

 

그렇기 때문에,  \(\sigma^2\)를 추정하는 \(\hat{\sigma}^2\)를 사용해서, 아래와 같이 쓴다.

Testing for Intercept

우리는 지금까지 \(\hat{r}_1\)과 관련된 정규성이 추가된 분포, 성질, 가설검정을 했다.

이번에는, Intercept인 \(\beta_0\)에 대한 가설검정을 공부해본다.

흐름은 지금까지 해왔던 것과 동일하다.

다만, \(\hat{\beta}_0\)과 관련된 3가지 사실만 짚고 간다. 이는 아래와 같다.

이 때, 위 사실을 활용해서 아래가 성립한다.

댓글