Ch.6 Non-full-rank Model-(1)

저번 포스팅까지해서 Ch.5 Model Validation and Diagnotics를 마무리했다.

Ch.5의 내용 정리 포스팅은 아래를 참고하면 좋겠다.

https://taesungha.tistory.com/2

Ch.5 Model Validation and Diagnotics-(1)

Ch.5전까지 우리는 data를 linear regression model로 fitting하고, 이 model의 prediction power가 어떤지, 또는 회귀계수 전체 또는 일부에 대한 가설검정, 또는 회귀계수에 대한 confidence interval을 구하는..

taesungha.tistory.com

https://taesungha.tistory.com/5

Ch.5 Model Validation and Diagnotics-(2)

전 포스팅에 이어 목차 3의 Generalized Least Squares Regression에 대해 포스팅하겠다. https://taesungha.tistory.com/2 Ch.5 Model Validation and Diagnotics-(1) Ch.5전까지 우리는 data를 linear regressio..

taesungha.tistory.com

https://taesungha.tistory.com/6

Ch.5 Model Validation and Diagnotics-(3)

저번 포스팅에 이어서, Ch.5 Model Validation and Diagnotics을 마무리하고자 한다. https://taesungha.tistory.com/2 Ch.5 Model Validation and Diagnotics-(1) Ch.5전까지 우리는 data를 linear regression m..

taesungha.tistory.com

이번 포스팅부터는 Ch.6 Non full-rank Model을 공부한다. Ch.6도 사실, Ch.5의 연장선이라고 볼 수 있다. Ch.5는 MLRM의 가정들이 제대로 성립하는지, 그리고 가정이 성립하지 않을때 어떻게 대처해야하는지에 대해 논의했다. Ch.6는 이에 대한 연장선으로, design matrix가 Non-full-rank일 때 어떻게 해야되는지에 대해 논의한다. 그리고, 오늘은 Non-full-rank의 대표주자인 ANOVA, 더 구체적으로는 One-way ANOVA Model에 대해 논의한다.

One-way ANOVA Model(일원분산분석)

어떤 제약회사에서 당뇨 신약 A를 개발했다고 하자. 이 제약회사는 신약 A를 얼마나 투여해야 혈당을 최대로 개선할 수 있을지에 대해 고민하고 있다.

즉, 1mg, 2mg, 5mg, 10mg 투여했을때 혈당이 각각 얼마만큼 변하는지 알고 싶은 것이다. 여기서, 투여량(mg)에 따라 각 그룹으로 나눠서 각 그룹의 평균을 비교해서 투여량의 변화가 '유의미'했는지 검증하고 싶은게 ANOVA Model의 목적이라고 할 수 있다. 그리고 One-way ANOVA model은 각 그룹의 평균의 변화를 a single factor(투여량)으로만 보는 것을 의미한다.

One-way ANOVA model은 다음과 같이 정의된다.

\[y_{ij}=\mu+\tau _i+\varepsilon _{ij} \qquad where\quad\varepsilon_{ij}\sim^{iid} (0,\sigma ^2) (i=1,...,k,\,j=1,...,n_i)\]

여기서,

\(\mu\)는 전체 평균을 의미한다.

\(\tau_i\)는 전체 평균 대비 i번째 그룹의 효과(treatment effect)를 의미한다.

one-way ANOVA의 주된 관심사는 \(\tau_1=...=\tau_k=0\)인지를 test하는 것이다.

이는 다시 말해서, treatment effect가 존재했는지에 대해 test하는 것이다.

우리는 treatment effect를 test하기 위해 가설검정을 할것이고, 가설검정을 쉽게 하기 위해서 one-way ANOVA를 MLRM으로 표현하고자 한다.

One-way ANOVA를 다음과 같이 다시 써보자.

\[y= \mu + \tau_1x_{ij1}+...+\tau_kx_{ijk}\quad, \quad where\quad \begin{cases}
x_{ijl}=1 & \text{ if } l=i\\ x_{ijl}=0
& \text{ if } l\neq i
\end{cases}\]

이런식으로, \(x_{ijl}\)을 dummy variable로 만들어줘서 \(y_{ij}\)가 i번째 관측치에 속하면 해당하는 dummy variable과 해당 계수만 살아남고 나머지는 0이 되게 만들어주게 model을 바꿔보자.

자, 이 상태에서 i=1,2 그리고 j=1,2,3이라고 예를 들면 아래와 같이 관측치를 쓸 수 있다.

이제, \(y=X\beta+\varepsilon \)인 matrix form으로 만들어보자. 이는 아래와 같다.

여기서, design matrix를 살펴보면, matrix가 linearly dependent하다는 것을 알 수 있다. 즉, 2번째 컬럼과 3번째 컬럼을 합하면 1번째 컬럼이 나온다. 다음과 같은 두 가지 문제가 발생한다.

1) \(\hat\beta\)가 성립할 수 없다.

2) MLRM이 identifiable하지 않다.

1)은 \(X^TX\)가 singular(=non-invertible)하기 때문에 발생하는 문제이고, 2)는 identifiable하지 않으면 모든 통계적 추론이 불가능하기 때문에 발생하는 문제이다. 그렇기 때문에 우리는 design matrix를 적절하게 변형해서 1)과 2)의 문제를 해결해야 한다.

어떻게 해야할까?

우리는 모델에 \(\tau_k=0\)이라는 제약조건을 부과함으로써 문제들을 해결할 수 있다. 이후 다시 model을 써보면 아래와 같다.

\[y= \mu + \tau_1x_{ij1}+...+\tau_{k-1}x_{ijk-1}\quad, \quad where\quad \begin{cases}
x_{ijl}=1 & \text{ if } l=i\\ x_{ijl}=0
& \text{ if } l\neq i
\end{cases}\]

이렇게 모델을 수정하면 parameter에 대한 해석을 다시 해야한다.

즉, 이제 \(\mu\)는 맨 마지막 그룹(k번째)의 평균이 된다.

\(\tau_i\)는 k번째 control group(통제그룹) 대비 i번째 그룹이 얼마나 treatment effect가 있었는지?로 해석된다.

우리의 제약조건 \(\tau_k=0\)는 또한 \(x_k\)에 해당하는 칼럼을 design matrix에서 지우는 것으로도 볼 수 있다.

이를 통해 우리는 parameter k-1개를 가지고 있게 되는 셈이 되므로 over parameter problem을 해결한 셈이다.

그러면, 다시 matrix form의 model을 확인해보자. 이는 아래와 같다.

여기서 참고해야할 사항은 \(x_k\)와 \(\tau_k\)를 X와 \(\beta\)에서 지웠다고 아예 데이터를 지워버린게 아니다. X에서는 1번째 컬럼을 제외하고 나머지 컬럼이 0이라면 이는 \(x_k\)를 의미하기 때문이다.

여기서, design matrix에서 \(x_k\)에 해당하는 칼럼을 지웠기 때문에 2번째 칼럼부터 k-1번째 칼럼까지 더해도 1번째 컬럼이 나오지 않고, 이로부터 design matrix가 linearly independent, non-singular, full-rank라는 좋은 결론을 얻게 되었다.

이제 우리는 X가 full-rank, model이 identifiable해졌기 때문에 가설검정을 할 수 있게 되었다.

먼저, model의 estimator를 구해보자. 이를 위해 \(X^TX\), \(X^Ty\)를 계산해놓자.

위 계산을 먼저 한 이유는,

\((X^TX)\hat\beta = X^Ty\)로 계산하기 위함이다. 이후 과정은 아래와 같다.

연립방정식의 첫번째는 계산되는 행렬의 첫번째 행을 쓴 것이다. 연립방정식의 두번째는 계산되는 행의 2번째부터 k-1까지의 합을 쓴 것이다.

그리고나서, 두 개의 방정식을 빼주면

\[\hat\mu = \overline{y_k},\quad \widehat{\tau_i}=\overline{y_i}-\overline{y_k}\]

를 얻게 된다.

이는 직관적으로 봐도 당연한게, \(\mu\)는 k번째(마지막)그룹의 평균이므로 그것의 추정치는 표본평균으로 이해할 수 있고,

\(\tau_i\)는 k번째 그룹 대비 i번째 그룹의 treatment effect이므로 i번째 그룹의 표본평균 - k번째 그룹의 표본평균으로 이해할 수 있다.

이제, 가설검정만이 남았다. 이는, MLRM의 가설검정과 동일하다. derivation은 다음과 같다.

여기서, SSB는 그룹'간' 차이를 의미하고, SSW는 그룹'안' 차이를 의미한다. 즉, \(H_0\)가 참이라는 것은 그룹 간 차이가 미미하다는 의미이므로 SSB가 작을수록 귀무가설을 기각하지 못할것이다. 반대로, SSB가 클수록, 그룹 간 차이가 클 것을 의미하므로 \(H_0\)를 reject할 강한 근거가 된다.

한편, SSB가 너무 크더라도 그룹 안 차이(SSW)가 같이 커질 우려가 있고, 이를 보정해줄 필요가 있기 때문에 F통계량의 분모가 SSW로 쓰여지는 것을 이해할 수 있다.

이렇게 One-way ANOVA를 마무리하겠다.

'Statistics > Regression Analysis' 카테고리의 다른 글

Ch.4 Constrained Least Square Estimation - (1) (0)	2022.06.29
Ch.7 Biased Regression - (1) (0)	2022.06.25
Ch.5 Model Validation and Diagnotics-(3) (0)	2022.06.21
Ch.5 Model Validation and Diagnotics-(2) (0)	2022.06.20
Ch.5 Model Validation and Diagnotics-(1) (0)	2022.06.20

Neverthelss, Life goes on.

Ch.6 Non-full-rank Model-(1)

'Statistics > Regression Analysis' 카테고리의 다른 글

댓글

티스토리툴바

Ch.6 Non-full-rank Model-(1)

'Statistics > Regression Analysis' 카테고리의 다른 글

관련글

댓글

티스토리툴바