저번 포스팅까지해서 Ch.5 Model Validation and Diagnotics를 마무리했다.
Ch.5의 내용 정리 포스팅은 아래를 참고하면 좋겠다.
https://taesungha.tistory.com/2
Ch.5 Model Validation and Diagnotics-(1)
Ch.5전까지 우리는 data를 linear regression model로 fitting하고, 이 model의 prediction power가 어떤지, 또는 회귀계수 전체 또는 일부에 대한 가설검정, 또는 회귀계수에 대한 confidence interval을 구하는..
taesungha.tistory.com
https://taesungha.tistory.com/5
Ch.5 Model Validation and Diagnotics-(2)
전 포스팅에 이어 목차 3의 Generalized Least Squares Regression에 대해 포스팅하겠다. https://taesungha.tistory.com/2 Ch.5 Model Validation and Diagnotics-(1) Ch.5전까지 우리는 data를 linear regressio..
taesungha.tistory.com
https://taesungha.tistory.com/6
Ch.5 Model Validation and Diagnotics-(3)
저번 포스팅에 이어서, Ch.5 Model Validation and Diagnotics을 마무리하고자 한다. https://taesungha.tistory.com/2 Ch.5 Model Validation and Diagnotics-(1) Ch.5전까지 우리는 data를 linear regression m..
taesungha.tistory.com
이번 포스팅부터는 Ch.6 Non full-rank Model을 공부한다. Ch.6도 사실, Ch.5의 연장선이라고 볼 수 있다. Ch.5는 MLRM의 가정들이 제대로 성립하는지, 그리고 가정이 성립하지 않을때 어떻게 대처해야하는지에 대해 논의했다. Ch.6는 이에 대한 연장선으로, design matrix가 Non-full-rank일 때 어떻게 해야되는지에 대해 논의한다. 그리고, 오늘은 Non-full-rank의 대표주자인 ANOVA, 더 구체적으로는 One-way ANOVA Model에 대해 논의한다.
One-way ANOVA Model(일원분산분석)
어떤 제약회사에서 당뇨 신약 A를 개발했다고 하자. 이 제약회사는 신약 A를 얼마나 투여해야 혈당을 최대로 개선할 수 있을지에 대해 고민하고 있다.
즉, 1mg, 2mg, 5mg, 10mg 투여했을때 혈당이 각각 얼마만큼 변하는지 알고 싶은 것이다. 여기서, 투여량(mg)에 따라 각 그룹으로 나눠서 각 그룹의 평균을 비교해서 투여량의 변화가 '유의미'했는지 검증하고 싶은게 ANOVA Model의 목적이라고 할 수 있다. 그리고 One-way ANOVA model은 각 그룹의 평균의 변화를 a single factor(투여량)으로만 보는 것을 의미한다.
One-way ANOVA model은 다음과 같이 정의된다.
\[y_{ij}=\mu+\tau _i+\varepsilon _{ij} \qquad where\quad\varepsilon_{ij}\sim^{iid} (0,\sigma ^2) (i=1,...,k,\,j=1,...,n_i)\]
여기서,
\(\mu\)는 전체 평균을 의미한다.
\(\tau_i\)는 전체 평균 대비 i번째 그룹의 효과(treatment effect)를 의미한다.
one-way ANOVA의 주된 관심사는 \(\tau_1=...=\tau_k=0\)인지를 test하는 것이다.
이는 다시 말해서, treatment effect가 존재했는지에 대해 test하는 것이다.
우리는 treatment effect를 test하기 위해 가설검정을 할것이고, 가설검정을 쉽게 하기 위해서 one-way ANOVA를 MLRM으로 표현하고자 한다.
One-way ANOVA를 다음과 같이 다시 써보자.
\[y= \mu + \tau_1x_{ij1}+...+\tau_kx_{ijk}\quad, \quad where\quad \begin{cases}
x_{ijl}=1 & \text{ if } l=i\\ x_{ijl}=0
& \text{ if } l\neq i
\end{cases}\]
이런식으로, \(x_{ijl}\)을 dummy variable로 만들어줘서 \(y_{ij}\)가 i번째 관측치에 속하면 해당하는 dummy variable과 해당 계수만 살아남고 나머지는 0이 되게 만들어주게 model을 바꿔보자.
자, 이 상태에서 i=1,2 그리고 j=1,2,3이라고 예를 들면 아래와 같이 관측치를 쓸 수 있다.
이제, \(y=X\beta+\varepsilon \)인 matrix form으로 만들어보자. 이는 아래와 같다.
여기서, design matrix를 살펴보면, matrix가 linearly dependent하다는 것을 알 수 있다. 즉, 2번째 컬럼과 3번째 컬럼을 합하면 1번째 컬럼이 나온다. 다음과 같은 두 가지 문제가 발생한다.
1) \(\hat\beta\)가 성립할 수 없다.
2) MLRM이 identifiable하지 않다.
1)은 \(X^TX\)가 singular(=non-invertible)하기 때문에 발생하는 문제이고, 2)는 identifiable하지 않으면 모든 통계적 추론이 불가능하기 때문에 발생하는 문제이다. 그렇기 때문에 우리는 design matrix를 적절하게 변형해서 1)과 2)의 문제를 해결해야 한다.
어떻게 해야할까?
우리는 모델에 \(\tau_k=0\)이라는 제약조건을 부과함으로써 문제들을 해결할 수 있다. 이후 다시 model을 써보면 아래와 같다.
\[y= \mu + \tau_1x_{ij1}+...+\tau_{k-1}x_{ijk-1}\quad, \quad where\quad \begin{cases}
x_{ijl}=1 & \text{ if } l=i\\ x_{ijl}=0
& \text{ if } l\neq i
\end{cases}\]
이렇게 모델을 수정하면 parameter에 대한 해석을 다시 해야한다.
즉, 이제 \(\mu\)는 맨 마지막 그룹(k번째)의 평균이 된다.
\(\tau_i\)는 k번째 control group(통제그룹) 대비 i번째 그룹이 얼마나 treatment effect가 있었는지?로 해석된다.
우리의 제약조건 \(\tau_k=0\)는 또한 \(x_k\)에 해당하는 칼럼을 design matrix에서 지우는 것으로도 볼 수 있다.
이를 통해 우리는 parameter k-1개를 가지고 있게 되는 셈이 되므로 over parameter problem을 해결한 셈이다.
그러면, 다시 matrix form의 model을 확인해보자. 이는 아래와 같다.
여기서, design matrix에서 \(x_k\)에 해당하는 칼럼을 지웠기 때문에 2번째 칼럼부터 k-1번째 칼럼까지 더해도 1번째 컬럼이 나오지 않고, 이로부터 design matrix가 linearly independent, non-singular, full-rank라는 좋은 결론을 얻게 되었다.
이제 우리는 X가 full-rank, model이 identifiable해졌기 때문에 가설검정을 할 수 있게 되었다.
먼저, model의 estimator를 구해보자. 이를 위해 \(X^TX\), \(X^Ty\)를 계산해놓자.
위 계산을 먼저 한 이유는,
\((X^TX)\hat\beta = X^Ty\)로 계산하기 위함이다. 이후 과정은 아래와 같다.
연립방정식의 첫번째는 계산되는 행렬의 첫번째 행을 쓴 것이다. 연립방정식의 두번째는 계산되는 행의 2번째부터 k-1까지의 합을 쓴 것이다.
그리고나서, 두 개의 방정식을 빼주면
\[\hat\mu = \overline{y_k},\quad \widehat{\tau_i}=\overline{y_i}-\overline{y_k}\]
를 얻게 된다.
이는 직관적으로 봐도 당연한게, \(\mu\)는 k번째(마지막)그룹의 평균이므로 그것의 추정치는 표본평균으로 이해할 수 있고,
\(\tau_i\)는 k번째 그룹 대비 i번째 그룹의 treatment effect이므로 i번째 그룹의 표본평균 - k번째 그룹의 표본평균으로 이해할 수 있다.
이제, 가설검정만이 남았다. 이는, MLRM의 가설검정과 동일하다. derivation은 다음과 같다.
여기서, SSB는 그룹'간' 차이를 의미하고, SSW는 그룹'안' 차이를 의미한다. 즉, \(H_0\)가 참이라는 것은 그룹 간 차이가 미미하다는 의미이므로 SSB가 작을수록 귀무가설을 기각하지 못할것이다. 반대로, SSB가 클수록, 그룹 간 차이가 클 것을 의미하므로 \(H_0\)를 reject할 강한 근거가 된다.
한편, SSB가 너무 크더라도 그룹 안 차이(SSW)가 같이 커질 우려가 있고, 이를 보정해줄 필요가 있기 때문에 F통계량의 분모가 SSW로 쓰여지는 것을 이해할 수 있다.
이렇게 One-way ANOVA를 마무리하겠다.
'Statistics > Regression Analysis' 카테고리의 다른 글
Ch.4 Constrained Least Square Estimation - (1) (0) | 2022.06.29 |
---|---|
Ch.7 Biased Regression - (1) (0) | 2022.06.25 |
Ch.5 Model Validation and Diagnotics-(3) (0) | 2022.06.21 |
Ch.5 Model Validation and Diagnotics-(2) (0) | 2022.06.20 |
Ch.5 Model Validation and Diagnotics-(1) (0) | 2022.06.20 |
댓글