2 3 4 5 6 Ch.3 MLRM - (3)
본문 바로가기
Statistics/Regression Analysis

Ch.3 MLRM - (3)

by Philip Ha 2022. 7. 7.

https://taesungha.tistory.com/16

 

Ch.3 MLRM - (2)

이번 포스팅은, 기본 MLRM으로 다시 돌아온다. MLRM의 추정방법, 가설검정, 신뢰구간 구하는 방법들을 공부하며, Model Selection을 공부하기 위한 지식들을 복원하고자 한다. MLRM - (1)은 identifiable과 관

taesungha.tistory.com

Ch.3의 지난 포스팅에서는, MLRM이 무엇인지 정의하고, LSE를 도출하고, 추정치의 평균과 분산을 증명해냈다.

그 과정에서, \(\hat{\beta}\)을 다시 \(\hat{\beta}_0,\hat{r}_1\)으로 나눠 intercept와 slope로 decompose하여 LSE와 평균, 분산을 도출하는 방법을 배웠다.

 

이번 포스팅은, Analysis of Variance에 대해 다룬다. 즉, response data 'Y'의 분산을 두 개의 SSE, SSR로 나눠 그 의미가 무엇인지 공부한다.

 

Analysis of Variance

먼저, 아래와 같은 sums of square를 정의한다.

\[SST=\left\|y-\textbf{1}\bar{y} \right\|^2 =  \sum_{i=1}^{n}(y_i-\bar{y})^2\]

\[SSR=\left\|\hat{y}-\textbf{1}\bar{y} \right\|^2 =  \sum_{i=1}^{n}(\hat{y}_i-\bar{y})^2\]

\[SSE=\left\|y-\textbf{1}\hat{y} \right\|^2 =  \sum_{i=1}^{n}(y_i-\hat{y}_i)^2\]

 

여기에, Projection개념을 가미하면 아래와 같이 quadratic form 표현할 수 있다.

이 때, SST= SSE + SSR임을 알 수 있다.

 

이를 기하적으로 확인하면 아래와 같다.

 

Coefficient of Determination

The coefficient of determination \(R^2\) gives the propotion of variation in y that is explained by the model, the gression on X.

다시 말해서,  \(R^2\)은 MLRM으로 설명되는 y의 변동량이 얼마나 되는지 알려준다.

\[R^2 = \frac{SSR}{SST}\]

Let \(R^2\) be the coefficient of determination.

(a) \(R^2\) = 0 if and only if \(\hat{\beta}_1=...=\hat{\beta}_p \)

증명은 아래와 같다.

SSR의 값이 0이라는 것은 x를 통해 y를 하나도 설명하지 못한다는 뜻과 같다. 즉, 모델의 성능이 매우 좋지 않다는 것을 의미한다.

 

(b) \(R^2\) = 1 if and only if \(y=X\hat{\beta}\)

증명은 아래와 같다

SSE의 값이 0이라는 것(SSR=1)은 모델을 통해 y를 완벽히 설명한다는 것을 의미한다. 즉, 완벽한 모델이라는 것을 의미한다.

(c) \(R^2\) is square of the sample correlation coefficient between y and \(\hat{y}\)

증명은 아래와 같다.

 

댓글