2 3 4 5 6 'Regression Analysis' 태그의 글 목록
본문 바로가기

Regression Analysis8

Ch.4 MLRM(General Testing) - (1) Ch.3은 Linear Regression Model이 무엇인지를 배웠던 챕터이다. 큰 골자는 아래와 같았다. 1. Multiple Linear Regression Model에서 Ordinary Least Square로 어떻게 최선의 estimator(intercept,slope)를 찾는지? 2. 최선의 estimator가 과연 y의 변동성을 잘 설명하는지? Full model의 데이터(y값)에 대한 설명력이 얼마나 되는지? 3. full model 중 어떤 estimator를 삭제해도 괜찮을지?(전체 또는 개별) , estimator의 신뢰구간은 얼마나 되는지? 이번 포스팅은, 3의 가설검정을 조금 더 detail하게 하는 방법을 배운다. 즉, '내가 원하는 기울기 또는 절편만' 선택해서 가설검정 하는.. 2022. 7. 19.
Basic for Regression Analysis - Quadratic Form 이번 포스팅은 Quadratic form을 다룬다. 회귀분석에서 가설검정을 할 때, 대부분의 통계량이 quadratic으로 표현되기 때문에, 꼭 알아야 되는 개념이라고 할 수 있다. Quadratic Form Quadratic form이란, 모든 term의 차수가 2인 다항식(polynomial)을 의미한다. 이는 아래와 같이 표현된다. \[Q(x_1,...,x_n) = \sum_{i=1}^{n}\sum_{j=1}^{n}a_{ij}x_ix_j\] 이 때, \(x=(x_1,...,x_n)^T \) and \(A=(a_{ij})\)이다. 또한, A행렬은 항상 symmetric하며, symmetric이 아니더라도 아래와 같이 변형하여 symmetric으로 만들어줄 수 있다. \[Q(x) = x^T(\frac{.. 2022. 7. 8.
Ch.3 MLRM - (4) (검토예정) Ch.3의 저번 포스팅까지 우리는 MLRM의 LSE를 계산했고, LSE의 평균과 분산을 공부했다. 또한, Y의 변동성인 분산(SST)을 SSR(y를 x를 기반으로 설명하는 부분) + SSE(모델로도 설명하지 못하는 부분)으로 나눴고, 모델의 성능을 \(R^2\)으로 확인할 수 있다는 것을 공부했다. 이번 포스팅은, 이제 error term에 Normality Assumption을 추가하여 본격적으로 가설검정을 해보고자 한다. Normality Assumption In order to test hypothesis and derive confidence interval, assume further that the error is distributed as normal in the MLRM: \[y= \bet.. 2022. 7. 8.
Ch.3 MLRM - (2) 이번 포스팅은, 기본 MLRM으로 다시 돌아온다. MLRM의 추정방법, 가설검정, 신뢰구간 구하는 방법들을 공부하며, Model Selection을 공부하기 위한 지식들을 복원하고자 한다. MLRM - (1)은 identifiable과 관련된 포스팅이 올라갈 예정이다. Least Square Estimation LSE란, \(\varepsilon\)의 제곱합을 최소로 하는 \(\hat{\beta}\)를 의미한다. 이는 아래와 동치다. 이를 vectorized form으로 다시 나타내면 아래와 같다. 여기서, \(X\beta=Z\)로 두자. 그리고, \(X\hat{\beta}=\hat{Z}\)로 두자. 그러면 아래와 같은 논리를 펼칠 수 있다. projection의 'the close vector pro.. 2022. 7. 3.
Ch.7 Biased Regression - (3) Ch.7 Biased Regression의 마지막 목차, Principal Component Regression을 다룬다. Ch.7 Biased Regression은 multilcollinearity란 무엇인지, 어떻게 확인하는지, 어떤 결과를 초래하는지, 그리고 그 과정에서 Centered MLRM을 소개하고, multilcollinearity가 발생했을 때 대처방법인 Ridge Regression과 Principal Component Regression에 대해 다루고 있다. 이번 포스팅은 다중공선성이 발생했을 때의 Ridge regression과는 또 다른 방법인 Principal Component Regression, 일명 PCR을 다룬다. Principal Component Analysis: Re.. 2022. 7. 2.
Ch.7 biased Regression - (2) 이번 글은 아래 포스팅에 연관되는 내용이다. 즉, multicollinearity가 발생했을때 어떻게 대처해야되는가?에 대해 다룬다. https://taesungha.tistory.com/9?category=1286656 Ch.7 Biased Regression - (1) 이번 챕터는 Biased Regression에 대해 다룬다. 지금까지 다뤘던 우리의 MLRM은 Unbiased Regression이었다. 즉, Estimator의 평균이 모수가 되는 Regression이었다. 이와 달리, Biased Regression은 Estimator의.. taesungha.tistory.com 위의 포스팅 내용을 간략히 요약하면, 다중공선성이란 design matrix가 nearly linearly depend.. 2022. 6. 30.
Eigenevalue, symmetric matrix disclaimer: 본 카테고리 Linear Algebra for Regression Analysis에서는 회귀분석에서 중요하다고 생각되는 선형대수 개념을 포스팅합니다. 회귀분석을 공부하면서 필요한 개념들을 그때그때 정리하는 것이라, 순서가 없이 글이 올라가는점 양해바랍니다. 이번 포스팅에서는 Eigenvalue, Eigenvector, Real symmetric matrix에 대해 정리한다. 특히, Real Symmetric Matrix + Idempotent Matrix 관련 theorem들이 이후 개념 projection을 이해하는데 필수적이고, 나아가 projection이 곧 회귀분석이기 때문에, 중요하다는 것을 다시 한번 언급한다. Eigenvalue and Eigenvector 정의는 다음.. 2022. 6. 26.
Ch.7 Biased Regression - (1) 이번 챕터는 Biased Regression에 대해 다룬다. 지금까지 다뤘던 우리의 MLRM은 Unbiased Regression이었다. 즉, Estimator의 평균이 모수가 되는 Regression이었다. 이와 달리, Biased Regression은 Estimator의 평균이 모수가 되지 않는 Regession이다. 즉, 추정치의 평균이 모수와 다르기 때문에, Unbiased Regression보다 좋지 못한 회귀모델이라고 볼 수 있다. 그렇다면, 굳이 우리가 왜 Biased Regression을 배워하는가? 그 이유는 Multicollinearity(다중공선성)때문이다. Ch.7을 요약하자면, 다중공선성 문제는 추정치의 분산을 폭증시키는 원인이 되고, 기존의 Unbiased Regression에서.. 2022. 6. 25.