이번 포스팅은, 회귀분석이 무엇인지에 대해 개괄적으로 다룬다.
진도를 거침없이 나가기보다는, 내가 왜 이 공부를 해야되는지, 이 학문이 무엇인지를 짚고 가는 것이 중요하다고 생각해서, 잠시 잊고 있었던 Introduction을 다시 한번 정리해본다.
Regression Analysis
Regression Analysis is a statistical technique for investigating and modeling the relation between variables of interest.
회귀분석이란, 관심있는 변수 간의 관계를 조사하고, 모델링하는 통계기법을 의미한다.
그렇다면, 변수 간의 관계란 무엇일까?
Functional Relation vs Statistical Relation
Let X and Y be a random variable of interest.
1) Functional relation: The observation of X and Y lie on a graph with a mathematical equation \(Y=f(X)\).
for instance,
(Expenditure) = 0.9 X (Income)
2) Statistical relation: The observations of X and Y do not fall exactly onto a graph with a mathematical equation.
for instance,
(Expenditure) = 0.9 X (Income) + (Unexplained Part)
In regression problem, we often refer to the unexplained part as noise.
관계란, Functional relation과 Statistical relation이 있다. 그 중 우리가 관심있는 것은, Statistical relation이다. 어떤 현상을 관측할 때, 관련있는 모든 변수들간의 관계를 밝히더라도, 그곳에는 언제나 불확실성(Unexplained Part)이 조금이라도 섞여있기 때문이다. 또한, 우리는 불확실성을 \(\varepsilon\)이라고도 부른다.
아래와 같은 X와 Y의 Statistical relation이 있다고 하자.
\[Y=U(X)+\varepsilon\]
변수 간의 Statistical relation을 가장 정확하게 밝혀내는 최선의 방법은 무엇일까?
그 말은 곧, U(X)를 최대한 정확히 추정해서 \(\varepsilon\)을 최소화하자는 말과 동치다.
다시 말해서, \(Y-U(X)\), 즉 오차가 최소가 되면 된다. 다만, 오차에는 양의 오차와 음의 오차가 있는데, 단순히 오차를 더하는 식으로 계산을 하게 되면 '상쇄'가 되므로, 오차제곱합이 최소가 되어야 한다.
다시 말해서, \((Y-U(X))^2\)가 최소가 되면 된다. 다만, 오차 \(\varepsilon\)은 보통 Random Variable이므로 '확정적인 값'인
\(E[(Y-U(X))^2]\)을 최소로 만드는게 더 좋은 방향이다.
정리하면, 우리가 변수 간의 Statistical relation을 최선으로 추정하는 방법은, \(E[(Y-U(X))^2]\)을 최소로 만드는 U(X)를 찾는 것이다.
Conditional Expectation and Best Predictor
\(E[(Y-U(X))^2]\)을 최소로 만드는 U(X)는 무엇일까? 결론적으로 말하면 \(E[Y|X]\)이다. 증명은 아래와 같다.
먼저, 아래와 같은 밑작업을 해둔다.
위의 사실로부터, 아래가 성립한다.
\(Cov[Y - E[Y|X],u(X)] = 0\)가 성립한다는 사실을 알았으면, 아래를 증명할 수 있다.
Regression Model
이제 오차를 최소로 만드는 \(U(X)\)가 \(E[Y|X]\)라는 것을 알았으니, Statistical relation을 아래와 같이 쓸 수 있다.
\[Y = E[Y|X] + \varepsilon\]
여기서, \(\varepsilon\)은 Statistical Relation의 noise에 해당한다.
\(E[Y|X]\)가 X에 대한 함수 \(f(X)\)로 볼 수 있기 때문에, Statistical relation를 아래와 같이도 쓸 수 있다.
\[Y=f(X) + \varepsilon, \quad with\;E(\varepsilon|X)=0\]
\(E(\varepsilon|X)=0\)가 조건으로 붙는 이유는 아래와 같다.
Regression model에서, 우리의 목표는 regression function인 \(f(X)\)를 '잘' 추정하는 것이다.
여기서 Random Variable Y는 response(반응변수), X는 predictor(예측변수), covariate, feature라고 한다.
Linear Regression Model
regression function인 \(f(X)\)는 가능한 모든 함수가 될 수 있다. 엄청나게 복잡한 함수도 가능하다. 다만, 이렇게 되면 f를 추정하는게 매우 어려워지는 문제가 있다.
그런 이유로, 우리는 f가 linear 하다고 추가적으로 가정한다. (예를 들어 \(f(X) = \beta_0 + \beta_1X\))
Fixed Design and Random Design
Let X and Y be random variables of interest. Consider the regression model:
\[Y=f(X) + \varepsilon, \quad with\;E(\varepsilon|X)=0\]
이 때, x가 fixed 되어 있고, fixed된 X로 Y를 관측한다면 Fixed Design이라고 부른다.
여기서 random variable은 \(Y\)와 \(\varepsilon\)이다.
예를 들어, 약의 효과를 보고 싶을 때, 투여량을 X로 두고 효과를 Y로 둔다면 우리는 X를 정해진 수치(10ml, 20ml, 30ml)로 두고 효과를 측정하지, 랜덤으로 투여하지 않는다. 이를 Experiment라고 한다.
한편, 피실험자를 랜덤으로 먼저 정해두고 피실험자의 X와 Y를 모두 측정한다면, X와 Y 모두 random variable로도 볼 수 있다.
이를 Random Design이라고 부른다.
예를 들어, 학생들의 중간고사 점수와 기말고사 점수의 상관관계를 보고 싶다면 이는 Random Design이다. 학생을 먼저 뽑아서 그 학생의 중간고사 점수(X)와 기말고사 점수(Y)를 랜덤으로 측정하는것이다(이를 Observation이라고 부른다). 중간고사 점수를 고정시켜두고 그 점수의 학생들의 Y를 보는 것은 실험계획에 맞지 않기 때문이다. (만약 중간고사 점수대에 따른 기말고사 성적 향상 여부를 보고 싶으면 Fixed Design, ANOVA를 하면 된다.)
우리는 Regression Analysis를 할 때, predictor와 \(\varepsilon\)이 독립적이라는 가정이 존재한다면 Fixed Design이든 Random Design이든 X가 \(\varepsilon\)의 분포에 전혀 관여하지 못하기 때문에, X를 Fixed constant로 볼 것이다.
또한, X와 \(\varepsilon\)이 독립적이 되면 조건 \(E(\varepsilon|X)=E(\varepsilon)=0\)이 된다.
X가 fixed일 때는 \(E(\varepsilon|X)\)에서 X가 constant가 되고, X가 random일 때는 \(\varepsilon\)이 X와 관계가 없기 때문이다.
'Statistics > Regression Analysis' 카테고리의 다른 글
Ch.3 MLRM - (3) (0) | 2022.07.07 |
---|---|
Ch.3 MLRM - (2) (0) | 2022.07.03 |
Ch.7 Biased Regression - (3) (0) | 2022.07.02 |
Ch.7 biased Regression - (2) (0) | 2022.06.30 |
Ch.4 Constrained Least Square Estimation - (1) (0) | 2022.06.29 |
댓글