OLS Estimator의 Asymptotic distribution, t-Test
OLS estimator의 Limiting distribution
2024.02.11
Multiple Regression
Asymptotic distribution이라는 표현이 더 많이 쓰이는 듯..
\(\textbf{y}=\textbf{X}\beta + e\) where \(\ e \sim N(0, \sigma^2 I)\) 에서
\[\begin{aligned} \hat{\beta} & = (\textbf{X}'\textbf{X})^{-1}\textbf{X}'\textbf{y} \\ & = (\textbf{X}'\textbf{X})^{-1}\textbf{X}'(\textbf{X} \beta + e) \\ & = \beta + (\textbf{X}'\textbf{X})^{-1}\textbf{X}'e \\ \end{aligned}\]이므로
- 평균: \(\mathbb{E}[\hat{\beta} - \beta] = 0\) \(\quad \because \mathbb{E}[e]=0\)
분산: let \(\ plim (\frac{1}{n}X'X) \rightarrow Q_x, \frac{1}{\sqrt{n}}(x'e) \xrightarrow{\quad d} N(0, \sigma^2 Q_x)\) .
\[\begin{aligned} \sqrt{n}(\hat{\beta} - \beta) = (\frac{1}{n}\textbf{X}'\textbf{X})^{-1}(\frac{1}{\sqrt{n}}\textbf{X}'e) & \xrightarrow{\quad d} N(0, Q_x^{-1} (\sigma^2 Q_x) Q_x^{-1}) \\ & \xrightarrow{\quad d} N(0, \sigma^2 Q_x^{-1}) \\ \end{aligned}\]
Standard Error, t-Test, p-value
2024.02.11
Standatd Error
\(s.e.(T)\) : estimator $T$ 의 표준편차.
- 결국, 그 estimator의 계산된 값이 얼마나 틀릴 수 있는지에 대한 정보이다.
- 대표적인 예시가 t-Test에 사용하는 \(s.e.(\hat{\beta}) = \frac{\sigma^2}{X'X}\) 인데,
- 그런데 \(\sigma^2\) 는 알 수 없는 값이므로 관측을 통해 구할 수 있는 \(\hat{\sigma}^2 = \frac{1}{n-k}\sum{\hat{e_i}^2} = \frac{1}{n-k-1}\sum{(y_i-\hat{y_i})^2}\) 을 대신 사용하면 ($k$ 는 독립 변수의 개수.)
- \(s.e.(\hat{\beta_j}) = \sqrt{\widehat{Var(\hat{\beta_j})}} = \sqrt{\frac{\hat{\sigma}^2}{[\textbf{X}'\textbf{X}]_{jj}}}\) 1
- simple regression의 경우에는 \(s.e.(\hat{\beta}) = \sqrt{\widehat{Var(\hat{\beta})}} = \sqrt{\frac{\hat{\sigma}^2}{\sum{(x_i-\bar{x})^2}}}\)
t-Test
Two-sample
t-statistic: \(t = \frac{\bar{X_1}-\bar{X_2}}{s_p \cdot \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}, \ s_p = \sqrt{\frac{(n_1-1)S_{X_1}^2 + (n_2-1)S_{X_2}^2}{(n_1-1) + (n_2-1)}}\) (pooled variance, 두 집단의 분산은 같다고 가정)
(\(S_{X_n}\) 은 표본분산)
- 두 집단의 평균값의 차이가 통계적으로 유의미한지 비교하는 것이 목적
- 두 평균의 차이와 흩어짐의 정도를 비교.
- 자료를 모아본 결과 a만큼 흩어짐이 있는데, 두 집단의 평균의 차이가 a정도 난다면 그건 두 집단이 실제로 차이가 나는 건지 그냥 자료를 모으며 생긴 흩어짐에 불과한 건지 알 수가 없다.
그래서 평균의 차이와 흩어짐의 정도의 비율을 계산한다. 이 값(의 절댓값)이 클수록 t분포의 끝자락에 위치할테니 귀무가설이 기각될 확률이 높아진다.
- 귀무가설 \(H_0\) 는 \(\mu_1 = \mu_2\) 와 같이 세울 수 있다.
- 이후 위와 같은 t-statistic 값을 구하고, 상응하는 t분포에서 그 값이 얼마나 끝자락에 있는지 확인한다.
(모표준편차 \(\sigma\) 대신 standard error로 나눴기 때문에 t분포를 따른다.) - 가령 significance level을 5%로 했고 t-static 값이 1.96보다 크다면, \(H_0\) 를 기각, 즉 두 표본평균의 차이가 유의미하게 크다는 것으로 생각할 수 있다.
- 이것이 t-Test
t-statistic은 분모의 분모(=분자)에 $n$ 있는 형태이다. 원래 $n$ 이 작아지면 standard error로가 작아지므로 t-statistic의 값은 커질텐데, 이는 표본의 개수가 많을수록 t-statistic의 더 확신할 수 있다는 직관과도 방향이 같다.
- 이는 아래의 \(s.e.(\hat{\beta})\) 를 사용하는 경우에도 같다. \(s.e.(\hat{\beta})\) 의 분모에는 \(\sqrt{n}\) 이 있고, 그 \(s.e.(\hat{\beta})\) 는 t-statistic의 분모이므로, 결론적으로 t-statistic의 분자에 $n$ 이 있다. 즉 $n$ 이 커지면 (\(s.e.(\hat{\beta})\) 가 작아져서) t-statistic의 값도 커진다.
- 기타
- one-tailed test, two-tailed test
- 독립표본, 대응표본 t-Test
- 표본 수가 많으면 -> Z-test
- 세 개 이상의 집단의 평균을 비교? -> ANOVA
One-sample
(2023년 여름학기 계량경제 수업에서 배워온 건 이 내용이었다.)
t-statistic: \(t = \frac{\hat{\beta} - c}{s.e.(\hat{\beta})}\)
- 이는 자유도가 $(n-p-1)$ 인 t-분포 \(t(n-p-1)\) 을 따른다. ($n$ 이 커질수록 정규분포와 유사해짐)
- 이번엔 두 집단을 비교하는 것이 아니다. \(\hat{\beta}\) 는 열심히 계산해서 구한 estimate이고, 이를 우리가 비교하고자 하는 값 $c$ 와 비교한다.
- 만약 \(H_0: \hat{\beta}=0\) 이라면 \(c=0\) 이 된다.
- 위의 두 집단을 비교하는 경우와 다르게 이번에는, 이번에는 한 집단만 평균과 분산을 계산했고, 다른 한 집단은 특정한 평균값에 표본분산이 0인 (=매우 확실히 안다) 상황이라고 생각해볼 수 있겠다.
p-value
- 그냥 t-Test 개념에서 부산물처럼 이해할 수 있는 개념. (significance level이 5%일 경우로 가정하고)
- t-statistic의 값이 1.96보다 큰지 확인할 수도 있지만
- t분포에서 \(P(X > t)\) 의 값이 0.05보다 작은지 확인할 수도 있다. 이 때 계산되는 저 확률값이 p-value이다. 결국 1번과 같은 작업을 할 뿐이다.
References
https://khalidpark2029.tistory.com/34 https://angeloyeo.github.io/2020/02/13/Students_t_test.html https://bioinformaticsandme.tistory.com/80