표본의 분포
확률 표본 (random sample)
독립적이고 동일한 확률분포(iid)를 가진 확률변수들의 집합
통계량: 확률변수들의 함수 (표본 평균, 표본 분산: \(\frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})^2\)))
추정량: 표본을 이용해 모수를 추정하는 통계량
모집단의 분포와 관계없이, 모집단의 평균이 μ이고, 분산이 \(σ^2\)이면, \(\bar{X}\)의 평균은 μ이고, 분산은 \(σ^2/n\)이다.
정규 모집단이 아닐 경우
\(n \geq 30\) 이면 중심극한정리에 의해 \(\bar{X}\)는 정규분포에 근사됨. (모집단의 skewed에 따라 더 큰 n이 필요할 수 있음)
∴ \(\bar{X} \sim N(μ, \frac{σ^2}{n}), \frac{\bar{X} - μ}{σ/\sqrt{n}} \sim N(0, 1^2)\)
모집단의 분포가 이산, 연속 분포일 때 모두 적용 가능하다.
좋은 추정량이 되기 위한 조건
불편성 (Unbiasedness) - 기본 조건
추정량의 기대값이 추정하려는 모수와 같아야 함
\(E(\hat{X}) = μ\)
\(E(X_1) = μ\)최소분산 (Minimum Variance)
추정량의 분산이 가능한 작아야 함.
표본의 갯수를 늘릴수록 분산이 줄어들어서 더 좋은 추정량이 됨
\(Var(\hat{X}) = \frac{σ^2}{n}\)\(Var(X_1) = \sigma^2\)
정규분포와 관련된 표본의 분포
자연 발생 데이터나 관측 데이터는 정규분포에 의해 모델링 가능
표본평균의 분포
표본분산의 분포
정규분포로 부터 추출된 표본의 \(\sum_{i=1}^{n} Z^2\)은 자유도가 n인 카이제곱분포를 따름
정규분포로 부터 추출된 표본의 \(\frac{(n-1)s^2}{\sigma^2}\)은 자유도가 n-1인 카이제곱분포를 따름
모집단의 분산을 모를 때
평균
\(\frac{\hat{X} - μ}{s/\sqrt{n}}\) t-분포를 따름
T분포: 표준 정규분포 Z, 자유도가 n인 카이제곱분포가 서로 독립일 때 \(T=\frac{Z}{\sqrt{Y/n}}\)
T분포는 정규분포와 비슷하지만, 표본의 크기가 작을 때 정규분포보다 두꺼운 꼬리를 가짐
T분포가 값이 더 작고, 신뢰도가 감소함
분산
확률변수 U와 V가 자유도가 n1, n2인 카이제곱분포를 따르고 서로 독립이면, \(F=\frac{U/n1}{V/n2}\)는 F분포를 따름