통계적 추정
확률과 통계
통계적 추론
모집단에서 추출된 표본의 통계량으로부터 모수를 추론하는 것
- 추정
- 점추정
- 구간추정
- 가설 검정
추정
불편성
- \(E(\hat{\theta}) = θ\)
- bias = \(E(\hat{\theta}) - \theta\)
- 보통 sample size가 커질수록 bias는 0에 수렴
- \(\bar{X}, X_n\)은 μ의 불편추정량이다.
최소분산
- \(Var(\bar{X})\)가 \(Var(X_n)\)보다 분산이 작아서 더 좋은 추정량
- \(MSE(\hat{\theta}) = E[(\hat{\theta} - \theta)^2] = Var(\hat{\theta}) + bias^2\)
- 큰 오차에 더 큰 페널티를 주기 위해 제곱
대표적인 불편추정량
- 전부 중심극한의정리를 적용할 수 있다.
- 모평균
- 모비율
- 모평균 차이 (독립이라는 가정 필요)
- 모비율 차이 (독립이라는 가정 필요)
- 이때, 이들의 평균과 표준편차는 모집단의 분포와 관계없이 일정하다.
구간 추정
- α: 유의수준
- 1 - α: 신뢰수준
- (θ_L, θ_U) = (1 - α) × 100% 신뢰구간
- (\(θ_L, θ_U\)) 이 충분이 높은 가능성으로 미지의 모수 θ를 포함해야 한다
- 구간이 충분히 좁아야 한다
- 표준 정규분포에서 0을 중심으로 대칭일 때 길이가 짧다.
- 고로 신뢰구간이 대칭임
신뢰 구간의 확률적인 의미
- 샘플링을 무한히 반복했을 때, 이들의 신뢰 구간 중 95%의 구간이 실제 모수를 포함한다. → 구간이 확률 변수이다.
표본의 크기 결정
특정 오차 아래로 하는 표본의 수 구하는 법
- 그냥 표본오차가 목표 오차보다 작게 하는 값을 구하면 됨.
- 모비율을 모를 때는 일단 0.5로 보수적으로 놓고 계산
소표본 신뢰구간
- 표본이 작다. → 크면 정규분포
- 모집단 정규분포를 따른다. → 비모수 검정
- σ 모름 → 알면 그냥 정규 분포
- \(σ_1 = σ_2\)
→ t분포
- 정규분포에 비해 신뢰구간은 더 길어짐
모분산 추정
- 카이제곱 분포는 가장 짧은 신뢰구간을 구하기 쉽지 않음
- 그냥 쉽게 구하기 위해 \((x^2_{α/2}, x^2_{1-α/2})\)를 사용
- 모분산의 신뢰구간: \((\frac{(n-1)s^2}{x^2_{(1-\alpha)/2}(n-1)}, \frac{(n-1)s^2}{x^2_{\alpha/2}(n-1)})\)
- 표본의 수가 적을수록, 카이제곱 분포의 신뢰구간은 더 길어진다.