통계적 추정

확률과 통계

공개

2025년 3월 13일

통계적 추론

모집단에서 추출된 표본의 통계량으로부터 모수를 추론하는 것

추정
- 점추정
- 구간추정
가설 검정

추정

불편성

\(E(\hat{\theta}) = θ\)
bias = \(E(\hat{\theta}) - \theta\)
- 보통 sample size가 커질수록 bias는 0에 수렴
\(\bar{X}, X_n\)은 μ의 불편추정량이다.

최소분산

\(Var(\bar{X})\)가 \(Var(X_n)\)보다 분산이 작아서 더 좋은 추정량
\(MSE(\hat{\theta}) = E[(\hat{\theta} - \theta)^2] = Var(\hat{\theta}) + bias^2\)
- 큰 오차에 더 큰 페널티를 주기 위해 제곱

대표적인 불편추정량

전부 중심극한의정리를 적용할 수 있다.

모평균
모비율
모평균 차이 (독립이라는 가정 필요)
모비율 차이 (독립이라는 가정 필요)

이때, 이들의 평균과 표준편차는 모집단의 분포와 관계없이 일정하다.

구간 추정

α: 유의수준
1 - α: 신뢰수준
(θ_L, θ_U) = (1 - α) × 100% 신뢰구간

(\(θ_L, θ_U\)) 이 충분이 높은 가능성으로 미지의 모수 θ를 포함해야 한다
구간이 충분히 좁아야 한다
- 표준 정규분포에서 0을 중심으로 대칭일 때 길이가 짧다.
- 고로 신뢰구간이 대칭임

신뢰 구간의 확률적인 의미

샘플링을 무한히 반복했을 때, 이들의 신뢰 구간 중 95%의 구간이 실제 모수를 포함한다. → 구간이 확률 변수이다.

표본의 크기 결정

특정 오차 아래로 하는 표본의 수 구하는 법

그냥 표본오차가 목표 오차보다 작게 하는 값을 구하면 됨.
모비율을 모를 때는 일단 0.5로 보수적으로 놓고 계산

소표본 신뢰구간

표본이 작다. → 크면 정규분포
모집단 정규분포를 따른다. → 비모수 검정
σ 모름 → 알면 그냥 정규 분포
\(σ_1 = σ_2\)

→ t분포

정규분포에 비해 신뢰구간은 더 길어짐

모분산 추정

카이제곱 분포는 가장 짧은 신뢰구간을 구하기 쉽지 않음
- 그냥 쉽게 구하기 위해 \((x^2_{α/2}, x^2_{1-α/2})\)를 사용
모분산의 신뢰구간: \((\frac{(n-1)s^2}{x^2_{(1-\alpha)/2}(n-1)}, \frac{(n-1)s^2}{x^2_{\alpha/2}(n-1)})\)
표본의 수가 적을수록, 카이제곱 분포의 신뢰구간은 더 길어진다.