확률과 통계

데이터 분석

공개

2025년 10월 5일

통계학

불확실한 상황 하에서 데이터에 근거하여 과학적인 의사결정을 도출하기 위한 이론과 방법의 체계
모집단으로 부터 수집된 데이터(sample)를 기반으로 모집단의 특성을 추론하는 것을 목표로 한다.

확률

고전적 의미: 표본공간에서 특정 사건이 차지하는 비율
통계적 의미: 특정 사건이 발생하는 상대도수의 극한
- 각 원소의 발생 가능성이 동일하지 않아도 무한한 반복을 통해 수렴하는 값을 구할 수 있다.

확률 분포 정의 단계

Experiment(확률실험): 동일한 조건에서 독립적으로 반복할 수 있는 실험이나 관측
Sample space(표본공간): 모든 simple event의 집합
Event(사건): 실험에서 발생하는 결과 (부분 집합)
Simple event(단순사건): 원소가 하나인 사건
확률 변수: 확률실험의 결과를 수치로 나타낸 변수

확률 분포

이산 확률 분포

이산 표본 공간, 연속 표본공간에서 정의 가능포

베르누이 시행: 각 시행은 서로 독립적이고, 실패와 성공 두 가지 결과만 존재.
- 단 모집단의 크기가 충분히 크고, 표본(시행)의 크기가 충분히 작다면 비복원 추출에서도 유효
- 평균: p
- 분산: p(1-p)
이항 분포: n번의 독립적인 베르누이 시행을 수행하여 성공 횟수를 측정
- X ~ B(n, p), \(f(x) = \binom{n}{x} p^x (1-p)^{n-x}\)
- 평균: np
- 분산: np(1-p)
- n이 매우 크고, p가 매우 작을 때, 포아송 분포로 근사할 수 있다. (λ = np)
음이항 분포
- 정의: n번의 독립적인 베르누이 시행을 수행하여 k번 성공하고, r번 실패한 경우 (n = k + r)
  1. r번의 실패가 나오기 전까지, 성공한 횟수 x
    - X ~ NB(r, p), \(f(x) = \binom{x+r-1}{x} p^x (1-p)^r\)
    - 평균: \(\frac{rp}{1-p}\)
    - 분산: \(\frac{rp}{(1-p)^2}\)
  2. r번의 실패가 나오기 전까지, 시행한 횟수 x
    - 4번에서 성공을 실패로 바꿈
  3. k번의 성공이 나오기 전까지, 실패한 횟수 x
    - 1번에서 실패를 성공으로 바꿈
  4. k번의 성공이 나오기 전까지, 시행한 횟수 x
    - \(f(x) = \binom{x-1}{k-1} p^k (1-p)^{x-k}\)
    - k가 1일 때 기하분포와 동일
  5. n번의 시행 횟수에서, k번 성공 또는 r번 실패한 경우: 이항분포
기하 분포:
- 정의:
  1. 성공 확률이 p인 베르누이 시행에서 첫 성공까지의 시행 횟수
    - X ~ G(p), \(f(x) = (1-p)^{x-1} p, x = 1, 2, 3, ...\)
    - 평균: \(\frac{1}{p}\)
    - 분산: \(\frac{1-p}{p^2}\)
  2. 성공 확률이 p인 베르누이 시행에서 첫 성공까지의 실패 횟수
    - X ~ G(p), \(f(x) = (1-p)^x p, x = 0, 1, 2, ...\)
    - 평균: \(\frac{1-p}{p}\)
    - 분산: \(\frac{1-p}{p^2}\)
- 비기억 특성: \(P(X > n+k | X > n) = P(X > k)\)
초기하 분포: 베르누이 시행이 아닌 시행에서 성공하는 횟수
- X ~ H(n, N, k), \(f(x) = \frac{\binom{K}{x} \binom{N-K}{n-x}}{\binom{N}{n}}\)
- 평균: \(\frac{nK}{N}\)
- 분산: \(\frac{nK(N-K)(N-n)}{N^2(N-1)}\)
포아송 분포: 임의의 기간동안 어떤 사건이 간헐적으로 발생할 때, 동일한 길이의 기간동안 실제 사건이 발생하는 횟수
- X ~ Poisson(λ), \(f(x) = \frac{e^{-λ} λ^x}{x!}, λ > 0\)
- 평균: λ
- 분산: λ

연속 확률 분포

연속 표본 공간에서 정의 가능

균일 분포
- \(f(x) = \frac{1}{b-a}, a ≤ x ≤ b\)
- 평균: \(\frac{a+b}{2}\)
- 분산: \(\frac{(b-a)^2}{12}\)
정규 분포
- \(X + Y \sim N(μ_1 + μ_2, σ_1^2 + σ_2^2)\)
- 선형 변환: \(Y = aX + b \sim N(aμ + b, a^2σ^2)\)
t 분포
- 자유도가 커질수록 표준 정규분포에 근사함.
- \(\frac{Z}{\sqrt{V/n}} \sim t(n)\), Z: 표준정규분포, V: 자유도가 n인 카이제곱분포
f 분포
- \(F = \frac{X_1/ν_1}{X_2/ν_2}\), \(X_1 \sim χ^2(ν_1)\), \(X_2 \sim χ^2(ν_2)\), X1과 X2는 서로 독립
감마 분포
- α: 분포의 형태 결정, θ: 분포의 크기 결정
- 평균: αθ
- 분산: αθ²
- 카이제곱 분포: α = v/2, θ = 2 인 감마분포
  - \(Z_i \sim N(0,1)\)일 때, \(Z_1^2 + Z_2^2 + ... + Z_n^2 \sim χ^2(n)\)
  - \(X_i\)가 서로 독립이고, 자유도가 \(ν_i\)인 카이제곱분포를 따른다면, \(X_1 + X_2 + ... + X_n \sim x^2(ν_1 + ν_2 + ... + ν_n)\)
  - 자유도가 커질수록 기댓값을 중심으로 모이고, 대칭에 가까워진다.
- 지수 분포: α = 1, θ = 1/λ 인 감마분포
  - \(X ~ Exp(λ = \frac{1}{θ})\), f(x) = \(λe^{-λx}, x > 0\)
  - θ: 평균 사건 발생 간격, λ: 단위 시간당 사건 발생 횟수
  - 포아송 분포에서 사건 발생 간격의 분포
  - \(\sum_{i=1}^{n} X_i \sim Γ(n, θ)\), \(θ = 1/λ\)
  - 비기억 특성을 가진다: \(p(X > s + t | X > s) = p(X > t) = e^{-λt}\)
  - 독립적으로 동일한 지수분포를 따르는 확률변수 n개의 합은 \(α = n, θ = \frac{1}{λ}\)인 감마분포를 따른다.

다변량 분포

다항 분포: n번의 독립적인 베르누이 시행을 수행하여 k개의 범주로 분류
- X ~ M(n, p1, p2, …, pk), \(f(x_1, x_2, ..., x_k) = \frac{n!}{x_1! x_2! ... x_k!} p_1^{x_1} p_2^{x_2} ... p_k^{x_k}\)
- 평균: \([np_1, np_2, ..., np_k]\)
- 분산: \([np_1(1-p_1), np_2(1-p_2), ..., np_k(1-p_k)]\)
- 공분산: \(-np_ip_j (i ≠ j)\)
- 독립인 변수의 갯수는 k-1개 (k개의 사건)

샘플링

분포의 동질성 검정

연속형
- 이표본 검정: 콜모고로프-스미르노프 검정 사용
- 일표본 검정:
  - 정규분포, 지수분포: 앤더슨-달링 검정 사용
  - 그 외: 몬테카를로 방법 사용
이산형
- 이표본: 카이제곱 독립성 검정
- 일표본: 카이제곱 동질성 검정

표본의 분포

샘플링에 따라 통계량이 다른 값을 가질 수 있다. 따라서 통계량의 분포를 이용한 통계적 추론이 가능하다.
통계량: 표본의 특성을 나타내는 값
추정량: 아래의 조건을 만족하는 통계량
- 불편성: 추정량의 기대값이 추정하려는 모수와 같아야 한다.
- 효율성: 분산이 작아야 한다. 표본의 갯수가 많아질수록 분산이 작아져야 한다.

표본 평균의 분포

모집단의 분포와 관계없이, 모집단의 평균이 μ이고, 분산이 \(σ^2\)이면, \(\bar{X}\)의 평균은 μ이고, 분산은 \(σ^2/n\)인 정규분포를 따른다.
- 단 모집단의 분포에 따라 표본의 크기가 충분히 커야함. (중심극한정리¹)
만약 모집단의 분산을 모를 경우, σ를 s로 대체하여, t분포를 따르는 표본 평균의 분포를 구할 수 있다.
- 단 이때는 모집단이 정규분포를 따라야 한다.

표본 분산의 분포

정규 모집단으로 부터 나온 표본의 분산 S에 대하여, \(\frac{(n-1)S^2}{σ^2}\)은 자유도가 n-1인 카이제곱 분포를 따른다.
- 모집단이 정규분포를 따르지 않을 경우, 비모수적인 방법을 사용해야 한다.
두 정규 모집단으로부터 계산되는 표본분산의 비율은 f-분포를 따른다.

추정

통계적 추론: 모집단에서 추출된 표본의 통계량으로부터 모수를 추론하는 것
- 추정
  - 점추정
  - 구간추정
- 가설 검정

점 추정

불편성
- \(E(\hat{\theta}) = θ\)
- bias = \(E(\hat{\theta}) - \theta\)
  - 보통 sample size가 커질수록 bias는 0에 수렴
- \(\bar{X}, X_n\)은 μ의 불편추정량이다.
최소분산
- \(Var(\bar{X})\)가 \(Var(X_n)\)보다 분산이 작아서 더 좋은 추정량
- \(MSE(\hat{\theta}) = E[(\hat{\theta} - \theta)^2] = Var(\hat{\theta}) + bias^2\)
  - 큰 오차에 더 큰 페널티를 주기 위해 제곱

전부 중심극한의정리를 적용할 수 있다. (비율은 0과 1의 평균이므로)
모평균, 모비율의 차이는 서로 독립이라는 가정이 필요하다.

구간 추정

α: 유의수준
1 - α: 신뢰수준²
(θ_L, θ_U) = (1 - α) × 100% 신뢰구간

(\(θ_L, θ_U\)) 이 충분이 높은 가능성으로 미지의 모수 θ를 포함해야 한다
구간이 충분히 좁아야 한다
- 표준 정규분포에서 0을 중심으로 대칭일 때 길이가 짧다.
- 고로 신뢰구간이 대칭임

표본의 크기 결정

특정 오차 아래로 하는 표본의 수 구하는 법

그냥 표본오차가 목표 오차보다 작게 하는 값을 구하면 됨.
모비율을 모를 때는 일단 0.5로 보수적으로 놓고 계산

모분산 추정

카이제곱 분포는 가장 짧은 신뢰구간을 구하기 쉽지 않음
- 그냥 쉽게 구하기 위해 \((x^2_{α/2}, x^2_{1-α/2})\)를 사용
모분산의 신뢰구간: \((\frac{(n-1)s^2}{x^2_{(1-\alpha)/2}(n-1)}, \frac{(n-1)s^2}{x^2_{\alpha/2}(n-1)})\)
표본의 수가 적을수록, 카이제곱 분포의 신뢰구간은 더 길어진다.

맨 위로

각주

모집단의 분포와 상관 없이, 표본의 평균은 정규분포에 수렴한다는 정리. 이항분포의 경우, P(X=c) ~ P(c - 0.5 < X < c + 0.5)로 근사 가능하다는 라플라스의 정리를 일반화한 것↩︎
샘플링을 무한히 반복했을 때, 이들의 신뢰 구간 중 95%의 구간이 실제 모수를 포함한다. 즉, 구간이 확률 변수이다.↩︎