확률변수와 확률분포

확률과 통계
공개

2024년 9월 3일

확률변수

sample space의 원소를 상호 배반인 event들로 분할하여 실수 값으로 대응시키는 함수

  • 이산확률변수: 확률변수가 취할 수 있는 값이 유한개 또는 무한개이지만 셀 수 있는 경우
  • 연속확률변수: 확률변수가 취할 수 있는 값이 실수의 구간이고 셀 수 없는 경우

이산 표본공간 -> 이산 확률변수
연속 표본공간 -> 연속 확률변수
연속 표본공간 -> 이산 확률변수

확률 분포

  • 표본공간 S에 정의된 확률변수 X의 모든 함수값들이 발생할 확률. 모집단의 확률구조를 나타냄
  • 확률 실험 -> 표본공간 -> 확률변수 -> 확률분포

이산확률분포

확률 질량 함수(pmf): P(X=x) = f(x) => X가 x일 확률
- 기하분포: 성공확률 p인 베르누이 시행을 독립적으로 반복했을 때 첫 번째 성공이 나타날 때까지의 시행횟수

연속확률분포

  • 확률 밀도 함수(pdf): \(\int{f(x)}dx = 1\)
  • \(\int_a^b {f(x)}dx = P(a ≤ x ≤ b)\) => x가 a와 b사이에 있을 확률
  • P(X=x) = 0 (연속형 데이터여서 특정값을 가질 확률은 0)
  • f(x) ≠ P(X=x)
  • f(x)는 1보다 큰 값을 가질 수 있음
  • 누적분포함수(cdf): \(F(x) = P(X ≤ x)\) => \(\int_{-∞}^x{f(y)}dy\)

결합 확률분포

  • pmf: \(P(X=x, Y=y) = f(x, y)\)
  • pdf: \(P(a ≤ X ≤ b, c ≤ Y ≤ d) = \int_{a}^{b}\int_{c}^{d}{f(x, y)}dydx\)

주변 확률분포

  • pmf: \(f_X(x) = \sum_y{f(x,y)}\)
  • pdf: \(f_X(x) = \int_{-∞}^{∞}{f(x, y)}dy\)

조건부 확률분포

  • \(f(x|y)\) = \(\frac{joint}{marginal}\) = \(\frac{f(x, y)}{f_Y(y)}\)

독립 확률변수

  • 모든 \(x, y\)에 대해 \(f(x, y) = f_X(x)f_Y(y)\)
  1. \(f(x, y) = g(x) * h(y)\)
  2. x, y 의 구간이 서로 간섭받지 않는다.
    X,Y는 독립이다.

확률변수의 변환

  1. cdf를 이용한 변환
  2. cdf를 미분해서 pdf

역함수가 존재할 경우

\(g(y) = f(u^{-1}(y)) * |\frac{du^{-1}}{dy}|\)

맨 위로