확률변수와 확률분포
확률과 통계
확률변수
sample space의 원소를 상호 배반인 event들로 분할
하여 실수 값으로 대응
시키는 함수
- 이산확률변수: 확률변수가 취할 수 있는 값이 유한개 또는 무한개이지만
셀 수 있는 경우
- 연속확률변수: 확률변수가 취할 수 있는 값이 실수의 구간이고
셀 수 없는 경우
이산 표본공간 -> 이산 확률변수
연속 표본공간 -> 연속 확률변수
연속 표본공간 -> 이산 확률변수
확률 분포
- 표본공간 S에 정의된
확률변수 X의 모든 함수값들이 발생할 확률
.모집단의 확률구조
를 나타냄 - 확률 실험 -> 표본공간 -> 확률변수 -> 확률분포
이산확률분포
확률 질량 함수(pmf): P(X=x) = f(x) => X가 x일 확률
- 기하분포: 성공확률 p인 베르누이 시행을 독립적으로 반복했을 때 첫 번째 성공이 나타날 때까지의 시행횟수
연속확률분포
- 확률 밀도 함수(pdf): \(\int{f(x)}dx = 1\)
- \(\int_a^b {f(x)}dx = P(a ≤ x ≤ b)\) => x가 a와 b사이에 있을 확률
P(X=x) = 0
(연속형 데이터여서 특정값을 가질 확률은 0)f(x) ≠ P(X=x)
f(x)는 1보다 큰 값을 가질 수 있음
- 누적분포함수(cdf): \(F(x) = P(X ≤ x)\) => \(\int_{-∞}^x{f(y)}dy\)
결합 확률분포
- pmf: \(P(X=x, Y=y) = f(x, y)\)
- pdf: \(P(a ≤ X ≤ b, c ≤ Y ≤ d) = \int_{a}^{b}\int_{c}^{d}{f(x, y)}dydx\)
주변 확률분포
- pmf: \(f_X(x) = \sum_y{f(x,y)}\)
- pdf: \(f_X(x) = \int_{-∞}^{∞}{f(x, y)}dy\)
조건부 확률분포
- \(f(x|y)\) = \(\frac{joint}{marginal}\) = \(\frac{f(x, y)}{f_Y(y)}\)
독립 확률변수
- 모든 \(x, y\)에 대해 \(f(x, y) = f_X(x)f_Y(y)\)
- \(f(x, y) = g(x) * h(y)\)
- x, y 의 구간이 서로 간섭받지 않는다.
X,Y는 독립이다.
확률변수의 변환
- cdf를 이용한 변환
- cdf를 미분해서 pdf
역함수가 존재할 경우
\(g(y) = f(u^{-1}(y)) * |\frac{du^{-1}}{dy}|\)