본문 바로가기
728x90
반응형

Studies16

가설 검정 (Hypothesis-testing) 가설 검정 체계 어떤 의료 연구 결과에서 여성의 심장질환 발병률은 10%이고, 남성은 12.5% 라는 결과가 나왔다. 여기서 우리는 남성이 여성보다 심장질환에 걸릴 가능성이 더 높다고 할 수 있을까? 연구 대상이 20명이라면 결과가 우연히 발생했다고 할 수 있지만 연구 대상이 20,000명이라면 남성이 심장질환에 걸릴 가능성이 더 높다고 할 수 있을 것이다. 이러한 직관을 더 정확하게 만드는 것이 가설검정이다. Null hypothesis(영 가설, 귀무 가설)는 우리의 추측이 틀렸다는 가설을 의미하며 $H_{0}$로 표시한다. 반면, 우리의 추측이 참이라는 가설은 Alternative hypothesis(대립 가설)이며 $H_{1}$으로 표시한다. Test(검정)는 데이터를 기반으로 영 가설을 reje.. 2023. 6. 27.
Rejection Sampling(기각 샘플링) Rejection sampling이란? Rejection sampling(기각 샘플링)은 어떠한 주어진 확률 분포에서 효율적으로 샘플을 생성하기 위해 많이 이용되는 알고리즘이다. Rejection sampling은 확률 밀도 함수를 알고는 있지만, 그 함수를 통해 샘플을 생성하기 어려울 때 활용할 수 있다. Rejection sampling의 기본적인 동작은 쉽게 샘플을 생성할 수 있는 $q$에서 샘플들을 생성한 뒤에 이 샘플들의 분포가 $p$(타겟 분포)를 따르도록 수정하는 것이다. 이를 통해 실제로는 $q$에서 샘플이 생성되었지만, 그 결과는 $p$에서 생성된 것처럼 만드는 것이다. 이때 쉽게 샘플을 생성할 수 있도록 임의로 설정한 $q$를 제안 분포 (proposal distribution) 이라고.. 2023. 6. 8.
연속형 확률분포 - 균일 분포(Uniform Distribution) 균일 분포의 확률밀도함수 균일 분포(or 일양 분포)는 확률변수 $X$가 특정한 구간 $(\alpha, \beta)$ 에서 동일한 확률을 가지는 분포이다. 균일분포의 확률밀도함수(pdf)는 다음과 같다. 확률밀도함수의 면적은 항상 1이 되어야 하므로 $f(x)$는 $\cfrac{1}{\beta-\alpha}$가 된다. 균일분포의 누적확률분포 $F(a) = \displaystyle \int_{-\infty}^{a} f(x)\, dx$ 누적확률분포(cdf)는 위와 같이 표현할 수 있다. 그런데 균일분포는 $(\alpha, \beta)$라는 구간이 정해져 있으므로, 아래와 같이 구간별로 나누어 볼 수 있다. $a$가 $\alpha$보다 작을 때에는 0이므로, cdf는 0이다. $a$가 $\alpha$와 $\b.. 2023. 5. 23.
연속형 확률 변수 (Continuous random variable) 연속형 확률 변수 개요 확률 변수는 표본공간(Sample Space)에 있는 모든 원소(Element)를 실수로 대응시키는 함수이며, 연속형 확률 변수는 결과값이 셀 수 없는 무한한 경우이다. 연속형 확률 변수의 예 우리나라 국민들의 평균 소득 학생들의 평균 키 주식 시장의 인덱스 확률 밀도 함수(Probability density function, pdf) 확률 밀도 함수는 연속형 확률 변수에서 확률을 나타내는 함수로, 연속형은 무한이므로 적분을 통해서 확률을 알 수 있다. 아래 그림에서 $f(x)$ 가 확률 밀도 함수, 즉 pdf가 되며 면적이 확률을 뜻한다. 확률 밀도 함수의 특성 $f(x) \geq 0,\forall x$ → 확률 밀도 함수는 확률이기 때문에 모든 $x$에 대하여 0보다 크다. $.. 2023. 5. 22.
이산형 확률분포 - 기하 분포(Geometric Distribution), 음이항 분포(Negative Binomial Distribution), 초기하 분포(Hypergeometric Distribution) 기하 분포(Geometric Distribution) 기하 분포의 정의 기하 분포는 베르누이 시행으로부터 시작한다. 성공 혹은 실패의 경우로 구성된 시행을 연달아 수행하며 처음 성공할 때 까지 시도한 횟수 $X$에 대한 분포이다. 기하분포의 확률질량함수(pmf)는 다음과 같이 정의한다. $P\{X=n\} = (1-p)^{n-1}p\quad n=1,2,...$ 동전을 다섯 번 던져서 앞면이 나올 확률은 $p=0.5$이고 5번째에 처음으로 앞면이 나온다면, 4번째 까지는 뒷면이 나오고 (뒷면이 나올 확률 = $1-p$) 마지막 5번째 시도에서 앞면이 나와야 하므로 위와 같은 식이 정의된다. 기하 분포의 기대값과 분산 $E[X] = 1/p$ $V[X] = (1-p)/p^{2}$ 기하 분포의 예제 항아리에 N개.. 2023. 5. 11.
이산형 확률분포 - 포아송 분포(Poisson Distribution) 포아송 분포의 정의 (Poisson Distrubution) 단위 시간 안에 특정 사건이 몇 번 발생할 것인지를 표현 $f(k;\lambda) = \cfrac{\lambda^{k} e^{-\lambda}}{k!}$ Parameter는 분포의 모양을 결정하며 모든 분포는 Parameter를 가지고 있음 → 포아송 분포의 Parameter : $\lambda$ 포아송 분포를 사용하는 경우 포아송 분포는 드물게 발생하는 사건에 적합하다. 따라서 발생 가능성이 매우 낮은 사건을 모델링 할 때, 이항분포를 사용하면 예측 오차가 커질 수 있지만 포아송 분포를 사용하면 더 나은 결과를 얻을 수 있다. ▼ 사용 예 어떤 집단에서 100세 이상인 사람의 수 책의 page에서 오타의 개수 전화를 잘못 걸 경우 이항분포와 .. 2023. 5. 11.
이산형 확률분포 - 베르누이분포(Bernoulli Distribution), 이항분포(Binomial Distribution) Bernoulli Distribution (버눌리, 베르누이 분포) 베르누이 분포의 정의 확률변수 $X$가 0과 1을 갖는 확률변수를 베르누이 확률변수라고 하고, 이것의 분포를 베르누이 분포라고 한다. 이 때, 0과 1을 확률로 바꾸려면 함수가 필요하며 이를 베르누이 확률 함수라고 한다. 베르누이 확률함수는 다음과 같다. (일반적으로 베르누이 분포에서 $P$는 시행 결과가 ‘성공’일 확률을 말한다.) $f_{x}(x; p) = p^{x}(1-p)^{1-x}, x = 0, 1$ 베르누이 확률 함수의 기대값과 분산 기대값의 정의 $E[X] = \sum_{x=0,1} x\cdot p^{x}(1-p)^{1-x}$ 여기서 $X$가 0일때는 0, $X$가 1일때는 $p$ 이므로 $0+p = p$ $\therefor.. 2023. 5. 8.
확률변수(Random Variable) 확률변수(Random Variable)의 정의 확률변수는 표본공간(Sample Space)에 있는 모든 원소(Element)를 실수로 대응시키는 함수이다. 표본공간(Sample Space) 표본공간은 실험의 결과 하나하나를 모두 모은 것을 뜻하며, S로 나타냄 예를 들어 동전을 2개 던지는 경우 표본공간은 $S = \{앞앞, 앞뒤, 뒤앞, 뒤뒤\}$ 그렇다면 위 표본공간에서 확률변수($Y$)는? $Y$ = 동전이 앞면이 나오는 경우는? 표본공간 $S$에서 앞면이 나오는 경우를 세보면 $S =\{2, 1, 1, 0\}$ 확률변수의 정의에 따라 표본공간의 모든 원소를 실수로 대응시킨 것을 확인할 수 있음 이산형 확률변수 (Discrete random variables) 유한한 값을 가지는 확률 변수 ex. .. 2023. 5. 4.
728x90
반응형