본문 바로가기

Studies/확률&통계12

신경망과 MLE(Maximum Likelihood Estimation) Natation $P_{\theta} = P(x;\theta) = p(x|\theta)$ : 모두 $\theta$라는 파라미터를 갖는 경우 x의 확률 값 $P_{\theta}(y|x) = P(y|x;\theta) = P(y|x,\theta)$ : $\theta$라는 파라미터를 갖을 때, x가 주어졌을 때 y가 나올 확률 MLE Likelihood란 어떤 확률 분포에서 샘플링을 한 값, 혹은 데이터를 가장 잘 설명하는 파라미터를 찾는 일이다. 그걸 찾기 위해 Likelihood가 최대가 되는 값, 즉 Maximum Likelihood를 찾는다. Likelihood에 대해서는 아래 블로그에서 너무나 잘 설명해주었다고 생각이 들어서 해당 블로그의 링크를 남긴다. https://xoft.tistory.com/3.. 2024. 3. 14.
연속형 확률분포 - 감마 분포 (Gamma Distribution) 감마 분포의 정의 위키피디아에 감마 분포를 검색하면 아래와 같이 나온다. 💡 감마 분포는 연속 확률 분포로, 두 개의 매개변수를 받으며 양의 실수를 가질 수 있다. 이 설명으로는 이해가 쉽지 않다. 연속 확률 분포라는 것은 알겠고 두 매개변수는 $\alpha$ 와 $\lambda$ 이다. 감마 분포의 확률 변수(Random Variable) $X$는 💡 $\alpha$ 개의 이벤트가 발생할 때 까지 시간 으로 정의 할 수 있다. 따라서 감마 분포는 $\alpha$ 개의 이벤트가 발생할 때 까지의 대기 시간의 분포로 이해할 수 있다. 다시 매개변수로 돌아가보면 여기서 $\alpha$ 는 그 시간의 간격을 변동시키는 매개변수이고 $\lambda$ 는 그 시간에서 발생할 확률을 변동시키는 매개변수이다. 상세한.. 2023. 8. 31.
연속형 확률분포 - 정규 분포(Normal Distribution) 정규 분포란? 정규 분포(Normal distribution) 또는 가우스 분포(Gaussian distribution)는 연속 확률 분포의 하나이다. 정규분포는 2개의 parameter를 가지며 (평균 : $\mu$, 표준편차 : $\sigma$) 이 때의 분포를 $N(\mu, \sigma)$로 표기한다. 특히, 평균이 0이고 표준편차가 1인 정규분포 $N(0, 1)$을 표준 정규 분표(Standard normal distribution)라고 한다. 정규 분포의 확률 밀도 함수 (PDF, Probability Density Function) 정규 분포의 확률 밀도 함수는 아래와 같다. $x$는 무한한 값을 가지며 평균과 표준편차를 알고 있을 때, 그 값을 알 수 있다. 위 정규 분포의 그림에서 $f(x.. 2023. 8. 7.
연속형 확률분포 - 지수 분포(Exponential Distribution) 지수 분포의 정의 지수 분포는 일정한 사건이 일어날 때까지 걸리는 시간을 나타낸다. 예를 들어 서비스 구간에서 두 고객 사이 걸리는 시간 다음 고장이 발생할 때까지 걸리는 시간 등이 있다. 지수 분포의 확률 밀도 함수 (pdf) $f(x)=\begin{cases}\lambda e^{-\lambda x}, \quad if\;x\geq0 \\ 0 \quad \quad \;, \: if \; x 2023. 6. 27.
가설 검정 (Hypothesis-testing) 가설 검정 체계 어떤 의료 연구 결과에서 여성의 심장질환 발병률은 10%이고, 남성은 12.5% 라는 결과가 나왔다. 여기서 우리는 남성이 여성보다 심장질환에 걸릴 가능성이 더 높다고 할 수 있을까? 연구 대상이 20명이라면 결과가 우연히 발생했다고 할 수 있지만 연구 대상이 20,000명이라면 남성이 심장질환에 걸릴 가능성이 더 높다고 할 수 있을 것이다. 이러한 직관을 더 정확하게 만드는 것이 가설검정이다. Null hypothesis(영 가설, 귀무 가설)는 우리의 추측이 틀렸다는 가설을 의미하며 $H_{0}$로 표시한다. 반면, 우리의 추측이 참이라는 가설은 Alternative hypothesis(대립 가설)이며 $H_{1}$으로 표시한다. Test(검정)는 데이터를 기반으로 영 가설을 reje.. 2023. 6. 27.
Rejection Sampling(기각 샘플링) Rejection sampling이란? Rejection sampling(기각 샘플링)은 어떠한 주어진 확률 분포에서 효율적으로 샘플을 생성하기 위해 많이 이용되는 알고리즘이다. Rejection sampling은 확률 밀도 함수를 알고는 있지만, 그 함수를 통해 샘플을 생성하기 어려울 때 활용할 수 있다. Rejection sampling의 기본적인 동작은 쉽게 샘플을 생성할 수 있는 $q$에서 샘플들을 생성한 뒤에 이 샘플들의 분포가 $p$(타겟 분포)를 따르도록 수정하는 것이다. 이를 통해 실제로는 $q$에서 샘플이 생성되었지만, 그 결과는 $p$에서 생성된 것처럼 만드는 것이다. 이때 쉽게 샘플을 생성할 수 있도록 임의로 설정한 $q$를 제안 분포 (proposal distribution) 이라고.. 2023. 6. 8.
연속형 확률분포 - 균일 분포(Uniform Distribution) 균일 분포의 확률밀도함수 균일 분포(or 일양 분포)는 확률변수 $X$가 특정한 구간 $(\alpha, \beta)$ 에서 동일한 확률을 가지는 분포이다. 균일분포의 확률밀도함수(pdf)는 다음과 같다. 확률밀도함수의 면적은 항상 1이 되어야 하므로 $f(x)$는 $\cfrac{1}{\beta-\alpha}$가 된다. 균일분포의 누적확률분포 $F(a) = \displaystyle \int_{-\infty}^{a} f(x)\, dx$ 누적확률분포(cdf)는 위와 같이 표현할 수 있다. 그런데 균일분포는 $(\alpha, \beta)$라는 구간이 정해져 있으므로, 아래와 같이 구간별로 나누어 볼 수 있다. $a$가 $\alpha$보다 작을 때에는 0이므로, cdf는 0이다. $a$가 $\alpha$와 $\b.. 2023. 5. 23.
연속형 확률 변수 (Continuous random variable) 연속형 확률 변수 개요 확률 변수는 표본공간(Sample Space)에 있는 모든 원소(Element)를 실수로 대응시키는 함수이며, 연속형 확률 변수는 결과값이 셀 수 없는 무한한 경우이다. 연속형 확률 변수의 예 우리나라 국민들의 평균 소득 학생들의 평균 키 주식 시장의 인덱스 확률 밀도 함수(Probability density function, pdf) 확률 밀도 함수는 연속형 확률 변수에서 확률을 나타내는 함수로, 연속형은 무한이므로 적분을 통해서 확률을 알 수 있다. 아래 그림에서 $f(x)$ 가 확률 밀도 함수, 즉 pdf가 되며 면적이 확률을 뜻한다. 확률 밀도 함수의 특성 $f(x) \geq 0,\forall x$ → 확률 밀도 함수는 확률이기 때문에 모든 $x$에 대하여 0보다 크다. $.. 2023. 5. 22.
728x90