전체 글48 연속형 확률분포 - 지수 분포(Exponential Distribution) 지수 분포의 정의 지수 분포는 일정한 사건이 일어날 때까지 걸리는 시간을 나타낸다. 예를 들어 서비스 구간에서 두 고객 사이 걸리는 시간 다음 고장이 발생할 때까지 걸리는 시간 등이 있다. 지수 분포의 확률 밀도 함수 (pdf) $f(x)=\begin{cases}\lambda e^{-\lambda x}, \quad if\;x\geq0 \\ 0 \quad \quad \;, \: if \; x 2023. 6. 27. 가설 검정 (Hypothesis-testing) 가설 검정 체계 어떤 의료 연구 결과에서 여성의 심장질환 발병률은 10%이고, 남성은 12.5% 라는 결과가 나왔다. 여기서 우리는 남성이 여성보다 심장질환에 걸릴 가능성이 더 높다고 할 수 있을까? 연구 대상이 20명이라면 결과가 우연히 발생했다고 할 수 있지만 연구 대상이 20,000명이라면 남성이 심장질환에 걸릴 가능성이 더 높다고 할 수 있을 것이다. 이러한 직관을 더 정확하게 만드는 것이 가설검정이다. Null hypothesis(영 가설, 귀무 가설)는 우리의 추측이 틀렸다는 가설을 의미하며 H0로 표시한다. 반면, 우리의 추측이 참이라는 가설은 Alternative hypothesis(대립 가설)이며 H1으로 표시한다. Test(검정)는 데이터를 기반으로 영 가설을 reje.. 2023. 6. 27. Rejection Sampling을 통한 Beta 분포 확률변수 생성 Rejection sampling을 사용하여 Beta (α, β); α=6, β=4 분포로부터의 확률변수 값 1000개를 모의 생성하여 평균, 표준편차 및 히스토그램을 나타내는 파이썬 코드 실습 import numpy as np import matplotlib.pyplot as plt from scipy.stats import beta # hyper parameters num_samples = 1000 a, b = 6, 4 x = np.linspace(0, 1, num_samples) # target / proposal distribution target_dist = beta.pdf(x, a, b) proposal_dist = [np.random.uniform(0,1)*3 for _ in range(nu.. 2023. 6. 8. Rejection Sampling(기각 샘플링) Rejection sampling이란? Rejection sampling(기각 샘플링)은 어떠한 주어진 확률 분포에서 효율적으로 샘플을 생성하기 위해 많이 이용되는 알고리즘이다. Rejection sampling은 확률 밀도 함수를 알고는 있지만, 그 함수를 통해 샘플을 생성하기 어려울 때 활용할 수 있다. Rejection sampling의 기본적인 동작은 쉽게 샘플을 생성할 수 있는 q에서 샘플들을 생성한 뒤에 이 샘플들의 분포가 p(타겟 분포)를 따르도록 수정하는 것이다. 이를 통해 실제로는 q에서 샘플이 생성되었지만, 그 결과는 p에서 생성된 것처럼 만드는 것이다. 이때 쉽게 샘플을 생성할 수 있도록 임의로 설정한 q를 제안 분포 (proposal distribution) 이라고.. 2023. 6. 8. 파이썬(Python) - Iterator 사용하기 Iterator란? Iterator는 값을 차례대로 꺼낼 수 있는 객체(Object)이다. 예를 들어 for i in range(100): 구문에서는 0~99 까지의 연속된 숫자를 보여주는데, 사실 숫자를 모두 만드는 것이 아니라 0~99 까지 값을 차례대로 꺼낼 수 있는 iterator를 만든 후 이를 반복하면서 숫자를 하나씩 꺼내는 것이다. 만약 연속된 숫자를 미리 만들면 숫자가 적을 때는 상관 없지만, 아주 많을 때는 메모리를 많이 사용하게 되어 성능에 불리해진다. 그래서 파이썬에서는 iterator만 생성하고 값이 필요한 시점이 되었을 때 값을 만드는 방식을 사용한다. 즉, 데이터 생성을 뒤로 미루는 것이며 이러한 방식을 지연 평가 (lazy evaluation) 이라고 한다. Iterable이란.. 2023. 5. 30. 연속형 확률분포 - 균일 분포(Uniform Distribution) 균일 분포의 확률밀도함수 균일 분포(or 일양 분포)는 확률변수 X가 특정한 구간 (α,β) 에서 동일한 확률을 가지는 분포이다. 균일분포의 확률밀도함수(pdf)는 다음과 같다. 확률밀도함수의 면적은 항상 1이 되어야 하므로 f(x)는 1β−α가 된다. 균일분포의 누적확률분포 F(a)=∫a−∞f(x)dx 누적확률분포(cdf)는 위와 같이 표현할 수 있다. 그런데 균일분포는 (α,β)라는 구간이 정해져 있으므로, 아래와 같이 구간별로 나누어 볼 수 있다. a가 α보다 작을 때에는 0이므로, cdf는 0이다. a가 α와 $\b.. 2023. 5. 23. 연속형 확률 변수 (Continuous random variable) 연속형 확률 변수 개요 확률 변수는 표본공간(Sample Space)에 있는 모든 원소(Element)를 실수로 대응시키는 함수이며, 연속형 확률 변수는 결과값이 셀 수 없는 무한한 경우이다. 연속형 확률 변수의 예 우리나라 국민들의 평균 소득 학생들의 평균 키 주식 시장의 인덱스 확률 밀도 함수(Probability density function, pdf) 확률 밀도 함수는 연속형 확률 변수에서 확률을 나타내는 함수로, 연속형은 무한이므로 적분을 통해서 확률을 알 수 있다. 아래 그림에서 f(x) 가 확률 밀도 함수, 즉 pdf가 되며 면적이 확률을 뜻한다. 확률 밀도 함수의 특성 f(x)≥0,∀x → 확률 밀도 함수는 확률이기 때문에 모든 x에 대하여 0보다 크다. $.. 2023. 5. 22. Deep Neural Network (DNN) Deep Neural Network (DNN) DNN은 MLP에서 다소 확장된 개념으로 다수의 hidden layer를 가지고 있는 인공신경망이다. 즉, DNN에서 “Deep”은 hidden layer가 많다는 의미이다. Layer수가 많아지면서 데이터의 feature(특징)를 더 잘 추출할 수 있다. 아래 그림에서 각 원은 노드(Node)라고 부르는데, Input Node는 Input data의 변수의 수가 되며 Hidden Layer와 Node는 사용자가 지정해야 할 Hyperparameter, 그리고 Output Node의 수는 풀고자 하는 문제에 따라 달라진다. 예를 들어 숫자를 구분하는 문제라면 0~9까지 총 10개로 구분 가능하므로 Output Node의 수는 10이 된다. MPL 소개 : h.. 2023. 5. 17. 이전 1 2 3 4 5 6 다음