Processing math: 100%
본문 바로가기

전체 글48

Activation function, 활성함수의 특징 인공신경망에서 비선형으로 변환하기 위한 activation function, 활성 함수는 크게 6가지가 잘 알려져 있다. 1. Sigmoid가장 많이 사용되었던 활성함수 형태로 Sigmoid 함수의 출력 값은 항상 (0, 1) 구간에 있다. 𝑥 = 0 을 기준으로 대칭적이며, 𝑓(0) = 0.5 이다. 단조 증가하는 형태를 보이며, 복잡한 패턴 학습이 가능하고 전체 구간에서 미분이 가능하다.위 그림과 같이 saturated 구간이 발생한다. 이 구간에서 입력 신호의 총 합이 크거나 작을 때, 기울기가 0 에 가까워 보이는데 이 현상을 saturated 라고 한다. 이는 gradient vanishing 문제를 발생시킨다.또한 Not zero-centered, 즉 출력값의 평균이 0 이 아닌 0.5 를.. 2024. 11. 30.
MLE 최대화가 Cross entropy 최소화와 같은 효과인 이유 MLE(Maximum Likelihood Estimation)을 이해하기 위해서는 먼저 Likelihood에 대해서 이해해야 한다. Likelihood란 어떤 일이 일어날 ‘가능도’를 뜻하기 때문에 확률로 해석하는 게 더 매끄럽다. 하지만 확률(Probability)과는 조금 다른 의미가 있다. Probability는 주어진 확률 분포가 고정된 상태에서 관측되는 사건이 변화될 때를 의미한다면, Likelihood는 관측된 사건이 고정된 상태에서, 확률 분포가 변화될 때를 표현하는 의미이다. 따라서 MLE는 이 Likelihood가 최대가 되는 값을 구하는 과정, 즉 관측되는 데이터들을 가장 잘 모델링하는 확률분포의 parameter를 찾는 과정이다. 로지스틱 회귀모델에서 MLE를 위해 다음과 같은 식을 .. 2024. 11. 30.
[논문 리뷰] SR3+: Denoising Diffusion Probabilistic Models for Robust Image Super-Resolution in the Wild SR3+는 CVPR 2023에서 발표되었고, 아주 간단하다. 바로 SR3를 좀 더 강건하게 만들어 보자는 것이다. 그렇다면 어떻게 강건하게 만들 것인가? 바로 super resolution을 위한 degradation, 즉 고화질 이미지를 저화질 이미지로 만들 때 보다 더 복잡한 형태로 만들어서 다양한 형태의 저화질 이미지를 만들어서 학습하자는 것이다. SR3는 아래 소개되어 있다.2024.05.27 - [논문리뷰/Diffusion models] - SR3: Image Super-Resolution via Iterative Refinement (CVPR, 2021) SR3: Image Super-Resolution via Iterative Refinement (CVPR, 2021)해당 논문은 CVPR 2.. 2024. 11. 21.
통합적 관점에서의 Diffusion model의 이해 (Part 1: 생성 모델의 개념과 ELBO) 해당 글은 Calvin Luo가 2022년 arXiv에 게재한Understanding diffusion models라는 논문 내용을 설명하는 것이다. Diffusion 모델이 초기에는 서로 다른 notation으로 정리되어 있어 개별 논문마다 이해가 조금 어려운데, 이 논문은 그런 수식들을 통합하여 작성해서 개인적으로는 diffusion 모델의 전반을 이해하기 참 좋은 논문이였다. 내용이 너무 길어 쪼개서 상세히 기록을 남기고자 한다. 먼저 part1, part2는 diffusion 모델의 기본이 되는 VAE와 VAE를 이해하기 위한 ELBO에 관한 내용이다. 이것이 어떻게 전개되는지 알 수 있다. 1. Introduction: Generative Models어떤 분포로부터 샘플링한 x가 주어졌을 때.. 2024. 11. 20.
SystemExit: 2 error args = parser.parse_args() PatchTST를 공부하려고 공식 github에서 가져온 코드를 돌리니 이런 에러가 발생하였다. ===========================================================================Exception has occurred: SystemExit X2args = parser.parse_args()SystemExit: 2 ===========================================================================  찾아보니 jupyter에서 parser를 써서 그런거라는데…. 엥? 나는 jupyter에서 하고 있지 않은데? 터미널에 출력된 내용을 보니 run_longExp.py: error: the following .. 2024. 10. 28.
[논문 리뷰] SR3: Image Super-Resolution via Iterative Refinement (CVPR, 2021) 해당 논문은 CVPR 2021에서 소개된 논문으로 SR3 라는 이름으로 알려져 있다. DDPM을 통해 Super Resolution task를 수행하는 방법에 대해서 소개한다. 상세한 논문의 내용보다는 개념 위주로 간단하게 포스팅한다.paper, github1. IntroductionDeep generative model들은 좋은 이미지 생성 결과들을 보여주었다. 그러나 자기 회귀는 비용이 너무 많이 들고, Normalizaing Flow와 VAE는 품질이 종종 좋지 않다. GAN은 불안정성과 mode collapse 문제가 따라다닌다. 따라서 신중하게 설계된 regularization과 optimization 기법이 필요하다.DDPM 및 denoising score matching에서 영감을 받은 SR.. 2024. 5. 27.
자소서 작성 팁 나는 이미 취업한지 꽤 되었지만, 취업 이후에 후배들의 자소서를 많이 첨삭해 주었다. 물론 그것도 이미 시간이 꽤 지났지만... 컴퓨터를 뒤지다가 그 때 후배들에게 첨삭을 해 주면서 적어놓았던 내용이 있어서 혹시 도움이 될 사람이 있을까하여 기록을 남긴다. 물론 그 때와 지금의 취업시장은 많이 변했을테니 내가 생각했던 부분들이 아직도 유효할지는 모르겠다. 하지만 확실한 것은 자소서를 잘 쓰는 것이 매우 중요하다는 것이다. 나는 두 번의 도전 끝에 취업을 했는데, 첫 번째 취준생때는 서류부터 대부분 탈락했는데 두 번째에서는 스펙 하나 변한 것 없이 대부분의 서류를 통과했다. 1. 나에 대해서 파악하기 나에 대해 아는 것은 취업 준비에 있어서 매우 중요하다. 나는 누구인가에 대한 대답은 철학적인 것을 원하는.. 2024. 4. 17.
신경망과 MLE(Maximum Likelihood Estimation) Natation Pθ=P(x;θ)=p(x|θ) : 모두 θ라는 파라미터를 갖는 경우 x의 확률 값 Pθ(y|x)=P(y|x;θ)=P(y|x,θ) : θ라는 파라미터를 갖을 때, x가 주어졌을 때 y가 나올 확률 MLE Likelihood란 어떤 확률 분포에서 샘플링을 한 값, 혹은 데이터를 가장 잘 설명하는 파라미터를 찾는 일이다. 그걸 찾기 위해 Likelihood가 최대가 되는 값, 즉 Maximum Likelihood를 찾는다. Likelihood에 대해서는 아래 블로그에서 너무나 잘 설명해주었다고 생각이 들어서 해당 블로그의 링크를 남긴다. https://xoft.tistory.com/3.. 2024. 3. 14.