728x90
728x90

논문 리뷰/others 5

기초 diffusion probabilistic model 이론 공부 로드맵

요즘 diffusion을 사용할 일이 좀 있어서 공부를 하고 있는데 기본부터 다 이해하려고 하니 양이 좀 많아서 자료를 정리해 보았습니다. 제대로 이해하려면 stochastic differential equation은 기본으로 알아야 하는데, 수학에 약하면 application 위주로만 공부하는 것이 현실적일 것 같다는 생각도 드네요. 기초 이론을 이해하기 위한 최소한의 자료라고 보시면 될 것 같고, 최신 논문들과 application관련 논문들은 생략하였습니다. 깃헙 레포는 대부분 논문에 있기 때문에 따로 링크를 걸지 않았습니다. 블로그 자료도 많기는 한데 보통 겉핥기라 결국 논문과 코드를 뜯어보는 것을 개인적으로 추천.기반이 되는 기초 이론Stochastic Differential Equations ..

[간단 리뷰] RepOptimizer (RepOpt-VGG)

개요 논문 링크: https://arxiv.org/abs/2205.15242 이전 글: [간단 리뷰] RepVGG: Making VGG-style ConvNets Great Again 제목: RE-PARAMETERIZING YOUR OPTIMIZERS RATHER THAN ARCHITECTURES RepVGG 같은 경우 train 할 때 3x3 conv, 1x1 conv, identity branch를 분리해서 block을 만들어서 사용하고, inference 할 때 3개의 branch들을 1개의 convolution operator로 합쳐서 사용한다. 이렇게 했을 때 문제 중 하나가 quantization이 잘 안 된다는 것이다 (간단하게 설명하자면 RepVGG에서 각 branch의 셩격이 다르다 보니..

[간단 리뷰] RepVGG: Making VGG-style ConvNets Great Again

개요 논문 링크: https://arxiv.org/abs/2101.03697 ResNet같이 residual block을 사용하거나 GoogLeNet같이 inception module를 사용하면 성능이 좋아지는 것은 잘 알려져 있지만 계산의 효율이 떨어진다. 이런 구조의 공통점은 다음 그림과 같이 정보가 여러 branch로 쪼개진 후 다시 합쳐진다는 것이다 (residual block, inception module 같은 구조들이 왜 도움이 되었는지는 해당 논문들 참고). 계산 효율성에서 이런 구조들의 단점은 한 residual block / inception module이 병렬적으로 한방에 계산이 안된다는 것이다. RepVGG 논문에서는 이러한 이점들을 살리면서 계산이 효율적으로 이뤄지도록 하는 것이 ..

[논문 리뷰] Sinkhorn Distances: Lightspeed Computation of Optimal Transport

개요 https://papers.nips.cc/paper/2013/hash/af21d0c97db2e27e13572cbf59eb343d-Abstract.html Earth mover's distance 혹은 optimal transport distance는 계산할 때 많은 연산량이 필요하다: 최소 필요 연산 량은 \( d^3 \log d\) (d는 point 의 수)라고 한다. 이 논문에서는 EMD를 entropy term으로 regularization을 한다. 이 regularization term 때문에 Sinkhorn fixed point iteration 알고리즘으로 regularized된regularized 된 EMD를 계산할 수 있게 된다. Sinkhorn fixed point iteration..

[논문 리뷰] 잡다한 지식 모음

Learning rate vs batch size: batch size를 바꾸면 learning rate는 어떻게 바꿔야할까? Square root scaling rule: 조금 오래된 논문 (https://arxiv.org/abs/1404.5997) 의하면 square root scaling rule을 주장하지만 "Theory suggests that when multiplying the batch size by k, one should multiply the learning rate by √ k to keep the variance in the gradient expectation constant." Linear scaling rule: 조금 더 최신 결과에 (https://arxiv.org/abs/..

728x90
728x90