728x90
728x90

논문 리뷰 49

[논문 리뷰] SuperClass (Classification Done Right for Vision-Language Pre-Training)

개요논문 링크: https://arxiv.org/pdf/2411.03313코드: https://github.com/x-cls/superclassCLIP같은 multi-modal pre-training 방법론인데 정말 간단한데 성능이 괜찮게 나와서 리뷰를 하게 되었습니다. CLIP같은 경우 image 와 image를 설명하는 text를 각각 embedding해서 contrastive learning을 하는 방면, SuperClass에서는 image 를 설명하는 text를 V개의 token으로 변환한 후 classification loss를 사용해서 image encoder을 학습시킵니다. Text encoder이 필요 없기 때문에 computation도 줄어듭니다 (text embedding을 못 얻는 단..

[논문 리뷰] Implicit Warping for Animation with Image Sets

개요어떠한 reference 이미지가 주어졌을 때 motion을 입히고자 할 때 한 가지 인기가 있는 방법은 feature warping을 하는 것입니다.Monkey-Net, FOMM, face-vid2vid, headGAN 이 이쪽 방법 중 잘 알려져 있는 방법들인데 이들의 단점은 multiple reference image를 사용하는 것이 용이하지 않습니다. Free-HeadGAN 같은 경우 warping 된 feature을 soft-max 기반 평균으로 섞어주는데 자세히 보면 defect가 있습니다 (밑에 그림에 빨강 동그라미로 표시). 원인은 여러 reference 이미지를 warping 해서 생성할 때 취합이 잘 안 되어서 그렇다고 추정이 됩니다.따라서 저자들에 의하면 explicit warpi..

논문 리뷰/face 2024.08.17

[논문 리뷰] LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control

개요LivePortrait는 최근 face reenactment 분야에서 성능이 좋게 나온 모델 중 하나입니다.arxiv: https://arxiv.org/abs/2407.03168github(학습코드 x): https://github.com/KwaiVGI/LivePortrait특징:Face vid2vid 을 조금 더 optimize했다Retargeting하는 방법론 제시Stitching하는 방법론 제시1번같은 경우 딱히 논문에 인사이트가 있지는 않고, 모델 구조를 face vid2vid 대비 optimization를 좀 했다고 보시면 됩니다. 그리고 양질의 데이터가 더 큰 역할을 했을 것이라고 추측됩니다. 2번은 참고할만한데 cross identity reenactment (source image와 d..

논문 리뷰/face 2024.08.15

기초 diffusion probabilistic model 이론 공부 로드맵

요즘 diffusion을 사용할 일이 좀 있어서 공부를 하고 있는데 기본부터 다 이해하려고 하니 양이 좀 많아서 자료를 정리해 보았습니다. 제대로 이해하려면 stochastic differential equation은 기본으로 알아야 하는데, 수학에 약하면 application 위주로만 공부하는 것이 현실적일 것 같다는 생각도 드네요. 기초 이론을 이해하기 위한 최소한의 자료라고 보시면 될 것 같고, 최신 논문들과 application관련 논문들은 생략하였습니다. 깃헙 레포는 대부분 논문에 있기 때문에 따로 링크를 걸지 않았습니다. 블로그 자료도 많기는 한데 보통 겉핥기라 결국 논문과 코드를 뜯어보는 것을 개인적으로 추천.기반이 되는 기초 이론Stochastic Differential Equations ..

[논문 리뷰] STAR Loss: 부정확한 facial landmark 데이터의 한계점에 대한 방안

개요 문제점들 Facial landmark detection 분야에서 SOTA 모델들을 사용해 봤으면 알겠지만 다들 성능이 시원지 않습니다. 대략적인 얼굴 모양은 잡아주지만, 디테일이 전혀 살지 않습니다. 눈을 감는 것이 잘 잡히지 않는다거나, 입술 모양의 위치가 부정확하다거나, 다양한 문제가 발생하는데요... 가장 큰 문제 중 하나는 결국 데이터입니다. 학계에서 주로 사용하는 데이터 (300W, WFLW 등등)는 사람이 label을 하는데 consistent 하게 얼굴 landmark를 label 하는 것이 결코 쉽지 않습니다. 특히 얼굴 경계에 해당하는 landmark는 정확히 어느 위치에 점을 찍어야 하는지가 애매하기 때문에 ambiguity가 심각하고, 이것이 open source data중 큰 ..

논문 리뷰/face 2024.02.03

[논문 리뷰] ShrinkMatch

개요 논문 링크: https://arxiv.org/pdf/2308.06777.pdf (Shrinking Class Space for Enhanced Certainty in Semi-Supervised Learning) 깃헙: https://github.com/LiheYoung/ShrinkMatch 이전 글: [논문 리뷰] FixMatch [논문 리뷰] ReMixMatch 요약: (classification 관련) semi-supervised learning 에서 SOTA를 찍은 최신 논문이다. FixMatch같은 방식들은 unlabeled data를 활용할 때 pseudo-label의 confidence가 낮으면 버리는 방식으로 학습을 하는데, 이렇게 하면 unlabeled data를 충분히 활용할 수가..

[논문 리뷰] DINO-v1 (Emerging Properties in Self-Supervised Vision Transformers)

개요 논문 링크: https://arxiv.org/abs/2104.14294 알아야 할 것들: ViT, multi-crop augmentation () 참고하면 도움 될만한 이전 글들 / 논문: [논문 리뷰] SwAV [논문 리뷰] MoCo-v1 (Momentum Contrast for Unsupervised Visual Representation Learning) [논문 리뷰] BYOL 요약: 이번에 리뷰하는 논문은 self-supervised learning 기법 중 하나입니다. 대부분의 저자들이 SwAV 논문 저자들과 동일한데, DINO의 핵심 아이디어는 SwAV 논문에서 제시했던 multi-crop augmentation을 self-distillation에 적용한 것이라고 생각하면 됩니다. 조금 ..

[논문 리뷰] Few-shot Geometry-Aware Keypoint Localization

개요 논문 링크: https://arxiv.org/abs/2303.17216 프로젝트 페이지: https://xingzhehe.github.io/FewShot3DKP/ 비교적 최근에 나왔던 논문인데 keypoint localization 분야에서 꽤 좋은 논문인 것 같습니다. 보통 keypoint detection을 하는 모델을 학습할 때 (예를 들어 300W dataset같이 얼굴의 68개 keypoint detection 하는 모델 등) 많은 (고퀄리티!) labeled data가 필요하지만, 이 논문에서는 적은 labeled example들로부터 꽤 좋은 성능을 낼 수 있는 학습 방식을 제안하였습니다. 큰 틀은 Nips 2022에 출판된 AutoLink 논문 방법과 유사합니다. 하지만 AutoLin..

논문 리뷰/face 2023.08.10

[논문 리뷰] HiFace: High-Fidelity 3D Face Reconstruction byLearning Static and Dynamic Details

개요 논문 링크: https://arxiv.org/abs/2303.11225 마이크로소프트에서 synthetic face dataset을 만든 이후 점점 face reconstruction 기술력이 좋아지고 있습니다. dense landmark 기반 face reconstruction 논문에서 보인 성능도 대단했는데, 이제 얼굴의 디테일(주름)도 reconstruction이 잘 되는 것 같네요. 정말 realistic한 synthetic dataset을 마이크로소프트에서 보유하고 있기 때문에 기존에 사용하지 않았던 학습 방식들을 도입할 수 있지만, 데이터셋이 공개되어있지는 않다 보니 저같이 데이터에 access 못하는 입장에서는 임팩트가 약간 한계가 있네요. 저자들이 공유한 결과를 보면 성능이 좋은게 정..

논문 리뷰/face 2023.08.01

[논문 리뷰] YOLOv7

개요 논문 링크: https://arxiv.org/abs/2207.02696 이전 글: [논문 리뷰] YOLOv6 제목: YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors 노트: YOLOv6보다 성능은 조금 안 좋다 (YOLOv6가 더 늦게 나왔다) 주요 내용: E-ELAN 구조 제안 모델 사이즈를 키우는 방식 제안 RepConvN 블록 제안 Auxiliary detection head를 사용할 때 label assignment 하는 방식 제안 Convolotion & batch normalization 합치는 방법으로 속도 살짝 증가 Implicit knowledge 사용 모델 EMA 사용 ..

728x90
728x90