728x90
728x90

논문 리뷰 20

[논문 리뷰] SuperClass (Classification Done Right for Vision-Language Pre-Training)

개요논문 링크: https://arxiv.org/pdf/2411.03313코드: https://github.com/x-cls/superclassCLIP같은 multi-modal pre-training 방법론인데 정말 간단한데 성능이 괜찮게 나와서 리뷰를 하게 되었습니다. CLIP같은 경우 image 와 image를 설명하는 text를 각각 embedding해서 contrastive learning을 하는 방면, SuperClass에서는 image 를 설명하는 text를 V개의 token으로 변환한 후 classification loss를 사용해서 image encoder을 학습시킵니다. Text encoder이 필요 없기 때문에 computation도 줄어듭니다 (text embedding을 못 얻는 단..

[논문 리뷰] Implicit Warping for Animation with Image Sets

개요어떠한 reference 이미지가 주어졌을 때 motion을 입히고자 할 때 한 가지 인기가 있는 방법은 feature warping을 하는 것입니다.Monkey-Net, FOMM, face-vid2vid, headGAN 이 이쪽 방법 중 잘 알려져 있는 방법들인데 이들의 단점은 multiple reference image를 사용하는 것이 용이하지 않습니다. Free-HeadGAN 같은 경우 warping 된 feature을 soft-max 기반 평균으로 섞어주는데 자세히 보면 defect가 있습니다 (밑에 그림에 빨강 동그라미로 표시). 원인은 여러 reference 이미지를 warping 해서 생성할 때 취합이 잘 안 되어서 그렇다고 추정이 됩니다.따라서 저자들에 의하면 explicit warpi..

논문 리뷰/face 2024.08.17

[논문 리뷰] ShrinkMatch

개요 논문 링크: https://arxiv.org/pdf/2308.06777.pdf (Shrinking Class Space for Enhanced Certainty in Semi-Supervised Learning) 깃헙: https://github.com/LiheYoung/ShrinkMatch 이전 글: [논문 리뷰] FixMatch [논문 리뷰] ReMixMatch 요약: (classification 관련) semi-supervised learning 에서 SOTA를 찍은 최신 논문이다. FixMatch같은 방식들은 unlabeled data를 활용할 때 pseudo-label의 confidence가 낮으면 버리는 방식으로 학습을 하는데, 이렇게 하면 unlabeled data를 충분히 활용할 수가..

[논문 리뷰] DINO-v1 (Emerging Properties in Self-Supervised Vision Transformers)

개요 논문 링크: https://arxiv.org/abs/2104.14294 알아야 할 것들: ViT, multi-crop augmentation () 참고하면 도움 될만한 이전 글들 / 논문: [논문 리뷰] SwAV [논문 리뷰] MoCo-v1 (Momentum Contrast for Unsupervised Visual Representation Learning) [논문 리뷰] BYOL 요약: 이번에 리뷰하는 논문은 self-supervised learning 기법 중 하나입니다. 대부분의 저자들이 SwAV 논문 저자들과 동일한데, DINO의 핵심 아이디어는 SwAV 논문에서 제시했던 multi-crop augmentation을 self-distillation에 적용한 것이라고 생각하면 됩니다. 조금 ..

[논문 리뷰] HiFace: High-Fidelity 3D Face Reconstruction byLearning Static and Dynamic Details

개요 논문 링크: https://arxiv.org/abs/2303.11225 마이크로소프트에서 synthetic face dataset을 만든 이후 점점 face reconstruction 기술력이 좋아지고 있습니다. dense landmark 기반 face reconstruction 논문에서 보인 성능도 대단했는데, 이제 얼굴의 디테일(주름)도 reconstruction이 잘 되는 것 같네요. 정말 realistic한 synthetic dataset을 마이크로소프트에서 보유하고 있기 때문에 기존에 사용하지 않았던 학습 방식들을 도입할 수 있지만, 데이터셋이 공개되어있지는 않다 보니 저같이 데이터에 access 못하는 입장에서는 임팩트가 약간 한계가 있네요. 저자들이 공유한 결과를 보면 성능이 좋은게 정..

논문 리뷰/face 2023.08.01

[논문 리뷰] YOLOv7

개요 논문 링크: https://arxiv.org/abs/2207.02696 이전 글: [논문 리뷰] YOLOv6 제목: YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors 노트: YOLOv6보다 성능은 조금 안 좋다 (YOLOv6가 더 늦게 나왔다) 주요 내용: E-ELAN 구조 제안 모델 사이즈를 키우는 방식 제안 RepConvN 블록 제안 Auxiliary detection head를 사용할 때 label assignment 하는 방식 제안 Convolotion & batch normalization 합치는 방법으로 속도 살짝 증가 Implicit knowledge 사용 모델 EMA 사용 ..

[논문 리뷰] YOLOv6

개요 논문 링크: https://arxiv.org/abs/2209.02976 github 링크: https://github.com/meituan/YOLOv6 이전 글: YOLOv5 정리 제목: YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications 노트: YOLO v7보다 조금 늦게 나왔는데 v6라고 불린다. 성능대비 FPS가 기존의 YOLO보다 좋다. 요약: EfficientRep backbone 제안 Task alignment learning 활용 (label assignment 잘하는 방법) anchor free 방법 사용 (anchor box 가 없다는 뜻) VariFocal loss 도입 다양한 bbox regr..

[간단 리뷰] RepOptimizer (RepOpt-VGG)

개요 논문 링크: https://arxiv.org/abs/2205.15242 이전 글: [간단 리뷰] RepVGG: Making VGG-style ConvNets Great Again 제목: RE-PARAMETERIZING YOUR OPTIMIZERS RATHER THAN ARCHITECTURES RepVGG 같은 경우 train 할 때 3x3 conv, 1x1 conv, identity branch를 분리해서 block을 만들어서 사용하고, inference 할 때 3개의 branch들을 1개의 convolution operator로 합쳐서 사용한다. 이렇게 했을 때 문제 중 하나가 quantization이 잘 안 된다는 것이다 (간단하게 설명하자면 RepVGG에서 각 branch의 셩격이 다르다 보니..

[논문 리뷰] FixMatch

개요 논문 링크: https://arxiv.org/abs/2001.07685 이전 글: [논문 리뷰] ReMixMatch [논문 리뷰] Unsupervised Data Augmentation for Consistency Training semi-supervised learning 논문. 복잡해지는 semi-supervised training방법들에서 중요한 요소들을 잘 통합해서 간단하지만 성능이 좋은 방법이라고 저자들은 설명한다. 간단히 요약하자면 consistency regularization과 pseudo-labeling을 같이 사용하는 semi-supervised training 방법이라고 이해하면 된다. 방법 Notation L: 데이터셋에 class 수 B: batch size (labeled ..

728x90
728x90