728x90
728x90

self-supervised learning 17

[논문 리뷰] SuperClass (Classification Done Right for Vision-Language Pre-Training)

개요논문 링크: https://arxiv.org/pdf/2411.03313코드: https://github.com/x-cls/superclassCLIP같은 multi-modal pre-training 방법론인데 정말 간단한데 성능이 괜찮게 나와서 리뷰를 하게 되었습니다. CLIP같은 경우 image 와 image를 설명하는 text를 각각 embedding해서 contrastive learning을 하는 방면, SuperClass에서는 image 를 설명하는 text를 V개의 token으로 변환한 후 classification loss를 사용해서 image encoder을 학습시킵니다. Text encoder이 필요 없기 때문에 computation도 줄어듭니다 (text embedding을 못 얻는 단..

[논문 리뷰] DINO-v1 (Emerging Properties in Self-Supervised Vision Transformers)

개요 논문 링크: https://arxiv.org/abs/2104.14294 알아야 할 것들: ViT, multi-crop augmentation () 참고하면 도움 될만한 이전 글들 / 논문: [논문 리뷰] SwAV [논문 리뷰] MoCo-v1 (Momentum Contrast for Unsupervised Visual Representation Learning) [논문 리뷰] BYOL 요약: 이번에 리뷰하는 논문은 self-supervised learning 기법 중 하나입니다. 대부분의 저자들이 SwAV 논문 저자들과 동일한데, DINO의 핵심 아이디어는 SwAV 논문에서 제시했던 multi-crop augmentation을 self-distillation에 적용한 것이라고 생각하면 됩니다. 조금 ..

[논문 리뷰] W-MSE

개요 논문 링크: https://arxiv.org/abs/2007.06346 제목: Whitening for Self-Supervised Representation Learning 이전 글: [논문 리뷰] BYOL [논문 리뷰] SimSiam BYOL에서 어떻게 degenerate solution을 피해 가는지에 대해서 많은 논란이 있었지만, 몇 가지 study에 의하면 적어도 projection / predictor head (MLP)에 있는 Batch Normalization이 중요한 역할을 한다 (https://arxiv.org/abs/2010.00578, https://generallyintelligent.com/research/2020-08-24-understanding-self-supervis..

[논문 리뷰] MeanShift

개요 논문 링크:https://arxiv.org/abs/2105.07269 관련 글: [논문 리뷰] BYOL, [논문 리뷰] SimSiam Self-distillation 기반의 self-supervised learning 기법이다. BYOL을 고도화한 방법이라고 봐도 될 것 같다. BYOL에서 한 이미지가 있으면 두 가지 방법으로 augmentation을 해서 각각 online encoder, target encoder을 통과한다. 그리고 online encoder을 통과한 embedding은 predictor을 통과해서 target encoder을 통과한 embedding을 예측하게 된다. MeanShift에서는 target encoder의 embedding을 그대로 예측하지 않고, embedding..

[논문 리뷰] SNCLR

개요 논문 링크: https://arxiv.org/abs/2303.17142 코드: https://github.com/ChongjianGE/SNCLR 관련 글: [논문 리뷰] SimCLR [논문 리뷰] NNCLR SNCLR을 SimCLR & NNCLR과 비교하면 이해하기 좋다 (밑에 그림 참고). 우선 SNCLR은 SimCLR같이 contrastive learning에 기반한 self-supervised learning 논문이다. 밑에 (a) 같이 SimCLR은 같은 이미지의 다른 augmentation (결국 같은 이미지)를 positive pair로 사용한다. 반면 NNCLR에서는 (c)처럼 embedding space에서 nearest neighbor을 positive pair로 사용한다. SNCL..

[논문 리뷰] self-supervised learning 이 항상 도움될까?

다른 논문들에서도 관측되었지만 답은 No이다. (예전 글에서도 object detection에서 방해가 될 수 있다는 내용을 간단하게 다뤘었다 [논문 리뷰] 잡다한 지식 모음). Human pose estimation에서 방해된다는 결과가 최근에 또 나왔다: (https://arxiv.org/pdf/2303.05370.pdf) 여기서 PA-MPJPE라는 score은 낮으면 성능이 좋다고 해석하면 된다. 어떻게 보면 놀랍지 않지만, classification에서 그렇게 좋은 성능을 보이는 self-supervised learning 기법들이 random init에 비해서 더 안 좋은 성능을 보인다. SwAV 기법이 face representation을 학습하기에 좋다는 논문이 있는데 (https://arx..

[논문 리뷰] NNCLR

개요 논문 링크: https://arxiv.org/abs/2104.14548 (With a Little Help from My Friends: Nearest-Neighbor Contrastive Learning of Visual Representations) 참고하면 좋은 이전 글: [논문 리뷰] SimCLR 아이디어는 매우 간단하다: SimCLR에서는 positive pair을 같은 이미지를 두 가지 방법으로 augmentation 한 pair이다. NNCLR의 아이디어는 한 이미지의 positive pair을 feature space에서 가장 가까운 다른 이미지로 잡는 것이다. 이런 간단한 아이디어를 추가하면 SimCLR의 성능이 많이 좋아진다 (다른 SOTA 성능들과 비슷). 다음 그림을 보면 이해..

[논문 리뷰] Barlow Twins

개요 논문 링크: https://arxiv.org/abs/2103.03230 (Barlow Twins: Self-Supervised Learning via Redundancy Reduction) Self-supervised learning 기법 중 하나. 이미 여러 가지 방법들이 있는데, contrastive 방법들 (예: [논문 리뷰] SimCLR ), clustering 방법들(예: [논문 리뷰] SeLa,[논문 리뷰] SwAV), prediction network를 사용하는 방법들 ([논문 리뷰] BYOL,[논문 리뷰] SimSiam)같은 방법들과는 다른 방법을 제시한다. 밑에 그림과 같이 이미지를 두 가지 방법으로 augmentation을 해줘서 embedding z를 얻고, cross-corre..

[논문 리뷰] SimSiam

개요 논문 링크: https://arxiv.org/abs/2011.10566 참고하면 좋은 이전 글: 2023.03.01 - [paper review] - [논문 리뷰] BYOL (Bootstrap Your Own Latent) SimSiam은 Siemese network를 활용해서 self-supervised learning을 하는 방식이다. BYOL을 이해하고 있다면, BYOL에서 momemtum encoder (모델의 exponential moving average )을 제거한 것이라고 생각하면 된다. 다음 그림이 잘 요약해 준다. 우선 이미지를 다른 방식으로 augmentation해서 같은 network에 통과시킨다. 한쪽에서는 predictor h를 사용해서 다른 쪽 feature을 예측하는 방..

[논문 리뷰] SwAV

개요 제목: Unsupervised Learning of Visual Features by Contrasting Cluster Assignments 논문 링크: https://arxiv.org/abs/2006.09882 참고하면 좋은 이전 글: 2023.02.18 - [paper review] - [논문 리뷰] Sinkhorn Distances: Lightspeed Computation of Optimal Transport 2023.03.04 - [paper review] - [논문 리뷰] SeLa Semi-supervised learning 기법 중 하나. 대부분의 contrastive learning 기법들은 많은 resource가 있어야 학습 가능하다. 보통 large batch size를 사용하거..

728x90
728x90