개요논문 링크: https://arxiv.org/pdf/2411.03313코드: https://github.com/x-cls/superclassCLIP같은 multi-modal pre-training 방법론인데 정말 간단한데 성능이 괜찮게 나와서 리뷰를 하게 되었습니다. CLIP같은 경우 image 와 image를 설명하는 text를 각각 embedding해서 contrastive learning을 하는 방면, SuperClass에서는 image 를 설명하는 text를 V개의 token으로 변환한 후 classification loss를 사용해서 image encoder을 학습시킵니다. Text encoder이 필요 없기 때문에 computation도 줄어듭니다 (text embedding을 못 얻는 단..