728x90
728x90

논문 리뷰 49

[논문 리뷰] MeanShift

개요 논문 링크:https://arxiv.org/abs/2105.07269 관련 글: [논문 리뷰] BYOL, [논문 리뷰] SimSiam Self-distillation 기반의 self-supervised learning 기법이다. BYOL을 고도화한 방법이라고 봐도 될 것 같다. BYOL에서 한 이미지가 있으면 두 가지 방법으로 augmentation을 해서 각각 online encoder, target encoder을 통과한다. 그리고 online encoder을 통과한 embedding은 predictor을 통과해서 target encoder을 통과한 embedding을 예측하게 된다. MeanShift에서는 target encoder의 embedding을 그대로 예측하지 않고, embedding..

[논문 리뷰] SNCLR

개요 논문 링크: https://arxiv.org/abs/2303.17142 코드: https://github.com/ChongjianGE/SNCLR 관련 글: [논문 리뷰] SimCLR [논문 리뷰] NNCLR SNCLR을 SimCLR & NNCLR과 비교하면 이해하기 좋다 (밑에 그림 참고). 우선 SNCLR은 SimCLR같이 contrastive learning에 기반한 self-supervised learning 논문이다. 밑에 (a) 같이 SimCLR은 같은 이미지의 다른 augmentation (결국 같은 이미지)를 positive pair로 사용한다. 반면 NNCLR에서는 (c)처럼 embedding space에서 nearest neighbor을 positive pair로 사용한다. SNCL..

YOLOv5 정리

개요 YOLO family에 속하는 detection 모델. 네이밍에 논란이 좀 있었지만 (https://blog.roboflow.com/yolov4-versus-yolov5/; 논문도 출판하지 않았다), PyTorch로 사용하기 편하게 워낙 잘 정리되어서 이제 YOLO-v5라고 인정을 받게 되었다 (YOLO-v4보다 조금 늦게 나왔고, 조금 차이가 있다). 참고 자료: https://docs.ultralytics.com/yolov5/ https://github.com/ultralytics/yolov5 가지고 놀기 좋은 데이터: coco 128 (repository에서 data/coco128.yaml 참고) label format: class, x, y, w, h. 여기서 좌표계는 다음과 같다: (0,0..

[논문 리뷰] FaceScape

개요 기본적으로 고퀄 3DMM을 어떻게 만들었는지에 대한 논문이다. 그리고 이 3DMM 기반으로 single view face reconstruction을 하는 방법을 제시한다. 이번 리뷰에서는 3DMM 제작에 대해서 주로 다룰 것이다. 참고로 2개의 논문으로 쪼개서 나왔다: https://arxiv.org/abs/2111.01082 https://arxiv.org/abs/2003.13989 관련 포스트: [논문 리뷰] FLAME [논문 리뷰] FaceWarehouse FaceWarehouse와 비슷하게 FaceScape도 FACS 기반 표정을 사용한다. Shape은 다른 3DMM과 비슷하게 PCA를 사용한다. 제작 과정 데이터 수집 68개의 DSLR 카메라를 사용했다. 안면을 찍는 30대는 8K, 나머..

논문 리뷰/face 2023.05.17

[논문 리뷰] FLAME

개요 논문 제목: Learning a model of facial shape and expression from 4D scans ( https://ps.is.mpg.de/uploads_file/attachment/attachment/400/paper.pdf) FLAME은 SMPL 기반 3DMM (얼굴 모델)이라고 보면 된다 FaceWarehouse같은 3DMM과 다르게 PCA 사용. FACS 기반 blendshape은 중복적이기 때문에 더 효율적이라서 이렇게 했다고 함 (FACS 기반 blendshape은 비슷한 mesh를 다른 blendshape 조합으로 만들 수 있음) 모델 linear blend skinning 사용 N = 5023 vertices K = 4 joints (neck, jaw, eye..

논문 리뷰/face 2023.04.30

[논문 리뷰] FaceWarehouse

논문 링크: http://kunzhou.net/2012/facewarehouse-tr.pdf 표정 의미가 있는 3DMM을 만든 논문이다. PCA를 활용하는 방법과 대조적으로 이렇게 얻은 3DMM의 표정들은 해석이 가능하다 3DMM이란 다양한 사람의 얼굴의 모양과 표정을 나타낼 수 있는 모델이다. FaceWarehouse는 linear한 모델이다. linear 3DMM: \( V_{ijk}\)가 3DMM이라면 특정 사람의 얼굴은 \( F_{i}=\sum_{jk}V_{ijk}w^{id}_j w^{exp}_{k}\)로 나타낼 수 있다. 여기서 i는 face mesh의 vertex index이고, j는 identity index에 해당하고 k는 expression index에 해당한다. \( w^{id}\)는 ..

논문 리뷰/face 2023.04.27

[논문 리뷰] YOLOv4 (상세 리뷰)

개요 논문 링크: https://arxiv.org/abs/2004.10934 이전 글: [논문 리뷰] YOLO-v3 YOLOv3에 다양한 기법들을 추가해서 성능을 높인 논문이다. 여기서 성능은 단순히 AP (average precision)을 높이는 것보다 속도 대비 AP가 좋은 것을 뜻한다: 이것을 이루기 위해서 정말 많은 기법들이 추가되었다: 이번 포스트에는 이것들을 하나하나 뜯어보려고 합니다. 각각 길기 때문에 접은 글로 처리했습니다. 방법 1. Detection Model Backbone: 이미지를 처음 프로세싱하는 neural net 부분 Neck: neural net feature들로 FPN같이 다시 프로세싱하는 부분 Head: neck의 output으로 prediction하는 부분 다음 그림..

[논문 리뷰] ReMixMatch

개요 논문 링크: https://arxiv.org/abs/1911.09785 (REMIXMATCH: SEMI-SUPERVISED LEARNING WITH DISTRIBUTION ALIGNMENT AND AUGMENTATION ANCHORING) 이전 글: [논문 리뷰] MixMatch Semi-supervised learning 알고리즘 중 하나다. 이전 논문인 MixMatch에 distribution alignment와 augmentation anchoring이라는 두 가지 기법을 추가해서 성능을 높인 논문이다. Distribution alignment: unlabeled dataset의 pseudo-label distribution을 labeled dataset의 label distribution과 ..

[논문 리뷰] Virtual Adversarial Training

개요 논문 링크: https://arxiv.org/abs/1704.03976 (Virtual Adversarial Training: A Regularization Method for Supervised and Semi-Supervised Learning) Adversarial training 기법을 semi-supervised learning에 적용한 기법이라고 이해하면 된다. Labeled data에 대해서는 평소대로 학습을 하고, unlabeled data + labeled data에 대해서는 다음과 같이 adversarial training을 한다: 모델이 뱉어내는 output (classification probability)를 가장 잘 망가뜨리는 perturbation을 input에 더하고, 이..

[논문 리뷰] self-supervised learning 이 항상 도움될까?

다른 논문들에서도 관측되었지만 답은 No이다. (예전 글에서도 object detection에서 방해가 될 수 있다는 내용을 간단하게 다뤘었다 [논문 리뷰] 잡다한 지식 모음). Human pose estimation에서 방해된다는 결과가 최근에 또 나왔다: (https://arxiv.org/pdf/2303.05370.pdf) 여기서 PA-MPJPE라는 score은 낮으면 성능이 좋다고 해석하면 된다. 어떻게 보면 놀랍지 않지만, classification에서 그렇게 좋은 성능을 보이는 self-supervised learning 기법들이 random init에 비해서 더 안 좋은 성능을 보인다. SwAV 기법이 face representation을 학습하기에 좋다는 논문이 있는데 (https://arx..

728x90
728x90