728x90
728x90

object detection 10

[논문 리뷰] YOLOv7

개요 논문 링크: https://arxiv.org/abs/2207.02696 이전 글: [논문 리뷰] YOLOv6 제목: YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors 노트: YOLOv6보다 성능은 조금 안 좋다 (YOLOv6가 더 늦게 나왔다) 주요 내용: E-ELAN 구조 제안 모델 사이즈를 키우는 방식 제안 RepConvN 블록 제안 Auxiliary detection head를 사용할 때 label assignment 하는 방식 제안 Convolotion & batch normalization 합치는 방법으로 속도 살짝 증가 Implicit knowledge 사용 모델 EMA 사용 ..

[논문 리뷰] YOLOv6

개요 논문 링크: https://arxiv.org/abs/2209.02976 github 링크: https://github.com/meituan/YOLOv6 이전 글: YOLOv5 정리 제목: YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications 노트: YOLO v7보다 조금 늦게 나왔는데 v6라고 불린다. 성능대비 FPS가 기존의 YOLO보다 좋다. 요약: EfficientRep backbone 제안 Task alignment learning 활용 (label assignment 잘하는 방법) anchor free 방법 사용 (anchor box 가 없다는 뜻) VariFocal loss 도입 다양한 bbox regr..

[논문 리뷰] YOLOX

개요 논문 링크: https://arxiv.org/abs/2107.08430 참고: [논문 리뷰] YOLO-v3 Object detection분야에서 anchor free detection (anchor box 사용하지 않는 방식), optimal label assignment (어떻게 효율적으로 GT를 anchor box/point에 할당하는가), NMS free (NMS를 사용 안 하는 방식) 방식들의 발전을 YOLO 시리즈에 추가한 논문. YOLO v4 & v5같은 경우 anchor을 사용하는 방식에 특화되어 있기 때문에 YOLO v3를 기반으로 설계하였다고 한다. Figure 1을 보면 당시 YOLOX가 정말 효율적인 것을 알 수 있다 방법 학습 방식 (모든 모델에 적용) COCO train201..

[논문 리뷰] EfficientDet

개요 & Feature Pyramid Network, EfficientNet 설명 논문 링크: https://arxiv.org/abs/1911.09070 제목: EfficientDet: Scalable and Efficient Object Detection Object detection 관련 논문. 이 논문에서 제시하는 핵심 아이디어는 크게 2개가 있다: 1. Efficient multi-scale feature fusion: FPN을 발전시킨 BiFPN을 제안 (FPN에 대한 내용은 접은글 참고) 더보기 ResNet같은 convolutional network는 중간중간 pooling을 하면서 feature dimension이 작아지는데, 이 때문에 spatial resolution에 대한 정보를 조금씩..

[논문 리뷰] PP-YOLO v1 (+v2)

PP-YOLO v1 개요 EfficientDet와 YOLO-v4 조금 이후 나온 논문. FPS 대비 성능이 더 좋다고 한다. 참고하면 좋은 글: [논문 리뷰] YOLO-v4 (상세 리뷰) [논문 리뷰] EfficientDet 방법 YOLO-v3를 더 좋게 하는 방법들 Architecture 요약본은 밑에 그림 참고 Backbone: ResNet50-vd-dcn vd는 정확히 어떤 버전을 지칭하는지 잘 모르겠다 (찾아보면 "Bag of Tricks for Image Classification with Convolutional Neural Networks"에서 나오는 ResNet-50-D인 것 같아 보이지만 잘 모르겠다) dcn: deformable convolution network. 너무 많이 추가하면 ..

YOLOv5 정리

개요 YOLO family에 속하는 detection 모델. 네이밍에 논란이 좀 있었지만 (https://blog.roboflow.com/yolov4-versus-yolov5/; 논문도 출판하지 않았다), PyTorch로 사용하기 편하게 워낙 잘 정리되어서 이제 YOLO-v5라고 인정을 받게 되었다 (YOLO-v4보다 조금 늦게 나왔고, 조금 차이가 있다). 참고 자료: https://docs.ultralytics.com/yolov5/ https://github.com/ultralytics/yolov5 가지고 놀기 좋은 데이터: coco 128 (repository에서 data/coco128.yaml 참고) label format: class, x, y, w, h. 여기서 좌표계는 다음과 같다: (0,0..

[논문 리뷰] YOLOv4 (상세 리뷰)

개요 논문 링크: https://arxiv.org/abs/2004.10934 이전 글: [논문 리뷰] YOLO-v3 YOLOv3에 다양한 기법들을 추가해서 성능을 높인 논문이다. 여기서 성능은 단순히 AP (average precision)을 높이는 것보다 속도 대비 AP가 좋은 것을 뜻한다: 이것을 이루기 위해서 정말 많은 기법들이 추가되었다: 이번 포스트에는 이것들을 하나하나 뜯어보려고 합니다. 각각 길기 때문에 접은 글로 처리했습니다. 방법 1. Detection Model Backbone: 이미지를 처음 프로세싱하는 neural net 부분 Neck: neural net feature들로 FPN같이 다시 프로세싱하는 부분 Head: neck의 output으로 prediction하는 부분 다음 그림..

[논문 리뷰] YOLOv3

개요 논문 링크: https://arxiv.org/abs/1804.02767 이전 글: 2023.01.31 - [paper review] - [논문 리뷰] YOLO-v2 사실 논문이라기보다 informal tech report이라서 글이 재미있다. 이 report에서는 YOLO-v2 성능을 더 높이는 방안들을 소개한다. 트릭들 bbox 관련 우선 bbox는 예전처럼 \( t_x, t_y, t_w, t_h\)를 예측한다. \( c_x, c_y \)는 왼쪽 위에 코너에서부터 offset이고 정수 값을 갖는다. \( p_w, p_h\) 는 bbox 너비와 높이의 prior. 학습할 때 t 값에 대해서는 square error loss를 사용한다. 예전에는 confidence score을 예측했다면 (v1 참고..

[논문 리뷰] YOLOv2

개요 논문 링크: https://arxiv.org/abs/1612.08242 이전 글: 2023.01.24 - [paper review] - [논문 리뷰] YOLO-v1 YOLO-V1은 빠르지만 성능이 뛰어난 편은 아니었다. 본 논문에서는 YOLO-v1의 성능을 어떻게 높이는 방안들을 제시한다. Detection dataset은 classification dataset에 비해서 dataset 사이즈도 작고, class label도 적다는 문제가 있다. 본 논문에서는 detection 문제를 해결하기 위해 classification dataset을 사용하는 방법을 제시한다. 방법 YOLO-v1의 문제점: low recall, large localization error. 1. Batch Normalizat..

[논문 리뷰] YOLOv1

개요: 논문 링크: https://arxiv.org/abs/1506.02640 이미지에서 물체를 찾는 방식 중 R-CNN 같은 방식들은 우선 물체가 있을법한 영역들을 먼저 찾고 (region proposal), 그 영역들에 대해서 물체가 있는지, 또한 어떤 물체들이 있는지 classifier을 통해서 구하고, 영역에 대해서 post processing을 합니다. 이렇게 다소 복잡한 파이프라인을 통과시키는 방식과는 대조적으로 YOLO (you only look once)에서는 단 한 번에 어떤 물체가 어디에 있는지 예측합니다. 특징: 한번에 예측을 하기 때문에 단순하고 빠름 이미지 전체를 보고 예측을 함 (R-CNN 같은 경우 region proposal에서 나온 영역만 보기 때문에 이미지 전체에 대한 정..

728x90
728x90