YOLO9000

Posted Oct 16, 2021 Updated May 1, 2024

By SimonCho 1 min read

b本文先在YOLOv1的基础上提出了v2，之后提出了一种检测与分类的联合训练方法，之后在两个数据集上训练了一个YOLO9000（能检测超过9k类物体）。二者主要的模型结构是一致的

本文主要用的几个提点方法就是：

BN层的加入，不再用dropout，
High Resolution Classifier
Convolutional With Anchor Boxes（SSD和faster RCNN的anchor），和SSD类似的思路
Dimension Clusters，SSD的框手动设定，长宽比比较变态的时候就不好训练了，YOLOv2采用k-means聚类方法对训练集中的边界框做了聚类分析
一个新的特征提取模型，Darknet-19，模型变小了，但是mAP没掉
Direct location prediction，
Fine-Grained Features，
Multi-Scale Training，由于YOLOv2模型中只有卷积层和池化层，所以YOLOv2的输入可以不限于图片的尺寸，robust的考虑可以用不同的尺寸作为输入去训练

其实这样看下来还是就一个感觉，v1很多想法都挺粗糙的，大部分都是借鉴其他论文的技巧，darknet倒是自己的东西，然后Multi-Scale Training的用到就可以利用不同尺度的图像做训练了。

论文比较短，只有9页。

This post is licensed under CC BY 4.0 by the author.

Trending Tags