YOLO9000
b本文先在YOLOv1的基础上提出了v2,之后提出了一种检测与分类的联合训练方法,之后在两个数据集上训练了一个YOLO9000(能检测超过9k类物体)。二者主要的模型结构是一致的
本文主要用的几个提点方法就是:
- BN层的加入,不再用dropout,
- High Resolution Classifier
- Convolutional With Anchor Boxes(SSD和faster RCNN的anchor),和SSD类似的思路
- Dimension Clusters,SSD的框手动设定,长宽比比较变态的时候就不好训练了,YOLOv2采用k-means聚类方法对训练集中的边界框做了聚类分析
- 一个新的特征提取模型,Darknet-19,模型变小了,但是mAP没掉
- Direct location prediction,
- Fine-Grained Features,
- Multi-Scale Training,由于YOLOv2模型中只有卷积层和池化层,所以YOLOv2的输入可以不限于图片的尺寸,robust的考虑可以用不同的尺寸作为输入去训练
其实这样看下来还是就一个感觉,v1很多想法都挺粗糙的,大部分都是借鉴其他论文的技巧,darknet倒是自己的东西,然后Multi-Scale Training的用到就可以利用不同尺度的图像做训练了。
论文比较短,只有9页。
This post is licensed under CC BY 4.0 by the author.