Post

YOLO9000

b本文先在YOLOv1的基础上提出了v2,之后提出了一种检测与分类的联合训练方法,之后在两个数据集上训练了一个YOLO9000(能检测超过9k类物体)。二者主要的模型结构是一致的

本文主要用的几个提点方法就是:

  1. BN层的加入,不再用dropout,
  2. High Resolution Classifier
  3. Convolutional With Anchor Boxes(SSD和faster RCNN的anchor),和SSD类似的思路
  4. Dimension Clusters,SSD的框手动设定,长宽比比较变态的时候就不好训练了,YOLOv2采用k-means聚类方法对训练集中的边界框做了聚类分析
  5. 一个新的特征提取模型,Darknet-19,模型变小了,但是mAP没掉
  6. Direct location prediction,
  7. Fine-Grained Features,
  8. Multi-Scale Training,由于YOLOv2模型中只有卷积层和池化层,所以YOLOv2的输入可以不限于图片的尺寸,robust的考虑可以用不同的尺寸作为输入去训练

其实这样看下来还是就一个感觉,v1很多想法都挺粗糙的,大部分都是借鉴其他论文的技巧,darknet倒是自己的东西,然后Multi-Scale Training的用到就可以利用不同尺度的图像做训练了。

论文比较短,只有9页。

This post is licensed under CC BY 4.0 by the author.

Trending Tags