YOLOv3
v3应该是这一系列里面有创新的最后一版了(也是Joseph Redmon的最后一版),后面的v4堆了一坨优化,说创新,也谈不上。v5感觉争议比较大。
v3的行文比较像个报告,不太类似一个完整的paper,相比YOLOv2,YOLOv3最大的变化包括两点:
- 使用残差模型
- FPN架构
前面的就是Darknet53,后面的就是和SSD很想的多尺度检测。
YOLOv3每个位置使用3个先验框,所以使用k-means得到9个先验框,并将其划分到3个尺度特征图上,尺度更大的特征图使用更小的先验框,和SSD类似。
总的来看,目标检测到至今大多数base在CNN上的解决方案比较的成体系了,目前这几篇论文看下来比较好的思路就是:
- 设置先验框
- 全卷积做预测
- 一个好且轻量级的头部网络
- 多尺度特征图做预测
实际的代码应该也有很多细节,跑一遍代码实现也是必要的
This post is licensed under CC BY 4.0 by the author.