YOLOv5 输入尺寸详解

输入图像尺寸对训练的影响

关于Yolov5网络特点

YoloV5的整个⽹络CNN的层由3*3的卷积核进⾏卷积操作。在Backbone的最后阶段,会有⼀个ASPP结 构,它通过空洞卷积在Backbone最后阶段进⾏不同感受野的特征提取,之后送⼊Neck。

感受野对全局信息的影响

YoloV5的Baseline并没有采⽤位置感知的可变形卷积,它每个卷积层采⽤了固定感受野的33卷积和空洞卷积,相对地,模型在提取特征时,它的感受野就相对固定了。同样的图⽚,如果我们把它的尺⼨缩放⾄⽐640640更⼤的尺⼨进⾏训练,那么模型的获取的全局信息就相对下降。这就有⼀点盲⼈摸象的即视感了。

感受野对局部信息的影响

从另外⼀个⻆度来看,如果你的图像上有⼩物体,它位于640640中被32倍的stride浓缩后,它的位置信息可能消失于feature中了,只留给了feature抽象信息。如果我们把它的尺⼨缩放⾄⽐640640更⼤的尺⼨进⾏训练,那么模型在多次的stride后依然就感知到它的位置信息,这对于定位任务来说是带来了帮助的。就正如,我们可以⽤放⼤镜去关注了⼀些⼩物体的信息。

关于衡量标准

关键的概念

对于这两者概率,如果模型尽可能地预测更多的样本,那么它命中事先标记为有⽬标的样本的⼏率就⽐较⼤,此时,召回率就会⽐较⾼。但与此同时,由于⽣成了更多的预测样本,⽽事先标记为有⽬标的样本总数⼜是恒定不变时,于是此时的正确率就会下降。

关于这连个关键指标的计算,就需要引入其他的专业术语,便于进行公式计算。

通过上述几个指标所计算的正确率以及召回率公式。

8

F1&F2指标

单靠正确率以及召回率并不能很好的反应模型的实际识别效果,为此我们需要引入其他更科学的 指标来对模型的整体识别效果进行评估,首先在Yolov5中默认具备的是F1指标。F1指标权衡了正确率和召回率。假设正确率和召回率之和的值相对稳定,正确率和召回率任⼀个值偏⼩时,整体得到的F1分数会变得偏⼩,只有两者尽可能接近时才能得到⽐较可观的F1分数。

F1

FP对分⺟的贡献⽐FN⼤,这意味着,增加相同的FP值和FN值时,同样的FP值计算出来的F2 分数⽐同样的FN值计算出来的F2分数⼤。这就意味着,可以瞎猜,猜错⽐猜不出来得到的F2分数⼤。

F2

参考链接

目标检测比如 yolov5,训练输入图像大小默认是 640*640,这个是不是越大训练的效果越好

返回首页 发表评论

评论与讨论