【纯干货级教程】深度学习根据loss曲线进行分析调参

相信很多刚刚接触目标检测系列算法小伙伴跑深度学习算法时会有许多困惑，比如训练得出的loss曲线有什么意义？训练的一些参数要如何设置选择？选择哪个算法模型作为baseline、选择哪个参数量/复杂度/深度的模型进行训练最为合适？

本文将主要从训练过程中、训练得出的结果文件来进行阐述如何对自己的模型进行精进。如何对自己的模型进行调参分析。

当然，本文在阐述的时候可能会存在结论不全的情况，若你有相关疑问，欢迎在评论区批评指正、互相交流！我也会在后续持续进行更新完来完善该文章，欢迎关注。

一、训练得出的loss曲线有什么作用？

在训练结束后，通常会输出loss曲线，它是一种工具，能够帮助我们用以判断训练的好坏。

有些初学的小伙伴可能会将loss曲线当成影响指标的原因，但注意此处不能顾名思义，你在训练过程中若看见两轮输出的loss数值均正常下降，而评估的结果却不一定会变好，它只能作为一种分析的手段，没有绝对性。

以yolov5/v7为例，loss曲线通常输出trainloss和valloss

输出的loss曲线通常会有以下特征。

1.正常收敛

现象描述：train和val的曲线均趋于平缓，指标的值也趋于平缓，虽然train看起来还未收敛（主要原因是我没认真去调~）。同时，示例图片有些波动，但这其实是数据集较少的原因导致，此情况见第6点。

2.没有完全收敛（欠拟合）

现象描述：曲线没有下降到趋于平缓的情况。此处的val乍一看开始是下降了然后趋于平缓，但这是视觉上的问题，本质上忽略掉前几个epoch则可发现val仍在下降，且下降地不完全明显。同时，四个指标的趋势仍在上升，将其数据单独拿出则可明白仍未收敛。

解决方法：加大epoch、加大batchsize、换用更深的模型、很难拟合的情况尝试加载预训练权重、加大数据集评估结果较差的那个类别的图片数量。

3.过拟合

现象描述：如图，指标的曲线正常下降趋于平缓甚至逐渐降低，而val由正常下降再平缓再趋于上升，这是一个典型的过拟合情况。

解决方法：减少epoch、减少batchsize、增加数据集数据量（一般不这样做）、减小网络复杂度、减小层数、更换参数量较低的模型如YOLOv5x转YOLOv5s测试。

4.过早收敛

现象描述：乍一看曲线很平滑，也趋于收敛。但仔细观察，在约第20个epoch时，模型快速收敛，这或许说明采用的模型深度太深、数据集太过简单（也侧面反映了模型深度深过于复杂）、batchsize过高。

解决方法：降低batchsize、换参数量、深度较小的模型或对某些模块进行删除修改或替换轻量化模块等、降低学习率。

若你的数据集本来就很简单，则属于正常收敛，但若你的数据集并不小，如有几千、几万张，则考虑上述解决方法。

5.训练失败

（此处就不配图了，博主暂时没遇到这种情况，请根据现象描述进行判断）

现象描述：曲线乱跳、没有指标输出（均为0）

这种情况的train和val的曲线趋势相同，几乎都是一条水平的直线，并且虽然花了时间训练、训练过程中没有报什么错，但模型在本次训练中几乎没有学习到什么。该现象存在以下原因：

当在不对拉取的项目文件做修改时，往往是数据集的原因，数据集出现了严重的标注错误、类别混淆等。

数据集数量太小，选择的epoch也很少，不足以支持学习。

检测的类别的模样相差很大，但却标注了同一类名称，目标较难识别。这种情况需要对数据集进行重新设计。

项目文件存在缺陷，这种情况通过

解决方法：先检查数据集，这通常绝大部分原因是数据集的问题（尤其是数量、质量）。确认无误后尝试更换优化器。再测试别的对比试验，实在不行就放弃该实验采用别的实验，节约时间。

6.曲线震荡幅度大

现象描述：曲线不是很平滑规整、同时指标也不是很平滑规整。

解决方法：加大数据集的数据量，略微增加epoch。

7.train和val均升高

现象描述：这种情况通常train和val的loss图像都是向上的，指标很差或直接为0。这种情况博主也没遇到过，故不配图。

解决方法：若是自己设计的网络，检查模型是否存在问题，是否合理。检查自己配置文件的参数设置是否正常。检测数据集是否存在严重质量上的问题。

正常会遇到的情况绝大多数是：过拟合、欠拟合。

很多时候盲目增大batchsize、epoch反而会降低评估的结果。

同时，看loss曲线的变化并不能百分百判断出遇到的情况，博主建议大家一点一点地做修改，一次解决一个问题测试后再解决，一步一步排错，方能完美地解决问题。

二、一些心得：如何最大情况地避免训练过程中出现问题？我们在训练前应该做到什么？

1.明确目的

意思是你进行训练要做什么用？工业或是科研？以科研为例，分析你的场景需求是否适合讲故事，自己能否说得通等，分析比如你在疫情期间去写检测口罩的论文会更好通过，现在显然作用没有之前那么大。

2.选择合适的数据集

选择数据集的时候重点关注数据集是否存在标注错误、图像质量如何、图像数量是否足够支撑一篇论文所需的量、数据文件大小是否适合你的机器等。

及时排除能省不少事。如RSOD数据集就存在标注错误，这很可能会对你的训练结果产生一定影响。

3.先测对比试验

选择合适的baseline作为你的改进基础，据此进行改进。笔者曾在SSDD进行实验，当我测试其在YOLOv7-tiny的训练结果时在83左右正常收敛，输出曲线也并无什么异常，于是直接进行魔改，测试了一段时间涨点百分之11后一测对比试验，结果只打过了YOLOv5-n，于是惨遭失败。因此，为了节约时间，一定要注意自己的步骤。