基于 Sharpness-Aware Minimization 程序的最优 Rho 值选择论文

发布时间：2023-04-14 13:50:47 文章来源：SCI论文网我要评论

SCI论文（www.lunwensci.com）

　　摘要：现代神经网络模型仅依赖于 training loss 值的优化方式进行训练 , 由于使用了过多的参数 (Over-parameterize), 在这种情况下, 即便 training loss 值很低 , 也依旧无法保证模型的泛化 (Generalization) 能力。P. Foret 和他的合作者 [1] 提出了一个名为 Sharpness-Aware Minimization (SAM) 的程序,来同时最小化 Loss Value and Loss Sharpness,SAM 程序在基准数据集中提升了模型的泛化能力。SAM 程序有一个单一的超参数 ρ(即 the Neighborhood Size),P. Fore 等人通过网格搜索的方式在 CIFAR 训练集中找到了最佳超参数 ρ=0.05.但在相关人员实际训练的过程中 [2],不同的训练集与模型的最佳超参数 ρ 并非均等于 0.05.在训练时使用不恰当的超参数 ρ 会浪费计算资源且影响模型的泛化能力,我们提出一种简单的实验方式,以便在训练初期快速找到超参数 ρ 的最佳值。

　　关键词：SAM 程序,泛化能力,最佳超参数

　　Optimal Rho Value Selection Based on Sharpness-Aware Minimization Program

　　SHEN Aoran

　　(St.Cloud State University,Saint Cloud, MN 56301-4498)

　　【Abstract】： Modern neural network models rely only on the optimization of loss values for training. Due to Over-parameterize, in this case, even if the training loss value is very low, the Generalization ability of the model is still not guaranteed. P. Foret and his co-workers proposed a program called Sharpness-Aware Minimization (SAM) to simultaneously minimize the Loss Value and Loss Sharpness. The SAM program improves the generalization capability of the model in the benchmark dataset. The SAM program has a single hyperparameter ρ (the Neighborhood Size). P. Fore et al found the optimal hyperparameter ρ = 0.05 in the CIFAR training set by means of a grid search. However, in the process of actual training by those involved, the optimal hyperparameters ρ for diﬀerent training sets and models are not all equal to 0.05. Using inappropriate hyperparameters ρ during training wastes computational resources and aﬀects the generalization ability of the model. We propose a simple experimental approach to quickly ﬁnd the optimal value of the hyperparameter ρ at the early stage of training.

　　【Key words】： SAM program;generalization capability;best hyperparameters

　　0 引言

　　模型的泛化能力是机器学习对新鲜样本的适应能力。而评价一个模型的好坏可以引入奥卡姆剃刀原则, 即简单有效原理,若有一些连续点,可以用二次或更复杂的函数拟合,那么就用二次函数来拟合。但同时, Over-parameterize 导致训练的模型泛化能力弱, 我们需要一个新的方式优化模型, P. Foret 和他的合作者提出了 SAM 程序,使用 SAM 提高了一系列广泛研究的计算机视觉任务和模型的模型泛化能力。

　　1 损失函数

　　损失函数是一个将随机事件或其相关随机变量的值映射为非负实数的函数,以表示随机事件的“损失”[3]。对于机器学习,损失函数一般收敛于最优点的宽阔平坦区域边界附近的点,大部分时候,参数收敛在 FlatMinima 区域的模型, 比参数收敛在 Sharp Minima 区域的模型,具有更好的泛化能力,如图 1 所示可直观表现该观点 [4]。鞍点所有参数的一阶导数均为 0 且存在某一参数的二阶导数小于 0.极大值的一阶导数均为 0 且对于所有参数二阶导数均大于 0.

　　2 SAM 程序原理

　　SAM 程序(锐度感知最小化)是一种新的、有效的方法,它可以同时减小损失值和损失锐度,在领域 Rho 内寻找具有均匀的低损失值的参数, SAM 在各种基准数据集上都改善了的模型泛化。如图 2 所示为利用 SGD 训练与利用 SAM 程序训练的对比。

　　2.1 SAM 程序的原理

　　现代神经网络模型中损失函数通常是非凸的,因此具有多个局部最小值,这些最小值产生的 loss 值会直接影响模型的泛化能力 [5]。P. Fore 等人给出如式(1) 所示的理论 [6] ：

h 是一个严格的单调递增函数, LS 是在训练集 S 上的损失值,如式(2)所示：

　　2.2 SAM 程序的实现

　　P.Foret 在论文中给出了 SAM 程序的伪代码,我们使用 Python+Pytorch 实现核心代码,如图 4 所示。

　　3 实验过程

　　为了寻找 SAM 程序中的最优邻域值 Rho,首先应验证该超参数对模型训练过程具有重要影响,其次应验证是否存在一个最优邻域值对所有数据集和模型均有效。

3.1 验证 Neighborhood Size 对训练过程的影响

　　我们首先评估 SAM 程序设置不同 Neighborhood Size 对验证集准确性的影响。我们在 GPU 为 3070Ti Laptop 16G、CPU 为 Ryzen 9 5900HX、运行内存为 32GiB 的主机上进行训练,训练集选择 CIFAR-10 和 CIFAR-100.模型选择 Resnet-50、Resnet-101、Resnet-152. 超参数如表 1、表 2 所示。

　　3.2 寻找最优邻域值 Rho 的方法

　　当保持 Rho 值不变时,模型训练过程较为平缓。一般表现为 Train 集准确率迅速提升,之后上升趋势平缓。而当使用每周期变化的 Rho 值时,模型训练过程初期准确度波动较大。一般表现为 Train 集准确率迅速提升,之后突然小幅下降,并发生震荡,再出现一个相对平缓的上升趋势。Train 集准确率波动幅度最大的区域所使用的 Rho 值,与通过表格搜索找到的最优 Rho 值相符。通过该方式可以快速找到最优 Rho 值。

　　4 实验结果与分析

　　本文首先介绍了 SAM 程序的基本原理, 并对原作者提出的许多关键函数给予说明,之后通过原论文的理论, 给出了 SAM 程序实现的 Python 代码示例。本文的研究重点是 SAM 程序中的 Rho 值选择,我们运用表格搜索的方式,确定了不同模型与不同数据集具有不同的最优 Rho 值,在此理论基础上,通过对同一模型与同一数据集的不同 Batch 运用大量不同的 Rho 值的 Loss 值结果绘制图表如表 3 所示,通过该图表总结规律,确定曲线抖动最陡的区域所对应的 Rho 值为相对最优 Rho 值。

　　参考文献

　　[1] FORET P,KLEINER A,MOBAHI H,et al.Sharpness-aware Minimization for Eﬃciently Improving Generalization[C]// International Conference on Learning Representations,2021.

　　[2] Jungmin Kwon.Rho for Adaptive Sharpness Aware Minimization (ASAM) #37[OL].(2021-07-30).github.com/ davda54/sam/issues/37.

　　[3] Prince Grover.5 Regression Loss Functions All Machine Learners Should Know[OL].(2018-06-05).heartbeat.comet. ml/5-regression-loss-functions-all-machine-learners- should-know-4fb140e9d4b0.

　　[4] KESKAR N S,MUDIGERE D,NOCEDAL J,et al.On large- batch training for deep learning: Generalization gap and sharp minima[J].2016:03+09.

　　[5] Jia-Yau Shiau,Sharpness-Aware Minimization(SAM): 简单有效地追求模型泛化能力[OL].(2021-02-23).medium. com/ai-blog-tw/sharpness-aware-minimization-sam-简单有效地追求模型泛化能力-257613bb365.

　　[6] FORET P,KLEINER A,MOBAHI H,et al.Sharpness-aware minimization for efficiently improving generalization[J]. 2020:03.

关注SCI论文创作发表，寻求SCI论文修改润色、SCI论文代发表等服务支撑，请锁定SCI论文网！

文章出自SCI论文网转载请注明出处：https://www.lunwensci.com/jisuanjilunwen/54609.html

本文标签： SAM 程序 ,泛化能力 ,最佳超参数

发表评论

点击排行

Learning to Explain: An

　可解释性是一个非常重要的标准。机器学习模型...　详细>>

SCI论文范文

中国地方政府环境治理

如何设计有效的环境治理政策, 是学术界和政策...　详细>>

基于 Sharpness-Aware Minimization 程序的最优 Rho 值选择论文

相关内容

发表评论

点击排行

SCI论文范文