ENGLISH 中财主站 加入收藏
当前位置: 首 页 > 学术科研 > 学术活动 > 正文

中央财经大学举办“Heavy-Tail Phenomena in Machine Learning”专题讲座——佛罗里达州立大学朱凌炯教授受邀主讲

发布时间:2025-06-28浏览次数:

2025年6月24日,中央财经大学管理科学与工程学院邀请佛罗里达州立大学数学系朱凌炯教授来访交流,并作题为《Heavy-Tail Phenomena in Machine Learning》的学术讲座。本次讲座围绕机器学习中梯度算法的泛化能力与“重尾现象”这一前沿议题展开,吸引了众多对数学、人工智能与优化理论感兴趣的师生与研究人员积极参加。

图1朱凌炯教授讲座现场

在讲座中,朱教授从神经网络训练中常用的随机梯度下降法(SGD)切入,深入剖析了为何SGD在实际应用中具备出色的泛化能力。围绕“为什么SGD相比标准梯度下降更容易找到泛化能力强的解”,他指出,这一现象背后隐藏着SGD所特有的重尾梯度噪声(heavy-tailed noise)结构。他详细讲解了如何将SGD建模为受Lévy过程驱动的随机微分方程,并通过马尔可夫链稳定分布和metastability理论,揭示SGD更倾向于停留在“宽极小值”上,从而提升对未见数据的预测能力。

图2理论建模与算法稳定性分析讲解

朱教授进一步展示了其在算法稳定性理论方面的突破性成果。他提出,SGD在重尾梯度噪声下的泛化性能可以通过Wasserstein距离刻画,并与算法稳定性理论相结合,推导出泛化误差的上界。通过一系列数学定理与模拟实验,他指出SGD中的“尾指数α”与模型的测试准确率高度相关,较小的α对应更好的泛化性能。讲座还特别分析了动量SGD与去中心化SGD在重尾背景下的稳定性差异,提出了“训练收敛速度”与“泛化效果”之间存在权衡关系的重要洞见。

在讲座的后半部分,朱教授回归实际问题,探讨了即便数据本身为轻尾分布,SGD依然可能因高维性、步长设定与样本批大小等因素呈现重尾行为。他以线性回归与全连接神经网络为实验场景,通过大规模仿真与真实图像数据集(如MNIST、CIFAR10、CIFAR100)上的实验,验证了理论模型的有效性,展现了从微观参数机制到宏观训练表现之间的严密联系。

图3与师生合影

本次讲座内容深入浅出,理论分析与实证研究并重,不仅为与会师生提供了理解SGD泛化能力的全新数学视角,也展现了理论研究与工程实践深度融合的发展趋势。朱凌炯教授的精彩讲解引发了现场热烈讨论,激发了师生对前沿交叉领域研究的浓厚兴趣,讲座取得圆满成功。

撰稿人:宋双琳

审稿人:刘志东、荆中博