日前,第13届国际学习表征会议(International Conference on Learning Representations,简称ICLR)公布论文录用结果,云天励飞4篇论文被录用。
关于ICLR
ICLR 是深度学习领域的顶级会议,关注有关深度学习各个方面的前沿研究,在人工智能、统计和数据科学领域以及机器视觉、语音识别、文本理解等重要应用领域中发布了众多极其有影响力的论文。会议具有广泛且深远的国际影响力,与 NeurIPS、ICML 并称为机器学习领域三大顶会。
录用论文一览
1. 《Taming Transformer Without Using Learning Rate Warmup》
Transformer模型是现在大模型的最重要的基础模型,但训练过程中,它常常面临诸如梯度爆炸、模型崩溃等问题。这篇论文从矩阵微分的角度推导了self-attention的反向梯度公式,通过该反向传播公式的推导,作者定位到了模型崩溃的一个核心问题:(Wq)'Wk矩阵在训练的过程中,它的谱能量集中到了几个方向,最终导致所有的X塌陷到一个点上。通过理论的推导,作者得出了一种简单的方案,通过控制(Wq)'Wk矩阵的奇异值的快速增长,来阻止能量的过度集中,作者将提出的方法称之为AdamW2。
实验证明,该方法无需依赖学习率预热(Learning Rate Warmup),就可以有效缓解训练初期因学习率过大导致的不稳定或发散问题。作者通过在ViT、GPT和Swin-Transformer模型上的大量实验,验证了AdamW2的有效性,证明其在无需学习率预热的情况下,依然能够实现稳定训练,并取得与使用学习率预热相当的性能。这一成果为Transformer模型的训练提供了全新的视角和方法,具有重要的理论意义和实践价值。
论文地址:
https://openreview.net/forum?id=GeUK3zGreN&referrer=%5BAuthor%20Console%5D(%2Fgroup%3Fid%3DICLR.cc%2F2025%2FConference%2FAuthors%23your-submissions)
2.《BiGR : Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities》
这篇论文介绍了一个新的图像生成模型 BiGR,它能生成高质量的图像,同时还能提升图像的视觉表示能力。BiGR 通过使用二进制代码来表示图像,并结合一种特殊的编码器和解码器来生成图像。模型基于 Transformer 架构,使用掩码建模方法进行训练,通过预测被掩码的二进制代码来生成图像。
作者在多个任务上对BiGR进行了验证,包括类别生图、文生图。实验表明,BiGR 在生成图像的质量和视觉表示能力上都优于现有的模型。此外,BiGR 还展示了在多种视觉任务上的零样本泛化能力,比如图像修复、编辑和插值等,无需针对特定任务进行结构调整或参数微调,是一个在图像生成和视觉表示方面都很有潜力的模型。
论文地址:
https://openreview.net/forum?id=1Z6PSw7OL8&referrer=%5BAuthor%20Console%5D(%2Fgroup%3Fid%3DICLR.cc%2F2025%2FConference%2FAuthors%23your-submissions)
3. 《Exploring A Principled Framework for Deep Subspace Clustering》
现有深度子空间聚类方法在处理复杂数据时常面临特征崩溃的问题,即学习到的特征塌缩至低维空间,导致聚类效果不理想。为应对这一挑战,本文提出了一种名为PRO-DSC(Principled fRamewOrk for Deep Subspace Clustering)的深度子空间聚类框架。通过引入有效的正则化项,该方法成功缓解了特征崩溃现象。
实验结果显示,PRO-DSC在合成数据及多个真实数据集上的表现均优于现有方法。例如,在CIFAR-10和CIFAR-100数据集上,其聚类准确率分别达到97.2%和71.6%,显著超越其他方法。这一研究为深度子空间聚类提供了全新的高效解决方案。
论文地址:
https://openreview.net/forum?id=7psWohxvxp&referrer=%5BAuthor%20Console%5D(%2Fgroup%3Fid%3DICLR.cc%2F2025%2FConference%2FAuthors%23your-submissions)
4. 《Unposed Sparse Views Room Layout Reconstruction in the Age of Pretrain Model》
该论文提出了一种创新的3D基础模型——Plane-DUSt3R,能够直接从多张照片中一步完成房间3D布局的重建,极大简化了传统流程。该方法无需预先获取相机的位置和角度信息,也不要求照片之间存在重叠部分,即可实现房间布局的重建。这一特性在实际应用中尤为实用,因为许多情况下,我们手头的照片往往是随意拍摄的,拍摄角度和位置并不固定。而传统方法通常需要经过复杂步骤,例如先估计相机位置与角度,再进行图像匹配和三角测量,这不仅流程繁琐,还容易出错。DUSt3R的引入显著简化了这一过程。我们的方法Plane-DUSt3R在DUSt3R基础上,提出了一种新颖的独立的多视图(稀疏视图)房间布局估计方法。
实验结果显示,该方法在多个数据集上均表现出色,不仅在合成数据集上优于现有方法,在真实世界的数据集上也展现了强大的泛化能力。例如,在Structure3D数据集上,Plane-DUSt3R在3D平面精度和召回率方面均实现了超过5%的提升,进一步验证了其卓越性能。
论文地址:
https://openreview.net/forum?id=DugT77rRhW&referrer=%5BAuthor%20Console%5D(%2Fgroup%3Fid%3DICLR.cc%2F2025%2FConference%2FAuthors%23your-submissions)