巨人之肩：解读21世纪最具影响力论文“残差网络”_前沿科技

巨人之肩：解读21世纪最具影响力论文“残差网络”

创始人

2025-04-30 22:00:25

0次

理解论文不是科研工作者的专利，每个人都有在AI时代掌握关键信息的权利。

建筑领域，摩天大楼的高度曾经受限于一个简单的问题：人们无法快速到达高层。直到电梯的发明，才真正解放了建筑师的想象力，让摩天大楼拔地而起。

人工智能领域，发生了类似的革命。长期以来，研究者们发现神经网络模型的"高度"（层数）受到严重限制，模型越深，性能反而越差。

直到2016年，一个天才的想法出现了：为神经网络添加"电梯"，让信息可以直接从低层跳到高层。这就是"残差网络"（ResNet）。

《自然》杂志最近发布了21世纪被引用次数最多的25篇论文名单，意外的是榜首竟然不是关于mRNA疫苗、CRISPR基因编辑或引力波的突破，而是关于"深度残差网络"的AI论文。

榜上有名的还有引发近几年AI热潮的论文 Attention is all you need，位列第7。

何恺明、张祥雨、任少卿和孙剑

这项研究提出了一种训练150层神经网络的方法，解决了信号在多层网络中衰减的问题，为后来的AlphaGo、AlphaFold和ChatGPT等AI工具奠定了基础。

"网络加深反而变笨"的奇怪现象

如果你正在学习弹钢琴，通常来说，练习得越多，你应该会弹得越好。但是在深度神经网络的世界里，研究人员发现了一个奇怪的现象：有时候网络层数增加，相当于"练习"更多，性能反而下降了！

微软研究院的团队通过实验证实了这一现象。他们比较了20层和56层的普通神经网络，结果发现56层网络的错误率反而更高。

这不是我们通常理解的过拟合问题，过拟合是指模型在训练数据上表现良好但在新数据上表现差。恰恰相反，他们发现更深的56层网络在训练数据上的表现也比较浅的20层网络差。

为什么会这样呢？假设我们有一个已经训练好的20层网络，然后我们想把它扩展到56层。理论上，我们可以简单地让额外的36层什么都不做，只是将输入原封不动地传递到输出，类似于数学中的恒等映射。这样，56层网络至少应该和20层网络表现一样好。

但实际上，研究人员发现现有的梯度下降等优化方法难以找到理想解决方案。

就像是网络变得太深，反而迷路了。

残差学习：巧妙的"捷径"设计让信息畅通无阻

何恺明团队提出了一个巧妙的解决方案：残差学习框架。说起来也简单，就像是给高楼大厦加电梯。

在传统神经网络中，每一层都试图直接学习输入到输出的完整映射关系。而在残差网络中，每一层只需要学习输入和理想输出之间的差距（即残差）。

具体来说，假设我们希望某几层神经网络学习的映射函数是H(x)，在残差网络中，我们不直接让这几层去拟合H(x)，而是让它们去拟合F(x) = H(x) - x。这样原本的映射就变成了F(x) + x。

这里的关键是添加了捷径连接（shortcut connections）：捷径允许信息直接从前面的层跳过中间的层，直接传递到后面的层。这些捷径就像是大楼中的电梯，让信息可以快速直达，而不必经过每一个楼梯。

为什么这个方法有效呢？研究者认为，如果理想的映射接近于恒等映射（即输出应该接近输入），那么学习残差（F(x)接近于零）比从头学习整个映射要容易得多。就像找出两个相似数字之间的差值比直接计算一个复杂的数值要简单。

最重要的是，这些捷径连接没有增加任何额外的参数或计算复杂度，只是简单地将输入加到输出上，是一种几乎"免费"的改进。

网络架构：ResNet如何搭建深度残差块

残差网络的基本构建单元是残差块，像是乐高积木中的标准部件，通过堆叠这些标准部件，可以构建出各种高度的塔。

一个基本的残差块包含以下部分：

两个或三个卷积层（类似于图像过滤器）；非线性激活函数（通常是ReLU，就像是网络的开关）；最关键的是捷径连接，它绕过这些卷积层，将输入直接添加到输出。

对于ImageNet数据集，研究团队设计了多种不同深度的ResNet变种，从18层到152层不等。最深的152层ResNet比当时流行的VGG网络深8倍，但计算复杂度反而更低。

研究者还设计了瓶颈结构的残差块，特别用于更深的网络。这个设计使用1×1卷积层来减少和恢复维度，中间夹着3×3卷积层。这有点像是先把信息压缩，然后处理，最后再解压缩，大大提高了计算效率。

在实现细节上，研究团队使用了批量归一化(Batch Normalization)，确保每一批数据都有相似的统计特性，使训练更加稳定。他们还采用了随机裁剪等数据增强技术，相当于让网络看到同一张图片的不同部分，增强其鲁棒性。

惊人的实验结果：更深确实可以更好

研究团队在ImageNet数据集上进行了广泛实验，ImagetNet数据集由李飞飞主导包含超过一百万张图像，分为1000个类别，是计算机视觉领域的重要基准测试。

实验结果令人惊讶：

34层的残差网络比34层的普通网络错误率低3.5%，证明了残差连接的有效性；更深的残差网络（比如152层）确实表现更好，用方法可以有效地训练非常深的网络；一个包含多个残差网络的集成系统在ImageNet测试集上实现了3.57%的top-5错误率，赢得了ILSVRC 2015分类任务的第一名。

研究者还在CIFAR-10数据集上成功训练了100层和1000层的网络。研究人员还尝试了1202层网络，这个庞大的网络出现了一些过拟合现象，但训练成功了，在以前的网络架构中是几乎不可能的。

与普通网络相比，残差网络的训练错误率显著降低，证明残差学习确实缓解了网络加深带来的退化问题。研究者还分析了残差网络各层的响应强度，发现残差函数的响应确实比普通网络更接近零，验证了他们的理论假设。

广泛的应用：不止于分类任务

研究团队最初是针对图像分类问题设计ResNet，但他们发现这个架构在其他计算机视觉任务中表现也很出色。

在对象检测任务上，用ResNet-101替换VGG-16作为特征提取器，在PASCAL VOC数据集上的平均精度(mAP)提高了超过3%。在更具挑战性的MS COCO数据集上，性能提升更加显著，mAP提高了6%，相当于28%的相对改进。

这些改进纯粹归功于更好的网络架构，因为检测系统的其他部分保持不变。研究团队凭借基于ResNet的系统在ILSVRC和COCO 2015竞赛中获得了多个第一名，包括ImageNet检测、ImageNet定位、COCO检测和COCO分割任务。

深度残差学习的核心启示

回顾这项研究，我们可以看到几个关键启示：

首先，在深度学习中，更深的网络理论上应该能够学习更复杂的特征，但实际训练过程中可能面临退化问题。ResNet通过残差学习和捷径连接巧妙地解决了这一问题。

其次，简单而优雅的设计变化有时能带来革命性的进步。ResNet的捷径连接几乎没有增加任何计算复杂度，却大大提升了网络性能。

第三，神经网络中信息的流动方式至关重要。传统网络中，信息必须通过所有层层层叠传递，而ResNet中的捷径连接提供了额外的信息通道，确保关键信息不会在深层网络中"丢失"。

何恺明团队的这项研究不仅赢得了众多竞赛奖项，更重要的是，它彻底改变了深度学习的发展轨迹。如今，ResNet及其变种已成为计算机视觉和其他深度学习应用的标准组件，这项工作的影响将持续很长时间。

至顶AI实验室洞见

牛顿说：如果说我看得比别人更远些，那是因为我站在巨人的肩膀上。

深度残差网络就是这样一个让“牛顿”们有地方站的巨人肩膀。

从2016年的ResNet到2017年的Transformer架构，再到2022年的ChatGPT和今天百花齐放的AI应用，每一次突破都是站在前人工作的基础上。

值得注意的是，这篇影响全球AI发展的关键论文出自中国研究者之手。论文第一作者何恺明本身就是传奇人物：高考满分状元，师从商汤科技前CEO汤晓鸥。能提出这个研究似乎不是偶然了。

（左汤晓鸥，右何恺明）

论文地址：https://arxiv.org/abs/1512.03385

上一篇：人工智能与政务服务深度融合助力城市数字化转型

下一篇：中央网信办部署开展“清朗·整治AI技术滥用”专项行动

巨人之肩：解读21世纪最具影响力论文“残差网络”

相关内容

热门资讯