论文笔记 - Aggregated Residual Transformations for Deep Neural Networks
1. Information
Title: Aggregated Residual Transformations for Deep
Neural Networks
Link: ResNeXt
Paper
Source: IEEE Conference on Computer Vision and Pattern
Recognition (CVPR)
Date: 2017
2. Summary
本文提出了 ResNeXt,一种改进的残差网络架构,通过引入聚合变换(Aggregated Transformations)增强模型表达能力。核心创新是引入了基数(Cardinality)的概念,即网络中路径的数量。ResNeXt 在显著提升性能的同时,保持了较低的计算复杂度,并在 ImageNet、CIFAR-10 和 CIFAR-100 等基准数据集上达到了最先进的性能。
3. Background
深度神经网络(如 ResNet)通过堆叠多个层及跳跃连接在视觉任务中取得了显著成功。然而,仅增加网络的深度或宽度带来的性能提升逐渐减小,同时计算成本迅速增加。受 Inception 等多分支架构的启发,ResNeXt 提出了一个更简单且更高效的聚合策略,通过并行路径的聚合变换在性能与效率之间取得了平衡。
4. Research Objective
本文的研究目标是通过引入基数(Cardinality)提升深度网络的表达能力,同时保持计算效率。具体目标包括:
- 提供一种更简洁的多分支架构设计方法;
- 验证 ResNeXt 的可扩展性及其在不同任务中的通用性;
- 在不显著增加计算成本的情况下实现最先进的性能。
5. Method
关键创新:
引入了基数的概念,下图左边为原始的 ResNet 架构;右边为增加了基数的改进版本,每个残差模块包含多条路径,路径数由基数控制,所有路径的输出聚合后再与输入进行残差连接。
引入分组卷积(Grouped Convolution)以实现多路径聚合变换,下图 (a) 和 (b) 表示相同,图 (c) 使用了分组卷积,降低了计算复杂度。
分组卷积将输入通道划分为多个组,每组独立进行卷积操作,降低了计算复杂度。
各组的输出通过聚合操作合并,实现模块化和可扩展性。
架构设计:
- ResNeXt 的残差模块在 ResNet 的基础上,将瓶颈层的单一卷积替换为分组卷积。
- 基数(Cardinality)表示分组的数量,是控制并行路径数量的超参数。
与其他架构的比较:
- ResNeXt 在深度(ResNet)和宽度(VGG)之外,提出了新的扩展维度——基数,通过增加基数实现性能提升,同时保持计算效率。
6. Evaluation
数据集:ImageNet、CIFAR-10 和 CIFAR-100。
评估指标:分类任务的 Top-1 和 Top-5 准确率。
实验结果:
在相同的深度和宽度下,ResNeXt 比 ResNet 表现更优,准确率更高。
实验证明,增加基数相比单纯增加深度或宽度更能显著提升网络性能。
消融实验:验证了分组卷积的有效性,以及基数对模型性能的影响。
7. Conclusion
ResNeXt 提供了一种通过聚合变换改进神经网络性能的简单方法。通过增加基数,ResNeXt 实现了更高的准确率,同时保持了较低的计算成本。研究表明,基数是扩展深度网络性能的重要维度,提供了增加深度或宽度之外的一种灵活替代方案。
8. Notes
- 什么是分组卷积?
分组卷积的核心思想是将卷积操作的输入通道和输出通道分组,然后在每组上独立执行卷积操作,最后将各组的输出拼接在一起。
- 传统卷积:
- 输入特征图和卷积核的所有通道之间会进行完全连接的卷积操作。
- 假设输入的通道数为 \(C_{\text {in }}\),输出通道数为 \(C_{\text {out }}\),卷积核大小为 \(k \times k\),传统卷积需要的参数量为:
\[ C_{\text {in }} \times C_{\text {out }} \times k \times k \]
- 分组卷积:
- 将输入通道划分为 \(g\) 组(每组有 \(C_{\text {in }}\) / \(g\) 个通道),输出通道也划分为 \(g\) 组(每组有 \(C_{\text {out }}\) / \(g\) 个通道)。
- 每组卷积仅计算输入通道的一部分,从而减少了计算量。
- 参数量为:
\[ \left(C_{\text {in }} / g\right) \times\left(C_{\text {out }} / g\right) \times k \times k \times g=\frac{C_{\text {in }} \times C_{\text {out }} \times k \times k}{g} \]
- ResNeXt 与 Inception-ResNet 的对比
特性 ResNeXt Inception-ResNet 路径结构 等价路径(分组卷积) 非等价路径(不同卷积核和池化操作) 模块复杂度 简单、模块化 复杂、需手动调优 计算复杂度 更低,参数更少 较高,参数较多 特征表达能力 高效,通过增加基数捕获更多特征 优秀,能捕获多尺度特征 扩展性和通用性 高,易于在深层网络中扩展 中等,适合特定任务(如多尺度特征处理) 适用场景 大规模训练、深层分类网络 需要多尺度特征融合的任务(如检测、分割)