论文笔记 - Going Deeper with Convolutions

1. Information

Title: Going Deeper with Convolutions
Link: Inception V1 Paper
Source: IEEE Conference on Computer Vision and Pattern Recognition (CVPR)
Date: 2014.09.17

2. Summary

本文提出了一种名为 Inception 的深度卷积神经网络架构，在提高模型深度和宽度的同时，保持计算开销较低。基于此架构设计的 GoogLeNet 在图像分类和目标检测任务中取得了显著的性能提升。其核心思想是通过多个并行计算路径近似局部稀疏结构，兼顾了计算效率和模型精度。

3. Background

深度学习的发展依赖于更强大的硬件、更大的数据集以及更高效的网络架构。然而，在移动设备或嵌入式环境中，功耗和内存限制要求算法需更高效。
增大网络规模虽能提升性能，但带来了两个问题：
1. 容易过拟合，需要昂贵的高质量标注数据。
2. 参数利用率低，造成计算资源浪费。
稀疏网络可减少计算量，但现代硬件在稀疏计算上效率不高。

4. Research Objective

设计一种高效的网络架构，在降低计算复杂度和参数量的同时，保留深度模型的表达能力。通过使用密集的并行模块近似稀疏性，解决传统稀疏结构难以高效并行的问题。

5. Method

核心思想：
1. 使用 1×1、3×3 和 5×5 卷积 提取多尺度特征，同时结合池化操作以捕获全局信息。
2. 在大卷积核之前加入 1×1 卷积，用于降维和提升非线性表达能力。
3. 通过模块化设计，平衡计算成本和特征提取能力。
网络结构：
- 初版 Inception 模块中并行使用不同卷积核和池化操作，会导致通道数增加过快。