论文阅读:GF-Net 全局滤波网络
基本信息
- title: Global Filter Networks for Image Classification
- date: 2021
- background: 随着 NLP 领域的发展,seq2seq 模型也走进了图像分类领域,但 self-attention 带来的 计算量使得在实际中难以接受,急需更低时间复杂度的模型。
图像分类模型现状
- 首先是最经典的 CNN 模型
- 然后是基于 Transformer 的模型 ViT
- 再往后,有些论文质疑 self-attention 的有效性,使用 MLP 替代 self-attention 层也达到了相同的效果
由于引入的归纳偏置更少,后两类模型有潜力从原始数据中学习到更通用、更灵活的空间位置间交互。但问题出在了计算复杂度上——复杂度会随着 token 数量的增加呈二次方增长。ViT 通常为中间特征考虑相对较低的分辨率(例如,ViT 和 MLP-Mixer 都从输入图像中提取 14×14 的标记),但这种设计可能限制其在下游密集预测任务(如检测和分割)中的应用。
from ViT to GF-NET
以下模型都是以 ViT 为基础,进行改动。
ViT
首先是 patch embedding,有两个作用:
- position encoding:self-attention 无法区分不同位置的 token(当然后来的 MLP 不需要这个过程)
- token embedding:将 patch 转换为 token 表示,压缩信息
ViT 中的 Transformer Encoder 可以分成两部分:
- self-attention
- feed forward
self-attention 层负责将 token 按照重要性混合起来,这个过程对于 token 来说是 channel-wise 的。因此后续还需要一个 FFN,将 channel 中的信息进行融合。
MLP
论文 MLP-Mixer: An all-MLP Architecture for Vision 指出,self-attention 不是必要的,MLP 可以替代 self-attention 层,达到相同的效果。
其提出了 MLP-Mixer,包含两个组件:
- token-mixing MLP(极端情况下等价于全局卷积)
- channel-mixing MLP
和 ViT 相比,其实只是把 token-mixing 的方法从 self-attention 改为了 MLP。但对于工程任务,其并没有多大的改善,因为时间复杂度仍然是平方级别的。实验取得了与 self-attention 几乎相同的性能,说明 self-attention 不是必要的。
proposal idea:Global Filter Layer
针对视觉 Transformer 进行改动,将 self-attention 层换成 Global Filter Layer。
Global Filter Layer 主要做了以下三件事:
- 傅里叶变换
- 滤波
- 逆傅里叶变换
其中,快速傅里叶变换(FFT)的时间复杂度为 ,这里 是特征图的像素总数。
为何使用频域滤波
GF layer 作用等效于空域 channel-wise 全局卷积(即卷积核大小为 H × W 的卷积),其核心依据是卷积定理。
卷积定理
空域卷积 ⇔ 频域乘法
两个函数在空域的卷积,等价于它们在频域的乘积;反之,两个函数在空域的乘积,等价于它们在频域的卷积:
因此,如果想在空域做全局卷积(卷积核大小为 H×W),直接算的复杂度是 。但根据卷积定理,我们可以:
- 将输入特征图和卷积核都变换到频域(用 FFT,)
- 在频域做逐元素乘法()
- 再通过逆 FFT 变回空域()
总复杂度从 降到 ,且不受卷积核大小影响——无论卷积核是 3×3 还是 H×W,计算量都一样。
这就是 GF layer 的核心思想:用频域乘法等价替代空域全局卷积,既保有了全局建模能力,又获得了高效的计算效率。
参数量相同
| 组件 | 参数量 |
|---|---|
| GF layer | (实数参数,利用共轭对称可减半) |
| 普通卷积 |
但运算速度变快
- self-attention:
- GF layer(FFT):
我们平时不用超大卷积核不是因为其建模能力弱,而是因为计算效率低且容易过拟合。而小卷积又会导致感受野受限。GF 正是通过频域计算,在保持全局建模能力的同时大幅降低复杂度。
频域滤波性能甚至优于 MLP-Mixer
在 MLP-Mixer 中,其把所有 patch 拍平了,丢失了二维结构,其全局卷积是一维的。
而 GF Net 使用二维傅里叶变换,其等价于二维全局卷积,意味着卷积核仍然能够学习到上下左右这种二维关系,保持了空间结构的连续性。
总结
Self-Attention 在视觉领域的必要性已受到不少质疑,纯 MLP 类模型同样能达到与之相近的性能。但这类方法在工程落地时仍面临着共同瓶颈——它们的计算复杂度均为平方级别。
而 Global Filter 正是为解决这一问题提出的高效方案:它依托卷积定理,将原本在空域难以落地的全局大核卷积转移到频域中完成计算,并通过快速傅里叶变换 FFT 实现加速,把平方级的复杂度大幅降至近似线性的 ,让全局空间建模真正做到高效且可工程化落地。






