BAN [双线性注意力机制]

VQA任务涉及到许多视觉-语言交叉的问题，因此attention在VQA中能够起到比较好的效果，co-attention可以同时推断视觉注意力和语言注意力，但同时忽略了语言和视觉区域之间的交互作用

作者将co-attention扩展为关注问题和图像的每一对多通道的bilinear attention(双线性注意力)，如果给定的问题涉及到由多个单词表示的多个视觉概念，则使用每个单词的视觉注意力分布进行推理比使用单个压缩的注意力分布进行推理更能挖掘出相关信息

作者在低秩双线性池化的基础上提出了双线性注意网络，BAN利用了两组输入通道之间的双线性交互，而低秩双线性池提取了每对通道的联合表示，此外作者还提出了一个多模态残差网络MRN来更有效地利用多重双线性注意图

BAN中用residual summations替代了concatenation，以更高效的参数和性能学习了eight-glimpse BAN，图中展示了一个two-glimpse BAN

文章主要贡献如下：

在低秩双线性池化技术的基础上，提出了学习和利用双线性注意分布的双线性注意网络
提出了一种多模态残差网络(MRN)的变种，以有效地利用由模型产生的多双线性注意图，并成功地利用了多达8个注意力地图
在VQA2.0上实现了SOTA，评估了双线性注意图在Flickr30k Entities上性能，推理速度提高了25.37%

Low-rank bilinear pooling

低秩双线性池化算法使用单通道输入(question vector)组合其他多通道输入(image features)作为单通道中间表示(attended feature)

Low-rank bilinear model

先前有研究提出了一个低秩双线性模型来降低双线性权矩阵 $W_{i}$ 的秩，从而给出正则性， $W_{i}$ 被替换为两个更小矩阵的乘法 $U_{i} V_{i}^{T}$ ，这里 $U_{i} \in R^{N \times d}$ ， $V_{i} \in R^{M \times d}$ , 这种替换使得 $W_{i}$ 的秩 $d \leq m i n (M, N)$ ，标量输出 $f_{i}$ 为

式子中的 $1$ 是一个只包含1的向量， $\circ$ 表示Hadamard积 (element-wise multiplication)

Low-rank bilinear pooling

对于向量输出f，引入了池化矩阵P

$P \in R^{d \times c}$ ， $U \in R^{N \times d}$ ， $V \in R^{M \times d}$

通过引入 $P$ 作为向量输出 $f \in R^{c}$ 允许U和V是二维张量，显著减少了参数的数量

Unitary attention networks

注意力机制通过有选择地利用给定的信息来减少输入通道，假设有一个多通道输入Y，包含 $| y_{i} |$ 个行向量，用注意力权重 $α$ 从Y中得到单通道 $\hat{y} = \sum_{i} α_{i} y_{i}$ ，注意力权重 $α$ 通过softmax计算得到

$α \in R^{G \times ϕ}$ ， $P \in R^{d \times G}$ ， $U \in R^{N \times d}$ ， $x \in R^{N}$ ， $1 \in R^{ϕ}$ ， $V \in R^{M \times d}$ ， $Y \in R^{M \times ϕ}$ ，当 $G > 1$ 的时候表示采用了多glimpses(attention heads)，那么就有 $\hat{y} = | |_{g = 1}^{G} \sum_{i} α_{g, i Y i}$ ，然后 $x$ 和 $\hat{y}$ 用低秩双线性池化来实现联合表示，最后进行分类

Bilinear attention networks

作者推广了两个多通道输入的双线性模型， $X \in R^{N \times ρ}$ 以及 $Y \in R^{M \times ϕ}$ ，其中 $ρ = | x_{i} |$ 以及 $ϕ = | y_{j} |$

为了同时减少两个输入通道，作者引入双线性注意映射

其中 $U^{'} \in R^{N \times K}$ ， $V^{'} \in R^{M \times K}$ ， $(X^{T} U^{'})_{k} \in R^{ρ}$ ， $(Y^{T} V^{'})_{k} \in R^{ϕ}$ ， $f_{k}^{'}$ 表示第k个元素的中间表示，矩阵的下标k表示列的索引， $f_{k}^{'}$ 也可以写作