STOP:基于时空动态提示的视频理解方法
刘志晨
1
1
^(1) { }^{1} ,昆仑
Xu
1
Xu
1
Xu^(1) \mathrm{Xu}^{1} ,冰
Su
2
Su
2
Su^(2) \mathrm{Su}^{2} ,邹旭
3
3
^(3) { }^{3} ,彭宇欣
1
1
^(1) { }^{1} ,周家焕
1
∗
1
∗
^(1**) { }^{1 *}
1
1
^(1) { }^{1} 北京大学王宣计算机技术研究所,北京,中国
2
2
^(2) { }^{2} 中国人民大学高能计算学院,北京,中国
3
3
^(3) { }^{3} 华中科技大学人工智能与自动化学院,武汉,中国 {lzc20180720, xkl}@stu.pku.edu.cn, subingats@gmail.com, zoux@hust.edu.cn {彭玉新, 贾焕洲}@pku.edu.cn
摘要
预训练于海量图像-文本数据集的视觉语言模型(如 CLIP)已在众多基于图像的任务中展现出令人鼓舞的零样本泛化能力。然而,将这些能力扩展至视频任务仍面临挑战,主要原因在于标注视频数据匮乏及训练成本高昂。近期提出的视频提示方法试图通过引入可学习提示来适配 CLIP 在视频任务中的应用,但这些方法通常依赖于单一静态提示处理所有视频序列,忽视了帧间存在的丰富时序动态与空间变异性。这一局限性严重阻碍了模型捕捉有效视频理解所需的关键时序信息的能力。为解决此问题,我们提出了一种集成的空间-时序动态提示(STOP)模型,该模型由两个互补模块组成:帧内空间提示和帧间时序提示。我们的帧内空间提示通过利用帧内注意力与时间变异性,能够自适应地突出每个帧中的关键区域,使模型能够聚焦于具有显著时间动态的区域并捕捉细粒度的空间细节。此外,为强调帧对视频理解的重要性差异,我们进一步引入帧间时间提示,通过基于帧相似性测量的时变性,动态地在时间差异显著的帧之间插入提示。这使模型能够优先处理关键帧,并提升其在序列中理解时间依赖性的能力。在多个视频基准数据集上的广泛实验表明,STOP 始终优于现有最先进方法。代码已开源,地址为 https://github.com/zhoujiahuan1991/CVPR2025-STOP。
图 1. 现有视频提示方法[19,61]通常在不同视频中添加静态提示,这限制了模型捕捉关键时序信息的能力。相比之下,我们的方法引入了动态帧内空间提示和帧间时序提示,引导模型聚焦于具有显著时序动态的区分性区域和关键帧。
1. 引言
随着深度学习的不断发展[12, 20, 45, 57-60, 62],模型训练所需的数据量持续增长。近期,基于对比学习在大量图像-文本对数据集上预训练的视觉-语言模型(如 CLIP)在下游任务中展现出卓越的零样本泛化能力。 图像分类和图像-文本检索[45, 65, 66]。然而,将这种预训练和零样本泛化范式应用于视频任务面临独特挑战。与图像相比,标注视频数据更为稀缺,这使得大规模视频-文本对数据的收集变得困难[42, 64]。此外,通过对比学习使用视频-文本对训练大规模视频-语言模型会带来高计算成本,这使得将类似 CLIP 的训练范式应用于视频-语言任务变得具有挑战性[19, 61]。
为解决这一问题,近期研究[19, 61, 64]聚焦于通过高效微调大规模预训练视觉-语言模型在视频数据上的性能,使其能够以更低的成本处理下游视频理解任务。在这些方法中,视频提示(或视频提示学习)已成为一个重要的研究方向。该方法通过引入可学习的视频提示,在保持模型预训练参数不变的前提下,将视觉语言模型适配到视频任务。然而,如图 1 所示,现有视频提示方法[19, 61, 64]为所有数据学习单一静态提示,忽视了关键帧中显著的时序动态差异以及每帧内变化的区分性区域。这导致预训练的视觉语言模型在视频帧和区域上的关注点出现偏差。因此,模型捕捉时序信息的能力受限,最终阻碍其有效理解视频内容的能力。
为解决这一问题,我们提出了一种集成的空间-时间-语义动态提示方法,命名为 STOP。视频中的时空动态区域对于理解视频动作至关重要,然而基于图像-文本对预训练的 CLIP 模型在有效关注这些区域方面往往表现不佳。为克服这一局限性,我们引入了帧内空间提示。我们的方法通过轻量级 3D 卷积网络捕捉视频不同区域的时空动态信息。通过将这些信息与帧内注意力权重相结合,我们能够识别视频中包含单帧内主要物体和动态时序信息的区分性区域。基于这些洞察,我们设计了一个帧内提示生成器,为这些区域生成空间提示,引导模型聚焦于具有显著时序变化的区域,从而提升其捕捉视频数据中细粒度关键信息的能力。
此外,考虑到动态变化在不同帧之间存在差异,这会影响其对视频理解的重要性,我们提出跨帧时间提示,以帮助预训练模型聚焦于关键帧。在基于帧内空间提示识别视频帧内区分区域的基础上,我们进一步计算这些区域在不同帧之间的变化程度。对于具有显著时间动态的关键帧,我们通过动态变化度量来确定其重要性,并根据该度量为模型分配更高的预测权重。 通过轻量级提示器动态生成跨帧提示,并将其插入以在两帧之间提供细粒度信息。帧内空间提示与跨帧时间提示相互补充,引导模型聚焦于关键的空间和时间位置,从而提升模型对视频的准确理解能力,进而改善性能。
综上所述,本研究的主要贡献包括: (1) 为解决预训练视觉-语言模型在视频中难以捕捉时序信息的问题,我们提出了 STOP 方法。首先,我们设计了帧内空间提示,以突出视频帧中的区分性区域,有效引导模型聚焦于动态变化的区域。(2) 此外,我们计算视频帧之间的动态变化,并动态生成跨帧时序提示。这些提示插入到具有显著动态变化的帧之间,为模型提供细粒度的时序信息,从而帮助其聚焦并理解视频中的关键帧。(3) 在多个视频动作识别和视频-文本检索基准数据集上的广泛实验表明,我们提出的 STOP 方法在性能上显著优于现有视频提示方法。
2.1. 视觉-语言预训练
视觉-语言预训练(VLP)旨在学习视觉与语言的联合表示,并在多种下游任务中实现强性能[5, 9, 43, 45]。近期对比式图像-文本预训练的进展,如 CLIP[45],利用互联网上的大规模图像-文本对进行训练。Flamingo [1] 和 ALBEF [29] 等研究进一步验证了预训练模型的有效性。在视频-语言预训练领域,CLIPBERT [27] 和 Frozen in Time [3] 等模型展现出潜力,但仍面临挑战,包括视频数据集有限和计算成本高昂。为解决这些问题,方法如 CLIP4Clip [42]和 X-Pool [15]将图像-文本预训练模型迁移到视频任务,但仍需对所有模型参数进行微调,导致高开销。
2.2. 视频提示
提示学习,起源于自然语言处理(NLP),旨在通过引入可学习的提示词,仅在训练过程中优化这些提示词,从而将预训练语言模型适应于各种任务[28, 32, 35]。受提示学习在 NLP 领域成功启发,该方法被扩展至视觉语言模型(VLMs)[24, 25, 41, 65, 66]和视觉模型[21, 31, 39, 40]。例如,CoOp [66]通过使用可学习的文本提示来提升分类性能,
图 2. 我们的 STOP 管道。对于每个视频,我们首先将其嵌入到图像令牌中。然后引入帧内空间提示,以定位具有区分度的区域并为这些区域添加生成的提示。根据帧间变异程度,我们动态生成帧间提示并按需插入。最后,这些提示词连同 CLS 令牌一起通过 MSA(多头自注意力)模块,获得视频表示,该表示随后用于与文本特征计算相似性。 而 VPT [21] 在视觉分支中引入了令牌级提示,以捕捉图像属性。
最近,提示学习已被扩展到视频任务,如视频理解和文本-视频检索[13, 19, 61, 64]。例如,VoP[19]通过视觉提示捕捉时空视频特征,而 DGL[61]通过全局-局部提示协调提升视频-文本交互。类似地,MPT[64]通过优化提示词挖掘更详细的模态特定信息,从而提升检索性能。然而,这些方法均采用静态提示词处理所有视频,忽视了视频特有的帧级细节和动态变化,这限制了模型捕捉时间细节的能力,并制约了整体性能。
2.3. 视频理解
视频动作识别和视频文本检索是与视频理解相关的两个主要研究领域。在视频动作识别方面,研究人员主要致力于提升时序建模的效率。光流方法常用于两流融合,虽有效但计算复杂度高[46, 52]。一种替代方法是 3D 卷积,其将 2D 卷积扩展到时空域,但同样面临高复杂度问题。 [8, 48, 49]。其他策略将即插即用的时序模块嵌入到 2D 网络中,或对 LSTM 进行适应性改造以进行序列分析[33, 37]。近期,基于视觉变换器的架构在时序建模和特征提取效率方面展现出良好效果[4, 30, 38]。除单模态方法外,多模态技术利用 CLIP 的能力,在视频分类和检索等任务中取得进展[22, 42, 53]。
对于视频-文本检索任务,早期多模态研究[15, 36]主要关注特征融合以提升检索效果,而近期研究[10,55]则强调在事件、动作和实体等维度上的跨模态对齐。受大规模预训练模型如 BERT[23]和 CLIP[45]的启发,当代方法[34]越来越多地采用对比学习或遮蔽语言建模来构建共享的视频-文本表示空间。在本研究中,我们通过可学习提示对冻结的 CLIP 模型进行适应性改造,有效地将其优势迁移到视频检索任务中,相关实验结果验证了该方法的有效性。
3. 方法
在本节中,我们将详细介绍所提出的
S
T
O
P
S
T
O
P
STOP S T O P ,并通过图 2 展示了整体流程。
3.1. 符号说明
我们方法的核心是 CLIP [45],以 CLIP4clip [42]作为基线。该方法主要由两个分支组成:文本编码器
E
T
E
T
E_(T) \mathbf{E}_{T} 和视频编码器
E
V
E
V
E_(V) \mathbf{E}_{V} 。预训练的文本编码器
E
T
E
T
E_(T) \mathbf{E}_{T} 是一种变压器模型[50]。对于视频-文本检索任务,文本编码器
E
T
E
T
E_(T) \mathbf{E}_{T} 的输入是一个自然语言句子
S
S
S \boldsymbol{S} 。对于动作识别任务,给定一个视频的类别文本描述
C
=
{
c
1
,
c
2
,
…
,
c
K
}
C
=
c
1
,
c
2
,
…
,
c
K
C={c_(1),c_(2),dots,c_(K)} C=\left\{c_{1}, c_{2}, \ldots, c_{K}\right\} ,其中
K
K
K K 表示类别数量,我们根据[51]使用手动设计的提示构建一个句子,例如
S
=
S
=
S= \boldsymbol{S}= “一段包含动作[CLS]的视频”。随后,我们使用文本编码器
E
T
E
T
E_(T) \mathbf{E}_{T} 对句子
S
S
S \boldsymbol{S} 进行编码,获得其表示
s
=
E
T
(
S
)
s
=
E
T
(
S
)
s=E_(T)(S) \boldsymbol{s}=\mathbf{E}_{T}(\boldsymbol{S}) ,其中
s
∈
R
d
s
∈
R
d
s inR^(d) \boldsymbol{s} \in \mathbb{R}^{d} 和
d
d
d d 分别表示表示的维度。
CLIP 和 CLIP4clip 中的图像编码器基于视觉变换器(Vision Transformer,ViT)[14]。输入是一个视频
V
∈
R
N
F
×
3
×
H
×
W
V
∈
R
N
F
×
3
×
H
×
W
V inR^(N_(F)xx3xx H xx W) \boldsymbol{V} \in \mathbb{R}^{N_{F} \times 3 \times H \times W} ,其中
N
F
N
F
N_(F) N_{F} 表示帧数,
H
×
W
H
×
W
H xx W H \times W 表示空间尺寸。每个视频帧
{
F
i
}
i
=
1
N
F
F
i
i
=
1
N
F
{F_(i)}_(i=1)^(N_(F)) \left\{\boldsymbol{F}_{i}\right\}_{i=1}^{N_{F}} 被分割为
N
p
=
H
×
W
h
×
w
N
p
=
H
×
W
h
×
w
N_(p)=(H xx W)/(h xx w) N_{p}=\frac{H \times W}{h \times w} 个固定大小的补丁,每个补丁的大小为
h
×
w
h
×
w
h xx w h \times w ,这些补丁被展平为一组向量
x
i
=
{
x
i
,
j
∈
R
h
×
w
}
j
=
1
N
p
x
i
=
x
i
,
j
∈
R
h
×
w
j
=
1
N
p
x_(i)={x_(i,j)inR^(h xx w)}_(j=1)^(N_(p)) \boldsymbol{x}_{i}=\left\{\boldsymbol{x}_{i, j} \in \mathbb{R}^{h \times w}\right\}_{j=1}^{N_{p}} ,其中
i
i
i i 表示帧索引,
j
j
j j 表示补丁索引。这些向量随后被投影为补丁嵌入向量
h
i
=
{
h
i
,
j
}
j
=
1
N
p
h
i
=
h
i
,
j
j
=
1
N
p
h_(i)={h_(i,j)}_(j=1)^(N_(p)) \boldsymbol{h}_{i}=\left\{\boldsymbol{h}_{i, j}\right\}_{j=1}^{N_{p}} ,其中
h
i
,
j
∈
R
d
v
h
i
,
j
∈
R
d
v
h_(i,j)inR^(d_(v)) \boldsymbol{h}_{i, j} \in \mathbb{R}^{d_{v}} 和
d
v
d
v
d_(v) d_{v} 表示嵌入维度。然后,所有嵌入向量
{
h
i
}
i
=
1
N
F
h
i
i
=
1
N
F
{h_(i)}_(i=1)^(N_(F)) \left\{\boldsymbol{h}_{i}\right\}_{i=1}^{N_{F}} 和 CLS 令牌
h
cls
∈
R
d
v
h
cls
∈
R
d
v
h_("cls ")inR^(d_(v)) \boldsymbol{h}_{\text {cls }} \in \mathbb{R}^{d_{v}} 被输入到视频编码器
E
V
E
V
E_(V) \mathbf{E}_{V} 中,得到视频表示
v
∈
R
d
v
∈
R
d
v inR^(d) \boldsymbol{v} \in \mathbb{R}^{d} 。视频表示
v
v
v \boldsymbol{v} 和文本表示
s
s
s s 随后用于计算余弦相似度,从而得到检索或动作识别结果。
3.2. 集成时空动态提示
我们的集成时空动态提示方法包含两个模块:帧内空间提示和帧间时间提示。这两个模块功能互补,分别引导预训练的视觉-语言模型在空间和时间维度上准确聚焦于视频的辨别区域。帧内空间提示模块首先定位到差异化区域的位置
r
i
∈
R
N
p
r
i
∈
R
N
p
r_(i)inR^(N_(p)) \boldsymbol{r}_{i} \in \mathbb{R}^{N_{p}} ,然后通过一个轻量级提示器
P
s
P
s
P^(s) \mathcal{P}^{s} 为帧
F
i
F
i
F_(i) \boldsymbol{F}_{i} 生成帧内空间提示
p
i
s
p
i
s
p_(i)^(s) \boldsymbol{p}_{i}^{s} :
p
i
s
=
P
s
(
h
i
−
1
,
h
i
,
h
i
+
1
)
,
p
i
s
=
P
s
h
i
−
1
,
h
i
,
h
i
+
1
,
p_(i)^(s)=P^(s)(h_(i-1),h_(i),h_(i+1)), \boldsymbol{p}_{i}^{s}=\mathcal{P}^{s}\left(\boldsymbol{h}_{i-1}, \boldsymbol{h}_{i}, \boldsymbol{h}_{i+1}\right),
然后,帧内空间提示
p
i
s
p
i
s
p_(i)^(s) \boldsymbol{p}_{i}^{s} 被叠加到
h
i
h
i
h_(i) \boldsymbol{h}_{i} 的区分区域
r
i
r
i
r_(i) \boldsymbol{r}_{i} 上,从而得到
h
i
s
h
i
s
h_(i)^(s) \boldsymbol{h}_{i}^{s} 。
跨帧视频提示模块首先利用帧内视频提示模块和 3D 卷积网络获得的区分区域,计算视频中相邻帧之间的时域变化
{
w
i
}
i
=
1
N
F
−
1
w
i
i
=
1
N
F
−
1
{w_(i)}_(i=1)^(N_(F)-1) \left\{w_{i}\right\}_{i=1}^{N_{F}-1} 。
w
t
∈
R
w
t
∈
R
w_(t)inR w_{t} \in \mathbb{R} 表示时域变化的程度。 帧间变异性在帧
F
i
F
i
F_(i) \boldsymbol{F}_{i} 和
F
i
+
1
F
i
+
1
F_(i+1) \boldsymbol{F}_{i+1} 之间。然后,我们使用帧间提示器
P
t
P
t
P^(t) \mathcal{P}^{t} 生成帧间提示
{
p
i
t
}
i
=
1
N
F
−
1
p
i
t
i
=
1
N
F
−
1
{p_(i)^(t)}_(i=1)^(N_(F)-1) \left\{\boldsymbol{p}_{i}^{t}\right\}_{i=1}^{N_{F}-1} ,其中包含
{
h
i
s
}
i
=
1
N
F
h
i
s
i
=
1
N
F
{h_(i)^(s)}_(i=1)^(N_(F)) \left\{\boldsymbol{h}_{i}^{s}\right\}_{i=1}^{N_{F}} 和
{
r
i
}
i
=
1
N
F
r
i
i
=
1
N
F
{r_(i)}_(i=1)^(N_(F)) \left\{\boldsymbol{r}_{i}\right\}_{i=1}^{N_{F}} 。最后,我们将帧间提示词
{
p
i
t
}
i
=
1
N
F
−
1
p
i
t
i
=
1
N
F
−
1
{p_(i)^(t)}_(i=1)^(N_(F)-1) \left\{\boldsymbol{p}_{i}^{t}\right\}_{i=1}^{N_{F}-1} 与图像令牌
{
h
i
s
}
i
=
1
N
F
h
i
s
i
=
1
N
F
{h_(i)^(s)}_(i=1)^(N_(F)) \left\{\boldsymbol{h}_{i}^{s}\right\}_{i=1}^{N_{F}} 拼接后,作为输入传递给预训练模型的 MSA 模块。
3.3. 帧内空间提示
如第 3.2 节所述,我们首先识别每个帧的区分区域
r
i
r
i
r_(i) \boldsymbol{r}_{i} 。具体而言,我们使用预训练模型的自注意力模块
Attn
(
⋅
)
Attn
(
⋅
)
Attn(*) \operatorname{Attn}(\cdot) ,对单个帧
F
i
F
i
F_(i) \boldsymbol{F}_{i} 的不同补丁
h
i
=
{
h
i
,
j
∈
R
d
v
}
j
=
1
N
p
h
i
=
h
i
,
j
∈
R
d
v
j
=
1
N
p
h_(i)={h_(i,j)inR^(d_(v))}_(j=1)^(N_(p)) \boldsymbol{h}_{i}=\left\{\boldsymbol{h}_{i, j} \in \mathbb{R}^{d_{v}}\right\}_{j=1}^{N_{p}} 计算注意力图
A
i
A
i
A_(i) A_{i} :
A
i
=
Attn
(
h
c
l
s
,
h
i
)
,
A
i
=
Attn
h
c
l
s
,
h
i
,
A_(i)=Attn(h_(cls),h_(i)), A_{i}=\operatorname{Attn}\left(\boldsymbol{h}_{c l s}, \boldsymbol{h}_{i}\right),
其中,
A
i
∈
R
N
p
A
i
∈
R
N
p
A_(i)inR^(N_(p)) A_{i} \in \mathbb{R}^{N_{p}} 。此外,还使用了一个 3D 卷积层
N
s
N
s
N^(s) \mathcal{N}^{s} 来计算时间维度上的时域动态:
[
h
~
1
,
h
~
2
,
⋯
,
h
~
N
F
]
=
N
s
(
[
h
1
,
h
2
,
⋯
,
h
N
F
]
)
M
i
,
j
=
1
d
v
∑
k
h
~
i
,
j
,
k
2
h
~
1
,
h
~
2
,
⋯
,
h
~
N
F
=
N
s
h
1
,
h
2
,
⋯
,
h
N
F
M
i
,
j
=
1
d
v
∑
k
h
~
i
,
j
,
k
2
{:[[ tilde(h)_(1), tilde(h)_(2),cdots, tilde(h)_(N_(F))]=N^(s)([h_(1),h_(2),cdots,h_(N_(F))])],[M_(i,j)=(1)/(d_(v))sum_(k) tilde(h)_(i,j,k)^(2)]:} \begin{gathered}
{\left[\tilde{\boldsymbol{h}}_{1}, \tilde{\boldsymbol{h}}_{2}, \cdots, \tilde{\boldsymbol{h}}_{N_{F}}\right]=\mathcal{N}^{s}\left(\left[\boldsymbol{h}_{1}, \boldsymbol{h}_{2}, \cdots, \boldsymbol{h}_{N_{F}}\right]\right)} \\
M_{i, j}=\frac{1}{d_{v}} \sum_{k} \tilde{\boldsymbol{h}}_{i, j, k}^{2}
\end{gathered}
其中,
h
i
~
∈
R
N
p
×
d
v
h
i
~
∈
R
N
p
×
d
v
tilde(h_(i))inR^(N_(p)xxd_(v)) \tilde{\boldsymbol{h}_{i}} \in \mathbb{R}^{N_{p} \times d_{v}} 和
M
i
,
j
∈
R
M
i
,
j
∈
R
M_(i,j)inR M_{i, j} \in \mathbb{R} 表示第
i
i
i i 帧中第
j
j
j j 个令牌的时间动态。[ ] 表示连接操作。
然后,我们通过使用注意力图
r
i
r
i
r_(i) \boldsymbol{r}_{i} 和时空动态变化
A
i
A
i
A_(i) A_{i} 计算每个帧的区分区域
M
i
M
i
M_(i) M_{i} :
W
i
s
=
α
A
i
+
(
1
−
α
)
M
i
W
i
s
=
α
A
i
+
(
1
−
α
)
M
i
W_(i)^(s)=alphaA_(i)+(1-alpha)M_(i) W_{i}^{s}=\alpha A_{i}+(1-\alpha) M_{i}
其中
α
α
alpha \alpha 是权重超参数。然后,我们使用
N
s
N
s
N_(s) N_{s} 个补丁获取每个视频帧的判别区域:
r
i
,
j
=
{
1
,
if
W
i
,
j
s
is the top
N
s
largest values of
W
i
s
0
,
otherwise
r
i
,
j
=
1
,
if
W
i
,
j
s
is the top
N
s
largest values of
W
i
s
0
,
otherwise
r_(i,j)={[1","," if "W_(i,j)^(s)" is the top "N_(s)" largest values of "W_(i)^(s)],[0","," otherwise "]:} \boldsymbol{r}_{i, j}= \begin{cases}1, & \text { if } W_{i, j}^{s} \text { is the top } N_{s} \text { largest values of } W_{i}^{s} \\ 0, & \text { otherwise }\end{cases}
其中
N
s
N
s
N_(s) N_{s} 是一个超参数。 通过上述过程,我们全面考虑了时间变异程度与理解单帧信息的重要性,从而获得了视频的特征区域。接下来,如第 3.2 节式(1)所介绍,我们使用轻量级提示器
P
s
P
s
P^(s) \mathcal{P}^{s} 生成帧内空间提示
p
i
s
p
i
s
p_(i)^(s) \boldsymbol{p}_{i}^{s} ,并将这些提示叠加到对应特征区域的令牌上:
h
i
,
j
s
=
h
i
,
j
+
r
i
,
j
⋅
p
i
,
j
s
h
i
,
j
s
=
h
i
,
j
+
r
i
,
j
⋅
p
i
,
j
s
h_(i,j)^(s)=h_(i,j)+r_(i,j)*p_(i,j)^(s) \boldsymbol{h}_{i, j}^{s}=\boldsymbol{h}_{i, j}+\boldsymbol{r}_{i, j} \cdot \boldsymbol{p}_{i, j}^{s}
通过帧内空间提示,我们识别出每个视频帧的特征区域,并在对应的词元上添加提示,引导预训练模型准确聚焦。
3.4. 帧间时间提示
在基于帧内空间提示突出帧内区分区域的基础上,我们进一步引入帧间时间提示,以沿时间维度识别关键帧。如 3.2 节所述,我们首先使用一个 3D 卷积层
N
t
N
t
N^(t) \mathcal{N}^{t} 来获取相邻帧之间的动态变化:
Δ
h
i
s
=
h
i
s
−
h
i
−
1
s
,
[
h
~
1
s
,
⋯
,
h
~
N
F
−
1
s
]
=
N
t
(
[
Δ
h
1
s
,
⋯
,
Δ
h
N
F
−
1
s
)
]
)
,
W
i
t
=
1
N
p
⋅
d
v
∑
j
(
(
1
+
β
⋅
r
i
,
j
)
∑
k
(
h
~
i
,
j
,
k
s
)
2
)
,
Δ
h
i
s
=
h
i
s
−
h
i
−
1
s
,
h
~
1
s
,
⋯
,
h
~
N
F
−
1
s
=
N
t
Δ
h
1
s
,
⋯
,
Δ
h
N
F
−
1
s
,
W
i
t
=
1
N
p
⋅
d
v
∑
j
1
+
β
⋅
r
i
,
j
∑
k
h
~
i
,
j
,
k
s
2
,
{:[Deltah_(i)^(s)=h_(i)^(s)-h_(i-1)^(s)","],[{:[ tilde(h)_(1)^(s),cdots, tilde(h)_(N_(F)-1)^(s)]=N^(t)([Deltah_(1)^(s),cdots,Deltah_(N_(F)-1)^(s))])","],[W_(i)^(t)=(1)/(N_(p)*d_(v))sum_(j)((1+beta*r_(i,j))sum_(k)( tilde(h)_(i,j,k)^(s))^(2))","]:} \begin{gathered}
\Delta \boldsymbol{h}_{i}^{s}=\boldsymbol{h}_{i}^{s}-\boldsymbol{h}_{i-1}^{s}, \\
\left.\left[\tilde{\boldsymbol{h}}_{1}^{s}, \cdots, \tilde{\boldsymbol{h}}_{N_{F}-1}^{s}\right]=\mathcal{N}^{t}\left(\left[\Delta \boldsymbol{h}_{1}^{s}, \cdots, \Delta \boldsymbol{h}_{N_{F}-1}^{s}\right)\right]\right), \\
W_{i}^{t}=\frac{1}{N_{p} \cdot d_{v}} \sum_{j}\left(\left(1+\beta \cdot \boldsymbol{r}_{i, j}\right) \sum_{k}\left(\tilde{\boldsymbol{h}}_{i, j, k}^{s}\right)^{2}\right),
\end{gathered}
其中
h
~
i
s
∈
R
N
p
×
d
v
,
W
i
t
∈
R
h
~
i
s
∈
R
N
p
×
d
v
,
W
i
t
∈
R
tilde(h)_(i)^(s)inR^(N_(p)xxd_(v)),W_(i)^(t)inR \tilde{\boldsymbol{h}}_{i}^{s} \in \mathbb{R}^{N_{p} \times d_{v}}, W_{i}^{t} \in \mathbb{R} 和
β
β
beta \beta 是权重超参数。通过上述过程,在计算帧间变化时,我们为通过帧内空间提示识别出的区分性区域
r
i
r
i
r_(i) \boldsymbol{r}_{i} 分配更高权重,从而能够更准确地评估主目标的变化而非背景。
然后,根据帧时域变化的幅度
W
i
t
W
i
t
W_(i)^(t) W_{i}^{t} ,我们确定在帧之间插入的提示令牌数量
N
i
t
∈
R
N
i
t
∈
R
N_(i)^(t)inR N_{i}^{t} \in \mathbb{R} :
N
i
t
=
⌈
η
⋅
W
i
t
⌉
,
N
i
t
=
η
⋅
W
i
t
,
N_(i)^(t)=|~eta*W_(i)^(t)~|, N_{i}^{t}=\left\lceil\eta \cdot W_{i}^{t}\right\rceil,
其中
⌈
⋅
⌉
⌈
⋅
⌉
|~*~| \lceil\cdot\rceil 表示取整到最接近的整数(向上取整),
η
η
eta \eta 是缩放因子。接下来,我们引入一个帧间提示器
P
t
P
t
P^(t) \mathcal{P}^{t} 以生成帧间提示
p
i
t
p
i
t
p_(i)^(t) \boldsymbol{p}_{i}^{t} :
[
p
1
t
,
⋯
,
p
N
F
t
]
=
P
t
(
[
Δ
h
1
s
,
⋯
,
Δ
h
N
F
−
1
s
]
)
,
p
1
t
,
⋯
,
p
N
F
t
=
P
t
Δ
h
1
s
,
⋯
,
Δ
h
N
F
−
1
s
,
[p_(1)^(t),cdots,p_(N_(F))^(t)]=P^(t)([Deltah_(1)^(s),cdots,Deltah_(N_(F)-1)^(s)]), \left[\boldsymbol{p}_{1}^{t}, \cdots, \boldsymbol{p}_{N_{F}}^{t}\right]=\mathcal{P}^{t}\left(\left[\Delta \boldsymbol{h}_{1}^{s}, \cdots, \Delta \boldsymbol{h}_{N_{F}-1}^{s}\right]\right),
其中
p
i
t
∈
R
N
i
t
×
d
v
p
i
t
∈
R
N
i
t
×
d
v
p_(i)^(t)inR^(N_(i)^(t)xxd_(v)) \boldsymbol{p}_{i}^{t} \in \mathbb{R}^{N_{i}^{t} \times d_{v}} 。对于不同的提示令牌数量
N
i
t
N
i
t
N_(i)^(t) N_{i}^{t} ,提示器的最终线性层对应于选择一个输出维度为
N
i
t
N
i
t
N_(i)^(t) N_{i}^{t} 的网络。然后,我们将帧间时间提示
p
i
t
p
i
t
p_(i)^(t) \boldsymbol{p}_{i}^{t} 与图像令牌
h
~
i
t
h
~
i
t
tilde(h)_(i)^(t) \tilde{\boldsymbol{h}}_{i}^{t} 和 CLS 令牌
p
c
l
s
p
c
l
s
p_(cls) \boldsymbol{p}_{c l s} 拼接在一起,并将其输入到预训练模型的多头自注意力(MSA)块中,以获得最终的视频表示
v
∈
v
∈
v in \boldsymbol{v} \in
R
d
R
d
R^(d) \mathbb{R}^{d} 。然后,我们使用余弦相似度计算
v
v
v \boldsymbol{v} 与文本表示
s
s
s s 之间的语义相关性:
c
(
s
,
v
)
=
s
⋅
v
‖
s
‖
‖
v
‖
c
(
s
,
v
)
=
s
⋅
v
‖
s
‖
‖
v
‖
c(s,v)=(s*v)/(||s||||v||) c(\boldsymbol{s}, \boldsymbol{v})=\frac{\boldsymbol{s} \cdot \boldsymbol{v}}{\|\boldsymbol{s}\|\|\boldsymbol{v}\|}
其中
‖
⋅
‖
‖
⋅
‖
||*|| \|\cdot\| 表示
ℓ
2
ℓ
2
ℓ_(2) \ell_{2} 范数。
3.5. 整体优化
对于视频动作识别任务,我们遵循[51, 65, 66],采用交叉熵损失函数进行训练:
L
a
c
t
=
−
1
B
∑
i
=
1
B
log
e
c
(
v
i
,
s
y
i
)
/
τ
∑
j
=
1
K
e
c
(
v
i
,
s
j
)
/
τ
L
a
c
t
=
−
1
B
∑
i
=
1
B
log
e
c
v
i
,
s
y
i
/
τ
∑
j
=
1
K
e
c
v
i
,
s
j
/
τ
L_(act)=-(1)/(B)sum_(i=1)^(B)log((e^(c(v_(i),s_(y_(i)))//tau))/(sum_(j=1)^(K)e^(c(v_(i),s_(j))//tau))) \mathcal{L}_{a c t}=-\frac{1}{B} \sum_{i=1}^{B} \log \frac{e^{c\left(\boldsymbol{v}_{i}, \boldsymbol{s}_{y_{i}}\right) / \tau}}{\sum_{j=1}^{K} e^{c\left(\boldsymbol{v}_{i}, \boldsymbol{s}_{j}\right) / \tau}}
其中,
y
i
y
i
y_(i) y_{i} 表示视频的标签,
v
i
,
B
v
i
,
B
v_(i),B \boldsymbol{v}_{i}, B 表示批次大小,
τ
τ
tau \tau 表示温度参数。
对于视频-文本检索任务,我们遵循[61, 64],采用对比损失进行训练。我们将成对的文本-视频数据视为正样本,而批次中的其他数据则作为负样本:
L
v
t
=
1
2
B
∑
i
=
1
B
(
log
e
c
(
s
i
,
v
i
)
/
τ
∑
j
e
c
(
s
j
,
v
i
)
/
τ
+
log
e
c
(
s
i
,
v
i
)
/
τ
∑
j
e
c
(
s
i
,
v
j
)
/
τ
)
,
L
v
t
=
1
2
B
∑
i
=
1
B
log
e
c
s
i
,
v
i
/
τ
∑
j
e
c
s
j
,
v
i
/
τ
+
log
e
c
s
i
,
v
i
/
τ
∑
j
e
c
s
i
,
v
j
/
τ
,
L_(vt)=(1)/(2B)sum_(i=1)^(B)(log((e^(c(s_(i),v_(i))//tau))/(sum_(j)e^(c(s_(j),v_(i))//tau)))+log((e^(c(s_(i),v_(i))//tau))/(sum_(j)e^(c(s_(i),v_(j))//tau)))), \mathcal{L}_{v t}=\frac{1}{2 B} \sum_{i=1}^{B}\left(\log \frac{e^{c\left(\boldsymbol{s}_{i}, \boldsymbol{v}_{i}\right) / \tau}}{\sum_{j} e^{c\left(\boldsymbol{s}_{j}, \boldsymbol{v}_{i}\right) / \tau}}+\log \frac{e^{c\left(\boldsymbol{s}_{i}, \boldsymbol{v}_{i}\right) / \tau}}{\sum_{j} e^{c\left(\boldsymbol{s}_{i}, \boldsymbol{v}_{j}\right) / \tau}}\right),
在我们提出的 STOP 模型中,需要优化的参数包括两个 3D 卷积层
N
s
N
s
N^(s) \mathcal{N}^{s} 和
N
t
N
t
N^(t) \mathcal{N}^{t} ,以及两个促进器
P
s
P
s
P^(s) \mathcal{P}^{s} 和
P
t
P
t
P^(t) \mathcal{P}^{t} 。
4. 实验
4.1. 数据集
动作识别。HMDB51 [26] 包含约 7,000 个片段,涵盖 51 个动作类别,包含多样化的真实世界动作,背景和摄像头角度各不相同。UCF101 [47] 提供了超过 13,000 个片段,涵盖 101 个活动类别,包括体育运动、日常动作和社会互动,进一步增加了场景多样性。SSV2(Something-Something V2)[16] 包含约 220,000 个片段,分布在 174 个类别中,重点关注具有时间依赖性的动作,适合评估时间推理能力。
文本-视频检索。我们在四个广泛使用的文本-视频检索数据集上进行评估:MSR-VTT [56]、ActivityNet [6]、DiDeMo [2] 和 VATEX [54]。MSR-VTT 包含 10,000 个视频片段,每个片段配有约 20 条描述。ActivityNet 包含 20,000 个 YouTube 视频,涵盖 200 种活动,视频描述被整合为单段落用于视频-文本检索。DiDeMo 包含 10,000 个
方法
HMDB51
UCF101
SS-V2
CLIP4Clip [42]
75.2
94.1
69.4
适配器
偏见 [7]
60.1
85.6
13.6
适配器
ATT
ATT
^("ATT ") { }^{\text {ATT }} [17]
60.3
85.7
14.2
适配器
FFN
FFN
^("FFN ") { }^{\text {FFN }} [11]
60.6
86.2
13.8
视觉-文本适配器 [18]
63.4
88.3
14.6
视频文本适配器 [44]
64.7
89.2
15.7
提示
VoP
F
+
C
VoP
F
+
C
VoP^(F+C) \mathrm{VoP}^{\mathrm{F}+\mathrm{C}} [19]
65.2
91.3
16.7
DGL-线性 [61]
67.2
92.5
18.3
DGL-Transformer [61]
69.8
93.6
18.1
UniPT [13]
65.2
90.6
15.6
停止(我们的)
72.0
95.3
21.4
Methods HMDB51 UCF101 SS-V2
CLIP4Clip [42] 75.2 94.1 69.4
Adapter Bias [7] 60.1 85.6 13.6
Adapter ^("ATT ") [17] 60.3 85.7 14.2
Adapter ^("FFN ") [11] 60.6 86.2 13.8
Visual-Text Adapter [18] 63.4 88.3 14.6
Video-Text Adapter [44] 64.7 89.2 15.7
Prompt VoP^(F+C) [19] 65.2 91.3 16.7
DGL-Linear [61] 67.2 92.5 18.3
DGL-Transformer [61] 69.8 93.6 18.1
UniPT [13] 65.2 90.6 15.6
STOP (Ours) 72.0 95.3 21.4 | | Methods | HMDB51 | UCF101 | SS-V2 |
| :--- | :--- | :--- | :--- | :--- |
| | CLIP4Clip [42] | 75.2 | 94.1 | 69.4 |
| Adapter | Bias [7] | 60.1 | 85.6 | 13.6 |
| | Adapter ${ }^{\text {ATT }}$ [17] | 60.3 | 85.7 | 14.2 |
| | Adapter ${ }^{\text {FFN }}$ [11] | 60.6 | 86.2 | 13.8 |
| | Visual-Text Adapter [18] | 63.4 | 88.3 | 14.6 |
| | Video-Text Adapter [44] | 64.7 | 89.2 | 15.7 |
| Prompt | $\mathrm{VoP}^{\mathrm{F}+\mathrm{C}}$ [19] | 65.2 | 91.3 | 16.7 |
| | DGL-Linear [61] | 67.2 | 92.5 | 18.3 |
| | DGL-Transformer [61] | 69.8 | 93.6 | 18.1 |
| | UniPT [13] | 65.2 | 90.6 | 15.6 |
| | STOP (Ours) | 72.0 | 95.3 | 21.4 |
表 1. 与 HMDB51、UCF101 和 SS-V2 上的最先进方法比较。在此,我们报告动作识别分类准确率(ACC@1)。为了公平比较,所有方法均采用 CLIP-ViT-B/32 [45] 作为基础模型。
方法
文本
→
→
rarr \rightarrow 视频
视频
→
→
rarr \rightarrow 文本
参数(MB)
↓
↓
darr \downarrow
R@1
↑
↑
uarr \uparrow
R@5
↑
↑
uarr \uparrow
R@10
↑
↑
uarr \uparrow
MnR
↓
↓
darr \downarrow
R@1
↑
↑
uarr \uparrow
R@5
↑
↑
uarr \uparrow
R@10
↑
↑
uarr \uparrow
MnR
↓
↓
darr \downarrow
|CLIP4Clip [42]
神经计算 2022
123.54
43.1
70.4
80.8
16.2
43.1
70.5
81.2
12.4
适配器
偏见 [7]
神经信息处理国际会议(NeurIPS)2020
0.1
39.7
66.5
77.3
17.3
41.1
68.4
79.2
13.6
适配器
ATTN
ATTN
^("ATTN ") { }^{\text {ATTN }} [17]
ICLR 2022
2.0
37.6
63.2
75.8
18.7
39.6
66.5
76.8
14.7
适配器
FFN
FFN
^("FFN ") { }^{\text {FFN }} [11]
神经信息处理与学习国际会议(NeurIPS)2022
2.0
38.2
63.5
76.4
17.9
39.9
66.8
77.7
14.2
视觉-文本适配器 [18]
ICML 2019
11.82
39.2
65.7
76.1
17.6
40.7
68.8
77.6
13.7
视频文本适配器 [44]
神经信息处理与学习国际会议(NeurIPS)2022
11.94
41.1
67.0
77.1
17.4
42.6
68.4
78.4
13.8
提示
高效提示 [22]
ECCV 2022
6.35
36.7
64.6
-
-
-
-
-
-
VPT [21]
ECCV 2022
0.18
42.0
66.6
77.3
19.2
39.4
66.8
77.2
16.2
UPT [63]
arXiv 2022
9.57
42.1
67.7
78.2
16.5
42.6
70.3
79.3
12.3
VoP
F
+
C
VoP
F
+
C
VoP^(F+C) \mathrm{VoP}^{\mathrm{F}+\mathrm{C}} [19]
CVPR 2023
14.10
44.6
69.9
80.3
16.3
44.5
70.7
80.6
11.5
DGL-线性 [61]
AAAI 2024
0.83
44.7
70.5
79.2
16.2
42.1
70.0
80.6
13.4
DGL-Transformer [61]
AAAI 2024
9.57
45.8
69.3
79.4
16.3
43.5
70.5
80.7
13.1
UniPT [13]
CVPR 2024
9.60
38.9
60.2
71.4
18.5
39.3
58.6
70.4
16.4
MPT-线性 [64]
ACMMM'24
0.87
45.0
70.8
79.6
16.2
42.8
70.6
81.1
12.9
MPT-变压器 [64]
ACMMM'24
9.61
46.3
70.9
80.7
15.6
45.0
70.9
80.6
12.7
停止(我们的)
本文
7.53
47.7
71.4
81.1
15.2
46.1
71.6
81.0
12.2
Methods Text rarr Video Video rarr Text
Params (MB) darr R@1 uarr R@5 uarr R@10 uarr MnR darr R@1 uarr R@5 uarr R@10 uarr MnR darr
|CLIP4Clip [42] Neurocomputing'22 123.54 43.1 70.4 80.8 16.2 43.1 70.5 81.2 12.4
Adapter Bias [7] NeurIPS'20 0.1 39.7 66.5 77.3 17.3 41.1 68.4 79.2 13.6
Adapter ^("ATTN ") [17] ICLR'22 2.0 37.6 63.2 75.8 18.7 39.6 66.5 76.8 14.7
Adapter ^("FFN ") [11] NeurIPS'22 2.0 38.2 63.5 76.4 17.9 39.9 66.8 77.7 14.2
Visual-Text Adapter [18] ICML'19 11.82 39.2 65.7 76.1 17.6 40.7 68.8 77.6 13.7
Video-Text Adapter [44] NeurIPS'22 11.94 41.1 67.0 77.1 17.4 42.6 68.4 78.4 13.8
Prompt Efficient Prompt [22] ECCV'22 6.35 36.7 64.6 - - - - - -
VPT [21] ECCV'22 0.18 42.0 66.6 77.3 19.2 39.4 66.8 77.2 16.2
UPT [63] arXiv'22 9.57 42.1 67.7 78.2 16.5 42.6 70.3 79.3 12.3
VoP^(F+C) [19] CVPR'23 14.10 44.6 69.9 80.3 16.3 44.5 70.7 80.6 11.5
DGL-Linear [61] AAAI'24 0.83 44.7 70.5 79.2 16.2 42.1 70.0 80.6 13.4
DGL-Transformer [61] AAAI'24 9.57 45.8 69.3 79.4 16.3 43.5 70.5 80.7 13.1
UniPT [13] CVPR'24 9.60 38.9 60.2 71.4 18.5 39.3 58.6 70.4 16.4
MPT-Linear [64] ACMMM'24 0.87 45.0 70.8 79.6 16.2 42.8 70.6 81.1 12.9
MPT-Transformer [64] ACMMM'24 9.61 46.3 70.9 80.7 15.6 45.0 70.9 80.6 12.7
STOP (Ours) This Paper 7.53 47.7 71.4 81.1 15.2 46.1 71.6 81.0 12.2 | Methods | | | | Text $\rightarrow$ Video | | | | Video $\rightarrow$ Text | | | |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| | | | Params (MB) $\downarrow$ | R@1 $\uparrow$ | R@5 $\uparrow$ | R@10 $\uparrow$ | MnR $\downarrow$ | R@1 $\uparrow$ | R@5 $\uparrow$ | R@10 $\uparrow$ | MnR $\downarrow$ |
| | \|CLIP4Clip [42] | Neurocomputing'22 | 123.54 | 43.1 | 70.4 | 80.8 | 16.2 | 43.1 | 70.5 | 81.2 | 12.4 |
| Adapter | Bias [7] | NeurIPS'20 | 0.1 | 39.7 | 66.5 | 77.3 | 17.3 | 41.1 | 68.4 | 79.2 | 13.6 |
| | Adapter ${ }^{\text {ATTN }}$ [17] | ICLR'22 | 2.0 | 37.6 | 63.2 | 75.8 | 18.7 | 39.6 | 66.5 | 76.8 | 14.7 |
| | Adapter ${ }^{\text {FFN }}$ [11] | NeurIPS'22 | 2.0 | 38.2 | 63.5 | 76.4 | 17.9 | 39.9 | 66.8 | 77.7 | 14.2 |
| | Visual-Text Adapter [18] | ICML'19 | 11.82 | 39.2 | 65.7 | 76.1 | 17.6 | 40.7 | 68.8 | 77.6 | 13.7 |
| | Video-Text Adapter [44] | NeurIPS'22 | 11.94 | 41.1 | 67.0 | 77.1 | 17.4 | 42.6 | 68.4 | 78.4 | 13.8 |
| Prompt | Efficient Prompt [22] | ECCV'22 | 6.35 | 36.7 | 64.6 | - | - | - | - | - | - |
| | VPT [21] | ECCV'22 | 0.18 | 42.0 | 66.6 | 77.3 | 19.2 | 39.4 | 66.8 | 77.2 | 16.2 |
| | UPT [63] | arXiv'22 | 9.57 | 42.1 | 67.7 | 78.2 | 16.5 | 42.6 | 70.3 | 79.3 | 12.3 |
| | $\mathrm{VoP}^{\mathrm{F}+\mathrm{C}}$ [19] | CVPR'23 | 14.10 | 44.6 | 69.9 | 80.3 | 16.3 | 44.5 | 70.7 | 80.6 | 11.5 |
| | DGL-Linear [61] | AAAI'24 | 0.83 | 44.7 | 70.5 | 79.2 | 16.2 | 42.1 | 70.0 | 80.6 | 13.4 |
| | DGL-Transformer [61] | AAAI'24 | 9.57 | 45.8 | 69.3 | 79.4 | 16.3 | 43.5 | 70.5 | 80.7 | 13.1 |
| | UniPT [13] | CVPR'24 | 9.60 | 38.9 | 60.2 | 71.4 | 18.5 | 39.3 | 58.6 | 70.4 | 16.4 |
| | MPT-Linear [64] | ACMMM'24 | 0.87 | 45.0 | 70.8 | 79.6 | 16.2 | 42.8 | 70.6 | 81.1 | 12.9 |
| | MPT-Transformer [64] | ACMMM'24 | 9.61 | 46.3 | 70.9 | 80.7 | 15.6 | 45.0 | 70.9 | 80.6 | 12.7 |
| | STOP (Ours) | This Paper | 7.53 | 47.7 | 71.4 | 81.1 | 15.2 | 46.1 | 71.6 | 81.0 | 12.2 |
“参数”表示每种方法可训练的参数数量。
最佳结果和次佳结果分别用红色和蓝色标注。
表 2. 与 MSR-VTT 数据集上的最先进方法比较。为了进行公平比较,所有方法均采用 CLIP-ViT-B/32 [45] 作为基础模型。
Flickr 视频与 40,000 句描述配对,使用联合描述进行模型评估。VATEX 数据集是一个大规模视频-文本数据集,包含 41,250 个视频及其双语(英中)字幕,广泛用于视频字幕生成和跨模态学习。
评估指标。对于视频动作识别,我们采用分类准确率(ACC@1)作为评估指标。对于视频-文本检索,遵循先前研究[61, 64],我们采用标准检索指标评估模型性能,包括
R
@
K
R
@
K
R@K \mathrm{R} @ \mathrm{~K} (召回率在排名 K 内,越高越好
↑
↑
uarr \uparrow )和 MnR(平均排名,越低越好
↓
↓
darr \downarrow )。
4.2. 比较方法
我们将我们的 STOP 方法与基于适配器的参数高效微调方法和基于提示的参数高效微调方法进行了比较。我们还报告了完全微调的结果作为基线,即 CLIP4Clip [42]。对于适配器基于的方法,我们报告了 Bias [7]、Adapter [17]、Adapter [11]、Visual-Text Adapter [18]和 Video-Text Adapter [44]的结果。对于提示基于的方法,我们报告了 Efficient Prompt [22]、VPT [21]、UPT [63]、VoP [19]、DGLLinear [61]、DGL-Transformer [61]、UniPT [13]、MPTLinear [64]和 MPT-Transformer[64]。
4.3. 实现细节
遵循[61, 64],视频和文本编码器使用预训练的 CLIP(ViT-B/32)进行初始化,预训练权重在训练过程中保持冻结。所有视频帧均 调整大小为
224
×
224
224
×
224
224 xx224 224 \times 224 并划分为 49 个不重叠的片段。对于视频动作识别,我们使用一个手工设计的提示模板“一段视频中的人在做[CLASS]”来构造文本输入。对于 MSR-VTT 和 VATEX 数据集,字幕的最大长度设置为 32,每个视频均匀采样 12 帧。对于其他数据集,句子和帧的最大数量均设置为 64。在我们的方法中,默认的帧内提示词数量
N
s
N
s
N_(s) N_{s} 设置为 6,帧间提示词的缩放因子
η
η
eta \eta 设置为 12,权重超参数
α
α
alpha \alpha 和
β
β
beta \beta 分别设置为 0.4 和 4。在训练过程中,模型采用 AdamW 优化器进行训练,并使用余弦衰减调度器。
4.4. 与现有最佳方法的比较
4.4.1. 动作识别
我们首先在视频动作识别任务上验证了我们方法的有效性,并在 HMDB51、UCF101 和 SS-V2 数据集上进行了实验。如表 1 所示,与其他参数高效的微调方法和视频提示方法相比,我们的 STOP 方法在三个数据集上分别实现了
2
.
2
%
,
1
.
7
%
2
.
2
%
,
1
.
7
%
2.2%,1.7% \mathbf{2 . 2 \%}, \mathbf{1 . 7 \%} 和
3
.
1
%
3
.
1
%
3.1% \mathbf{3 . 1 \%} 的提升。这是因为我们的 STOP 方法利用了集成时空动态提示,引导预训练模型聚焦于具有时空动态的区分性区域。这种方法提升了预训练 CLIP 模型捕捉细粒度时空信息的能力,从而实现了更准确的动作识别。
方法
活动网
迪德莫
VATEX
R@1
↑
↑
uarr \uparrow
R@5
↑
↑
uarr \uparrow
R@10
↑
↑
uarr \uparrow
MnR
↓
↓
darr \downarrow
R@1
↑
↑
uarr \uparrow
R@5
↑
↑
uarr \uparrow
R@10
↑
↑
uarr \uparrow
MnR
↓
↓
darr \downarrow
R@1
↑
↑
uarr \uparrow
R@5
↑
↑
uarr \uparrow
R@10
↑
↑
uarr \uparrow
MnR
↓
↓
darr \downarrow
CLIP4Clip [42]
40.5
72.4
98.1
7.5
43.4
70.2
80.6
17.5
55.9
89.2
95.0
3.9
适配器
偏见 [7]
31.3
60.3
74.2
13.4
36.5
63.4
75.2
24.8
52.2
83.1
91.3
5.2
适配器
ATT
ATT
^("ATT ") { }^{\text {ATT }} [17]
31.6
60.5
74.4
13.1
36.4
62.8
73.9
23.5
52.6
83.4
91.8
5.0
适配器
FFN
FFN
^(FFN) { }^{\mathrm{FFN}} [11]
31.8
61.0
75.0
12.8
36.3
63.4
75.4
22.9
52.3
83.3
91.5
5.2
视觉-文本适配器 [18]
33.5
64.8
77.5
10.9
-
-
-
-
53.1
85.0
92.3
4.9
视频文本适配器 [44]
36.4
66.1
79.6
10.0
-
-
-
-
53.5
85.0
92.4
4.7
提示
VoP
F
+
C
VoP
F
+
C
VoP^(F+C) \mathrm{VoP}^{\mathrm{F+C}} [19]
36.1
65.5
78.5
10.9
45.3
72.3
80.4
13.8
54.2
85.2
93.6
4.7
DGL-线性 [61]
38.3
68.4
79.2
10.3
44.2
70.6
80.2
15.8
56.2
87.1
93.5
4.1
DGL-Transformer [61]
40.1
69.5
80.9
9.1
45.6
71.7
81.1
14.6
54.3
85.5
92.3
4.9
UniPT [13]
34.6
65.7
75.2
15.5
40.1
64.2
74.7
18.7
53.4
85.2
92.3
5.0
MPT-变压器 [64]
41.4
70.9
82.9
7.8
46.4
72.2
81.4
13.4
-
-
-
-
停止(我们的)
43.1
71.4
83.7
6.9
47.5
73.5
82.0
12.5
57.5
88.4
93.2
4.0
Methods ActivityNet DiDeMo VATEX
R@1 uarr R@5 uarr R@10 uarr MnR darr R@1 uarr R@5 uarr R@10 uarr MnR darr R@1 uarr R@5 uarr R@10 uarr MnR darr
CLIP4Clip [42] 40.5 72.4 98.1 7.5 43.4 70.2 80.6 17.5 55.9 89.2 95.0 3.9
Adapter Bias [7] 31.3 60.3 74.2 13.4 36.5 63.4 75.2 24.8 52.2 83.1 91.3 5.2
Adapter ^("ATT ") [17] 31.6 60.5 74.4 13.1 36.4 62.8 73.9 23.5 52.6 83.4 91.8 5.0
Adapter ^(FFN) [11] 31.8 61.0 75.0 12.8 36.3 63.4 75.4 22.9 52.3 83.3 91.5 5.2
Visual-Text Adapter [18] 33.5 64.8 77.5 10.9 - - - - 53.1 85.0 92.3 4.9
Video-Text Adapter [44] 36.4 66.1 79.6 10.0 - - - - 53.5 85.0 92.4 4.7
Prompt VoP^(F+C) [19] 36.1 65.5 78.5 10.9 45.3 72.3 80.4 13.8 54.2 85.2 93.6 4.7
DGL-Linear [61] 38.3 68.4 79.2 10.3 44.2 70.6 80.2 15.8 56.2 87.1 93.5 4.1
DGL-Transformer [61] 40.1 69.5 80.9 9.1 45.6 71.7 81.1 14.6 54.3 85.5 92.3 4.9
UniPT [13] 34.6 65.7 75.2 15.5 40.1 64.2 74.7 18.7 53.4 85.2 92.3 5.0
MPT-Transformer [64] 41.4 70.9 82.9 7.8 46.4 72.2 81.4 13.4 - - - -
STOP (Ours) 43.1 71.4 83.7 6.9 47.5 73.5 82.0 12.5 57.5 88.4 93.2 4.0 | | Methods | ActivityNet | | | | DiDeMo | | | | VATEX | | | |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| | | R@1 $\uparrow$ | R@5 $\uparrow$ | R@10 $\uparrow$ | MnR $\downarrow$ | R@1 $\uparrow$ | R@5 $\uparrow$ | R@10 $\uparrow$ | MnR $\downarrow$ | R@1 $\uparrow$ | R@5 $\uparrow$ | R@10 $\uparrow$ | MnR $\downarrow$ |
| | CLIP4Clip [42] | 40.5 | 72.4 | 98.1 | 7.5 | 43.4 | 70.2 | 80.6 | 17.5 | 55.9 | 89.2 | 95.0 | 3.9 |
| Adapter | Bias [7] | 31.3 | 60.3 | 74.2 | 13.4 | 36.5 | 63.4 | 75.2 | 24.8 | 52.2 | 83.1 | 91.3 | 5.2 |
| | Adapter ${ }^{\text {ATT }}$ [17] | 31.6 | 60.5 | 74.4 | 13.1 | 36.4 | 62.8 | 73.9 | 23.5 | 52.6 | 83.4 | 91.8 | 5.0 |
| | Adapter ${ }^{\mathrm{FFN}}$ [11] | 31.8 | 61.0 | 75.0 | 12.8 | 36.3 | 63.4 | 75.4 | 22.9 | 52.3 | 83.3 | 91.5 | 5.2 |
| | Visual-Text Adapter [18] | 33.5 | 64.8 | 77.5 | 10.9 | - | - | - | - | 53.1 | 85.0 | 92.3 | 4.9 |
| | Video-Text Adapter [44] | 36.4 | 66.1 | 79.6 | 10.0 | - | - | - | - | 53.5 | 85.0 | 92.4 | 4.7 |
| Prompt | $\mathrm{VoP}^{\mathrm{F+C}}$ [19] | 36.1 | 65.5 | 78.5 | 10.9 | 45.3 | 72.3 | 80.4 | 13.8 | 54.2 | 85.2 | 93.6 | 4.7 |
| | DGL-Linear [61] | 38.3 | 68.4 | 79.2 | 10.3 | 44.2 | 70.6 | 80.2 | 15.8 | 56.2 | 87.1 | 93.5 | 4.1 |
| | DGL-Transformer [61] | 40.1 | 69.5 | 80.9 | 9.1 | 45.6 | 71.7 | 81.1 | 14.6 | 54.3 | 85.5 | 92.3 | 4.9 |
| | UniPT [13] | 34.6 | 65.7 | 75.2 | 15.5 | 40.1 | 64.2 | 74.7 | 18.7 | 53.4 | 85.2 | 92.3 | 5.0 |
| | MPT-Transformer [64] | 41.4 | 70.9 | 82.9 | 7.8 | 46.4 | 72.2 | 81.4 | 13.4 | - | - | - | - |
| | STOP (Ours) | 43.1 | 71.4 | 83.7 | 6.9 | 47.5 | 73.5 | 82.0 | 12.5 | 57.5 | 88.4 | 93.2 | 4.0 |
表 3. 与 ActivityNet、DiDeMo 和 VATEX 上的最先进方法比较。简要来说,我们仅报告文本到视频检索(t2v)的结果。为了公平比较,所有方法均采用 CLIP-ViT-B/32 [45]作为基础模型。 识别结果。
4.4.2. 视频文本检索
接下来,为了进一步验证我们方法的有效性,我们在视频-文本检索任务上进行了实验。如表 2 所示,在 MSR-VTT 数据集上,与第二好的方法 MPT-Transformer 相比,我们的方法在参数上减少了
2
.
0
8
2
.
0
8
2.08 \mathbf{2 . 0 8} MB,同时提高了平均排名(MnR) 分别提高了
0
.
4
%
0
.
4
%
0.4% \mathbf{0 . 4 \%} 和
0
.
5
%
0
.
5
%
0.5% \mathbf{0 . 5 \%} ,R@1 分别提高了
1
.
4
%
1
.
4
%
1.4% \mathbf{1 . 4 \%} 和
1
.
1
%
1
.
1
%
1.1% \mathbf{1 . 1 \%} 。此外,我们的方法在 R@5 和 R@10 指标上也表现出持续改进。这是因为我们提出的帧内空间提示与帧间提示相互补充,能够在空间和时间维度上突出区分性区域和关键帧的位置,从而帮助模型更准确地提取视频表示。
此外,如表 3 所示,我们还在 ActivityNet、DiDeMo 和 VATEX 数据集上进行了实验。与 MPT-Transformer 相比,我们在 ActivityNet 数据集上采用 STOP 方法分别提升了 R@1、R@5 和 R@10 的性能,提升幅度分别为
1
.
7
%
,
1
.
5
%
1
.
7
%
,
1
.
5
%
1.7%,1.5% \mathbf{1 . 7 \%}, \mathbf{1 . 5 \%} 和
0
.
8
%
0
.
8
%
0.8% \mathbf{0 . 8 \%} ,同时将 MnR 降低了
0
.
9
%
0
.
9
%
0.9% \mathbf{0 . 9 \%} 。在另外两个数据集 DiDeMo 和 VATEX 上,我们的方法也实现了性能的持续提升。这是因为我们对帧内提示和帧间提示的位置进行了动态调整,使得我们的方法能够在不同数据集上实现良好的泛化能力。
4.5. 消融
4.5.1. 不同组分的影响
为了验证帧内空间提示和帧间时间提示的有效性,我们在三个数据集上进行了消融实验:HMDB51、UCF101、
内
国际
HMDB51
UCF101
SS-V2
-
-
50.2
70.2
10.2
✓
✓
✓ \checkmark
-
67.1
83.1
16.5
-
✓
✓
✓ \checkmark
69.4
87.4
15.9
✓
✓
✓ \checkmark
✓
✓
✓ \checkmark
7
2
.
0
7
2
.
0
72.0 \mathbf{7 2 . 0}
9
5
.
3
9
5
.
3
95.3 \mathbf{9 5 . 3}
2
1
.
4
2
1
.
4
21.4 \mathbf{2 1 . 4}
Intra Inter HMDB51 UCF101 SS-V2
- - 50.2 70.2 10.2
✓ - 67.1 83.1 16.5
- ✓ 69.4 87.4 15.9
✓ ✓ 72.0 95.3 21.4 | Intra | Inter | HMDB51 | UCF101 | SS-V2 |
| :---: | :---: | :---: | :---: | :---: |
| - | - | 50.2 | 70.2 | 10.2 |
| $\checkmark$ | - | 67.1 | 83.1 | 16.5 |
| - | $\checkmark$ | 69.4 | 87.4 | 15.9 |
| $\checkmark$ | $\checkmark$ | $\mathbf{7 2 . 0}$ | $\mathbf{9 5 . 3}$ | $\mathbf{2 1 . 4}$ |
表 4. STOP 中各组件影响的消融研究。 “-”和“
✓
✓
✓ \checkmark ”表示不包含或包含该组件。 “Intra”表示帧内空间提示,“Inter”表示帧间时间提示。 如表 4 所示,SS-V2 的性能表现如下。如图所示,当不使用任何组件时,STOP 模型退化为预训练的 CLIP 模型。当仅使用帧内空间提示时,模型在 HMDB51 上的性能提升了
16.9
%
16.9
%
16.9% 16.9 \% 。这是因为帧内空间提示突出了视频理解中具有显著动态变化的关键区域,有助于预训练的 CLIP 模型准确捕捉细粒度的时间信息。当仅使用帧间时间提示时,模型性能提升了
19.2
%
19.2
%
19.2% 19.2 \% 。这是因为帧间提示捕捉了帧与帧之间的时间动态,并引导预训练模型聚焦于视频中的关键帧。当两者结合使用时,模型性能进一步提升
2.6
%
2.6
%
2.6% 2.6 \% ,因为它们相互补充,引导预训练模型同时关注空间和时间维度中的区分性区域,从而增强模型理解时间依赖性的能力。
4.5.2. 注意力图的可视化结果
为了进一步探讨我们帧内空间提示和帧间时间提示的影响,我们进行了可视化分析。
图 3. 现有方法 DGL 和 STOP(我们的方法)的注意力图可视化结果。更多案例的可视化结果包含在补充材料中。 对每个视频帧的注意力图进行分析。如图 3 所示,现有视频提示方法如 DGLTransformer 对所有视频使用相同的静态提示。这导致预训练的 CLIP 模型关注视频中的静态物体,如椅子、篮球架和柱子。因此,模型难以准确理解视频中人物执行的动作。相比之下,我们的帧内空间提示和帧间时间提示突出了视频中动态变化的关键区域。这使预训练模型能够聚焦于视频中的人及其动作,从而实现更准确的理解。
4.5.3. 超参数的影响
我们进行消融实验以研究方法中几个超参数的影响,包括帧内提示词数量
N
s
N
s
N_(s) N_{s} 、帧间提示词的缩放因子
η
η
eta \eta 以及权重超参数
α
α
alpha \alpha 和
图 4. STOP 超参数对 HDMB51 的影响。
β
β
beta \beta . 如图 4 所示,结果表明,当
N
N
N N 设置为 6 时,模型表现最佳。这是因为,当
N
s
N
s
N_(s) N_{s} 过小时,帧内空间提示无法覆盖区分性区域,而当
N
s
N
s
N_(s) N_{s} 过大时,则会导致对背景的过度强调。对于缩放因子
η
η
eta \eta ,当其过小时,跨帧时间提示令牌数量不足,限制了模型的学习能力。另一方面,当
η
η
eta \eta 过大时,过多的跨帧时间提示会干扰特征提取。当
η
η
eta \eta 设置为 12 时,模型性能达到最优。
权重超参数
α
α
alpha \alpha 控制在计算区分区域时,帧内注意力图与帧间提示中的时域动态的重要性。当
α
α
alpha \alpha 设置为 0.4 时,两者达到平衡,从而更准确地识别区分区域并实现最佳性能。同样地,权重超参数
β
β
beta \beta 影响跨帧计算时间动态时区分区域的重要性。当
β
β
beta \beta 设置为 4 时,它达到平衡并带来最佳模型性能。
5. 结论
本文提出了一种新型的空间-时间动态提示(STOP)方法。具体而言,我们设计了基于视频时序变化的动态位置空间提示,以及基于视频时序变化的动态数量跨帧时间提示。该方法通过引导预训练的视觉-语言模型聚焦于具有区分性的时空区域,提升了模型准确理解视频中时序依赖关系的能力。我们提出的 STOP 方法已在多个大规模视频动作识别和视频-文本检索基准数据集上得到了有效验证。
致谢
本研究得到国家自然科学基金(62376011、61925201、62132001、62432001)和北京市自然科学基金(L247006)的资助。
参考文献
[1] 让-巴蒂斯特·阿拉亚克(Jean-Baptiste Alayrac)、杰夫·多纳休(Jeff Donahue)、保罗琳·卢克(Pauline Luc)、安托万·米歇(Antoine Miech)、伊恩·巴尔(Iain Barr)、雅娜·哈森(Yana Hasson)、卡雷尔·伦茨(Karel Lenc)、亚瑟·门施(Arthur Mensch)、凯瑟琳·米利坎(Katherine Millican)、马尔科姆·雷诺兹(Malcolm Reynolds)等. Flamingo:一种用于少样本学习的视觉语言模型. 2022 年神经信息处理系统会议(NeurIPS),第 35 卷,第 23716-23736 页. 2 [2] 莉萨·安·亨德里克斯、奥利弗·王、埃利·谢克特曼、约瑟夫·西维克、特雷弗·达雷尔和布莱恩·拉塞尔。基于自然语言的视频中关键时刻定位。收录于《国际计算机视觉会议》(ICCV),第 5803-5812 页,2017 年。 5 [3] 马克·贝恩、阿尔沙·纳格拉尼、古尔·瓦罗尔和安德鲁·齐瑟曼。定格时光:一种用于端到端检索的联合视频与图像编码器。收录于《国际计算机视觉会议》(ICCV),第 1728-1738 页,2021 年。 2 [4] 盖达斯·伯塔西乌斯、王恒和洛伦佐·托雷萨尼. 空间-时间注意力是视频理解的全部需求吗?在 ICML 会议上发表,第 4 页,2021 年. 3 [5] 闫斌, 史文浩, 丁玉娟, 胡志强, 王正, 杨阳, 伍世强, 和 沈恒涛. GalleryGPT: 基于大型多模态模型分析绘画作品. 在 ACM MM, 页码 7734-7743, 2024. 2 [6] 法比安·卡巴·海尔布伦(Fabian Caba Heilbron)、维克多·埃斯科尔西亚(Victor Escorcia)、伯纳德·加内姆(Bernard Ghanem)和胡安·卡洛斯·尼布莱斯(Juan Carlos Niebles). ActivityNet:一个用于人类活动理解的大规模视频基准数据集. 发表于 CVPR,第 961-970 页,2015 年. 5 [7] 韩才, 创干, 朱立刚, 和 宋汉. Tinytl: 减少内存,而非参数,实现高效的设备端学习. 机器学习与神经网络国际会议 (NeurIPS), 33:11285-11297, 2020. 5, 6, 7 [8] 乔ão 卡雷拉和安德鲁·齐瑟曼. 动作识别何去何从?一个新模型及动力学数据集. 在 CVPR, 页码 6299-6308, 2017. 3 [9] 张玉鹏, 王旭, 王金东, 吴元, 杨林义, 朱凯杰, 陈浩, 尹晓元, 王存祥, 王一东, 等. 大型语言模型评估综述. ACM 智能系统与技术交易, 15(3):1-45, 2024. 2 [10] 陈世哲, 赵一达, 金秦, 和 吴奇. 基于分层图推理的精细化视频-文本检索. 在 CVPR, 页码 10638-10647, 2020. 3 [11] 陈守发, 葛崇建, 童展, 王江流, 宋一兵, 王杰, 和 骆平. Adaptformer: 视觉变换器在可扩展视觉识别任务中的适应性学习. 计算机视觉与人工智能国际会议 (NeurIPS), 35:16664-16678, 2022. 5, 6, 7 [12] 戴来超, 林峰, 尚兴林, 和 孙汉. 基于任务依赖的跨模态自适应少样本学习. 中国电子学报, 32(1):85-96, 2023. 1 [13] 戴海文, 万博, 张颖, 贾旭, 卢胡川, 和 陈龙. Unipt: 转移学习的通用并行调优方法,实现高效参数和内存使用. 在 CVPR, 页码 28729-28740, 2024. 3, 5, 6, 7 [14] Alexey Dosovitskiy. 一图胜千言:大规模图像识别中的 Transformers 模型. arXiv 预印本 arXiv:2010.11929, 2020. 4 [15] 瓦伦丁·加布尔、陈孙、卡特克·阿拉哈里和科迪莉亚·施密德。多模态变换器在视频检索中的应用。收录于《
E
C
C
V
E
C
C
V
ECCV E C C V 》,第 214-229 页。斯普林格出版社,2020 年。2, 3 [16] 拉格哈夫·戈亚尔(Raghav Goyal)、萨米拉·埃布拉希米·卡胡(Samira Ebrahimi Kahou)、文森特·米夏尔斯基(Vincent Michalski)、乔安娜·马特尔津斯卡(Joanna Materzynska)、苏珊娜·韦斯特法尔(Susanne Westphal)、希娜·金(Heuna Kim)、瓦伦丁·海内尔(Valentin Haenel)、英戈·弗伦德(Ingo Fruend)、彼得·亚尼洛斯(Peter Yianilos)、莫里茨·穆勒-弗赖塔格(Moritz Mueller-Freitag)等. 用于学习和评估视觉发表于 ICCV,第 5842-5850 页,2017 年。 5 [17] 何俊贤, 周春廷, 马学哲, Taylor BergKirkpatrick, 和 Graham Neubig. 面向参数高效迁移学习的统一视图. 在 ICLR, 2022. 5, 6, 7 [18] 尼尔·霍尔斯比(Neil Houlsby)、安德烈·吉尔吉乌(Andrei Giurgiu)、斯坦尼斯拉夫·雅斯特日布斯基(Stanislaw Jastrzebski)、布鲁娜·莫罗内(Bruna Morrone)、昆汀·德·拉鲁西尔(Quentin De Laroussilhe)、安德烈亚·杰斯蒙多(Andrea Gesmundo)、莫娜·阿塔里扬(Mona Attariyan)和西尔万·热利(Sylvain Gelly. 参数高效的迁移学习在自然语言处理中的应用. 发表于 ICML,第 2790-2799 页. PMLR,2019. 5, 6, 7 [19] 黄思腾, 龚标, 潘玉林, 江建文, 吕一良, 李宇源, 和 王东林. Vop: 跨模态检索中的文本-视频协同提示调优. 在 CVPR, 页码 6565-6574, 2023. 1, 2, 3, 5, 6, 7 [20] 赵慧娟, 叶宁, 王如川. 基于深度局部领域适应的跨语料库语音情感识别方法改进. 中国电子学报, 32(3): 640-646, 2023. 1 [21] 贾梦林,唐鲁明,陈博群,克莱尔·卡迪,塞尔日·贝隆吉,巴拉特·哈里哈兰,和林世南。视觉提示调优。收录于《
E
C
C
V
E
C
C
V
ECCV E C C V 》,第 709-727 页。斯普林格出版社,2022 年。2, 3, 6 [22] 陈菊,韩腾达,郑坤浩,张雅,谢伟迪. 通过提示提升视觉语言模型在视频理解中的效率. 在
E
C
C
V
E
C
C
V
ECCV E C C V , 页码 105-124. 施普林格, 2022. 3, 6 [23] 雅各布·德文、明伟·张、肯顿和李·克里斯蒂娜·图塔诺娃。Bert:深度双向变换器在语言理解中的预训练。第 2 页。明尼苏达州明尼阿波利斯市,2019 年。3 [24] 穆罕默德·乌扎伊尔·卡塔克、哈努娜·拉希德、穆罕默德·马兹、萨尔曼·汗和法哈德·沙赫巴兹·汗。Maple:多模态提示学习。收录于 CVPR,页码 19113-19122,2023 年。 2 [25] 穆罕默德·乌扎伊尔·卡塔克、赛义德·塔拉尔·瓦西姆、穆扎姆马尔·纳西尔、萨尔曼·汗、明-轩·杨和法哈德·沙赫巴兹·汗。自调节提示:无需遗忘的基础模型适应。收录于 ICCV,第 15190-15200 页,2023 年。 2 [26] 希尔德加德·库恩、朱华、埃斯蒂巴利斯·加罗特、托马索·波吉奥和托马斯·塞尔。Hmdb:一个用于人体动作识别的庞大视频数据库。收录于《国际计算机视觉会议》(ICCV),第 2556-2563 页。IEEE,2011 年。 5 [27] 雷杰,李林杰,周洛伟,甘哲,塔玛拉·L·伯格,莫希特·班萨尔,和刘静静。少即是多:基于稀疏采样的视频与语言学习方法 Clipbert。收录于 CVPR,第 7331-7341 页,2021 年。 2 [28] 布莱恩·莱斯特、拉米·阿尔-鲁福和诺亚·康斯坦特。参数高效提示调优的规模优势。arXiv 预印本 arXiv:2104.08691,2021. 2 [29] 李俊南、拉姆普拉萨特·塞尔瓦拉朱、阿基莱什·戈特马雷、沙菲克·乔蒂、熊才明和史蒂文·朱·洪·霍伊。融合前对齐:基于动量蒸馏的视觉与语言表征学习。NeurIPS,34:9694-9705,2021. 2 [30] 李坤昌, 王雅丽, 高鹏, 宋广路, 刘宇, 李红生, 及 乔宇. Uniformer: 用于高效时空表示学习的统一变换器. arXiv 预印本 arXiv:2201.04676, 2022. 3 [31] 李启威, 徐昆仑, 彭宇欣, 周家焕. 无样本终身人脸再识别:基于提示引导的自适应知识整合. 国际计算机视觉杂志, 2024, 1-16. 2 [32] 向丽莎·李和珀西·梁. 前缀调优:优化生成任务的连续提示词. arXiv 预印本 arXiv:2101.00190, 2021. 2 [33] 季林、庄干、宋汉. TSM:用于高效视频理解的时序偏移模块. 在
I
C
C
V
I
C
C
V
ICCV I C C V , 第 7083-7093 页, 2019. 3 [34] 方刘, 钱晓雪, 焦立成, 张向荣, 李玲玲, 崔元浩. 基于对比学习的双动态基因模型在 SAR 图像场景分类中的应用. 《IEEE 神经网络与学习系统汇刊》, 35 (1):390-404, 2022. 3 [35] 肖刘, 季凯轩, 傅一成, 谭文朗, 杜正晓, 杨志林, 和唐杰. P-调优 v2: 提示调优可在不同规模和任务上与微调相媲美. arXiv 预印本 arXiv:2110.07602, 2021. 2 [36] 杨柳、塞缪尔·阿尔巴尼、阿尔沙·纳格拉尼和安德鲁·齐瑟曼。利用现有资源:基于协作专家表示的视频检索。arXiv 预印本 arXiv:1907.13487,2019。3 [37] 刘兆阳, 王林敏, 伍伟, 钱晨, 和 卢桐. TAM: 基于时域自适应模块的视频识别方法. 计算机视觉与模式识别国际会议 (ICCV), 2021, 13708-13718. 3 [38] 刘泽,贾宁,曹悦,魏一轩,张正,林斯蒂芬,和胡汉. 视频 Swin 变换器. 在 CVPR, 页码 3202-3211, 2022. 3 [39] 刘子辰、彭宇鑫和周家焕. 基于组成部分提示的领域增量学习中抗遗忘方法. 国际计算机视觉杂志, 2024, 1-18. 2 [40] 刘子辰、彭宇鑫和周家焕. Insvp: 基于图像本身的实例视觉提示方法. 在
A
C
M
M
M
A
C
M
M
M
ACMMM A C M M M , 第 6443-6452 页, 2024. 2 [41] 刘子辰, 孙洪波, 彭宇鑫, 周家焕. Dart: 基于双模态自适应在线提示与知识保留的测试时适应技术. 在 AAAI, 页码 1410614114, 2024. 2 [42] 罗怀绍, 季雷, 钟明, 陈阳, 闫磊, 段南, 和 李天瑞. Clip4clip: 基于片段的端到端视频片段检索与字幕生成实证研究. 神经计算, 508:293-304, 2022. 2, 3, 4, 5, 6, 7 [43] 查纳里克·米特拉、布兰登·黄、特雷弗·达雷尔和罗伊·赫尔茨格。基于组成部分的链式思维提示方法在大规模多模态模型中的应用。收录于 CVPR,第 14420-14431 页,2024 年。 2 [44] 潘俊廷, 林子怡, 朱夏田, 肖静, 和 李洪生. St-adapter: 参数高效的图像到视频迁移学习. NeurIPS, 35:26462-26477, 2022. 5, 6, 7 [45] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, 等. 基于自然语言监督学习可迁移的视觉模型. 发表于 ICML, 页码 8748-8763.PMLR,2021. 1, 2, 3, 4, 5, 6, 7 [46] 卡伦·西蒙扬和安德鲁·齐瑟曼. 视频中动作识别的双流卷积神经网络. 神经信息处理会议(NeurIPS),第 27 卷,2014 年. 3 [47] K Soomro. Ucf101:来自真实视频的 101 个人类动作类别数据集。arXiv 预印本 arXiv:1212.0402,2012. 5 [48] 杜·陈,卢博米尔·博尔德夫,罗布·费格斯,洛伦佐·托雷萨尼,和马诺哈尔·帕卢里。使用 3D 卷积网络学习时空特征。在 ICCV,第 4489-4497 页,2015 年。 3 [49] 杜·陈,王恒,洛伦佐·托雷萨尼,杰米·雷,扬·勒库恩,和马诺哈尔·帕卢里。对动作识别中时空卷积的深入探讨。收录于 CVPR,页码 6450-6459,2018 年。 3 [50] A Vaswani. 注意力就是一切。NeurIPS, 2017. 4 [51] 王浩,刘芳,焦立成,王家豪,郝泽华,李硕,李玲玲,陈普华,刘旭. Vilt-clip:基于多模态提示学习和场景引导优化的视频与语言调优片段.在
A
A
A
I
A
A
A
I
AAAI A A A I ,第 5390-5400 页,2024 年 4 月 5 日。 [52] 王林敏, 熊元军, 王哲, 乔宇, 林大华, 唐晓欧, 和 Luc Van Gool. 时域分段网络: 深度动作识别中的良好实践. 在
E
C
C
V
E
C
C
V
ECCV E C C V , 页码 20-36. Springer, 2016. 3 [53] 王梦梦,邢家正,刘勇. 动作片段:视频动作识别的新范式. arXiv 预印本 arXiv:2109.08472, 2021. 3 [54] 王新,吴家伟,陈俊坤,李磊,王元芳,和杨王威。Vatex:一个大规模、高质量的多语言视频与语言研究数据集。收录于《IEEE/CVF 国际计算机视觉会议论文集》,第 4581-4591 页,2019 年。 5 [55] 彭武,何向腾,唐明谦,吕一良,刘静. Hanet:用于视频文本检索的分层对齐网络. 发表于 ACM MM,第 3518-3527 页,2021 年. 3 [56] 许俊,梅涛,姚婷,和刘勇. Msr-vtt: 一个用于连接视频与语言的大型视频描述数据集. 在 CVPR, 页码 5288-5296, 2016. 5 [57] 昆仑徐, 程浩江, 佩西雄, 宇欣彭, 和 贾焕周. Dask: 通过自适应风格核学习实现无示例终身人脸再识别. arXiv 预印本 arXiv:2412.09224, 2024. 1 [58] 昆仑徐, 浩卓张, 宇李, 宇鑫彭, 和 贾焕周. 通过持续知识净化缓解噪声下的终身人重新识别中的灾难性记忆问题. 在 ACM MM, 页码 5790-5799, 2024. [59] 昆仑徐, 邹旭, 彭玉欣, 和 周家焕. 基于分布感知知识原型化的非示例化终身人脸再识别. 在 CVPR, 页码 1660416613, 2024. [60] 昆仑徐、邹旭和周家焕. Lstkc: 长短期知识整合用于终身人脸重新识别. 在 AAAI, 页码 16202-16210, 2024. 1 [61] 杨向鹏, 朱林超, 王晓涵, 和 杨毅. Dgl: 基于动态全局-局部提示调优的文本-视频检索. 在 AAAI, 页码 6540-6548, 2024. 1, 2, 3, 5, 6, 7 [62] 叶兆达、何向腾、彭玉欣. 基于知识图谱的无监督跨媒体哈希学习. 中国电子学报, 31(6):1081-1091, 2022. 1 [63] 藏宇航, 李伟, 周凯阳, 黄晨, 和 陈长乐. 统一视觉与语言提示学习. arXiv 预印本 arXiv:2210.07225, 2022. 6 [64] 张浩南,曾鹏鹏,高连丽,宋景宽,和申恒涛. Mpt: 多粒度提示调优在文本-视频检索中的应用. 在
A
C
M
M
M
,
2024.2
,
3
,
5
,
6
,
7
A
C
M
M
M
,
2024.2
,
3
,
5
,
6
,
7
ACMMM,2024.2,3,5,6,7 A C M M M, 2024.2,3,5,6,7 [65] 周开阳,杨景康,陈长乐,刘子威. 基于条件提示的学习方法在视觉语言模型中的应用. 计算机视觉与模式识别会议(CVPR),第 16816-16825 页,2022. 2, 5 [66] 周凯阳,杨景康,陈长乐,刘子威. 视觉语言模型提示学习. 国际计算机视觉杂志, 130(9):2337-2348, 2022. 2, 5
STOP:基于时空融合的动态提示方法在视频理解中的应用
图 5. 现有方法 DGL-Transformer [61]和 STOP(我们的方法)的更多注意力映射可视化结果。
6. 关注地图可视化更多案例
为了进一步探讨我们提出的帧内空间提示和帧间时间提示的影响,我们对更多视频案例的注意力图进行了可视化分析。如图 6 和图 5 所示,现有视频提示方法(如 DGL-Transformer)对所有视频使用相同的静态提示。这导致预训练的 CLIP 模型在视频中关注静态物体和背景,使得任务变得具有挑战性。
图 6. 现有方法 DGL-Transformer [61]和 STOP(我们的方法)的更多注意力图可视化结果。 为了准确理解视频中人物的动作。
相比之下,我们的帧内空间提示和帧间时间提示突出了视频中动态变化的关键区域,使预训练模型能够聚焦于人物及其动作。这使得模型能够更准确地理解视频内容,并与主文中展示的可视化结果呈现出相似的趋势。
图 7. 帧内空间提示添加位置的可视化结果。
7. 帧内空间提示的可视化
为了验证我们帧内空间提示的有效性,我们可视化了其添加的位置。如图 7 所示,红色区域表示提示添加的位置。 其中,帧内空间提示被应用。可以观察到,我们的方法全面考虑了帧内注意力权重和时间变化,从而能够准确定位视频中的区分性区域。
这使得预训练的视觉-语言模型能够准确地聚焦于这些具有区分度的区域,从而提升模型提取时序信息的能力。