FreeMask: Rethinking the Importance of Attention Masks for Zero-Shot Video Editing

Authors:
Lingling Cai,Kang Zhao,Hangjie Yuan,Yingya Zhang,Shiwei Zhang,Kejie Huang

原文链接

Introduction

视频编辑的方法可以分为两类:一类是依赖于外部控制,另一类是依赖于内部控制。
第一类一般使用光流估计、深度估计、边缘估计或者语义分割图等形式。这类方法的问题在于:

为了解决这个问题,本文提出了 FreeMask,这主要基于两个观察:

此外,大多数 zero-shot视频编辑严重依赖于源视频和编辑内容的注意力特征的混合,然而,确定最佳混合比例具有挑战性。混合不足可能会导致结构扭曲,而过度混合会产生与原始视频完全相同的视频,这是导致 prompt错位的常见问题。
为了解决这个问题,我们将 MMC 选择的掩模与跨各种注意力层类型(时间、交叉和自注意力)的掩模特征混合相集成

Method

整体流程:

  1. 首先生成候选的 mask,计算模型相关的 LMMC 和 TMMC 指标
  2. 在执行 DDIM 反演之后和去噪之前,我们计算语义自适应 MMC 指标来选择注意力掩模
  3. 在去噪过程中,我们应用掩模来指导不同类型注意特征的融合

Mask Matching Cost (MMC)

在计算 MMC 之前,首先生成候选的 mask,包括所有的 cross-attention layer,这些候选 mask 在 DDIM inversion 阶段来获得。具体来说,对于每个 cross-attention,只选择有物体的单词,并且使用一个阈值得到二值化的 mask

LMMC 和 TMMC 的计算方法:使用视频数据集 DAVIS 中真实的 segmentation 和候选 mask 做一个 MIoU,分别在时间维度和层维度进行平均,得到两个集合分别代表 LMMC 和 TMMC ,其中最佳的时间数和层数分别为 tl

论文发现交叉注意掩模的清晰度变化在视频扩散模型中很常见,并且在模型级别是系统化的,这意味着变化的规律性与模型架构有关,而不是与输入视频有关。

在得到 LMMC 和 TMMC 后,可以选择出更加合适的 mask,用 M 表示。使用 mask 进行控制的优势在于交叉注意力中的系统语义差异:在于时间无关的精确 mask 对于高结构一致性要求的任务很重要,相反,涉及到结构转换的形状编辑需要时间感知的 mask。
论文使用 δ 进行控制:如果对象的 prompt 前后一致,则为 1,如果发生了变化则为 0。当 δ 为 0 时,在第 t 个时间步的第 l 层的 mask 使用当前时间步中最佳的 mask,反之则是最有的时间步中的最佳层对应的 mask

δ={1 if p0=p10 if p0p1M^tl={Mtl, if δ=0,Mtl, if δ=1.

在做编辑中,首先将其 mask 进行一个转换:

References

正在加载今日诗词....

📌 Powered by Obsidian Digital Garden and Vercel
载入天数...载入时分秒... 总访问量次 🎉