FreeLong Training-Free Long Video Generation with SpectralBlend Temporal Attention

Authors:
Yu Lu, Yuanzhi Liang, Linchao Zhu and Yi Yang

核心内容

现有的视频生成模型大都是生成短视频(16 帧), 而长视频模型需要大量的计算资源和相应的视频训练数据, 本文提出了无需训练的方法来将短视频模型拓展为长视频生成模型,并保持视频内容的一致性.

本文基于这样一个观察: 如果将短视频生成模型直接使用长的噪声序列作为输入以生成长视频, 这会导致视频生成内容的质量严重下降, 对生成视频进一步发现, 这种退化的原因主要是由于长视频中的高频分量的失真导致的, 其特点是: 空间高频分量减少, 时间高频分量增加

做法: 提出了 FreeLong 的新颖解决方案, 以平衡去噪过程中长视频特征的频率分布. FreeLong 将封装整个视频的全局特征的低频分量和专注于较短帧子序列的局部视频特征的高频分量混合在一起, 这种方法保持了全局一致性和局部视频的多样化和高质量的时空细节

局部-全局注意力解耦

短视频生成模型的时间注意力在短帧序列上能够很准确, 保留着高质量的视觉信息, 反过来, 时间注意力的长序列则保证了整体的一致性和布局.
局部注意力可以通过如下方式获得:

Alocal(i,j)={Softmax(QiKjd)if|ij|α0otherwise,

对于第 i 帧, 局部注意力只保留距离它前后不超过 α 的这些帧之间的注意力值, 因此局部特征值则可以通过 Zlocal=AlocalV 得到

全局注意力则不进行约束, 任意帧之间的 attention map值都进行保留, 全局特征值可以通过 Zglobal=AglobalV 得到

特征融合

在得到全局和局部视频特征之后, 使用频率滤波器 P 来融合全局特征 Zglobal 中的低频分量和局部特征 Zlocal 中的高频分量, 进而得到一个新的特征 Z.

FzglobalL=FFT3D(Zglobal)P,FzlocalH=FFT3D(Zlocal)(1P),Z=IFFT3D(FzglobalL+FzlocalH)
正在加载今日诗词....

📌 Powered by Obsidian Digital Garden and Vercel
载入天数...载入时分秒... 总访问量次 🎉