载入天数...载入时分秒... 总访问量次 🎉
Noise Crystallization and Liquid Noise: Zero-shot Video Generation using Image Diffusion Models
Authors:
Muhammad Haaris Khan,Hadrien Reynaud,Bernhard Kainz
Introduction
本文介绍了一种新的视频生成方法,通过增强图像扩散模型来创建连续的动画帧,同时保持精细的细节。这个方法通过改变输入的噪声,能够应用于现有的图像模型中,而不需要训练任何视频参数。
具体来说,包括两个方法:
- 噪声结晶:可确保一致性,但由于潜在嵌入尺寸减小,因此仅限于大运动。
- 液体噪声:以一致性换取更大的灵活性,且不受分辨率限制。
这些方法还有其他应用:重新照明、无缝升级和改进的视频风格转换。
还对用于潜在扩散模型的 VAE 嵌入进行了探索,产生了有趣的理论见解,例如人类可解释的潜在空间的方法。这些嵌入空间比之前认为的具有更加解耦的潜在空间,并证明了VAE(变分自编码器)在颜色转换和图像放大任务上几乎是相互独立的。
Related Work
由于 U-Net 是卷积神经网络(CNNs),它们具有对本研究至关重要的特性。具体而言,平移等变性,即输入的空间偏移会导致输出相应的偏移
Method
Noise Crystallization
该方法最简单的版本涉及通过横向平移扩散模型的输入潜在噪声来创建零镜头平移效果,并进行环绕。这个想法的灵感来自于 CNN 的平移不变性。如果扩散模型是近线性的,则同质性属性将允许输出的平移反映输入的平移。
从图 5 中我们发现,上述假设得到了支持,因为当输入噪声平移时,输出会发生移动,此外 attention map也与噪声一起移动,因此可以说噪声和 prompts的结合将定位注意力图。所以,论文给出两个假设:
prompts 决定了生成什么
noise 决定了在哪里显示
两者应该是相互独立的
Noise as a Crystal
在 64x64 的噪声空间中的运动可以类比于二维晶格或网格,类似于晶体。插值在噪声中引入了水平运动模糊,从而模糊了最终图像。高频减少和相邻像素之间的互相关引入了粉红噪声特性,违反了独立同分布假设。
Recrystallization
噪声结晶的问题之一是长动画缺乏一致性。我们可以使用热处理类比来使用原始噪声执行部分扩散过程,然后更改为变换后的噪声马赛克(和分割图)来执行其余过程。这是由于扩散模型的早期阶段决定了位置,一旦位置被确定后,就可以执行提升细节的步骤。
Characterising the VAE
由于传统的插值技术会放大低频信息,因此应更多关注非线性技术。我们利用 Stable Diffusion 中的 VAE 作为放大器,借助其训练数据的特性,可以生成高频细节。我们发现 VAE 更多地受到局部图像内容的影响,而不是全局图像内容的影响。我们认为这得益于基于补丁的训练目标(LPIPS),它强制执行“局部真实”[16]。
幂等性对于稳定性和可预测性非常重要,并且可能暗示潜在空间与图像空间之间存在一对一的映射。我们假设 VAE 在第一次应用后是幂等的,因为我们认为图像可能需要“贴合”到最近的可行潜在变量。
从图11中我们观察到,VAE 并不像之前假设的那样是幂等的,因为出现了类似静脉状的伪影。除了重构损失之外,其他损失促使 VAE 在解码时具有一定的创造性。此外,对于自然图像,首次应用时并没有显著的“贴合”行为。这种被充分填充的潜在空间是通过训练期间的 KL 散度损失来实现的。
注:“Veiny artifacts” 指的是图像中出现的类似静脉状或细丝状的伪影。这些伪影通常表现为细长、不规则的线条,可能是由于生成过程中模型在细节处理或重建阶段引入了不自然的高频噪声或纹理导致的。这种现象在图像生成或解码任务中,尤其是在使用 VAE(变分自编码器)等模型时,可能会发生。