AI版「女娲」来临！文字生成图像视频，八类任务一个模型搞定

近来，视觉合成任务备受关注。几天前英伟达的 GauGAN 刚刚上新了 2.0 版本，现在一个新视觉合成模型 Nüwa（女娲）也火了。

随着 VQ-VAE 这种离散化 VAE 方案的出现，高效和大规模的预训练被逐渐应用于视觉合成任务，例如 DALL-E（图像）、GODIVA（视频）。这些模型虽然取得了巨大的成功，但仍然存在一些局限性——它们分别处理图像和视频，专注于生成其中一种，这限制了模型从图像和视频数据中受益。相比之下，「女娲」是一个统一的多模态预训练模型，在 8 种包含图像和视频处理的下游视觉任务上具有出色的合成效果。

模型概览
该研究提出了一个通用的 3D transformer——编码器 – 解码器框架（如下图所示），同时涵盖了语言、图像和视频，可用于多种视觉合成任务。该框架由以文本或视觉草图作为输入的自适应编码器和由 8 个视觉合成任务共享的解码器组成。

该框架还包含一种 3D Nearby Attention (3DNA) 机制，以考虑空间和时间上的局部特征。3DNA 不仅降低了计算复杂度，还提高了生成结果的视觉质量。与几个强大的基线相比，「女娲」在文本到图像生成、文本到视频生成、视频预测等方面都得到了 SOTA 结果。此外，「女娲」还显示出惊人的零样本学习能力。

站长网

AI版「女娲」来临！文字生成图像视频，八类任务一个模型搞定

作者: dawei

联系我们

作者: dawei

相关文章

媒体融合的下半场 既要快得起来,也要慢得下来

绍兴市级媒体融合发展中如何实现 瘦身健体 突出主业?

广播电视台移动融合管理平台APP的设计及实现

超越链接 我国县级融媒体中心建设的2.0版

主流媒体建设自主可控平台的难点与对策 以芒果TV为例

元宇宙内容生态拼图

联系我们

媒体融合的下半场既要快得起来,也要慢得下来

绍兴市级媒体融合发展中如何实现瘦身健体突出主业?

超越链接我国县级融媒体中心建设的2.0版

主流媒体建设自主可控平台的难点与对策以芒果TV为例