一个模型通杀八大视觉任务，一句话产生图像视频

有这样一个模型。

它可以做到一句话生成视频：

不仅零样本就能搞定，性能还直达SOTA。

它的名字，叫“NüWA”（女娲）。

“女娲女娲，神通广大”，正如其名，一句话生成视频只是这个模型的技能之一。

除此之外，一句话生成图片，草图生成图像、视频，图像补全，视频预测，图像编辑、视频编辑——
一共八种视觉任务，它其实全部都能搞定。

完全是一位不折不扣的“全能型选手”。

它，就是由微软亚研院和北大联合打造的一个多模态预训练模型，在首届微软峰会上亮相。

目前，在推特上已“小有热度”。

八项全能“女娲”，单拎出来也不差
所以这个全能型选手究竟表现如何？

直接与SOTA模型对比，来看看“她”在各项任务上的表现。

在文本生成图像中，不得不说，即使“女娲”的FID-0得分不及XMC-GAN，但在实际效果中，“女娲”生成的图肉眼可见的更好，清晰又逼真。
文本到视频中，“女娲”每一项指标都获得了第一名，从逐帧图片来看，差距很明显。

在视频预测中，所有模型使用64×64的分辨率，Cond.代表供预测的帧数。

尽管只有1帧，“女娲”也将FVD得分从94±2降到86.9。

草图转图像时，与SOTA模型相比，“女娲”生成的卡车都更逼真。

而在零样本的图像补全任务中，“女娲”拥有更丰富的“想象力”。

并且，它的另一个优势是推理速度，几乎50秒就可以生成一个图像；而Paint By Word在推理过程中需要额外的训练，大约需要300秒才能收敛。

站长网

一个模型通杀八大视觉任务，一句话产生图像视频

作者: dawei

联系我们

作者: dawei

相关文章

媒体融合的下半场 既要快得起来,也要慢得下来

绍兴市级媒体融合发展中如何实现 瘦身健体 突出主业?

广播电视台移动融合管理平台APP的设计及实现

超越链接 我国县级融媒体中心建设的2.0版

主流媒体建设自主可控平台的难点与对策 以芒果TV为例

元宇宙内容生态拼图

联系我们

媒体融合的下半场既要快得起来,也要慢得下来

绍兴市级媒体融合发展中如何实现瘦身健体突出主业?

超越链接我国县级融媒体中心建设的2.0版

主流媒体建设自主可控平台的难点与对策以芒果TV为例