可以执行文本到视频

可以执行文本到视频 Jan 26, 2024 22:19:31 GMT -5

Quote

Post by account_disabled on Jan 26, 2024 22:19:31 GMT -5

例如，您生成（将书面消息转可以更改一个人所穿衣服的类型）。在 Lumiere 研究论文中，谷歌研究人员表示，AI 模型生成了 5 秒长的 1024x1024 像素视频，他们将其描述为“低分辨率”。尽管存在这些限制，研究人员还是进行了一项用户研究，并声称 Lumiere 的结果优于现有的人工智能视频合成模型。广告至于训练数据，谷歌没有透露从哪里获取输入 Lumiere 的视频，只是写道：“我们在包含 3000 万个视频及其文本标题的数据集上训练我们的 T2V [文本到视频] 模型。” [原文如此] 这些视频的时长为 80 帧，帧速率为 16 fps（5 秒）。基础模型在 128×128 下训练。” 显示 Lumiere AI 模型组件的框图，由 Google 提供。放大/ Google 提供的显示 Lumiere AI 模型组件的框图。人工智能生成的视频仍处于原始状态，但其质量在过去两年中不断提高。

我们报道了 Google 第一个公开发布的图像合成模型 Image Video。它可以以每秒 24 帧的速度从书面消息生成 1280×768 的短视频剪辑，但结果并不总是一致。在此之前，Meta推出了其AI视频生成器Make-A-Video。去年 6 月，Runway 的 Gen2 视频合成模型能够根据短信创建两秒的视频剪辑，推动了超现实模仿广告的 电话号码数据库 创作。11 月，我们介绍了稳定视频扩散，它可以从静止图像生成短片。人工智能公司经常用可爱的动物来演示视频生成器，因为目前很难生成连贯的、不变形的人类，特别是因为我们作为人类（你是人类，对吧？），是注意到人体任何缺陷或它们如何变化的专家。移动。看看人工智能生成的威尔·史密斯吃意大利面就知道了。

从谷歌的例子来看（我们自己没有使用过），Lumiere 的表现似乎优于其他人工智能视频生成模型。但由于谷歌倾向于对其人工智能研究模型保密，我们不确定公众何时（如果有的话）有机会亲自尝试。一如既往，每当我们看到文本到视频的合成模型变得更加强大时，我们都会情不自禁地思考对我们的互联网社会的未来影响，这个社会的重点是共享媒体工件，以及“真换为视频）、将静态图像转换为视频、使用参考图像生成特定样式的视频、使用基于文本的消息应用一致的视频编辑、创建动态图片。对图像的特定区域进行动画处理并提供绘画功能中的视频（例如，您实模型”视频通常代表摄像机捕获的真实情况中的真实对象。未来的视频合成工具比 Lumiere 更强大，将使创建欺骗性的深度赝品变得非常容易。

IG.

可以执行文本到视频

Post by account_disabled on Jan 26, 2024 22:19:31 GMT -5

Quick Reply