OpenAI今天推出了Sora,这是一种新的人工智能模型,可以接受基于文本的指令并创建长而迷人的视频。嗯,一分钟长的视频。
它目前是一个封闭的测试版,只对受邀的开发者开放,这代表着全球人工智能领导者的加入有些晚。文本到视频并不是一个完全未知的领域。RunwayML和Pika Labs等公司已经参与游戏一段时间了,目前凭借能够在几秒钟内创造出令人惊叹的视觉效果的模型占据了主导地位。
但总有一个问题:这些视频往往很短,播放时间越长,故事就失去了焦点和连贯性。
通过Sora,OpenAI旨在实现一致性,生成高度详细的、一分钟长的视频,这些视频可以无缝地流动和发展。这不是一个简单的目标,因为人工智能模型可以有效地从头开始即兴制作每一帧。一帧中的一个微小缺陷可以滚雪球般地变成一连串的幻觉和不切实际的想象。
不过,OpenAI似乎已经取得了进展,索拉展示了迄今为止该领域现有玩家无法比拟的流畅、迷人的视觉效果。示例视频由OpenAI发布在网上,有些视频已在YouTube上非正式发布。
OpenAI正在与其他也在测试生成视频的人工智能公司正面交锋。流行的文本到图像生成器Midtravel最近宣布正在开发文本到视频生成器,但没有提供发布日期。此外,Stability AI最近推出了Stable Video Diffusion,这是一款开源产品,能够以576x1024的分辨率生成25帧的视频。
就连Meta也在展示其EMU视频生成器,这是其将人工智能融入社交媒体和元宇宙的努力的一部分。
索拉目前限量发行,OpenAI允许“视觉艺术家、设计师和电影制作人”获得反馈。索拉的与众不同之处在于它对语言的理解。它生成充满活力、高度详细的图像,同时解释书面提示的细微差别。需要特定的相机动作吗?多个具有现实情感的角色?没问题。
Sora甚至可以在同一视频中的不同镜头之间生成无缝转换,模仿当今一些视频编辑工具的做法。以下是今天发布到YouTube上的另一段爱好者视频:
即便如此,人工智能驱动的创造力也有其怪癖。索拉还不是一个电影大师。换言之,可能会发生与物理或复杂因果的斗争,虽然它已经是最一致的视频生成器之一,但它没有达到绝对逼真的水平,因此幻觉是意料之中的事。
此外,来自OpenAI的索拉无疑将是一个严格审查的模型。该公司强调其专注于安全测试和检测工具,以标记潜在的有害和误导性内容。OpenAI正在与其红色团队合作完善其模型,并希望其早期发布战略将在未来几年促成合作,构建越来越安全的人工智能。
目前还没有宣布索拉更广泛实施的立即发布日期。
由Ryan Ozawa编辑。
微信里点“发现”,扫一下二维码便可将本篇文章分享至朋友圈
