随着人工智能技术的发展,视频生成模型已经能够产生逼真的视频。现有的视频生成模型通常仅支持使用单一图像或文本提示来生成视频,这限制了视频生成的灵活性和控制性。
近日,生数科技联合清华团队推出的视频生成模型Vidu1.5,突破了这一限制。Vidu1.5引入了多主体一致性能力,使我们能够使用多张图像来生成视频,并保证视频中不同元素的一致性。
多主体一致性
多主体一致性意味着我们可以上传多张包含角色、物体和场景等元素的图片,然后指定这些元素在生成视频中的位置和动作。Vidu1.5将根据这些元素生成一段视频,确保这些元素在视频中保持一致性,不会变形或消失。
例如,我们可以上传一张马斯克的大头照、一件东北大花袄和一张白宫图片,然后使用提示词“马斯克穿着大花袄在白宫前”来生成视频。Vidu1.5将根据这些元素生成一段视频,展示马斯克穿着大花袄在白宫前走动。
优势
Vidu1.5的多主体一致性能力为视频生成带来了以下优势:
- 控制力更强:我们不再局限于使用文本提示或单一图像来生成视频,而是可以手动控制视频中的元素,使其更符合我们的预期。
- 一致性更高:即使在视频生成过程中涉及多个元素,Vidu1.5也能确保这些元素保持一致性,不会出现变形或消失的情况。
使用方法
大家可以直接访问Vidu的官方网站( https://beta.vidu.ai/ )来上手试用。需要注意的是,目前Vidu提供三次免费试用机会,后续每次试用都需要消耗4个积分。
实例展示
为了让大家更好地了解Vidu1.5的效果,我试用了一天并制作了以下实例:
可以看到,Vidu1.5能够准确地抓取图像中的元素并生成一致的视频,即使是多个主体同时出现的情况。它还能够添加附加的细节,如火锅骑车时吐舌头和摇尾巴的动作。
局限性
需要注意的是,Vidu1.5并非完美无缺,它也存在一些局限性:
- 动作限制:当视频涉及较大动作时,Vidu1.5可能会出现抓取错误或生成不一致的视频。
- 主体数量:当视频中包含的主体数量较多时,Vidu1.5的抓取准确率可能会降低。
总结
Vidu1.5是视频生成模型领域的一项重大突破,它引入的多主体一致性能力为视频生成带来了更多控制力和灵活性。虽然目前仍存在一些局限性,但随着技术的不断发展,Vidu1.5有望在视频创作和制作领域发挥越来越重要的作用。
发表评论