
Vidu Q2参考生Pro是全球首创的「万物可参考」生产级视频生成模型,创新性支持多模态素材输入,赋能创作者一键复刻人物表情、复杂动作、特效画面、场景氛围与纹理细节,实现视频内容的精细化编辑。

UniVG是百度团队研发的多条件驱动统一AI视频生成系统,核心突破在于支持文本、图像的任意组合输入,可灵活适配不同自由度的视频生成需求,有效解决传统视频生成模型仅能处理单一任务、单一输入的局限性。

Vidi2是字节跳动推出的专注于视频理解与创作的多模态大语言模型,模型可基于文本查询,精准识别视频对应时间戳并标记目标对象边界框,还创新引入VUE-STG、VUE-TR-V2两大基准测试,为STG能力评估提供更科学的标准。

可灵O1是可灵AI研发的全球首个统一多模态视频生成模型,模型支持图片、视频、文字等多模态输入,可一站式完成全能创作与编辑,精准解决视频生成中的主体一致性难题,解锁多元创意组合玩法。

HunyuanVideo 1.5是腾讯混元团队推出的开源轻量级视频生成模型,模型支持文生视频、图生视频双模式生成5-10秒高清内容,具备强大的指令理解能力,可精准复刻写实、动画等多元视觉风格。

InfinityStar是字节跳动推出的高效视频生成模型,该模型支持文本到图像、文本到视频、图像到视频及长时间交互视频合成等多类任务,且所有代码与模型均已开源。

Kandinsky 5.0是俄罗斯AI研究实验室AI-Forever研发的新一代文本到视频生成模型,兼具卓越生成质量与高效推理性能,在跨场景内容创作中展现出强劲竞争力。

Imagine v0.9是xAI公司推出的新一代视频生成模型,该模型可在20秒内生成6秒左右的高质量视频,支持精准运动控制、动态相机特效、自然对话与歌声合成,更配备语音优先交互界面,用户通过语音指令即可快速完成创作。

MotionAgent是一款端到端的深度学习模型工具,它整合了多模态AI模型的能力,为用户提供剧本创作、剧照生成、图生视频、背景音乐谱写的一站式创作流程,让创意无需专业技能即可轻松落地为可视化视频内容。
用户只需提供一张静态照片和一段音频文件,即可生成与音频内容高度匹配的动态视频。这些视频不仅包含丰富的表情变化,还具有真实的头部动作。

Character-3是由Hedra Studio推出的多模态AI数字人模型,能够将图像、文本和音频联合推理,生成栩栩如生的动态角色视频。它支持全身动作捕捉、情感控制和多样化角色生成,可快速制作高质量视频。

阿里通义万相视频生成模型WanX 2.1凭借其强大的技术实力和广泛的应用场景,已成为视频生成领域的领先工具,为用户提供了前所未有的创作体验。
svd_xt_1_1.safetensors是一个基于safetensors格式的视频生成模型,适用于将静态图像转换为视频,具有较高的生成质量和帧率。用户可以通过多种途径获取该模型,并在满足一定硬件和软件配置要求的情况下进行使用。
