返回AI项目和框架

daVinci-MagiHuman音视频生成模型 - 模型采用150亿参数的单流Transformer架构

623 ℃

daVinci-MagiHuman是由上海创智学院GAIR实验室与Sand.ai联合开源的多模态统一生成模型。模型采用15B参数单流Transformer架构，统一建模文本、视频、音频三大模态，无需跨注意力机制；主打以人为中心的音视频同步生成，支持中英日韩德法等多语言，在单张H100上2秒即可生成5秒256p视频。在对比评测中，相比Ovi 1.1胜率达80%，相比LTX 2.3胜率达60.9%，目前代码、模型权重与在线Demo已全面开源。

daVinci-MagiHuman音视频生成模型 - 模型采用150亿参数的单流Transformer架构

daVinci-MagiHuman核心功能：

1、音视频联合生成：同步生成带自然语音、精准口型对齐的人物视频，实现音画一体输出。

2、多语言语音生成：支持普通话、粤语、英语、日语、韩语、德语、法语等多语种生成。

3、人像演绎生成：专注人物为中心的生成场景，表情自然、动作生动、情感表达细腻。

4、极速推理生成：单H100仅需2秒生成5秒256p视频，可满足实时交互场景。

5、高清分辨率扩展：基于隐空间超分，可从基础分辨率升级至540p/1080p高清视频。

daVinci-MagiHuman核心优势：

1、架构简洁高效：单流统一建模，无复杂跨注意力与模态分支，系统复杂度低，训练与推理更易优化。

2、音画高度同步：原生多模态联合建模，语音、口型、表情、动作语义一致，解决传统方案对齐差问题。

3、推理速度极快：2秒级出图+隐空间超分+TurboVAE+全图编译+蒸馏加速，接近实时生成体验。

4、多语言覆盖全面：支持主流语种及粤语，全球化内容生产友好。

5、人像生成质量突出：专注人物演绎，面部表情、语音情感、肢体动作自然逼真，达到可商用的演绎级效果。

daVinci-MagiHuman项目地址：

1、GitHub仓库：https://github.com/GAIR-NLP/daVinci-MagiHuman

2、HuggingFace模型库：https://huggingface.co/GAIR/daVinci-MagiHuman

3、arXiv技术论文：https://arxiv.org/pdf/2603.21986

4、在线体验Demo：https://huggingface.co/spaces/SII-GAIR/daVinci-MagiHuman

相关阅读文章

DataChef模型 - 上海AI Lab联合复旦大学开源的AI数据配方生成模型

Nemotron-Cascade 2模型官网 - 英伟达正式开源的MoE混合专家模型，总参数量达30B

Hugging Face模型库官网入口，AI模型的GitHub

Hypernova-60B-2602模型，Multiverse发布的免费开源压缩大模型

Steerling-8B模型使用入口，80亿参数规模，在1.35万亿Token语料上训练完成

标签： arXiv技术论文 GAIR实验室 GitHub仓库 HuggingFace模型库音视频大模型

上面是“daVinci-MagiHuman音视频生成模型 - 模型采用150亿参数的单流Transformer架构”的全面内容，想了解更多关于 AI项目和框架 内容，请继续关注web建站教程。

当前网址：https://ipkd.cn/webs_32035.html

声明：本站提供的所有资源部分来自互联网，如果有侵犯您的版权或其他权益，请发送到邮箱：admin@ipkd.cn，我们会在看到邮件的第一时间内为您处理！

当前位置： 首页 > AI项目和框架

Trae：新一代免费的AI编程工具

即梦AI网页版

支持多图参考 · 生成高质量图像及视频！！

豆包网页版

支持AI聊天，AI图片生成，AI漫画生成，AI写作等……

最新文章

: DeepSeek-V4模型 - 包含deepseek-v4-pro和deepseek-v4-flash两个版本，拥有百万字超长上下文窗口

: Qwen3.6-Plus编程模型 - 阿里通义重磅Agent编程模型，百万上下文+超强编码智能体

: 京东JoyMed医疗大模型 - 里程碑级医疗多模态大模型，重新定义AI诊疗新范式

: 小米OmniVoice官网 - 小米K2-Fsa重磅TTS模型，600+语言+极速克隆

: TimelessHome.AI官网 - 一款AI室内设计与虚拟家居布置平台

精选热门文章

: 豆包网页版：支持AI聊天，AI图片生成，AI漫画生成，AI写作等

: Meta ARE：Meta出品，面向AI Agents的动态模拟研究与评估平台

: Luckiss AI Image Editor图像编辑工具，无需注册即可免费在线编辑

: Maxun.dev：无代码网页数据提取平台，零门槛实现数据自动化采集

: Kimi Claw模型使用入口，月之暗面Moonshot AI云端AI智能体服务

: Clawith模型使用入口，专为企业打造的开源混合多智能体协作框架

日历：

上一篇：daVinci-MagiHuman音视频生成模型 - 模型采用150亿参数的单流Transformer架构

下一篇：WebView电视（WebViewTvLive）：开源多端电视直播工具

x

打工人ai神器

x

扫一扫打开藏历小程序

打开微信“扫一扫”查看今日藏历！