
VerseCrafter是复旦大学联合腾讯PCG ARC Lab等机构研发的动态真实视频世界模型,该模型基于大规模真实世界数据集VerseControl4D完成训练,可高效处理复杂动态场景,生成的视频内容具备极强的时空一致性。

HunyuanOCR是腾讯混元团队推出的开源端到端OCR视觉语言模型,其功能覆盖文本检测与识别、复杂文档解析、开放字段信息抽取、视频字幕抽取等经典OCR任务,同时支持端到端拍照翻译与文档问答,为多场景文本处理提供一站式解决方案。

HunyuanVideo 1.5是腾讯混元团队推出的开源轻量级视频生成模型,模型支持文生视频、图生视频双模式生成5-10秒高清内容,具备强大的指令理解能力,可精准复刻写实、动画等多元视觉风格。
混元世界模型1.5(HunyuanWorld-Mirror)是腾讯推出的开源3D世界生成模型,支持多视图图像、视频等多模态输入,可同步输出点云、深度图、相机参数、表面法线、3D高斯点等多样化3D几何预测结果。

Youtu-Embedding是腾讯优图实验室重磅推出的开源企业级通用文本表示模型,依托大规模语料预训练与创新协同-判别式微调框架,构建起强大的语义理解能力,可一站式胜任文本检索、意图理解、相似度判断等六大核心任务。

PromptEnhancer是腾讯混元团队重磅开源的文本到图像(T2I)提示重写框架,核心聚焦于解决T2I模型对复杂指令理解不足、生成内容与用户意图偏差的行业痛点。
