
字节跳动开发的一款多功能人工智能工具,基于云雀模型(豆包大模型)构建。它不仅是一个AI聊天机器人,还具备多种功能,包括写作助手、英语学习助手、音乐生成、编程助理等。

DeepSeek-OCR是DeepSeek团队研发的一款视觉语言模型,主打基于视觉压缩技术的长文本高效处理能力。该模型采用DeepEncoder编码器+DeepSeek3B-MoE解码器的架构,可在保留高分辨率输入信息的前提下,大幅降低激活内存占用与视觉标记数量。

MAI-Image-1是微软推出的首款自研图像生成式AI模型,专攻逼真自然光照效果与复杂场景的生成,尤其擅长还原闪电、风景等对光影细节要求极高的画面。

Youtu-Embedding是腾讯优图实验室重磅推出的开源企业级通用文本表示模型,依托大规模语料预训练与创新协同-判别式微调框架,构建起强大的语义理解能力,可一站式胜任文本检索、意图理解、相似度判断等六大核心任务。

Kandinsky 5.0是俄罗斯AI研究实验室AI-Forever研发的新一代文本到视频生成模型,兼具卓越生成质量与高效推理性能,在跨场景内容创作中展现出强劲竞争力。

FS-DFM是苹果公司联合俄亥俄州立大学研发的快速长文本生成扩散语言模型,核心突破在于将采样步数作为显式参数进行训练,实现了“少步数、高质量”的文本生成效果。

Veo 3.1是谷歌推出的旗舰级AI视频生成模型,支持文本提示、图像、视频片段等多模态输入,可直接生成720P、1080P乃至4K高清视频,让用户在生成阶段即可完成音画同步的完整创作,无需额外后期处理。

DiaMoE-TTS是清华大学与巨人网络联合研发的多方言语音合成框架,框架创新性采用国际音标统一输入体系,融合方言感知的混合专家(MoE)架构与低资源适配策略,实现低成本、低门槛的多方言语音合成。

UserLM-8b是微软重磅推出的专属用户角色模拟语言模型,该模型依托WildChat-1M等大规模真实对话数据集完成深度训练,能够精准复刻真实用户的语言风格与交互逻辑,生成高度贴近现实场景的对话内容。

KAT-Dev-72B-Exp是快手重磅推出的开源编程专用大语言模型,作为KAT-Coder的强化学习升级版,该模型深度聚焦软件工程全流程任务,凭借卓越性能在权威基准测试中脱颖而出——在SWE-Bench Verified测试中,准确率高达74.6%,充分彰显技术硬实力。

Qwen3-VL Cookbooks是阿里巴巴为Qwen3-VL多模态大模型量身打造的官方实战指南集合,指南覆盖物体识别、文档解析、视频理解、3D定位等十余类核心能力,每一份Cookbook均配套详细代码示例、分步操作教程与场景化最佳实践。

Paper2Video是新加坡国立大学Show Lab研发的学术论文视频化工具依托创新的PaperTalker多智能体框架,实现从学术论文到完整演示视频的全自动生成。
MineContext是字节跳动推出的开源主动式上下文感知AI工具,创新性提出“数字生活方块挖掘”理念,帮助用户高效管理分散的知识与信息资产。

LLaVA-OneVision-1.5在多模态权威基准测试中表现优异,且全链条技术资源透明开放,代码、数据与模型权重一键获取,助力开发者低成本复现与二次创新。

SAIL-VL2是抖音团队与新加坡国立大学联合研发的开源视觉语言基础模型,模型由SAIL-ViT视觉编码器、视觉-语言适配器与大语言模型三大核心模块构成,创新性采用渐进式训练框架,从视觉预训练、多模态融合,到最终的SFT-RL混合范式优化,实现性能阶梯式跃升。

Get Jobs是一款开源自动化简历投递工具,专为求职者打造高效求职解决方案。工具支持Boss直聘、猎聘、拉勾、51job、智联招聘等主流招聘平台。