web建站教程
     
  1. 首页
  2. 前端UI组件库
  3. AI项目和框架
  4. 前端知识
  5. AI应用
  6. IT知识
  7. Chrome插件
  8. 地图大全
  9. 休息站

AI项目和框架

RTFM:李飞飞团队推出的实时生成式世界模型,实时生成3D场景
RTFM:李飞飞团队推出的实时生成式世界模型,实时生成3D场景

RTFM是李飞飞团队研发的实时生成式世界模型,支持3D场景的实时生成与持久化用户交互。该模型摒弃传统物理渲染的复杂流程,通过学习海量视频数据中的光影、材质与空间关系,将物理渲染问题转化为数据驱动的感知问题。

3D场景李飞飞团队
Coral NPU:谷歌推出的面向低功耗边缘设备的全栈开源AI平台
Coral NPU:谷歌推出的面向低功耗边缘设备的全栈开源AI平台

Coral NPU是谷歌推出的全栈开源边缘AI计算平台,专为智能手表、AR眼镜等低功耗边缘设备打造,核心解决边缘场景下的AI性能瓶颈、硬件碎片化、用户隐私保护三大关键挑战。

全栈开源AI平台谷歌AI
PaddleOCR-VL:百度飞桨开源的轻量化多模态文档解析开源模型
PaddleOCR-VL:百度飞桨开源的轻量化多模态文档解析开源模型

PaddleOCR-VL是百度飞桨团队推出的轻量级多模态文档解析模型,参数量仅0.9B,专为低算力设备部署优化。该模型在国际权威评测OmnidocBench V1.5中以 92.6分斩获全球第一,性能超越GPT-4o等主流模型。

文档解析模型百度开源百度飞桨
DeepSeek-OCR:DeepSeek团队开源的高效长文本视觉语言处理模型
DeepSeek-OCR:DeepSeek团队开源的高效长文本视觉语言处理模型

DeepSeek-OCR是DeepSeek团队研发的一款视觉语言模型,主打基于视觉压缩技术的长文本高效处理能力。该模型采用DeepEncoder编码器+DeepSeek3B-MoE解码器的架构,可在保留高分辨率输入信息的前提下,大幅降低激活内存占用与视觉标记数量。

AI视觉语言模型DeepSeek模型
MAI-Image-1:微软推出的首款自研图像生成式AI模型
MAI-Image-1:微软推出的首款自研图像生成式AI模型

MAI-Image-1是微软推出的首款自研图像生成式AI模型,专攻逼真自然光照效果与复杂场景的生成,尤其擅长还原闪电、风景等对光影细节要求极高的画面。

AI图像生成大模型AI模型评测微软AI生成式AI模型
Youtu-Embedding:腾讯优图开源企业级通用文本表示模型
Youtu-Embedding:腾讯优图开源企业级通用文本表示模型

Youtu-Embedding是腾讯优图实验室重磅推出的开源企业级通用文本表示模型,依托大规模语料预训练与创新协同-判别式微调框架,构建起强大的语义理解能力,可一站式胜任文本检索、意图理解、相似度判断等六大核心任务。

GitHub仓库企业级AI腾讯优图腾讯开源
Kandinsky 5.0:俄罗斯AI-Forever实验室旗舰文本到视频生成模型
Kandinsky 5.0:俄罗斯AI-Forever实验室旗舰文本到视频生成模型

Kandinsky 5.0是俄罗斯AI研究实验室AI-Forever研发的新一代文本到视频生成模型,兼具卓越生成质量与高效推理性能,在跨场景内容创作中展现出强劲竞争力。

AI-Forever开源俄罗斯网站视频生成模型
FS-DFM:苹果 × 俄亥俄州立大学推出高效长文本生成的扩散语言模型
FS-DFM:苹果 × 俄亥俄州立大学推出高效长文本生成的扩散语言模型

FS-DFM是苹果公司联合俄亥俄州立大学研发的快速长文本生成扩散语言模型,核心突破在于将采样步数作为显式参数进行训练,实现了“少步数、高质量”的文本生成效果。

俄亥俄州立大学扩散语言模型苹果AI
Veo 3.1:谷歌新一代AI视频生成模型,重构创意生产全流程
Veo 3.1:谷歌新一代AI视频生成模型,重构创意生产全流程

Veo 3.1是谷歌推出的旗舰级AI视频生成模型,支持文本提示、图像、视频片段等多模态输入,可直接生成720P、1080P乃至4K高清视频,让用户在生成阶段即可完成音画同步的完整创作,无需额外后期处理。

AI视频生成模型谷歌AI
DiaMoE-TTS:清华 × 巨人网络联合开源的多方言TTS框架
DiaMoE-TTS:清华 × 巨人网络联合开源的多方言TTS框架

DiaMoE-TTS是清华大学与巨人网络联合研发的多方言语音合成框架,框架创新性采用国际音标统一输入体系,融合方言感知的混合专家(MoE)架构与低资源适配策略,实现低成本、低门槛的多方言语音合成。

GitHub仓库多方言TTS框架巨人网络清华大学
UserLM-8b:微软新一代专属用户角色模拟语言模型
UserLM-8b:微软新一代专属用户角色模拟语言模型

UserLM-8b是微软重磅推出的专属用户角色模拟语言模型,该模型依托WildChat-1M等大规模真实对话数据集完成深度训练,能够精准复刻真实用户的语言风格与交互逻辑,生成高度贴近现实场景的对话内容。

对话模拟模型微软开源模型
KAT-Dev-72B-Exp:快手开源编程大模型,重塑软件工程生产力
KAT-Dev-72B-Exp:快手开源编程大模型,重塑软件工程生产力

KAT-Dev-72B-Exp是快手重磅推出的开源编程专用大语言模型,作为KAT-Coder的强化学习升级版,该模型深度聚焦软件工程全流程任务,凭借卓越性能在权威基准测试中脱颖而出——在SWE-Bench Verified测试中,准确率高达74.6%,充分彰显技术硬实力。

AI编程模型快手开源
Qwen3-VL Cookbooks:阿里出品的Qwen3-VL多模态模型实战指南集
Qwen3-VL Cookbooks:阿里出品的Qwen3-VL多模态模型实战指南集

Qwen3-VL Cookbooks是阿里巴巴为Qwen3-VL多模态大模型量身打造的官方实战指南集合,指南覆盖物体识别、文档解析、视频理解、3D定位等十余类核心能力,每一份Cookbook均配套详细代码示例、分步操作教程与场景化最佳实践。

GitHub仓库Qwen3-VL阿里云AI
Paper2Video:新加坡国立大学一键将学术论文转化为专业演示视频
Paper2Video:新加坡国立大学一键将学术论文转化为专业演示视频

Paper2Video是新加坡国立大学Show Lab研发的学术论文视频化工具依托创新的PaperTalker多智能体框架,实现从学术论文到完整演示视频的全自动生成。

多智能体框架学术论文新加坡国立大学
MineContext:字节跳动开源主动式上下文感知的AI工具

MineContext是字节跳动推出的开源主动式上下文感知AI工具,创新性提出“数字生活方块挖掘”理念,帮助用户高效管理分散的知识与信息资产。

AI工具GitHub仓库上下文处理字节开源
扣子空间 – 免费全能AI办公智能体
Trae:新一代免费的AI编程工具