web建站教程
     
  1. 首页
  2. 前端UI组件库
  3. AI项目和框架
  4. 前端知识
  5. AI应用
  6. IT知识
  7. Chrome插件
  8. 地图大全
  9. 休息站

AI项目和框架

LLaVA-OneVision-1.5:Lab开源的高性能低成本开源多模态模型
LLaVA-OneVision-1.5:Lab开源的高性能低成本开源多模态模型

LLaVA-OneVision-1.5在多模态权威基准测试中表现优异,且全链条技术资源透明开放,代码、数据与模型权重一键获取,助力开发者低成本复现与二次创新。

AI多模态模型Lab开源
SAIL-VL2:抖音 × 新加坡国立大学联合开源的视觉语言模型
SAIL-VL2:抖音 × 新加坡国立大学联合开源的视觉语言模型

SAIL-VL2是抖音团队与新加坡国立大学联合研发的开源视觉语言基础模型,模型由SAIL-ViT视觉编码器、视觉-语言适配器与大语言模型三大核心模块构成,创新性采用渐进式训练框架,从视觉预训练、多模态融合,到最终的SFT-RL混合范式优化,实现性能阶梯式跃升。

AI视觉语言模型抖音AI新加坡国立大学
Get Jobs:开源简历投递自动化工具,多平台高效求职利器
Get Jobs:开源简历投递自动化工具,多平台高效求职利器

Get Jobs是一款开源自动化简历投递工具,专为求职者打造高效求职解决方案。工具支持Boss直聘、猎聘、拉勾、51job、智联招聘等主流招聘平台。

AI简历GitHub仓库
Ming-UniAudio:蚂蚁集团推出的开源音频多模态大模型
Ming-UniAudio:蚂蚁集团推出的开源音频多模态大模型

Ming-UniAudio构建了端到端语音语言模型,精准平衡语音生成与语义理解性能;搭配扩散头技术,保障语音合成的高自然度与高还原度。尤为突出的是,模型首创指令引导的自由形式语音编辑框架,支持复杂的语义与声学修改,无需手动标定编辑区域,大幅降低操作门槛。

蚂蚁集团音频多模态模型
FLUX.2 [klein]:Black Forest Labs开源的高效图像生成与编辑模型
FLUX.2 [klein]:Black Forest Labs开源的高效图像生成与编辑模型

FLUX.2 [klein]是Black Forest Labs推出的开源高效图像生成与编辑模型,凭借突破性的架构设计与优化技术,实现0.5秒内完成高质量图像生成与编辑的亚秒级推理速度,支持文生图、图生图及多参考生成三大核心功能。

AI图像生成大模型图像编辑模型
TranslateGemma:谷歌Gemma 3生态力作,多模态开源翻译模型
TranslateGemma:谷歌Gemma 3生态力作,多模态开源翻译模型

TranslateGemma是谷歌基于Gemma 3大模型架构推出的新一代开源翻译模型系列,该模型提供4B、12B、27B三种参数规模版本,分别适配移动设备、消费级笔记本、云端高性能计算平台,真正做到全场景灵活部署。

多语言翻译模型谷歌开源
Ling-1T:蚂蚁集团开源万亿参数旗舰模型,高效推理引领开源第一梯队
Ling-1T:蚂蚁集团开源万亿参数旗舰模型,高效推理引领开源第一梯队

Ling-1T是蚂蚁集团重磅推出的万亿参数级开源语言模型,定位为“旗舰级非思考模型”。依托先进的 MoE(Mixture of Experts)混合专家架构,模型总参数量高达 1 万亿,推理时仅激活约 510 亿参数,在兼顾极致性能的同时大

大型语言模型蚂蚁集团
Gemini 2.5 Computer Use:让AI自主操控浏览器的智能自动化工具
Gemini 2.5 Computer Use:让AI自主操控浏览器的智能自动化工具

Gemini 2.5 Computer Use是谷歌DeepMind基于Gemini 2.5大模型打造的智能计算机操作模型,突破性实现AI对浏览器的直接控制,可自主执行点击、滚动、输入等交互动作。依托强大的视觉理解与逻辑推理能力,模型能精准

AI自动化工具DeepMindGemini谷歌AI
Imagine v0.9:xAI重磅发布,20秒生成电影感视频的高效创作工具
Imagine v0.9:xAI重磅发布,20秒生成电影感视频的高效创作工具

Imagine v0.9是xAI公司推出的新一代视频生成模型,该模型可在20秒内生成6秒左右的高质量视频,支持精准运动控制、动态相机特效、自然对话与歌声合成,更配备语音优先交互界面,用户通过语音指令即可快速完成创作。

xAI公司视频生成模型马斯克
FunAudio-ASR:阿里达摩院出品,企业级语音识别痛点的端到端大模型
FunAudio-ASR:阿里达摩院出品,企业级语音识别痛点的端到端大模型

FunAudio-ASR是阿里巴巴达摩院研发的端到端语音识别大模型,聚焦企业落地场景中的核心痛点,通过创新的Context增强模块,从根源上优化了语音识别领域的“幻觉”“串语种”等行业难题。

端到端大模型语音识别模型阿里达摩院
GPT-5-Codex:OpenAI重磅推出重构软件工程全流程的智能编程助手
GPT-5-Codex:OpenAI重磅推出重构软件工程全流程的智能编程助手

GPT-5-Codex-Mini是OpenAI打造的经济高效型轻量版本。作为GPT-5-Codex的紧凑迭代,其模型体积更小、使用成本更低,完美适配基础代码生成、功能模块添加等轻量级编程需求。目前,该模型已上线CLI工具与IDE扩展插件,为开发者提供灵活、高性价比的智能编程选择。

Agent框架OpenAI智能编程助手编程优化模型
Mini-o3:字节跳动 × 香港大学联合开源,攻克复杂视觉搜索难题
Mini-o3:字节跳动 × 香港大学联合开源,攻克复杂视觉搜索难题

Mini-o3在VisualProbe、V* Bench等多个权威视觉搜索基准测试中斩获SOTA(State-of-the-Art)性能,全套代码、预训练模型及数据集已完全开源,为全球研究者提供可复现、可拓展的技术底座。

字节开源字节跳动框架视觉推理模型香港大学
UnifoLM-WMA-0:宇树科技开源跨机器人架构,赋能通用机器人自主学习与决策
UnifoLM-WMA-0:宇树科技开源跨机器人架构,赋能通用机器人自主学习与决策

UnifoLM-WMA-0架构已成功部署于真实机器人,实现动作可控生成与长期交互生成的双重突破,显著提升机器人在复杂动态环境中的自主学习与决策能力。

宇树科技机器人框架
PromptEnhancer:腾讯混元开源提示重写框架,解锁T2I模型精准生成新潜能
PromptEnhancer:腾讯混元开源提示重写框架,解锁T2I模型精准生成新潜能

PromptEnhancer是腾讯混元团队重磅开源的文本到图像(T2I)提示重写框架,核心聚焦于解决T2I模型对复杂指令理解不足、生成内容与用户意图偏差的行业痛点。

提示词生成器混元大模型腾讯开源
通义DeepResearch:阿里开源深度研究智能体,赋能长周期复杂任务高效突破
通义DeepResearch:阿里开源深度研究智能体,赋能长周期复杂任务高效突破

通义DeepResearch无需人工干预即可生成高质量训练数据集,突破传统智能体的数据瓶颈;构建“智能体持续预训练(Agentic CPT)—监督微调(SFT)—强化学习(RL)”的端到端完整训练链路,确保模型能力的系统性迭代。

智能体模型通义实验室阿里开源
扣子空间 – 免费全能AI办公智能体
Trae:新一代免费的AI编程工具