web建站教程
     
  1. 首页
  2. 前端UI组件库
  3. AI项目和框架
  4. 前端知识
  5. AI应用
  6. IT知识
  7. Chrome插件
  8. 地图大全
  9. 休息站

AI项目和框架

Wan2.5:阿里多模态生成模型重磅升级,解锁音画同步创作新体验
Wan2.5:阿里多模态生成模型重磅升级,解锁音画同步创作新体验

Wan2.5-Preview是阿里巴巴推出的新一代多模态生成模型,集成文生视频、图生视频、文生图、图像编辑四大核心功能,突破性实现音画同步的视频生成能力,支持1080P高清分辨率、24fps流畅帧率创作。

多模态生成模型通义万相阿里云百炼阿里通义
LucaVirus:阿里云重磅发布 核酸-蛋白质统一语言模型
LucaVirus:阿里云重磅发布 核酸-蛋白质统一语言模型

LucaVirus是阿里云LucaGroup潜心研发的全球首款专为病毒领域打造的核酸-蛋白质统一语言模型,依托254亿个核苷酸与氨基酸标记的海量数据完成训练,数据覆盖几乎所有已知病毒种类。

AI医学助手GitHub仓库病毒基础大模型阿里开源
CWM:Meta开源320亿参数代码世界模型,重构AI代码生成新范式
CWM:Meta开源320亿参数代码世界模型,重构AI代码生成新范式

CWM是Meta重磅开源的320亿参数代码世界模型,作为全球首个将世界模型技术系统性引入代码生成领域的语言模型,它彻底打破传统代码模型“模式匹配”的局限,以“模拟代码执行过程”的核心能力,实现代码生成与理解的双重突破,为AI辅助软件开发开辟全新路径。

AI代码Meta AI代码世界模型
Vidu Q2:生数科技重磅推出的新一代图生视频大模型
Vidu Q2:生数科技重磅推出的新一代图生视频大模型

Vidu Q2最新上线参考生图、文生图和图像编辑功能,旨在提高图像生成的一致性和实用性。模型提供一站式多参工作流,从参考生图到一键转主体,再到参考生视频,无需更换平台能完成整个创作过程。

图生视频模型生数科技
FLM-Audio:北京智源等联合开发的原生全双工音频对话大模型
FLM-Audio:北京智源等联合开发的原生全双工音频对话大模型

FLM-Audio是由北京智源人工智能研究院携手Spin Matrix、新加坡南洋理工大学联合研发的原生全双工音频对话大模型,全面支持中英双语交互,凭借突破性技术架构与训练范式,重新定义智能语音对话的自然流畅体验。

GitHub仓库Spin Matrix南洋理工大学智源研究院音频对话模型
Spark Chemistry-X1-13B:科大讯飞开源的化学专业大语言模型
Spark Chemistry-X1-13B:科大讯飞开源的化学专业大语言模型

Spark Chemistry-X1-13B是科大讯飞推出的化学领域专业大语言模型,依托讯飞星火X1-0420大模型基座构建,通过多类型化学任务数据集的定向微调,既具备卓越的复杂化学问题解决能力,又保留了通用大模型的灵活交互特性。

AI化学模型科大讯飞魔搭社区
GDPval:OpenAI研发推出的全新AI模型经济价值评估框架
GDPval:OpenAI研发推出的全新AI模型经济价值评估框架

GDPval是OpenAI研发的全新AI模型评估体系,核心目标是衡量AI模型在真实经济价值任务中的实际表现。该框架从对美国GDP贡献最大的9大行业中,筛选出44类典型知识型职业,针对性设计1320个真实工作任务,

AI经济模型AI评估框架OpenAI
CoF:DeepMind 提出的视频模型时空推理新范式
CoF:DeepMind 提出的视频模型时空推理新范式

CoF是DeepMind推出的视觉推理新概念,类比语言模型领域的链式思维技术。这一范式赋予视频模型跨时间与空间的推理能力,通过逐帧生成连贯视频序列的方式,解决复杂视觉任务。

DeepMind视觉模型
Manzano:苹果推出的统一图像理解与生成多模态大语言模型
Manzano:苹果推出的统一图像理解与生成多模态大语言模型

Manzano是苹果公司研发的新型多模态大语言模型,核心突破在于实现图像理解与图像生成的能力统一。模型创新性采用混合视觉分词器,将图像同步转化为两类特征表示:用于理解任务的连续嵌入向量,以及用于生成任务的离散图像标记。

AI图像生成模型苹果AI
Sora 2:OpenAI新一代多模态音视频生成模型
Sora 2:OpenAI新一代多模态音视频生成模型

Sora 2是OpenAI推出的新一代AI音视频生成模型,该模型实现三大核心技术突破:依托多模态联合训练,首次达成环境音效与画面动态的实时同步生成。

AI视频生成模型AI音频生成OpenAI开发
Logics-Parsing:阿里巴巴开源的多模态端到端文档解析模型
Logics-Parsing:阿里巴巴开源的多模态端到端文档解析模型

Logics-Parsing是阿里巴巴推出的开源端到端文档解析模型,基于多模态大模型Qwen2.5-VL-7B构建。该模型创新融合监督微调与布局中心型强化学习技术,攻克复杂文档的结构解析与内容理解难题。

文档解析模型阿里巴巴
Tinker API:面向语言模型微调的极简开发与托管平台
Tinker API:面向语言模型微调的极简开发与托管平台

Tinker API提供`forward_backward`、`sample`等底层操作原语,支持开发者灵活构建自定义微调或强化学习算法;兼容从小型到超大参数量的全品类开放权重模型,模型切换仅需修改代码中一个字符串参数。

AI语言模型LoRA模型
xLLM:京东开源的国产芯片适配型高效智能推理框架
xLLM:京东开源的国产芯片适配型高效智能推理框架

xLLM可广泛适配大语言模型、多模态模型及生成式推荐等多类场景,能够提供高性能、低成本的推理服务,助力智能客服、实时推荐、内容生成等业务高效落地,推动大语言模型在国产芯片生态上的规模化应用。

京东AI智能推理框架
Meta ARE:Meta出品,面向AI Agents的动态模拟研究与评估平台
Meta ARE:Meta出品,面向AI Agents的动态模拟研究与评估平台

Meta ARE是Meta推出的专业研究平台,聚焦于AI Agents的训练与系统性评估。该平台通过构建随时间动态演变的模拟环境,还原真实世界的复杂多步骤任务场景,要求Agents能够根据新信息的出现和环境条件的变化,实时调整决策策略。

Agents评估Meta AI
FireRedChat:小红书智创音频团队自研全双工智能语音交互系统
FireRedChat:小红书智创音频团队自研全双工智能语音交互系统

FireRedChat是小红书智创音频团队打造的全双工语音交互系统,系统采用高灵活性的模块化架构,涵盖转录控制模块、交互模块、对话管理器等核心组件,支持级联与半级联两种部署模式,可按需适配不同业务场景。

小红书语音交互系统
扣子空间 – 免费全能AI办公智能体
Trae:新一代免费的AI编程工具