AI项目和框架 - web建站教程

返回AI项目和框架

AI项目和框架

: [推荐] 豆包网页版：支持AI聊天，AI图片生成，AI漫画生成，AI写作等; 字节跳动开发的一款多功能人工智能工具，基于云雀模型（豆包大模型）构建。它不仅是一个AI聊天机器人，还具备多种功能，包括写作助手、英语学习助手、音乐生成、编程助理等。; AI写作平台 AI图片生成 AI漫画生成工具 AI聊天助手

: PaddleOCR-VL：百度飞桨开源的轻量化多模态文档解析开源模型; PaddleOCR-VL是百度飞桨团队推出的轻量级多模态文档解析模型，参数量仅0.9B，专为低算力设备部署优化。该模型在国际权威评测OmnidocBench V1.5中以 92.6分斩获全球第一，性能超越GPT-4o等主流模型。; 文档解析模型百度开源百度飞桨

: DeepSeek-OCR：DeepSeek团队开源的高效长文本视觉语言处理模型; DeepSeek-OCR是DeepSeek团队研发的一款视觉语言模型，主打基于视觉压缩技术的长文本高效处理能力。该模型采用DeepEncoder编码器+DeepSeek3B-MoE解码器的架构，可在保留高分辨率输入信息的前提下，大幅降低激活内存占用与视觉标记数量。; AI视觉语言模型 DeepSeek模型

: MAI-Image-1：微软推出的首款自研图像生成式AI模型; MAI-Image-1是微软推出的首款自研图像生成式AI模型，专攻逼真自然光照效果与复杂场景的生成，尤其擅长还原闪电、风景等对光影细节要求极高的画面。; AI图像生成大模型 AI模型评测微软AI 生成式AI模型

: Youtu-Embedding：腾讯优图开源企业级通用文本表示模型; Youtu-Embedding是腾讯优图实验室重磅推出的开源企业级通用文本表示模型，依托大规模语料预训练与创新协同-判别式微调框架，构建起强大的语义理解能力，可一站式胜任文本检索、意图理解、相似度判断等六大核心任务。; GitHub仓库企业级AI 腾讯优图腾讯开源

: Kandinsky 5.0：俄罗斯AI-Forever实验室旗舰文本到视频生成模型; Kandinsky 5.0是俄罗斯AI研究实验室AI-Forever研发的新一代文本到视频生成模型，兼具卓越生成质量与高效推理性能，在跨场景内容创作中展现出强劲竞争力。; AI-Forever开源俄罗斯网站视频生成模型

: FS-DFM：苹果 × 俄亥俄州立大学推出高效长文本生成的扩散语言模型; FS-DFM是苹果公司联合俄亥俄州立大学研发的快速长文本生成扩散语言模型，核心突破在于将采样步数作为显式参数进行训练，实现了“少步数、高质量”的文本生成效果。; 俄亥俄州立大学扩散语言模型苹果AI

: Veo 3.1：谷歌新一代AI视频生成模型，重构创意生产全流程; Veo 3.1是谷歌推出的旗舰级AI视频生成模型，支持文本提示、图像、视频片段等多模态输入，可直接生成720P、1080P乃至4K高清视频，让用户在生成阶段即可完成音画同步的完整创作，无需额外后期处理。; AI视频生成模型谷歌AI

: DiaMoE-TTS：清华 × 巨人网络联合开源的多方言TTS框架; DiaMoE-TTS是清华大学与巨人网络联合研发的多方言语音合成框架，框架创新性采用国际音标统一输入体系，融合方言感知的混合专家（MoE）架构与低资源适配策略，实现低成本、低门槛的多方言语音合成。; GitHub仓库多方言TTS框架巨人网络清华大学

: UserLM-8b：微软新一代专属用户角色模拟语言模型; UserLM-8b是微软重磅推出的专属用户角色模拟语言模型，该模型依托WildChat-1M等大规模真实对话数据集完成深度训练，能够精准复刻真实用户的语言风格与交互逻辑，生成高度贴近现实场景的对话内容。; 对话模拟模型微软开源模型

: KAT-Dev-72B-Exp：快手开源编程大模型，重塑软件工程生产力; KAT-Dev-72B-Exp是快手重磅推出的开源编程专用大语言模型，作为KAT-Coder的强化学习升级版，该模型深度聚焦软件工程全流程任务，凭借卓越性能在权威基准测试中脱颖而出——在SWE-Bench Verified测试中，准确率高达74.6%，充分彰显技术硬实力。; AI编程模型快手开源

: Qwen3-VL Cookbooks：阿里出品的Qwen3-VL多模态模型实战指南集; Qwen3-VL Cookbooks是阿里巴巴为Qwen3-VL多模态大模型量身打造的官方实战指南集合，指南覆盖物体识别、文档解析、视频理解、3D定位等十余类核心能力，每一份Cookbook均配套详细代码示例、分步操作教程与场景化最佳实践。; GitHub仓库 Qwen3-VL 阿里云AI

: Paper2Video：新加坡国立大学一键将学术论文转化为专业演示视频; Paper2Video是新加坡国立大学Show Lab研发的学术论文视频化工具依托创新的PaperTalker多智能体框架，实现从学术论文到完整演示视频的全自动生成。; 多智能体框架学术论文新加坡国立大学

: MineContext：字节跳动开源主动式上下文感知的AI工具; MineContext是字节跳动推出的开源主动式上下文感知AI工具，创新性提出“数字生活方块挖掘”理念，帮助用户高效管理分散的知识与信息资产。; AI工具 GitHub仓库上下文处理字节开源

: LLaVA-OneVision-1.5：Lab开源的高性能低成本开源多模态模型; LLaVA-OneVision-1.5在多模态权威基准测试中表现优异，且全链条技术资源透明开放，代码、数据与模型权重一键获取，助力开发者低成本复现与二次创新。; AI多模态模型 Lab开源

: SAIL-VL2：抖音 × 新加坡国立大学联合开源的视觉语言模型; SAIL-VL2是抖音团队与新加坡国立大学联合研发的开源视觉语言基础模型，模型由SAIL-ViT视觉编码器、视觉-语言适配器与大语言模型三大核心模块构成，创新性采用渐进式训练框架，从视觉预训练、多模态融合，到最终的SFT-RL混合范式优化，实现性能阶梯式跃升。; AI视觉语言模型抖音AI 新加坡国立大学

Trae：新一代免费的AI编程工具

即梦AI网页版

支持多图参考 · 生成高质量图像及视频！！

精选热门文章

: AppDeploy官网使用入口，从ChatGPT/Claude对话直接部署应用的零门槛平台

: 猎户星空 Orion-14B 系列大模型：高性能多语种通用智能基座

: SAIL-VL2：抖音 × 新加坡国立大学联合开源的视觉语言模型

: Qwen2.5-Omni：阿里千问专为全方位多模态感知打造的新一代端到端多模态旗舰模型

Copy2AI：完全免费，内置AI，本地部署 - 重新定义AI生产力体验