
MioCodec v2是一款高效、轻量的专业编解码工具,聚焦音视频及数据编码解码核心需求,依托优化的底层架构设计,为各类编码解码任务提供稳定、高效的解决方案,填补轻量型专业编解码工具的场景空白,同时可灵活对接各类开发框架与终端设备,降低编解码技术的应用门槛。

PicoClaw是Sipeed推出的超轻量级AI Agent助手,采用Go语言开发,专为低成本硬件量身打造。不同于本地运行大模型的方案,它以轻量客户端形式,通过API调用Claude、GPT、智谱GLM等云端模型,同时在本地高效实现文件操作、网页搜索、任务规划等核心Agent能力。

Protenix-v1是字节跳动Seed团队开源的生物分子结构预测模型,首个在同等条件下(数据截止2021-09-30、相同模型规模和推理预算)性能达到甚至超越AlphaFold3的完全开源方案。

ClawWork支持GPT-4o、Claude、Kimi等多模型同台竞技,并配备React实时仪表板用于监控Agent生存状态,为AI劳动力经济研究提供了首个“用进废退”的真实压力测试场景。

Gemini 3.1 Pro定位为更强智能、更高性能的新一代基线模型,核心推理能力实现显著进化,尤其擅长处理逻辑严谨、步骤复杂、多环节推理的高难度任务。

Voxtral-Mini-4B-Realtime-2602是Mistral AI正式开源的实时流式语音识别模型,仅40亿参数,即可在保持高精度的前提下,实现500ms以内超低延迟,并原生支持中文等13种语言。

Ming-omni-tts模型通过统一连续音频Tokenizer与Diffusion Transformer架构,以12.5Hz帧率处理多模态音频,并借助「Patch-by-Patch」压缩策略将LLM推理帧率降至3.1Hz,在保证高音质的同时大幅降低延迟。

Lyria 3是谷歌DeepMind研发的新一代AI音乐生成模型,现已原生集成到Gemini,支持文本、图片/视频多模态输入,30秒快速生成带歌词、伴奏与定制封面的完整原创音乐片段。目前处于测试阶段,面向全球18岁以上用户开放。

DeepGen 1.0是由中国科学技术大学、西湖大学与南加州大学等联合推出的轻量级统一多模态模型,仅50亿参数,却在通用图像生成、编辑及复杂逻辑理解任务中实现超越级表现,多项指标击败参数量为其3–16倍的国际顶级模型。

BitDance是字节跳动正式开源的140亿参数离散自回归多模态基础模型。凭借创新的二进制Token编码机制与并行扩散预测范式,模型在保持高分辨率、高保真画质的前提下,实现了颠覆性的生成速度,效率较传统自回归模型提升30倍以上,甚至超越多款主流扩散模型。

Capybara一款单一架构、全功能整合的全能型AI系统,它以先进扩散模型与Transformer架构为核心底座,将文本到图像/视频生成、指令式精细编辑、上下文条件生成及关键帧传播等多元能力深度融合,打破传统AI任务需多模型、多接口切换的壁垒——无论是从零启动的创意生成。

Tiny Aya系列是企业级AI独角兽Cohere旗下Cohere Labs正式发布的开源多语言模型,专为真实场景落地打造。该系列支持70余种语言,仅33.5亿参数,即可在笔记本电脑、智能手机等终端设备上流畅运行,且支持完全离线使用。

Sonnet 4.6突破性支持100万Token超长上下文窗口,单次请求即可轻松处理完整代码库或数十篇学术论文;创新引入“自适应思考”专属机制,能够根据任务复杂度动态调配推理资源,避免算力浪费。在OSWorld计算机使用基准测试中,其得分从4.5版本的61.4%飙升至72.5%,性能表现已趋近人类操作水平,适配更多复杂实用场景。

JoyAI-LLM-Flash是京东开源的中型指令大模型,模型创新性引入FiberPO优化框架——首次将纤维丛理论应用于强化学习,结合Muon优化器完成SFT、DPO及RL全阶段训练;同时搭载稠密多Token预测(MTP)技术,吞吐量较非MTP版本提升1.3-1.7倍。

FireRed-Image-Edit是小红书Super Intelligence团队开源的通用图像编辑模型,模型具备精准的指令遵循能力、高质量图像输出表现及出色的视觉一致性,尤其在文字风格保留方面优势突出,编辑效果可媲美主流闭源方案;同时在多个权威评测集上斩获SOTA成绩,广泛适配创意设计、电商内容创作等多元化场景。
