
FireRed-OCR是小红书团队开源的轻量级文档结构解析视觉语言模型,基于Qwen3-VL-2B-Instruct架构,采用三阶段渐进式训练。FireRed-OCR专为解决文档结构幻觉设计,可精准提取表格、公式、标题层级,并输出标准Markdown,兼顾高精度与轻量化部署。

FireRedASR2S是小红书Super Intelligence-AudioLab开源的工业级端到端语音识别模型,一站式集成ASR、VAD、语种识别、标点预测四大SOTA模块,实现从音频到可读文本的全链路高精度处理。

FireRed-Image-Edit是小红书Super Intelligence团队开源的通用图像编辑模型,模型具备精准的指令遵循能力、高质量图像输出表现及出色的视觉一致性,尤其在文字风格保留方面优势突出,编辑效果可媲美主流闭源方案;同时在多个权威评测集上斩获SOTA成绩,广泛适配创意设计、电商内容创作等多元化场景。

FireRed-Image-Edit核心优势是精准理解自然语言指令,实现高保真、视觉一致的全维度图像编辑,解决现有AI修图“改不准、易翻车、门槛高”的痛点;功能覆盖内容/风格/结构/文字四大维度,还支持虚拟试穿、老照片修复等特色玩法,适配日常修图、电商、创意创作等多场景。
OpenStoryline是小红书开源的首个具备导演思维的视频剪辑Agent,工具能精准理解画面情绪,自动匹配BGM与卡点,支持风格化仿写和全程对话式微调。OpenStoryline支持一键保存剪辑逻辑,训练专属风格分身。

DeepEyesV2模型训练分为两个核心阶段:第一阶段通过监督微调,帮助模型建立工具使用的基础认知;第二阶段借助强化学习,大幅提升工具调用效率与场景泛化能力。
