
【易观AI·技术拆解】DeepSeek多模态核心突破:用"视觉原语"破解多模态推理"参照鸿沟"难题
技术速览
4月30日DeepSeek正式发布多模态大模型并开源完整技术报告《Thinking with Visual Primitives》(用视觉原语思考),创新性提出将坐标框、点等视觉元素作为模型推理的基础思维单元,解决了长期困扰多模态模型的"参照鸿沟"痛点。在计数、空间推理、迷宫导航等高难度任务中,该模型性能超越GPT-5.4、Claude-Sonnet-4.6等国际头部模型,视觉编码压缩比高达7056倍,推理效率提升一个数量级。
核心痛点:多模态模型的"看不清"与"想不清"
过去行业普遍认为多模态模型推理错误的核心原因是"感知鸿沟"——即模型看不清楚图片细节,因此解决方案都是提升图像分辨率、优化切块策略。但DeepSeek团队指出,更本质的瓶颈是参照鸿沟: 自然语言天然具有模糊性,当你说"左边红色的物体"时,在密集场景中模型无法精确锁定具体指代对象,导致推理过程中注意力逐渐漂移,逻辑链条最终崩溃。 典型失败案例: - 给GPT-5.4一张密集人群照片问"有多少人",计数误差超过30% - 给Claude看复杂电路图问"左侧电容和右侧电感的位置关系",回答前后矛盾 - 多步空间推理任务中,主流模型准确率普遍低于50%
突破性解决方案:"边想边指"双轨推理框架
DeepSeek的核心创新是将人类视觉认知中的"指向"行为引入模型推理过程,构建"语言逻辑+空间坐标"双轨思维:
1. 视觉原语成为基础思维单元
传统模型中坐标框只是输出结果,而DeepSeek将点坐标<|point|>和边界框<|box|>变成了和文字一样的推理基本单位,模型在思考过程中会自动用坐标锚定讨论对象:
扫描图片寻找熊,找到一只 <|ref|>熊<|/ref|><|box|>[[452,23,804,411]]<|/box|>,它正在爬树,不在地面上,排除。再往左下看,找到另一只 <|ref|>熊<|/ref|><|box|>[[50,447,647,771]]<|/box|>,站在岩石边缘,符合条件。 这种机制让模型的逻辑链被牢牢钉在图片物理坐标上,完全消除了语言歧义导致的注意力漂移。
2. 三级压缩架构实现7056倍视觉编码效率
为了平衡推理精度和效率,DeepSeek设计了三级视觉压缩流程: - 第一级:ViT将756×756图片切分为2916个patch token - 第二级:3×3空间压缩,每9个相邻token合并为1个,得到324个token - 第三级:V4-Flash自带的压缩稀疏注意力机制将KV缓存再压缩4倍,最终仅保留81个视觉条目 整体压缩比高达7056倍,同等推理任务下,KV缓存占用仅为Claude的1/10、Gemini的1/13,大幅降低推理成本。
3. 针对性训练体系打造"推理肌肉记忆"
团队构建了贯穿预训练、冷启动、强化学习的全流程训练体系: - 预训练阶段:筛选超4000万个高质量目标检测样本,让模型掌握基础定位能力 - 冷启动阶段:针对计数、空间推理、迷宫导航、路径追踪四类高难度任务合成专用训练数据,强制模型在每步推理时输出坐标锚点 - 强化学习阶段:采用稠密奖励机制,对每一步坐标操作都给予即时反馈,避免模型靠猜答案蒙混过关 - 专家融合策略:分别训练框定位和点指向两个专家模型,再通过在线蒸馏融合为统一模型,避免异构原语互相干扰
性能评测:高难度任务实现40%精度提升
在11项权威基准测试中,DeepSeek多模态模型表现突出: | 任务类型 | 测试集 | DeepSeek得分 | GPT-5.4得分 | 相对提升 | |---------|-------|-------------|------------|---------| | 精确计数 | Pixmo-Count | 89.2% | 76.6% | +16.4% | | 细粒度计数 | DS_Finegrained_Counting | 88.7% | 71.2% | +24.6% | | 空间推理 | SpatialMQA | 69.4% | 52.1% | +33.2% | | 迷宫导航 | DS_Maze_Navigation | 66.9% | 50.6% | +32.2% | | 路径追踪 | DS_Path_Tracing | 56.7% | 46.5% | +21.9% | 在最具挑战性的拓扑推理类任务中,性能领先国际头部模型40%左右,是当前唯一能稳定解决复杂空间推理问题的多模态模型。
工程启示:多模态技术路线的新方向
DeepSeek的技术路线给行业带来三个重要启示: 1. 效率优先替代参数堆料:不再盲目追求更大模型和更高分辨率,通过架构创新和推理范式优化,用更小代价实现更好效果 2. 认知科学反哺AI设计:借鉴人类"边指边想"的认知习惯,为AI能力提升提供了新的思路 3. 系统二推理成为可能:视觉原语框架为多模态模型实现类人类的深度逻辑推理提供了可行路径,未来有望应用于工业缺陷检测、自动驾驶环境感知、医疗影像分析等高要求场景 当前技术仍存在局限:需要显式触发词才会启用视觉原语机制,跨场景泛化能力有待提升。但整体而言,这一技术突破标志着多模态模型从"感知时代"正式进入"推理时代"。
🔗 开源地址:https://github.com/deepseek-ai/Thinking-with-Visual-Primitives 📄 技术报告:https://github.com/deepseek-ai/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf
易观AI出品 | 每日10点更新 | 聚焦AI技术最前沿