📖 产品简介
SpatialClaw 是 NVIDIA Research 2026/6/19 发布的**免训练空间推理框架**,专门解决 VLM(视觉语言模型)在 **3D 空间判断**上的弱点。核心思路:**把代码作为动作接口(Code-as-Action)**——不让 VLM 直接给出空间答案,而是让它生成代码调用各种感知工具(深度估计、平面检测、目标检测、点云处理等),用代码的精确性补齐自然语言的模糊性。
效果直观:**在 20 项空间推理基准上平均准确率 59.9%,比近期智能体高 11.2 个百分点**。最关键的是「**免训练**」——不需要 fine-tune 任何模型,直接套在现有 GPT-5.5 / Claude Opus 4.7 / Gemini 3.5 上即可获得提升。
这是 NVIDIA「**让通用 VLM 在 3D 物理世界里更靠谱**」战略的一部分,与具身智能(Isaac、GR00T)、自动驾驶(DRIVE)形成生态联动。对所有做机器人、自动驾驶、AR/VR、3D 重建的团队都是直接利好。
⚡ 核心功能
- 免训练框架:无需 fine-tune 任何模型,直接套在现有前沿 VLM 上即可获得空间推理提升
- 代码作为动作接口:VLM 生成代码调用感知工具(深度估计、平面检测、目标检测、点云处理)补齐 3D 判断弱点
- 20 项基准 +11.2pp:在 20 项空间推理基准上平均准确率 59.9%,比近期智能体高 11.2 个百分点
- 兼容主流 VLM:可套在 GPT-5.5 / Claude Opus 4.7 / Gemini 3.5 / Llama Vision 等主流 VLM 上
- NVIDIA 生态联动:与 Isaac(机器人)、GR00T(人形机器人)、DRIVE(自动驾驶)等 NVIDIA AI 平台深度联动
🎯 适合谁用
以下类型的用户会特别受益于 NVIDIA SpatialClaw:
- 机器人导航与抓取场景的空间理解
- 自动驾驶的 3D 场景判断与物体定位
- AR / VR 应用中的空间锚定与物体放置
- 3D 重建 / 数字孪生的精度提升
- 机器人 / 自驾仿真训练的评估流水线
- 学术研究:VLM 空间推理的 SOTA 基线
✅ 优点亮点
- 「免训练」是最大优势,部署门槛极低
- +11.2pp 的提升是行业顶级
- 兼容主流 VLM,不绑死特定模型
- NVIDIA 出品,工程严谨度与生态联动均一流
- 直接利好具身智能 / 自动驾驶 / AR 三大产业方向
💰 价格与方案
**免费 + 开源**(GitHub 公开),NVIDIA Research 不直接收费。**底层 VLM API 费用**走开发者自有的 OpenAI / Anthropic / Google / NVIDIA NIM 账号。
📝 总结与建议
SpatialClaw 是 2026 年 VLM 空间推理赛道的代表性成果——**免训练 + 代码作动作接口 + 20 项基准 +11.2pp** 的组合让它对所有做机器人、自动驾驶、AR/VR 的团队都是直接利好。如果你在做物理世界 AI 应用,SpatialClaw 几乎是无脑值得叠加的工具;如果你做纯文本 / 图像理解,则不在它的射程内。