📖 产品简介

SpatialClaw 是 NVIDIA Research 2026/6/19 发布的**免训练空间推理框架**，专门解决 VLM（视觉语言模型）在 **3D 空间判断**上的弱点。核心思路：**把代码作为动作接口（Code-as-Action）**——不让 VLM 直接给出空间答案，而是让它生成代码调用各种感知工具（深度估计、平面检测、目标检测、点云处理等），用代码的精确性补齐自然语言的模糊性。

效果直观：**在 20 项空间推理基准上平均准确率 59.9%，比近期智能体高 11.2 个百分点**。最关键的是「**免训练**」——不需要 fine-tune 任何模型，直接套在现有 GPT-5.5 / Claude Opus 4.7 / Gemini 3.5 上即可获得提升。

这是 NVIDIA「**让通用 VLM 在 3D 物理世界里更靠谱**」战略的一部分，与具身智能（Isaac、GR00T）、自动驾驶（DRIVE）形成生态联动。对所有做机器人、自动驾驶、AR/VR、3D 重建的团队都是直接利好。

⚡ 核心功能

免训练框架：无需 fine-tune 任何模型，直接套在现有前沿 VLM 上即可获得空间推理提升
代码作为动作接口：VLM 生成代码调用感知工具（深度估计、平面检测、目标检测、点云处理）补齐 3D 判断弱点
20 项基准 +11.2pp：在 20 项空间推理基准上平均准确率 59.9%，比近期智能体高 11.2 个百分点
兼容主流 VLM：可套在 GPT-5.5 / Claude Opus 4.7 / Gemini 3.5 / Llama Vision 等主流 VLM 上
NVIDIA 生态联动：与 Isaac（机器人）、GR00T（人形机器人）、DRIVE（自动驾驶）等 NVIDIA AI 平台深度联动

🎯 适合谁用

以下类型的用户会特别受益于 NVIDIA SpatialClaw：

机器人导航与抓取场景的空间理解
自动驾驶的 3D 场景判断与物体定位
AR / VR 应用中的空间锚定与物体放置
3D 重建 / 数字孪生的精度提升
机器人 / 自驾仿真训练的评估流水线
学术研究：VLM 空间推理的 SOTA 基线

✅ 优点亮点

「免训练」是最大优势，部署门槛极低
+11.2pp 的提升是行业顶级
兼容主流 VLM，不绑死特定模型
NVIDIA 出品，工程严谨度与生态联动均一流
直接利好具身智能 / 自动驾驶 / AR 三大产业方向

💰 价格与方案

**免费 + 开源**（GitHub 公开），NVIDIA Research 不直接收费。**底层 VLM API 费用**走开发者自有的 OpenAI / Anthropic / Google / NVIDIA NIM 账号。

📝 总结与建议

SpatialClaw 是 2026 年 VLM 空间推理赛道的代表性成果——**免训练 + 代码作动作接口 + 20 项基准 +11.2pp** 的组合让它对所有做机器人、自动驾驶、AR/VR 的团队都是直接利好。如果你在做物理世界 AI 应用，SpatialClaw 几乎是无脑值得叠加的工具；如果你做纯文本 / 图像理解，则不在它的射程内。

NVIDIA SpatialClaw 热门 新增