新智元报道
编辑:编辑部 HYZ
【新智元导读】前脚被谷歌点名感谢空间训练平台,后脚又开源了空间模型!杭州六小龙群核科技发了一个空间理解开源模型SpatialLM,让机器人刷一段视频,就能理解物理世界的几何关系。结合之前发布的空间智能训练平台SpatialVerse,群核科技要为机器人提供从空间认知到行动交互的训练闭环。机器人也被「卷」到要上学了。
最近,一篇谷歌训练模型的论文里,竟然感谢了一家中国公司!
2025年,谷歌与斯坦福联合发表的FirePlace论文中,这项研究首次让AI学会像人类一样「布置房间」:沙发不悬空、台灯必放桌面、书架与墙保持合理间距。而实现这一切的背后,也有来自一家中国公司的技术贡献。
「我们感谢群核科技SpatialVerse团队提供的物理级真实3D场景数据。」论文中提到。
谷歌提及的群核科技正是前段时间因杭州六小龙出圈的科技企业之一,其业务聚焦空间智能探索,而论文中提到的SpatialVerse是群核面向具身智能等行业开放的虚拟数字道场,通过合成可交互三维数据实现机器人训练。
短短两周后,这家企业又在GTC 2025大会上开源了他们的最新模型SpatialLM。
SpatialLM是一个空间理解模型,仅凭一部手机拍摄的视频,即可生成带物理规则的的3D场景布局。
想象一下,通过一部手机录下家庭的布局画面,给到SpatialLM后,便能输出完整的3D空间信息:房间布局、家具摆放、通道宽度悉数标注。
紧接着,虚拟数字道场SpatialVerse基于这一3D场景的数据生成更多的物理真实场景,这些虚拟的场景中,机器人可训练避障、抓取、紧急制动,在训练成本和效率各方面都得到显著提升。
目前,SpatialLM已在HuggingFace、GitHub、魔搭社区等平台面向全球开发者开源。
群核科技SpatialLM模型开源页面
听起来很复杂,但简单地说,SpatialLM的本质就像是一台「空间翻译机」,通过视频理解物理世界的几何关系,再将其转化为机器能读懂的指令。
这相当于教会机器用人类直觉感知世界。传统机器人的训练方法如同「盲人摸象」,仅靠2D图像猜测三维空间;而SpatialLM赋予机器人「3D视觉」和「物理常识」——床头柜不能挨着柜门放、餐桌常规高度80厘米,来还原真实的训练场景。
但群核科技的目的不止于此,它真正想做的是推动具身智能训练完成从认知到行动的链路闭环。当SpatialLM帮助机器人跨过「空间理解」门槛后,群核科SpatialVerse这个「数字道场」,让机器人在仿真环境中完成了技能学习。
给机器人刷一段视频,它会看见什么?
SpatialLM模型能让机器像人类一样理解三维空间,这一突破性技术改变了机器人「看」世界的方式。
假设我们需要训练机器人整理房间,传统的训练方法有两种:一是对2D视频进行数据标注,把视频截图成照片,告诉机器人「这是沙发、这是桌子」。
但机器人只知道这些物体的名字,不知道它们的位置、大小,也不知道怎么移动它们;二是用专业激光雷达扫描房间(类似测绘仪)形成3D点云,但成本高且步骤复杂时间周期长。
SpatialLM采用了一种创新型的方式:用一部普通手机拍摄视频,通过模型变成结构化3D场景的机器语言,输入给机器人,既能降低采集成本,又能更好地还原3D场景。
这种做法模拟了人类的感知行为体系:看视频后,直接在脑子里生成客厅的3D地图,并标注其中物体所有细节。
它的技术原理也并不复杂。
首先,给定一个RGB视频,使用MASt3R-SLAM来重建3D点云:通过把视频拆解成无数帧画面,从中标记出沙发扶手、茶几边缘、地板纹路等细节的「空间点」,再计算这些小点的深度和位置 ,拼接成完整的3D点云模型。
从视频中提取点云数据并重建场景
接着,SpatialLM将这些密集的点云转换为结构化表示。点云编码器将点云编码为紧凑的特征,而大语言模型(LLM)生成描述场景的场景代码。
输出文本信息
最终,这些代码可以转换为结构化3D结构布局。即将空间点云像乐高积木一样拼接成完整的3D模型,比如沙发离墙1.2米、茶几高45厘米等数据一清二楚。
转化为结构化3D布局
SpatialLM是基于大语言模型训练的。同时,它突破了大语言模型对物理世界几何与空间关系的理解局限,赋予机器类人的空间认知和解析能力。
SpatialLM处理完视频后,不只是简单地「看懂」空间,而是生成一套完整的结构化数据。这套数据清晰记录了环境中每个物体的关键信息,比如三维坐标、尺寸参数、类别信息等。供机器人理解空间结构关系。
SpatialLM运行原理
配合3D可视化软件可将结构化数据转换为直观的虚拟空间模型。这一过程类似于将文字描述的建筑图纸变成三维建模效果图,让开发者和用户能直观查看、验证空间布局的准确性。
虽然业界已有对图像、视频进行参数化描述模型,但SpatialLM的独特性在于它有更通用的数据输入模式,无须借助智能穿戴设备作为传感器输入数据,手机、相机所拍摄的视频均可以成为数据来源。
未来,SpatialLM还将支持自然语言交互模式,例如作为智能助手与人类互动,并赋予具身代理在复杂环境中执行复杂任务的能力。
总结而言,SpatialLM为机器人提供了一份详尽而精准的「世界地图」,让它们能够像人类一样,既了解环境的静态布局,也掌握物体的动态交互规则,从而在复杂现实世界中灵活应对各种任务挑战。
对于具身智能企业和研究机构而言,他们无需从零开发,基于SpatialLM模型进行微调即可,从而降低具身智能训练门槛。
从认知到行动,构建具身智能的训练闭环
目前具身智能行业呈现出高热度但落地困难的矛盾局面。一方面,投资不断涌入,技术论文层出不穷;另一方面,能在真实环境中稳定工作的机器人系统却寥寥无几。
核心问题在于面对一个高度集成软件(AI)和硬件(制造)的新兴行业,一切的标准都没有统一,包括机器人的硬件操作系统。通用训练平台甚至小到训练数据集,都是分散在海量低质数据环境中。
除了上述提到2D数据无法满足训练条件但3D数据采集成本高昂外,最致命的问题是机器人对环境变化的适应能力极差。在传统训练模式下,环境中哪怕最微小的变化(如垃圾桶位置挪动)对机器人而言都是全新场景,需要重新学习。这导致在实验室表现完美的机器人,进入真实家庭后常常「束手无策」。
这些问题的根源在于从感知到行动的智能闭环缺失——机器人能「看到」世界,却无法基于所见做出合理决策和行动,从而无法适应真实多变的环境。而群核科技通过将模型和数据集进行了有机结合,构建了从空间认知理解到空间行动交互闭环的具身智能训练完整闭环系统。
比如,SpatialLM模型能从普通视频中识别出「沙发」、「冰箱」等物体及其基本属性。紧接着,语言理解层将语义标签与物体关联,赋予它们功能和用途,如「沙发是用来坐的」、「冰箱门需要拉开」,让机器人理解「物体怎么用」,避免违反基本操作逻辑的行为。
此前的虚拟训练平台面临严重的「数据饥渴」问题,平台技术只能提供训练工具,却苦于没有足够的高质量数据喂养。而传统数据采集成本高昂,导致训练数据稀缺,形成恶性循环。
事实上,考虑到室内场景的多样性和复杂度,场景三维可交互数据来源困难,这也是造成空间智能场景训练「数据饥渴」的核心原因。
群核在过去十余年沉淀的室内三维交互数据成为了具身智能训练的「稀缺石油」,因此备受关注,开篇提到的谷歌论文致谢部分也正源自于此。
大量物理正确的3D仿真数据
追溯具身AI的发展,2018年是一个重要节点。
这一年,OpenAI推出了GPT-1模型,他们的研究人员也证明了:智能体在虚拟世界中学到的技能可以迁移到现实世界。硅谷科技企业随即开始寻找可用的数据资源,而群核科技发布的InteriorNet数据集(一个可交互的三维数据集)恰在此时被学术界和产业界广泛关注。
如果以2018年为起点,拉出一条时间线,具身智能行业开始了一场大规模的「基础设施建设」。这些基础设施主要由两大核心元件构成:高质量的结构化数据和高逼真度的模拟器。群核科技和其他行业先行者正是围绕这两大元件展开布局。
此后几年,国内外又诞生不少优秀数据集:
但仅有数据还无法实现具身智能训练的范式改变。因此,模拟器作为第二大元件也取得了显著进展。
2021年,NVIDIA基于Omniverse专为机器人和AI模拟推出Isaac Sim;而且SpatialVerse也正与Isaac Sim深度整合,支持基于OpenUSD标准的仿真环境部署,为决策算法提供实时反馈,大大加速了空间智能训练效率;此外,群核科技与英特尔等合作伙伴一起参与高逼真度模拟器SpearSim的建设。
为了提供更接近真实生活状态的训练环境,群核科技自研了一套合成数据训练解决方案。通过模拟室内真实特性、自动分割标注、场景增强及多平台对接等核心能力,确保机器人在虚拟环境中的学习体验与真实世界高度一致,实现从虚拟到现实的无缝迁移。
另一层面,SpatialLM+SpatialVerse又形成了一条「Real2Sim2Real」的路径。SpatialLM源源不断地将现实场景转化为可用于训练的结构化数据,SpatialVerse则进一步扩增这些数据,产生海量训练样本。相当于来自现实世界的一段视频数据,能泛化出亿万个虚拟场景。这不仅让SpatialVerse的数据更多样,同时还能缩小仿真与现实之间的「差距」。
机器人可在这些仿真场景中,学习人类操作,如开关冰箱门、叠被子等。这种基于大量数据的物理认知,让机器人不再是简单地指令执行者,而是具备「常识推理」能力的智能助手,能在复杂现实环境中安全、灵活地完成任务。
机器人在SpatialVerse的仿真场景中训练
如果把机器人通往物理世界的过程看作是「上学」,群核科技做的事其实是在帮机器人「搭建学校」,通过在虚拟空间设计不同的「教案课程」,机器人一路进化,从小学到大学的不断进阶。确保机器人进入真实世界之前,都从这个「学校」毕业了。
而且群核科技现在把这件事情变成更简单,用手机随手拍个视频,就能帮助机器人理解这个世界。当环境发生变化时,只需重新拍摄一段视频,即可更新整个空间模型,机器人无需从零学习。这种动态适应能力让机器人终于能像人类一样,迅速调整自己的行为以应对环境变化。
结语
传统空间智能训练需要顶尖实验室、顶级设备和专业团队,这使其成为少数精英机构的「特权」。群核的方案将这一领域彻底平民化,只要有手机和电脑,任何开发者都能接入这套系统,为机器人创建物理正确的训练环境。
空间智能训练成本从原本的「指数级曲线」(数据量越大,成本越高)变成了「平面结构」(边际成本接近于零)。一旦初始投入完成,生成千万级训练场景的成本与生成百个场景几乎相同。
SpatialLM和SpatialVerse双平台方案不仅解决了这一核心问题,更重要的问题是:要把训练数据的成本降下来,才能实现机器人通用模型的能力涌现。
参考通用大模型能力涌现的路径,第一个阶段就是堆参数训练通用能力,而机器人之所以没有参考这条路径,一个根本原因就在于训练数据太少、训练成本太高,只能训练专有模型。
在这场技术变革中,群核科技不只是在开发新工具,更是在重新定义机器与现实的关系。
未来我们或许迎来一个机器人物种的大爆发时刻,届时会有一个「数字地球」承载它们,这个数字地球将是一个巨大的训练场,机器人会在这里先「生活」一遍,再进入真实地球成为人类的助手和管家。