空间智能再造高峰!李飞飞团队巧妙利用奥比中光相机助推机器人“定点操作”新篇章
近期,斯坦福大学李飞飞教授所领导的全球顶尖人工智能研究团队,在“空间智能”领域取得了重大突破。他们所提出的ReKep(Relational Keypoint Constraints,关系关键点约束)技术,经过严格测试,已被证实在家务自动化和机器人操作等领域具有巨大的应用潜力。在这一里程碑式的研究中,他们运用了奥比中光RGB-D相机Femto Bolt,凭借其强大的性能精准捕捉实验场景的彩色和深度信息。
根据详细论文阐述,ReKep将复杂的任务转化为一系列关系关键点的约束优化框架,以Python语言进行描述。这些程序将环境中的3D关键点转化为数值成本,捕捉具有任务语义和空间意义的3D关键点,赋予机器人自主决策的能力,使其能够更有效地应对各项挑战。借助于Femto Bolt提供的优质RGB和深度数据,ReKep系统能够精确地将环境中的3D关键点映数值成本,从而定义这些约束。
Femto Bolt作为一款基于微软ToF传感技术的RGB-D相机,其功能卓越。RGB图像的生成使得ReKep系统能够轻松进行目标检测和识别,而深度图像则提供了精确的3D信息,使系统能够明确目标的空间位置和距离关系。这两种图像的结合使得ReKep系统能够全面理解操作场景,为机器人提供决策与执行关键点的3D坐标引导。
3D关键点的准确提取对数据质量有着极高的要求,包括深度精度和点云质量。Femto Bolt能够输出4K高分辨率图像,有效减少误识别并提升互动可靠性,这对于机器人执行精细、复杂的操作至关重要。
在实验研究中,ReKep系统对环境3D关键点的捕捉与传输速度极快,确保了人机交互的流畅性。Femto Bolt每秒能以30帧的高帧率捕捉深度数据,并集成了多种模式深度图像、彩色图像模块及惯性传感器,实现了超低延时的实时反馈和互动。
李飞飞团队在不同机器人平台上进行了多任务实验,包括单臂和双臂机器人的多阶段、双手协作的积极反应性操作任务。Femto Bolt支持多机同步,其强大的8针GPIO接口和带锁的U-C接口为多机协作提供了有力的支持。
值得一提的是,李飞飞团队在研究中结合了视觉模型与GPT-4o语言模型,展示了视觉与机器人学习的深度融合。ReKep系统在不依赖特定任务数据或详细环境模型的情况下,展示了在非结构化环境中完成任务的良好泛化能力。
奥比中光作为机器人视觉领域的佼佼者,拥有超过8年的商用落地经验。他们致力于为机器人打造“眼睛”,而Femto Bolt正是其技术实力的体现。今年3月,奥比中光与英伟达的合作进一步推动了iToF技术与NVIDIA Orin AGX人工智能计算能力的结合。配合Universal Robots UR5机械臂,实现了高精度的物品检测、拣选和放置,为料仓拣选树立了新的行业标杆。
未来,奥比中光将继续探索机器人视觉传感技术的应用,推动空间智能系统的发展。他们的大模型机械臂2.0版本已经具备识别日常物体并理解执行指令的能力。这预示着机器人视觉与人工智能的技术将有更大的突破,开启更广泛的智能化应用场景。