搭载Gemini Robotics AI模型的机器人可将篮球投入篮筐。
日前,谷歌DeepMind已将大型语言模型(LLM)Gemini应用于机器人。该公司表示,借助该模型,机器人无须观察其他机器人的动作就可以完成某些任务。例如,将迷你篮球“扣”入桌面上的篮筐。
DeepMind是尝试利用聊天机器人技术开发通用机器人的企业之一。然而,考虑到此类模型容易生成错误和有害的结果,该技术路径存在安全隐患。
研究团队希望开发出操作直观、可完成多种物理任务的机器,而无须人类监督或预设程序。DeepMind机器人团队负责人Carolina Parada指出,通过连接Gemini模型,开发人员可以提升机器人的能力,使其能够“理解自然语言,并更精细地认知物理世界”。
这款名为Gemini Robotics的模型于3月12日发布。美国人工智能(AI)公司CollectedAI联合创始人、AI研究员Alexander Khazatsky评价称,这是向着实现通用机器人目标迈出的“切实的一小步”。
DeepMind团队以其最先进的视觉与语言模型Gemini 2.0为基础展开研究,通过分析海量数据中的模式进行训练。
团队开发了一个Gemini的专用版本,旨在提升涉及三维物理和空间推理的任务能力,例如预测物体运动轨迹,或从不同角度拍摄的图像中识别物体的同一部分。
此外,研究人员利用数千小时实际远程操作机器人演示数据对模型进行了强化训练。这使得机器人“大脑”能够执行实际任务,其原理类似于LLM通过学习可关联生成句子中的下一个词。
研究人员在类人机器人和机械臂上对Gemini Robotics进行了测试,涵盖了训练中出现的任务以及未接触过的新任务。他们说,无论面对调整了细节的熟悉任务还是新任务,搭载该模型机器人的表现均优于竞争对手。
在需要精细操作的任务中,如折纸或拉上背包拉链,机器人在观看了不到100次演示后,成功率便超过70%。而使用其他模型的机器人几乎全部失败。
Khazatsky认为,谷歌团队在将常识植入机器人“大脑”方面成果显著,但他指出,真正的飞跃将源自从“混乱的真实世界”而非实验室环境收集的数据中学习。
应用此类模型时,安全性将成为一项重大挑战。DeepMind美国纽约分部机器人及AI研究员Vikas Sindhwani表示:“初期,机器人将与人类保持安全距离。未来我们将逐步实现更多互动和协作任务。”(李木子)
0 条