观察、存储、学习

抓取随机放置的物体是一项核心任务,特别是在工业自动化领域中。然而,当前的“料箱取件”方案通常缺乏灵活性,且高度依赖待抓取的工件来进行定制。机器人学习小组的研究项目有望提供一种解决方法,例如:让机器人能够自主学习从料箱中拾取以前未知的物体。为学习这样一项任务,机器人首先会像人类一样,随机进行抓取实验。神经网络将捕捉到的3D图像与成功或失败的抓取实验进行关联。对于每张图像,由抓手中力传感器确定的抓取结果将被存储在神经网络中。人工智能(AI)利用存储的数据识别有意义的物体抓取点,从而“自我训练”。和现代强化学习方法一样,大量数据和抓取实验对实现这一目标而言至关重要。但KIT的研究人员能够显著减少抓取实验的数量,从而缩短学习所需的时间。

精准的抓取减少训练时间

机器人抓取零部件的方式便是其学习方式
机器人抓取零部件的方式便是其学习方式

与分析型(或基于模型)的抓取方法相比,ROLE机器人无需预先描述识别所需的物体特性。但是,对于系统能够成功地捕捉具有“相似”图像物体的频率方面,它发挥着至关重要的作用。 机器人的抓取实验对于更快速有效的学习至关重要。借助于神经网络,现有知识可用来预测抓取结果。

KIT的研究员兼机器人学习小组的成员Lars Berscheid解释道:“对于运行良好的系统,我们目前需要大约20,000次抓取实验,相当于对机器人进行大约80个小时的训练”。这些数字只是近似值,取决于多种因素,例如:随机抓取的抓取率,而随机抓取率又受部件几何形状等因素的影响。正如学习系统中常见的那样,可用的数据量是该系统能力的限制性因素。“因此,减少必要的抓取实验次数是我们研究的一项重要任务。所以核心的问题是:“为尽快获得尽可能多的信息,从而缩短训练时间,必须尝试使用哪种抓取方式”Berscheid补充道。

在这一点上,系统也采用了迁移学习法。已训练好的神经网络可用于识别以前未知的物体。系统训练物体的数量和范围越大,对于未知物体其识别的效果越好。这样做可以避免根据应用场合对物体进行特定训练。开发能够自主灵活地抓取任意和未知物体,且具有工业可靠性的控制系统是机器学习的长期目标。

在未给定模型的情况下学习

这正是该系统与当今机器料箱取件解决方案的关键区别所在。ROLE小组的研究系统在没有待抓取工件的“教学”模型的情况下依然能够自主学习,因此也适用于学习未知物体。原则上,该系统对物体形式和性质无任何限制。它不需要事先了解材料和表面特性的信息,且能够采用隐式学习方式。 这是无模型方法的最大优势,因为既不需要对象的三维形状,也不需对抓取过程进行数学建模。它可以在工业环境中灵活使用,且编程工作量较小。并为实现许多新应用(从内部逻辑到服务机器人)的自动化操作提供了可能性。同时,除了抓取之外,该系统还可实现其他类型的对象操作,例如:移动。

机器人学习自主移动物体,这样在下一步就能更好地抓取它们。这允许机器人在无任何其他设备帮助(例如:振动板)的情况下完全清空料箱。机器人的训练完全无需人工干预。实际上,学习流程的自动化是最大的困难之一。只有当系统满足所有要求时,例如给定的周期时间,它才能有效地用于生产以及进一步学习。

在此方面,与传统的料箱取件应用相比,该系统具有速度优势。一方面,ROLE系统在计算下一次抓取时只需20毫秒,速度非常快。另一方面,当系统调试时,减少了人工编程工作量。因此,料箱取件的灵活性得到大幅度提高。

ROLE小组研究人员使用Ensenso软件开发工具包捕捉深度图像,并使用OpenCV和TensorFlow进行处理
ROLE小组研究人员使用Ensenso软件开发工具包捕捉深度图像,并使用OpenCV和TensorFlow进行处理

3D图像数据作为基础

机器人的视觉数据由Ensenso 3D相机提供。相机从容器上方监测,容器由一种或多种类型的物体随机填充。图像处理系统将高对比度纹理投影到料箱内物体,生成从上方可见的表面3D点云,作为以灰度计算深度图像的基础。这一步骤直接在Ensenso软件开发工具包中实施。然后深度图像被缩放到只有12,000像素的分辨率,并用作人工智能算法的输入数据。 而后,神经网络负责图像分析和下一次从料箱中抓件的逻辑步骤。

相机直接安装在机器人的“头部”,以便能够灵活地完成不同的实验。“Ensenso N10相机是我们的首选,因为此款相机支持距对象仅30厘米的最小距离,且支持的整体距离范围非常大。作为一款红外范围内的主动立体相机,同时适用于移动场景,它满足了我们的所有要求,”Berscheid说明了选择该型号相机的原因。

Ensenso N10相机小巧坚固的铝制外壳配有螺丝旋紧式GPIO连接器,用于触发信号、闪光信号和USB 2.0连接,并配有两个黑白CMOS传感器(全局快门,752 x 480像素)和一台850nm红外波长模式投影仪。

此款3D相机经过预校准,配有MVTec HALCON接口和面向对象的API(C++,C#/ .NET),焦距为3.6-16毫米,工作距离可达2米,甚至可用于运动物体的3D检测。ROLE小组研究人员使用Ensenso软件开发工具包的NxLib捕捉深度图像,并使用OpenCV和TensorFlow进行处理。

展望

虽然KIT开发的方法非常先进,引领业界趋势,但研究人员还未实现他们的目标。“尽管料箱取件系统已经可以可靠地处理简单的对象,例如螺丝钉,但发展成熟仍需一定研究,特别是抓取更复杂的未知物体。我们开发的方法非常基础,且灵活性高,可用于不同的任务,”Lars Berscheid表示。

自主学习系统仍是机器人研究的一个重要话题。从面向应用的项目中,科学家们也意识到机器人在生产中需要更高的灵活性,因此机器人技术中经常使用需要更多传感器,处理更多图像。

在KIT,研究将继续侧重于两个重要方面:一方面,如何改进和加快基本的学习方法。如在数字映射的帮助下进行训练、在计算机上进行模拟以及随后转移到仿真机器人上的技术,同时,不同任务之间的知识转移也非常值得期待。另一方面,科学家们正在研究哪些新应用可以更好地实现自动化,甚至是首次使用学习机器人系统。机器人在其他应用方面有很多潜力,例如,在处理纺织品(抓取和折叠毛巾和衣物)、拆卸工业部件(如用于回收的电动机)、根据相机数据绘制未知对象、或处理液体或颗粒介质等方面。此项工作在模拟中学习,然后转移到仿真机器人。

而问题在于如何进一步提高抓取率和系统的稳健性。“原则上,我们可以通过ROLE系统实现95%以上的抓取率,”Berscheid解释道。即100次抓取尝试中最多只有5次失败。现在面临的问题:抓取失败次数能否通过延长学习来进一步减少?

另一重要问题是系统如何处理深度图像中缺失的3D数据。目前,ROLE团队限制系统从上方垂直抓取对象。

但是系统如何使用全部的六自由度呢?对于其他典型的无模型料箱取件问题,小组也正在寻求新的解决方案,特别是对于后续的处理步骤,如存储或进一步处理抓取的对象。

KIT科学家仍有许多研究有待进行,但这些方法和之前的结果显示了机器学习在工业应用中的巨大潜力。3D图像处理不可避免地与此相关联,并为控制“机器人手臂”实现完美抓取提供重要的基础数据。观察、存储、学习——这就是未来!

*) 加强机器领域的学习,在该领域中,机器人基于奖励机制自主学习某项策略

Ensenso N10 - 3D视觉相机,快速精准

  • 带USB2.0接口 - 功能丰富,灵活性高

  • 小巧坚固的铝制外壳

  • 集成全局快门CMOS传感器和图案投影仪

  • 高达30帧/秒的满分辨率和64视差等级

  • 设计工作距离最长2000毫米(N10)和可变图像场

  • 输出单个3D点云,数据来自多相机模式下使用的所有相机

  • 从多个视角实时构造3D点云

  • 使用“投影纹理立体视觉”技术捕捉无纹理物体表面的图像

  • 捕捉静止和运动对象的图像

  • 带驱动程序和API的免费软件包,适用于Windows和Linux操作系统

  • 通过一个软件包支持USB和GigE相机型号

  • 带源代码的HALCON、C、C++和C#示例程序

  • 出厂前经过预校准,便于用户部署

  • 带标定板的机器人手眼标定集成功能

  • 通过软件集成uEye工业相机,以捕捉额外的颜色信息或条形码

  • 支持子抽点和像素融合,实现灵活的数据传输速率和帧率