观察、存储、学习
自主学习机器人借助Ensenso 3D相机完成任务
尝试不同的行为是经典的学习方法之一。成败决定了应采取哪种行为。这一原则同样也适用于机器学习领域。在卡尔斯鲁厄理工学院智能流程自动化和机器人研究所(KIT),机器人学习小组(ROLE)专注于研究机器学习的方方面面。科学家们正在通过测试研究机器人如何学习独立完成任务。这些方法专门用于学习对象操作,例如:在典型的“料箱取件”场景中抓取零部件。直接装配于机器人“头部”的Ensenso N10 3D相机提供了研究所需的图像数据。
抓取随机放置的物体是一项核心任务,特别是在工业自动化领域中。然而,当前的“料箱取件”方案通常缺乏灵活性,且高度依赖待抓取的工件来进行定制。机器人学习小组的研究项目有望提供一种解决方法,例如:让机器人能够自主学习从料箱中拾取以前未知的物体。为学习这样一项任务,机器人首先会像人类一样,随机进行抓取实验。神经网络将捕捉到的3D图像与成功或失败的抓取实验进行关联。对于每张图像,由抓手中力传感器确定的抓取结果将被存储在神经网络中。人工智能(AI)利用存储的数据识别有意义的物体抓取点,从而“自我训练”。和现代强化学习方法一样,大量数据和抓取实验对实现这一目标而言至关重要。但KIT的研究人员能够显著减少抓取实验的数量,从而缩短学习所需的时间。
与分析型(或基于模型)的抓取方法相比,ROLE机器人无需预先描述识别所需的物体特性。但是,对于系统能够成功地捕捉具有“相似”图像物体的频率方面,它发挥着至关重要的作用。 机器人的抓取实验对于更快速有效的学习至关重要。借助于神经网络,现有知识可用来预测抓取结果。
KIT的研究员兼机器人学习小组的成员Lars Berscheid解释道:“对于运行良好的系统,我们目前需要大约20,000次抓取实验,相当于对机器人进行大约80个小时的训练”。这些数字只是近似值,取决于多种因素,例如:随机抓取的抓取率,而随机抓取率又受部件几何形状等因素的影响。正如学习系统中常见的那样,可用的数据量是该系统能力的限制性因素。“因此,减少必要的抓取实验次数是我们研究的一项重要任务。所以核心的问题是:“为尽快获得尽可能多的信息,从而缩短训练时间,必须尝试使用哪种抓取方式”Berscheid补充道。
在这一点上,系统也采用了迁移学习法。已训练好的神经网络可用于识别以前未知的物体。系统训练物体的数量和范围越大,对于未知物体其识别的效果越好。这样做可以避免根据应用场合对物体进行特定训练。开发能够自主灵活地抓取任意和未知物体,且具有工业可靠性的控制系统是机器学习的长期目标。
在未给定模型的情况下学习
这正是该系统与当今机器料箱取件解决方案的关键区别所在。ROLE小组的研究系统在没有待抓取工件的“教学”模型的情况下依然能够自主学习,因此也适用于学习未知物体。原则上,该系统对物体形式和性质无任何限制。它不需要事先了解材料和表面特性的信息,且能够采用隐式学习方式。 这是无模型方法的最大优势,因为既不需要对象的三维形状,也不需对抓取过程进行数学建模。它可以在工业环境中灵活使用,且编程工作量较小。并为实现许多新应用(从内部逻辑到服务机器人)的自动化操作提供了可能性。同时,除了抓取之外,该系统还可实现其他类型的对象操作,例如:移动。
机器人学习自主移动物体,这样在下一步就能更好地抓取它们。这允许机器人在无任何其他设备帮助(例如:振动板)的情况下完全清空料箱。机器人的训练完全无需人工干预。实际上,学习流程的自动化是最大的困难之一。只有当系统满足所有要求时,例如给定的周期时间,它才能有效地用于生产以及进一步学习。
在此方面,与传统的料箱取件应用相比,该系统具有速度优势。一方面,ROLE系统在计算下一次抓取时只需20毫秒,速度非常快。另一方面,当系统调试时,减少了人工编程工作量。因此,料箱取件的灵活性得到大幅度提高。
3D图像数据作为基础
机器人的视觉数据由Ensenso 3D相机提供。相机从容器上方监测,容器由一种或多种类型的物体随机填充。图像处理系统将高对比度纹理投影到料箱内物体,生成从上方可见的表面3D点云,作为以灰度计算深度图像的基础。这一步骤直接在Ensenso软件开发工具包中实施。然后深度图像被缩放到只有12,000像素的分辨率,并用作人工智能算法的输入数据。 而后,神经网络负责图像分析和下一次从料箱中抓件的逻辑步骤。
相机直接安装在机器人的“头部”,以便能够灵活地完成不同的实验。“Ensenso N10相机是我们的首选,因为此款相机支持距对象仅30厘米的最小距离,且支持的整体距离范围非常大。作为一款红外范围内的主动立体相机,同时适用于移动场景,它满足了我们的所有要求,”Berscheid说明了选择该型号相机的原因。
Ensenso N10相机小巧坚固的铝制外壳配有螺丝旋紧式GPIO连接器,用于触发信号、闪光信号和USB 2.0连接,并配有两个黑白CMOS传感器(全局快门,752 x 480像素)和一台850nm红外波长模式投影仪。
此款3D相机经过预校准,配有MVTec HALCON接口和面向对象的API(C++,C#/ .NET),焦距为3.6-16毫米,工作距离可达2米,甚至可用于运动物体的3D检测。ROLE小组研究人员使用Ensenso软件开发工具包的NxLib捕捉深度图像,并使用OpenCV和TensorFlow进行处理。
展望
虽然KIT开发的方法非常先进,引领业界趋势,但研究人员还未实现他们的目标。“尽管料箱取件系统已经可以可靠地处理简单的对象,例如螺丝钉,但发展成熟仍需一定研究,特别是抓取更复杂的未知物体。我们开发的方法非常基础,且灵活性高,可用于不同的任务,”Lars Berscheid表示。
自主学习系统仍是机器人研究的一个重要话题。从面向应用的项目中,科学家们也意识到机器人在生产中需要更高的灵活性,因此机器人技术中经常使用需要更多传感器,处理更多图像。
在KIT,研究将继续侧重于两个重要方面:一方面,如何改进和加快基本的学习方法。如在数字映射的帮助下进行训练、在计算机上进行模拟以及随后转移到仿真机器人上的技术,同时,不同任务之间的知识转移也非常值得期待。另一方面,科学家们正在研究哪些新应用可以更好地实现自动化,甚至是首次使用学习机器人系统。机器人在其他应用方面有很多潜力,例如,在处理纺织品(抓取和折叠毛巾和衣物)、拆卸工业部件(如用于回收的电动机)、根据相机数据绘制未知对象、或处理液体或颗粒介质等方面。此项工作在模拟中学习,然后转移到仿真机器人。
而问题在于如何进一步提高抓取率和系统的稳健性。“原则上,我们可以通过ROLE系统实现95%以上的抓取率,”Berscheid解释道。即100次抓取尝试中最多只有5次失败。现在面临的问题:抓取失败次数能否通过延长学习来进一步减少?
另一重要问题是系统如何处理深度图像中缺失的3D数据。目前,ROLE团队限制系统从上方垂直抓取对象。
但是系统如何使用全部的六自由度呢?对于其他典型的无模型料箱取件问题,小组也正在寻求新的解决方案,特别是对于后续的处理步骤,如存储或进一步处理抓取的对象。
KIT科学家仍有许多研究有待进行,但这些方法和之前的结果显示了机器学习在工业应用中的巨大潜力。3D图像处理不可避免地与此相关联,并为控制“机器人手臂”实现完美抓取提供重要的基础数据。观察、存储、学习——这就是未来!
*) 加强机器领域的学习,在该领域中,机器人基于奖励机制自主学习某项策略
Ensenso N10 - 3D视觉相机,快速精准
-
带USB2.0接口 - 功能丰富,灵活性高
-
小巧坚固的铝制外壳
-
集成全局快门CMOS传感器和图案投影仪
-
高达30帧/秒的满分辨率和64视差等级
-
设计工作距离最长2000毫米(N10)和可变图像场
-
输出单个3D点云,数据来自多相机模式下使用的所有相机
-
从多个视角实时构造3D点云
-
使用“投影纹理立体视觉”技术捕捉无纹理物体表面的图像
-
捕捉静止和运动对象的图像
-
带驱动程序和API的免费软件包,适用于Windows和Linux操作系统
-
通过一个软件包支持USB和GigE相机型号
-
带源代码的HALCON、C、C++和C#示例程序
-
出厂前经过预校准,便于用户部署
-
带标定板的机器人手眼标定集成功能
-
通过软件集成uEye工业相机,以捕捉额外的颜色信息或条形码
-
支持子抽点和像素融合,实现灵活的数据传输速率和帧率
客户
卡尔斯鲁厄理工学院智能流程自动化和机器人研究所的研究小组“ROLE-机器人学习小组”处理机器人机器学习领域的不同重点。包括强化学习
研究小组对上述所有应用中的仿真模拟(Sim-To-Real)传输尤感兴趣。