强化学习加速了机器人假肢的“调谐”
立即发布
来自北卡罗莱纳州立大学、北卡罗莱纳大学和亚利桑那州立大学的研究人员开发了一种智能系统,可以“调节”动力假肢膝盖,让患者在几分钟内用假肢设备舒适地行走,而不是由训练有素的临床医生调整设备所需的时间。该系统是第一个完全依赖强化学习来调整机器人假肢的系统。
当病人接受机器人假肢膝盖时,设备需要调整以适应特定的病人。新的调谐系统调整了12个不同的控制参数,在整个步态周期中处理假肢动力学,如关节刚度。
通常情况下,医生会与患者一起修改一些参数。这可能需要几个小时。这个新系统依靠一个利用强化学习来修改所有12个参数的计算机程序。它允许患者使用动力假肢膝盖在大约10分钟内在一个水平表面行走。
“我们首先给患者随机选择一组参数的动力假肢膝关节,”一篇关于这项工作的论文的合著者、北卡罗来纳州立大学和北卡罗来纳大学生物医学工程系的教授海伦·黄(Helen Huang)说。“然后我们让患者在控制的情况下开始行走。
黄说:“设备上的数据和病人的步态是通过设备上的一套传感器收集的。”“计算机模型会调整设备上的参数,并实时将患者的步态与正常行走步态进行对比。该模型可以判断哪些参数设置提高性能,哪些设置损害性能。使用强化学习,计算模型可以快速识别出一组参数,使患者能够正常行走。现有的治疗方法依靠训练有素的临床医生,可能需要半天时间。”
虽然这项工作目前是在受控的临床环境中进行的,但我们的目标之一是开发出该系统的无线版本,让用户在真实环境中使用时可以继续微调动力假肢的参数。
”这个工作场景,一次,一位病人在水平地面上走来,但原则上,我们也可以开发强化学习控制器等情况下升序或降序楼梯,”珍妮斯说,教授论文的合著者电气、计算机和能源工程亚利桑那州立大学。
“我曾从动态系统控制的角度研究强化学习,考虑了传感器噪声、环境干扰以及系统安全和稳定的需求,”Si说。“我意识到学习实时控制假肢设备是一个前所未有的挑战,它同时会受到人类用户的影响。这是一个协同适应问题,无论是经典控制设计还是当前最先进的强化学习控制机器人都没有现成的解决方案。我们很激动地发现,我们的强化学习控制算法实际上学会了让假肢设备作为人体的一部分在这样一个令人兴奋的应用环境中工作。”
黄说,研究人员希望使这个过程更加有效。“例如,我们认为,我们可以通过识别或多或少可能成功的参数组合,并训练模型首先关注最有希望的参数设置,来改善这个过程。”
研究人员指出,虽然这项工作很有前途,但在广泛应用之前,还需要解决许多问题。
“例如,在这项研究中,假肢的调整目标是满足正常的膝关节行走运动,”黄说。“我们没有考虑其他步态表现(如步态对称)或使用者的偏好。另一个例子是,我们的调优方法可以用于在诊所和实验室之外对设备进行微调,使系统随着时间的推移适应用户的需要。然而,我们需要确保在现实生活中使用的安全性,因为控制错误可能会导致摔倒。需要进行额外的检测来证明安全性。”
研究人员还指出,如果该系统确实被证明是有效的,并得到广泛使用,它可能会通过限制患者与医生进行临床访问的需要,从而降低患者的成本。
纸”,机器人人工膝关节个性化在线强化学习控制发表在杂志上IEEE控制论汇刊.论文的第一作者是文悦(Yue Wen),他是北卡罗来纳州立大学和北卡罗来纳大学生物医学工程专业的博士生。其他合著者包括安德里亚·勃兰特(Andrea Brandt),北卡罗来纳州立大学和北卡罗来纳大学生物医学工程专业的博士生;以及亚利桑那州立大学博士生高翔(音)。
这项研究得到了美国国家科学基金会的支持,资助编号为1563454、1563921、1808752和1808898。
希普曼-
编辑:研究摘要如下。
机器人人工膝关节个性化在线强化学习控制
作者北卡罗来纳州立大学和北卡罗来纳大学教堂山分校生物医学工程联合系:Yue Wen, Andrea Brandt and He (Helen) Huang;斯珍妮和高翔,亚利桑那州立大学
发表: 1月16日,IEEE控制论汇刊
DOI: 10.1109 / TCYB.2019.2890974
文摘:机器人假肢比被动假肢提供更大的功能,但我们面临的挑战是调整大量的控制参数,以便为个人截肢用户个性化设备。这个问题很难通过传统的控制设计或最新的机器人技术来解决。强化学习(RL)自然很有吸引力。最近AlphaZero的空前成功证明了RL是可行的、大规模的问题解决方案。然而,prosthesis-tuning问题与一些尚未解决的问题,比如,它没有一个已知的和稳定的模型,连续状态和控制的问题可能导致一个维度,诅咒和human-prosthesis系统不断受到测量噪音,环境变化,以及人体引起的变异。在本研究中,我们证明了直接启发式动态规划(dHDP)的可行性,一种近似动态规划(ADP)方法,自动调整12个机器人膝关节假体参数,以满足个人用户的需求。我们在两名受试者(一名健全受试者和一名截肢受试者)以固定速度在跑步机上行走时测试adp调谐器。adp调谐器学会了在平均300个步态周期或10分钟的步行中达到目标步态运动学。我们观察到,当我们将以前学习的ADP控制器转移到具有相同主题的新学习会话时,ADP调谐性能得到了改善。 To the best of our knowledge, our approach to personalize robotic prostheses is the first implementation of online ADP learning control to a clinical problem involving human subjects.
- 类别:
