即时发布
研究人员开发了一种新的深度神经网络框架,可以让人工智能(AI)系统更好地学习新任务,同时“忘记”之前学习的任务。研究人员还证明,使用该框架学习新任务可以让人工智能更好地执行之前的任务,这种现象被称为反向迁移。
“人们有能力不断学习;我们一直在学习新的任务,不会忘记我们已经知道的东西,”北卡罗来纳州立大学(NC State)电气与计算机工程助理教授、一篇有关这项工作的论文的合著者吴天福(Tianfu Wu)说。“迄今为止,使用深度神经网络的人工智能系统在这方面还不是很擅长。”
“深度神经网络人工智能系统是为学习狭窄的任务而设计的,”该论文的联合主要作者、北卡罗来纳州立大学(NC State)的博士候选人李熙来(Xilai Li)说。因此,在学习新任务时可能会发生以下情况之一。系统在学习新任务时可能会忘记旧任务,这被称为灾难性遗忘。系统可能会忘记对旧任务的一些了解,同时也不会学习做新任务。或者,系统可以修复旧任务,同时增加新任务——这限制了改进,并很快导致人工智能系统过于庞大,无法有效运行。持续学习,也被称为终身学习或学中学,正试图解决这个问题。”
“我们提出了一个持续学习的新框架,该框架与网络结构学习和模型参数学习脱颖而出,”纸张和Salesforce Research的研究科学家yingbo Zhou表示。“我们称之为学会成长框架。在实验测试中,我们发现它优于以前的持续学习方法。“
要了解学习来增长框架,请将深度神经网络视为装满多层的管道。原始数据进入管道的顶部,任务输出显示出底部。管道中的每个“层”是操纵数据的计算,以帮助网络完成其任务,例如识别数字图像中的对象。有多种方式可以将图层布置在管道中,该层对应于网络的不同“架构”。
当要求一个深度神经网络学习一项新任务时,“学会成长”框架首先通过搜索进行所谓的显式神经架构优化。这意味着,当网络到达系统中的每一层时,它可以决定做以下四件事之一:跳过这一层;以与之前任务相同的方式使用该层;将一个轻量级适配器附加到图层上,稍微修改一下;或者创建一个全新的图层。
该架构优化有效地列出了完成新任务所需的最佳拓扑或一系列层。一旦完成了,网络就使用新拓扑来训练如何完成任务 - 就像任何其他深度学习AI系统一样。
“我们使用几个数据集进行了实验,我们发现一个新任务与之前的任务越相似,为了执行新任务而保留的现有层次就会有越多的重叠,”李说。“更有趣的是,在经过优化的拓扑结构中,一个接受过执行新任务训练的网络几乎不会忘记执行旧任务所需要的东西,即使这些旧任务并不相似。”
研究人员还进行了实验,将Learn to Grow框架学习新任务的能力与其他几种持续学习方法进行了比较,发现Learn to Grow框架在完成新任务时具有更好的准确性。
为了测试每个网络在学习新任务时可能遗忘了多少,研究人员随后测试了每个系统在执行旧任务时的准确性——“学会成长”框架的表现再次优于其他网络。
“在某些情况下,‘学会成长’框架实际上在执行旧任务方面做得更好了,”Salesforce research的研究总监、该研究的合著者熊蔡明(Caiming Xiong)表示。这被称为反向迁移,当你发现学习一项新任务可以让你更好地完成一项旧任务时,就会发生这种情况。我们经常在人们身上看到这种情况;而不是人工智能。”
本文,“学会成长:克服灾难性遗忘的持续结构学习框架,“将在第36届关于加利福尼亚州长滩6月9日至15日举行的第36届国际机器学习会议上。本文的联合引导作者是XILAI LI,博士学位。北典州州立学生,与销售队的兴业州州州州州州州。本文由Richard Socher和Caiming Xiong的Salesforce Research共同撰写。
这项工作是在美国陆军研究办公室的支持下完成的,拨款为W911NF1810295和W911NF1810209;以及国家科学基金会的1822477号拨款。其中一部分工作是李彦宏在Salesforce AI Research做暑期实习生时完成的。
- 船员 -
编辑注:研究摘要跟随。
学会成长:克服灾难性遗忘的持续结构学习框架
作者:北卡罗来纳州立大学Xilai Li And Tianfu Wu;yingbo Zhou,Richard Soucher,以及Caiming Xiong,Salesforce Research
提出了第36届机器学习国际会议,6月9日至15日,加州长滩
抽象的:解决灾难性遗忘是持续学习中的关键挑战之一,其中机器学习系统培训具有顺序或流式任务。尽管最近的最先进的深度学习进展,但深度神经网络(DNN)仍然困扰着灾难性的遗忘问题。本文介绍了一个概念上简单但普遍且有效的框架,用于处理灾难性忘记与DNN的持续学习。该方法包括两个组件:神经结构优化组件和参数学习和/或微调组件。前者了解当前任务的最佳神经结构,最新的DNN与先前任务培训的电流DNN。它学习是否在当前DNN中重用或调整构建块,或者如果需要在可分辨率的神经结构搜索框架下需要创建新的。后者估计新引入的结构的参数,并且如果优选的话,旧的结构微调。通过分离显式的神经结构学习和参数估计,不仅可以以直观有意义的方式能够进化神经结构的所提出的方法,而且还显示出在实验中减轻特罗比遗忘的强大能力。此外,所提出的方法优于允许的MNIST数据集上的所有其他基线,拆分CIFAR100数据集和持续学习设置中的视觉域DIFATHLON数据集。

