新闻稿

新方法提高“视觉变压器”人工智能系统的效率

2023年6月1日马特·希普曼 4分。读

立即发布

天府吴 tianfu_wu@ncsu.edu

马特·希普曼 matt_shipman@ncsu.edu

视觉变压器(vit)是一种强大的人工智能(AI)技术，可以识别或分类图像中的物体，然而，在计算能力要求和决策透明度方面存在重大挑战。研究人员现在已经开发出一种新的方法来解决这两个挑战，同时也提高了ViT识别、分类和分割图像中物体的能力。

变形金刚是现有最强大的人工智能模型之一。例如，ChatGPT是一个使用转换器架构的AI，但用于训练它的输入是语言。vit是基于变压器的人工智能，使用视觉输入进行训练。例如，vit可用于检测和分类图像中的对象，例如识别图像中的所有汽车或所有行人。

然而，vit面临两个挑战。

首先，变压器模型非常复杂。相对于插入人工智能的数据量，变压器模型需要大量的计算能力，并使用大量的内存。这对于vit来说尤其成问题，因为图像包含如此多的数据。

其次，用户很难准确理解vit是如何做出决策的。例如，您可能已经训练了一个ViT来识别图像中的狗。但目前还不完全清楚ViT是如何确定什么是狗，什么不是狗的。根据应用程序的不同，理解ViT的决策过程(也称为其模型可解释性)可能非常重要。

新的ViT方法，称为“补丁到集群关注”(PaCa)，解决了这两个挑战。

“我们通过使用聚类技术来解决与计算和内存需求相关的挑战，这使得变压器架构能够更好地识别和关注图像中的对象，”该论文的通讯作者、北卡罗来纳州立大学电子和计算机工程副教授吴天福说。“聚类是指人工智能根据在图像数据中发现的相似性，将图像的各个部分集中在一起。这大大减少了对系统的计算需求。在聚类之前，ViT的计算需求是二次的。例如，如果系统将图像分解为100个较小的单元，则需要将所有100个单元相互比较-这将是10,000个复杂函数。

“通过聚类，我们能够使这成为一个线性过程，其中每个较小的单元只需要与预定数量的聚类进行比较。假设你告诉系统建立10个集群;那就只有1000个复杂的函数，”吴说。

“聚类还允许我们解决模型的可解释性，因为我们可以首先看到它是如何创建聚类的。当将这些数据集中在一起时，它认为哪些特征是重要的?因为人工智能只创建了少量的集群，所以我们可以很容易地查看这些集群。”

研究人员对PaCa进行了全面测试，并将其与两种最先进的vit (SWin和PVT)进行了比较。

“我们发现PaCa在各方面都优于SWin和PVT，”Wu说。“PaCa更擅长对图像中的物体进行分类，更擅长识别图像中的物体，更擅长分割——本质上是勾勒出图像中物体的边界。它也更有效率，这意味着它能够比其他vit更快地执行这些任务。

“我们的下一步是通过在更大的基础数据集上进行训练来扩大PaCa的规模。”

报纸，”PaCa-ViT:学习视觉转换器中的斑块-聚类注意，将在6月18日至22日在加拿大温哥华举行的IEEE/CVF计算机视觉和模式识别会议上发表。该论文的第一作者是Ryan Grainger，他是北卡罗来纳州立大学的博士生。该论文由北卡罗来纳州立大学的博士生托马斯·帕尼亚瓜(Thomas Paniagua)共同撰写;宋曦，独立研究员;以及BlueHalo的Naresh Cuntoor和Mun Wai Lee。

这项工作是在国家情报总监办公室的支持下完成的，合同编号为2021-21040700003;美国陆军研究办公室，资助W911NF1810295和W911NF2210010;国家科学基金项目1909644、1822477、2024688、2013451。

希普曼-

致编辑:研究摘要如下。

PaCa-ViT:学习视觉转换器中的斑块-聚类注意

作者:瑞安·格兰杰、托马斯·帕尼亚瓜、吴天福，北卡罗来纳州立大学;宋曦，独立研究员;Naresh Cuntoor和Mun Wai Lee, BlueHalo

提出了: IEEE/CVF计算机视觉与模式识别会议，2023年6月18-22日，加拿大温哥华

文摘:视觉变形器(Vision transformer, ViTs)是建立在将图像斑块视为“视觉标记”并学习斑块间注意力的假设之上的。基于补丁嵌入的标记器相对于其对应物文本标记器有语义上的差距。补丁到补丁的注意力受到二次复杂度问题的困扰，这也使得解释学习到的vit变得不平凡。为了解决这些问题，本文提出了学习ViT中的Patch-to-Cluster attention (PaCa)的方法。我们的PaCa-ViT中的查询从补丁开始，而键和值直接基于集群(使用预定义的少量集群)。聚类是端到端学习的，从而产生更好的标记器，并诱导联合聚类-关注和关注-聚类，以获得更好和可解释的模型。将二次复杂度放宽为线性复杂度。提出的PaCa模块用于设计高效、可解释的ViT主干网和语义分割头网络。在ImageNet-1k图像分类、MS-COCO目标检测与实例分割和MIT-ADE20k语义分割上进行了实验。与现有技术相比，它在所有三个基准测试中都比SWin和pvt在ImageNet-1k和MIT-ADE20k中获得了更好的性能。 It is also significantly more efficient than PVT models in MS-COCO and MIT-ADE20k due to the linear complexity. The learned clusters are semantically meaningful. Code and model checkpoints are available athttps://github.com/iVMCL/PaCaViT．

标签:

新方法提高“视觉变压器”人工智能系统的效率

立即发布

更多来自北卡罗来纳州立新闻

基于CRISPR/ cas9的基因驱动可能抑制农业害虫

乌克兰难民可能提振欧洲国内生产总值

在“人类暂停期”，动物活动更多自由