立即发布
视觉变压器(vit)是一种强大的人工智能(AI)技术,可以识别或分类图像中的物体,然而,在计算能力要求和决策透明度方面存在重大挑战。研究人员现在已经开发出一种新的方法来解决这两个挑战,同时也提高了ViT识别、分类和分割图像中物体的能力。
变形金刚是现有最强大的人工智能模型之一。例如,ChatGPT是一个使用转换器架构的AI,但用于训练它的输入是语言。vit是基于变压器的人工智能,使用视觉输入进行训练。例如,vit可用于检测和分类图像中的对象,例如识别图像中的所有汽车或所有行人。
然而,vit面临两个挑战。
首先,变压器模型非常复杂。相对于插入人工智能的数据量,变压器模型需要大量的计算能力,并使用大量的内存。这对于vit来说尤其成问题,因为图像包含如此多的数据。
其次,用户很难准确理解vit是如何做出决策的。例如,您可能已经训练了一个ViT来识别图像中的狗。但目前还不完全清楚ViT是如何确定什么是狗,什么不是狗的。根据应用程序的不同,理解ViT的决策过程(也称为其模型可解释性)可能非常重要。
新的ViT方法,称为“补丁到集群关注”(PaCa),解决了这两个挑战。
“我们通过使用聚类技术来解决与计算和内存需求相关的挑战,这使得变压器架构能够更好地识别和关注图像中的对象,”该论文的通讯作者、北卡罗来纳州立大学电子和计算机工程副教授吴天福说。“聚类是指人工智能根据在图像数据中发现的相似性,将图像的各个部分集中在一起。这大大减少了对系统的计算需求。在聚类之前,ViT的计算需求是二次的。例如,如果系统将图像分解为100个较小的单元,则需要将所有100个单元相互比较-这将是10,000个复杂函数。
“通过聚类,我们能够使这成为一个线性过程,其中每个较小的单元只需要与预定数量的聚类进行比较。假设你告诉系统建立10个集群;那就只有1000个复杂的函数,”吴说。
“聚类还允许我们解决模型的可解释性,因为我们可以首先看到它是如何创建聚类的。当将这些数据集中在一起时,它认为哪些特征是重要的?因为人工智能只创建了少量的集群,所以我们可以很容易地查看这些集群。”
研究人员对PaCa进行了全面测试,并将其与两种最先进的vit (SWin和PVT)进行了比较。
“我们发现PaCa在各方面都优于SWin和PVT,”Wu说。“PaCa更擅长对图像中的物体进行分类,更擅长识别图像中的物体,更擅长分割——本质上是勾勒出图像中物体的边界。它也更有效率,这意味着它能够比其他vit更快地执行这些任务。
“我们的下一步是通过在更大的基础数据集上进行训练来扩大PaCa的规模。”
报纸,”PaCa-ViT:学习视觉转换器中的斑块-聚类注意,将在6月18日至22日在加拿大温哥华举行的IEEE/CVF计算机视觉和模式识别会议上发表。该论文的第一作者是Ryan Grainger,他是北卡罗来纳州立大学的博士生。该论文由北卡罗来纳州立大学的博士生托马斯·帕尼亚瓜(Thomas Paniagua)共同撰写;宋曦,独立研究员;以及BlueHalo的Naresh Cuntoor和Mun Wai Lee。
这项工作是在国家情报总监办公室的支持下完成的,合同编号为2021-21040700003;美国陆军研究办公室,资助W911NF1810295和W911NF2210010;国家科学基金项目1909644、1822477、2024688、2013451。
希普曼-
致编辑:研究摘要如下。
PaCa-ViT:学习视觉转换器中的斑块-聚类注意
作者:瑞安·格兰杰、托马斯·帕尼亚瓜、吴天福,北卡罗来纳州立大学;宋曦,独立研究员;Naresh Cuntoor和Mun Wai Lee, BlueHalo
提出了: IEEE/CVF计算机视觉与模式识别会议,2023年6月18-22日,加拿大温哥华
文摘:视觉变形器(Vision transformer, ViTs)是建立在将图像斑块视为“视觉标记”并学习斑块间注意力的假设之上的。基于补丁嵌入的标记器相对于其对应物文本标记器有语义上的差距。补丁到补丁的注意力受到二次复杂度问题的困扰,这也使得解释学习到的vit变得不平凡。为了解决这些问题,本文提出了学习ViT中的Patch-to-Cluster attention (PaCa)的方法。我们的PaCa-ViT中的查询从补丁开始,而键和值直接基于集群(使用预定义的少量集群)。聚类是端到端学习的,从而产生更好的标记器,并诱导联合聚类-关注和关注-聚类,以获得更好和可解释的模型。将二次复杂度放宽为线性复杂度。提出的PaCa模块用于设计高效、可解释的ViT主干网和语义分割头网络。在ImageNet-1k图像分类、MS-COCO目标检测与实例分割和MIT-ADE20k语义分割上进行了实验。与现有技术相比,它在所有三个基准测试中都比SWin和pvt在ImageNet-1k和MIT-ADE20k中获得了更好的性能。 It is also significantly more efficient than PVT models in MS-COCO and MIT-ADE20k due to the linear complexity. The learned clusters are semantically meaningful. Code and model checkpoints are available athttps://github.com/iVMCL/PaCaViT.
- 类别:
