计算机工程师提高应用速度超过9%
即时发布
来自北卡罗来纳州立大学和三星电子的研究人员找到了一种将计算机应用速度提高9%以上的方法。改进来自使计算机处理器更有效地检索数据的技术。
计算机处理器必须从内存中检索数据才能执行操作。所有数据都存储在芯片外“主”内存中。但是,处理器将使用大量的数据也暂时存储在靠近处理器的模具堆叠的动态随机访问存储器(DRAM)缓存中,可以更快地将其检索。
缓存中的数据被组织成大型块或大型块,以便处理器知道在哪里可以找到所需的任何数据。但是,对于任何给定的操作,处理器都不需要大小写中的所有数据 - 检索不必要的数据需要时间和精力。
为了提高过程的效率,研究人员开发了一种技术,在该技术中,缓存随着时间的推移而学习,从每个宏观块中需要数据。这使缓存可以做两件事。首先,缓存可以压缩大小写,仅检索相关数据。这使缓存能够更有效地将数据发送到处理器。其次,由于宏观块被压缩,因此可以在缓存中释放空间,可用于存储其他数据,而处理器更可能需要。
The researchers tested this approach, called Dense Footprint Cache, in a processor and memory simulator. After running 3 billion instructions for each application tested through the simulator, the researchers found that the Dense Footprint Cache sped up applications by 9.5 percent compared to state-of-the-art competing methods for managing die-stacked DRAM. Dense Footprint Cache also used 4.3 percent less energy.
The researchers also found that Dense Footprint Cache led to a significant improvement in “last-level cache miss ratios.” Last-level cache misses occur when the processor tries to retrieve data from the cache, but the data aren’t there, forcing the processor to retrieve the data from off-chip main memory. These cache misses make operations much less efficient – and Dense Footprint Cache reduced last-level cache miss ratios by 43 percent.
这项工作在论文中出现了,”密集的足迹缓存:容量效率高的DRAM最后一个级缓存”将于10月3日至6日在华盛顿特区举行的国际记忆系统研讨会上提出。
该论文的主要作者是Seunghee Shin,博士学位。北卡罗来纳州的学生。该论文由NC State的电气和计算机工程教授Yan Solihin和三星电子的Sihong Kim共同撰写。
- 船员 -
给编辑的注释:研究摘要如下。
“密集的足迹缓存:容量效率高的DRAM最后一个级别的缓存”
作者: Seunghee Shin and Yan Solihin, North Carolina State University; Sihong Kim, Samsung Electronics
提出了:国际研讨会上的记忆Systems, Oct. 3-6, Washington, D.C.
抽象的:模具堆放的DRAM技术可实现大型的最后一个级别的缓存(LLC),可提供对处理器的高带宽数据访问。但是,它需要一个大型标签阵列,该阵列可能需要大部分芯片SRAM预算。为了减少此SRAM顶部,Intel Haswell之类的系统依赖于大块(mblock)大小。大型mblock尺寸的一个缺点是,处理器不需要许多mblock的字节,而是将其获取到缓存中。通过将mblock分为较小的块,即可解决此问题的最新技术(足迹缓存)可行,其中仅将处理器预测的块带入LLC中。尽管它有助于减轻从不需要的块中获取过多的带宽消耗,但容量浪费仍然存在:只有预测有用的块被获取和分配,而mblock的其余区域则空无一人。不幸的是,孔会产生可用于有用数据的大量容量开销,因此浪费了无用数据的刷新功率。在本文中,我们提出了一种新的设计,密集的足迹高速缓存(DFC)。与足迹缓存类似,DFC使用大型mblock并依赖有用的块预测,以减少内存带宽消耗。但是,当获取mblock的块时,将块连续地放置在缓存中,从而消除孔,增加容量和功率效率,并提高性能。 Mblocks in DFC have variable sizes and a cache set has a variable associativity, hence it presents new challenges in designing its management policies (placement, replacement, and update). Through simulation of Big Data applications, we show that DFC reduces LLC miss ratios by about 43%, speeds up applications by 9.5%, while consuming 4.3% less energy on average.
