研究人员设计了一个程序，在云计算问题开始之前就阻止它们

2012年9月10日马特·希普曼

来自北卡罗来纳州立大学的研究人员开发了一种新的软件工具，可以通过自动识别和响应潜在的异常，以防止云计算系统中的性能中断。

云计算允许用户创建多个独立运行的“虚拟机”，即使它们都运行在一个大型计算平台上。然而，当一个虚拟机中的软件错误或其他问题破坏了整个云计算时，这种方法可能会导致性能问题。

现在，研究人员已经设计了一种软件，可以查看云计算基础设施中正在使用的内存数量、网络流量、CPU使用情况和其他系统级数据，从而为可以被视为“正常”的广泛行为定义一个定义。CPU使用率是任何给定时间使用的计算能力。该程序为云中的每个虚拟机定义正常行为，然后可以查找偏差并预测可能影响系统向用户提供服务的能力的异常情况。

这种方法的一个优点是，它不需要用户提供关于什么构成异常行为的所谓“培训数据”，这一点很重要，因为在生产云系统中往往很难获得培训数据。此外，这种方法还能够预测以前从未见过的异常。

如果程序发现一个虚拟机偏离了正常的行为，它会运行一个“黑盒”诊断，可以确定哪些指标(如CPU使用率)可能受到影响，而不会暴露用户数据。然后，可以使用该度量数据触发适当的预防系统，解决偏差并防止其成为问题。

“如果我们能确定初始偏差和发射一个自动响应,我们不仅可以防止一个主要的障碍,但实际上甚至阻止用户体验任何系统性能的变化,”海伦顾博士说,助理教授计算机科学论文的合著者之一描述研究。“此外，需要注意的是，这个程序不会访问任何用户的个人信息。我们只关注系统层面的行为。”

该程序也是轻量级的，这意味着它不需要太多的云计算能力来运行。它能够比现有方法更快地收集初始数据和定义正常行为。一旦它启动并运行，它使用不到1%的CPU负载和16mb的内存。

在基准测试中，该程序识别出高达98％的异常，远高于现有方法中发现的速率。“它也有1.7％的误报率，这意味着它引发了很多错误的警报，”顾说。“由于虚假警报导致自动响应，这很容易可逆，所以误报的成本可以忽略不计。”

顾说，她的团队的下一步是在软件中加入更详细的“白盒”诊断工具，这样他们就可以识别导致任何异常的软件错误并纠正它们。

这篇论文，“UBL:在虚拟化云系统中预测性能异常的无监督行为学习”，由北卡罗来纳州立大学博士生Daniel Dean和Hiep Nguyen共同撰写。该论文将于9月20日在加利福尼亚州圣何塞举行的第九届ACM自主计算国际年会上发表。该研究得到了美国国家科学基金会、美国陆军研究办公室、IBM教师奖和谷歌研究奖的支持。

希普曼-

编辑:演示文稿摘要跟随。

UBL:用于预测虚拟化云系统性能异常的无监督行为学习

作者: Daniel J. Dean, Hiep Nguyen, Xiaohui Gu, North Carolina State University

提出了当前位置9月20日，在加利福尼亚州圣何塞举行的第九届ACM自主计算国际年会上。

文摘:由于其复杂性质，基础设施 - As-As-Service（IAAS）云易于性能异常。尽管以前的工作表明了使用统计学习来检测性能异常的有效性，但现有的方案通常假设标记的培训数据，这需要大量的人力努力，并且只能处理先前已知的异常。我们为IAAS云计算基础架构提供了一个无人监督的行为学习（UBL）系统。UBL利用自组织地图来捕获紧急系统行为并预测未知的异常。为了可伸缩性，UBL在云基础设施中使用剩余资源，用于行为学习和异常预测，即附加成本很少。我们已经在XEN平台顶部实施了UBL系统的原型，并使用一系列分布式系统进行了广泛的实验。我们的研究结果表明，UBL可以以高精度预测性能异常，并实现自动异常预防的足够的交换时间。UBL支持大规模的基础设施广泛的行为学习，其开销可忽略不计。