一项新的研究可以在云计算问题出现之前就发现它们

2010年7月12日马特·希普曼

大型计算机托管基础设施为计算机用户提供各种服务，包括云计算——它为用户提供访问由远程服务器组托管的强大计算机和软件应用程序的权限。但是，当这些基础设施遇到问题时——比如减缓其运行速度的瓶颈——基础设施提供商和用户都会付出高昂的代价。北卡罗来纳州立大学的一项新研究将允许这些基础设施提供商更准确地预测这种异常情况，并在它们成为主要问题之前解决它们。

“以前，会发生一些不好的事情，你会试图弄清楚发生了什么。通常情况下，你无法重现造成问题的确切条件，”计算机科学助理教授、一篇描述这项新研究的论文的合著者顾晓辉(海伦)博士说。“然而，如果能够预测异常情况，就能够跟踪导致问题的确切条件，诊断出问题所在，并更快地采取纠正措施。”

问题在于可能影响支持云计算或数据中心等服务的托管基础设施的异常或问题。这些异常可能导致响应时间变慢、用户容量降低和主机故障——所有这些对主机的客户端来说都是坏消息。这也会给托管公司带来严重的问题，因为违反他们的服务协议可能会导致财务处罚或客户流失。

为了让程序准确地预测异常，它必须知道什么是正常行为。对于大型托管基础设施来说，这可能会很棘手。这些基础设施为其客户端托管各种不同的应用程序，其中许多应用程序在动态上下文中操作。

例如，一个应用程序可能托管一个Web站点，该站点可能从非常繁忙变为基本上空闲。而且，由于托管基础设施同时为多个客户端服务，特定客户端可用的计算资源也是可变的——取决于在任何给定时间使用基础设施的客户端数量以及这些客户端试图做什么。

这些变量使得程序很难预测异常行为，因为正常行为可能是如此多变。

为了准确预测异常情况，研究人员制作了一组模型，用于检查各种不同环境下的系统活动。换句话说，这些模型能够确定在许多不同的情况下什么是正常行为。由于模型在定义正常行为方面做得很好，所以它们能够准确地识别异常行为。

“我们的‘上下文感知’预测方法显著提高了我们的准确性，”顾说。“我们预测异常的准确率比任何现有程序高出50%，误报率低80%。”

这项名为“大规模主机基础设施的自适应系统异常预测”的研究是由Gu、北卡罗来纳州博士生谭永民和微软亚洲研究院的王海逊合著的。这项工作由美国国家科学基金会、美国陆军研究办公室和IBM资助。这篇论文将于7月27日在瑞士苏黎世举行的ACM分布式计算原理研讨会上发表。

北卡罗来纳州立大学计算机科学系是该大学工程学院的一部分。

希普曼-

编辑:演示摘要如下。

大型主机基础设施自适应系统异常预测

作者:谭永民，顾晓辉，北卡罗来纳州立大学;王海勋，微软亚洲研究院

提出了2010年7月27日，在瑞士苏黎世的ACM分布式计算原理研讨会上

文摘:大型主机基础设施需要自动化的系统异常管理才能实现系统的连续运行。在本文中，我们提出了一种新的自适应运行异常预测系统，称为ALERT，以实现鲁棒的托管基础设施。与传统的异常检测方案相比，ALERT的目标是提前发出异常警报，实现实时异常预防。提出了一种新的上下文感知异常预测方案，以提高动态主机基础设施的预测精度。我们已经实现了ALERT系统，并将其部署在几个生产主机基础设施上，如IBM system S流处理集群和PlanetLab。我们的实验表明，ALERT可以实现对一系列系统异常的高预测精度，并对托管基础设施施加较低的开销。