跳到主要内容

用于高性能计算的崩溃测试伪

如果撞车昂贵,请考虑崩溃超级计算机的成本。

当您尝试解决大规模问题时,有时您必须尝试更改所涉及的任何涉及的基本构建块。这意味着事情可以破裂。当你在谈论世界上最快的计算机时,这将是非常昂贵的。解决方案?构建您自己的高性能计算(HPC)系统 - 然后您可以做任何您想要的事情。

这就是弗兰克穆勒所做的。HPC是指基于大规模的科学计算,例如全球气候模拟或DNA测序。HPC依赖于数以千计的计算机处理器组合在一起和串联工作。这些HPC系统令人难以置信。事实上,有很多竞争来看哪台机器最快。

Mueller团队建造的系统于3月30日完成,并将作为潜在的新解决方案作为下一代HPC系统设计的主要障碍的潜在新解决方案。“我们可以做任何我们想要的事情,”穆勒说。“我们可以尝试对主要问题的潜在解决方案,我们不必担心在其他机构的大规模系统上延迟工作。”

2010年,更新的列表世界上最快的计算机被释放了。多年来,美国的第一次没有首页列表 - 中国的机器获得了最高奖项。

国家科学基金会(NSF)和美国能源部(DOE)现在正在恢复标题。世界上最快的计算机目前在测量的速度下运行Petaflops.这意味着它们每秒可以进行1000万亿次操作。美国国家科学基金会(NSF)和美国能源部(DOE)正在资助一项研究,以支持一种能够以每秒exaflops的速度运行的机器,这将比当今最快的机器快1000倍。

问题是研究人员在设计这些Exaflop机器时面临着几种挑战 - 当前HPC系统面部将在ExaFlop系统中放大的每个问题。

例如,在当前的HPC系统中,只要单个组件发生故障,就会丢失小时数的计算工作。由于目前的系统具有数十万个组件,因此这些故障是不可避免的,但相对罕见 - 他们往往会每天发生一次或两次。但在一个Exaflop系统中,将有许多数百万的组件 - 指数增加失败的数量,并损害了系统的效率。

为了测试对此和其他问题的可能解决方案,研究人员需要对HPC系统的整个软件堆栈进行根本性的变化,包括操作系统。

“没有道路,大规模的HPC系统运营商,如橡树岭国家实验室,会让我们试验他们的系统,”我们可以打破他们的计算机科学教授Mueller说。“

绕过问题,穆勒和一个研究人员团队从NSF获得资金,nvidia和nc state建立自己的HPC系统 - 该北卡罗来纳州最大的学术HPC系统

一旦Mueller和他的团队表明解决方案已经在其系统上工作,它可以在更强大,高调的系统上进行测试 - 就像Jaguar SuperComputer.在橡树岭。

我不会进入在数控状态下系统的所有技术细节(该信息是可以在这里)但是这里有一个概述:它有1,728个处理器核心和36个NVIDIA TESLA C2050 GPU上的108个计算机节点(每次32GB Ram)。

留下回应

您的电子邮件地址不会被公开。各个领域都需要。