您好,欢迎访问kvm在线官方网站!
kvm在线
服务热线
133+9500+0020
kvm在线
当前位置:首页 >> 行业新闻 >> 数据中心业界迎来机器学习工具

数据中心业界迎来机器学习工具

文章出处:行业新闻 阅读次数:1,719 发表时间:2017年11月8日下午2:18

回顾互联网发展的初期,彼时的数据中心的规模可能非常小而且也很简单。一家大型电子商务服务企业仅仅依靠几台19英寸的机架就足以配合所有必要的服务器存储和网络设备的运行。而到了今天,超大规模数据中心的占地面积可达数千公顷,其中有着安置了成千上万款的硬件设备的数千台机架上。随着数据中心设计的变化,这些大型服务器群组(Server Farms)已经被建立在新的、偏远的地区,同时又靠近人口集中、电力价格便宜的地区。

随着数据中心运营的自动化,诸如亚马逊网络服务(Amazon Web Services)或微软Azure这样的公共云服务开始聘用越来越少的高技能的数据中心工程师,这类数据中心工程师的数量通常比安全工作人员和执行人工手工劳动的低技术工人(比如:处理硬件交付)要多。更多的服务器交由更少的员工实施管理意味着电力和冷却基础设施的监控需要更多的依赖传感器。现在,我们可以将这些传感器称为物联网硬件。这些传感器物联网硬件有助于在一定程度上帮助数据中心操作运营管理人员识别某些问题,但在很多情况下,经验丰富的设施工程师的经验是非常难以用传感器来代替的。例如,某些经验丰富的设施工程师可以通过声音的识别,来判断机箱风扇的运行即将发生鼓掌运行失败;或通过听到的水滴的声音来定位何处发生了泄漏。

由Tensor处理单元(TPUs)提供支持的服务器机架,谷歌的定制化机器学习处理器(照片来源:谷歌母公司Alphabet公司)

您企业将需要更多的传感器来监控现代数据中心的基础设施,而新一代的应用程序旨在通过将机器学习应用于IoT传感器网络来弥补这方面的差距。这一理念是通过捕获运营商的知识,并将其变成规则来帮助解释相关的声音和视频,例如,为越来越多的空数据中心增加一个新的自动化管理层。来自市场调研机构 451 Research的Rhonda Ascierto表示说:“这些服务承诺将能够预测和防止数据中心基础架构出现事故和故障,并带来更快的平均恢复时间和更有效的容量配置,也有助于进一步降低风险。”

预测分析和更广泛的数据类型

这方面的第一步是数据中心基础架构管理或DCIM软件中的预测分析。其中一个例子是位于加利福尼亚州奥克兰的一家名叫Vigilent的公司的软件。“其控制系统是基于机器学习的软件,用于确定变量之间的关系,如机架温度、冷却单元设置、冷却容量能力、冷却冗余、功率使用和故障风险。其通过打开和关闭单元来控制冷却单元(包括变频器,VFD)、调节变频器,以及调整单元的温度设定值。”Ascierto说。其使用无线温度传感器,并预测如果操作人员采取某些措施会发生什么状况——例如:关闭冷却单元或增加设定点温度。

另一个不同的例子是Oneserve公司的Infinite软件产品,该软件将传感器与更广泛的数据点相结合。例如:使用天气条件数据,为位于英格兰埃克塞特地区的企业客户提供 “预测性现场服务管理”。其目的旨在满足预测性维护要求,避免发生故障,并将停机时间降至最低。Oneserve公司的首席执行官克里斯·普罗克特(Chris Proctor)表示说,通过应用这些技术,使得企业客户处理战略规划和采购成为了可能。他说:“数据中心能够更准确、更有效地管理资产和资源。” (据我们所知,这种功能目前尚未在任何数据中心内使用。)

Oneserve公司专注于更广泛的维护问题,但该方法与数据中心的操作运营方式配合良好,能够顺畅的与数据中心内部运营团队和第三方承包商合作。其工具的一个有用的方面是具备跟踪过去维护的问题的仪表板,允许企业用户详细的了解到访问可能存在困难的地方,或者何处是曾经多次发生问题的地方。今天,这仍然是一个非常依赖于人工手动的方法,但是您企业未来将需要这种数据来训练机器学习系统。

汲取操作人员的知识

将传感器数据与数据中心操作运营人员的知识进行了很好的结合的一家企业的例子是来自圣荷西的LitBit公司。据该公司创始人兼首席执行官,在过去曾先后供职于雅虎和苹果公司数据中心战略部门的Scott Noteboom介绍说,LitBit数据中心的AI或DAC,使数据中心的操作运营人员们能够使用机器学习技术来构建、培训和调整自己的“同事”。这些可以跨数据中心对事件进行响应,提醒运营人员,甚至最终自动执行操作。LitBit公司的方法的核心关键是一种辅助学习的形式,其中系统在检测到新的异常事件时向操作运营人员发出警报,然后操作运营人员为将来如何对此类事件做出反应而制定一套规则。为了收集数据,LitBit公司采用了一款移动应用程序,可以进行视频拍摄,然后可以将视频转换成数千个图像进行培训。

该初创企业提供了一款托管云服务,这将允许该公司能够充分利用许多用户的匿名数据来构建更复杂和更准确的模型;而有些客户会选择将他们的培训模型保密,而另外一些企业客户则可以将其培训模型作为额外的收入来源进行销售。正如Ascierto所指出的那样,“数据中心管理数据的价值在大规模聚合和分析时实现其价值的倍增。通过将算法应用于许多客户聚集的大型数据集,包括不同类型的数据中心和不同的位置,例如,供应商可以预测设备何时会出现故障,以及何时会出现冷却阈值。

在操作运营过程中有很多隐含的知识,而将这些知识整理规范制定成规则则可以帮助识别问题并更快速的做出响应,特别是当具有知识经验的操作运营人员不在身边时。即使您企业经营的不是大型的地理位置隔离的数据中心,您仍然希望能够在非工作时间或员工生病请假期间确保有效的回应。一款数据中心AI可能无法完全替代您数据中心经验丰富的操作运营人员,但其可以成为增强现有技能,并帮助将丰富的经验技能教给给其他团队成员的工具。

这个领域目前还不成熟,但发展速度很快。使用传感器数据的机器学习应用正在迅速发展,并被广泛应用于各行各业。微软研究部门一直在与Sierra Systems合作,开发基于机器学习的音频分析,以便检测油气管道的缺陷,利用其认知工具包来帮助对异常状况进行分类。另一方面,用于超大规模云的机器学习模型和工具的规模正在缩减,压缩的神经网络使用量化权重,运行在诸如Raspberry Pi的低容量设备上。

不要指望部署了基于AI的数据中心管理服务就能够为您提供即时的结果;该技术目前还很新,服务还在发展中,他们需要大量的培训。Ascierto指出,较之您数据中心可能已经拥有的DCIM软件,您需要更多的传感器。 “如果您想利用AI制定终端到终端的冷却器到机架的决策,那么一些设备以及环境传感器和功率计将需要声学和振动传感器。如果目标是优化和自动化冷却单元的设定点温度,则可能需要每台机架(顶部、中间、底部)部署多个环境传感器。

基础数据模型可能是存在的,但也必须针对您企业数据中心的特定设备、特定工作负载进行调整,最重要的是您企业数据中心站点的特性。培训一款AI支持系统将需要时间,就像在培训新机器的操作人员一样,但是随着时间的推移,类似的机器学习工具将可以帮助您企业更好的运营数据中心。

来源:机房360

相关资讯

  • 暂无相关内容