实现数据中心物理基础架构自动化 应该怎么做?

日期: 2016-02-01 作者:Trevor Pott翻译:王学强 来源:TechTarget中国 英文

对于数据中心的管理工具来说,物理基础架构自动化和负载自动化同等重要。下面将会介绍如何避免一些常见的自动化问题。 在数据中心当中,大部分关于自动化的讨论都是围绕着负载展开的。如何创建、使用和销毁负载——无数初创公司、书籍、课程和会议的关注重点似乎全都集中在这些话题上。

尽管负载吸引了大量关注目光,但同时需要注意的是物理基础架构自动化也能够产生很大影响,如果其能够在市场层面上和基础架构进行更好地整合,那么重要性将会进一步提升。 数据中心的物理基础架构包含多种组件,其中的大量设备从来都没有接入到网络当中。服务器、交换机和UPS(不间断电源)有时会连接到网络当中;但是HVAC系统、传感器、PDU(配电单……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

对于数据中心的管理工具来说,物理基础架构自动化和负载自动化同等重要。下面将会介绍如何避免一些常见的自动化问题。

在数据中心当中,大部分关于自动化的讨论都是围绕着负载展开的。如何创建、使用和销毁负载——无数初创公司、书籍、课程和会议的关注重点似乎全都集中在这些话题上。尽管负载吸引了大量关注目光,但同时需要注意的是物理基础架构自动化也能够产生很大影响,如果其能够在市场层面上和基础架构进行更好地整合,那么重要性将会进一步提升。

数据中心的物理基础架构包含多种组件,其中的大量设备从来都没有接入到网络当中。服务器、交换机和UPS(不间断电源)有时会连接到网络当中;但是HVAC系统、传感器、PDU(配电单元)以及物理安全设备等现在才逐渐开始成为主流设备。

这一点在我们使用的基础架构管理应用当中也有所体现。比如VMware vSphere,如果通过内置的远程管理方式,那么其服务器管理能力将会受到很大限制。尽管通过努力能够将UPS集成到VMware的管理面板当中,但这样并不是一种简单明确的方式。

VMware管理工具当中缺少对于其他基础架构硬件的管理能力。VMware可能要对这种疏忽付出昂贵代价,因为这些设备的重要性决定了它们在数据中心当中的使用率将会不断增长。

应对故障

越来越多的传感器、HVAC系统、PDU和安全系统被连接到网络当中,因为这些设备的自动化对于进行部署的企业来说可以提供更大的价值。拥有大规模数据中心的企业,比如谷歌,开发了很多使用案例和术语。谷歌的研究成果对于很多小型环境同样产生了很大影响。

也许扩展基础架构自动化当中最为著名的案例就是解决热漂移问题了。简要来说,这种技术就是如果数据中心的某个部分温度过高,那么负载将会被自动从高温位置转移出来,之后关闭相关系统。尽管看起来是一种十分基础的技术,但是这个例子有助于我们理解如何利用足够的传感器和小规模计算资源来模拟数据中心的真实环境,提前判断将指定级别的负载放在数据中心的某个位置是否合适。

这种分析学原理可以帮助在数据中心实现自动化和流程控制,在问题发生之前防患于未然,类似技术通常被应用在电力供应领域当中。

通常大多数人都不会考虑电力供应问题,但是数据中心的供电系统并非是完美无缺的。其存在峰值和低谷,电压可能发生变化,线路需要进行周期性维护。发电机并不能在所有需要的情况当中都发挥作用,而UPS可能出现故障。

传感器不仅能够帮助应对电源供应中断问题,而且还能够检测电源供应当中的不稳定情况,以确定是否需要对负载进行迁移,如果从现象上来看一切都没有问题,那么过分强调也并非是一件好事情。

暴风雨前

数据中心管理员最大的噩梦就是级联故障。数据中心某个位置的故障可能导致其他位置负载的重新启动。这种情况往往会引起资源的超负荷运转,进而导致其他故障。而且即便是负载被重新分配到其他地方,故障依旧会蔓延发展,直到整个数据中心瘫痪。简单的监控系统并不能捕捉到这一切变化。因此自动化和流程控制需要了解级联故障发生的可能性以及如何进行解决。

至于负载资源限制的情况,解决方案非常简单,只需要不再启动新的负载。如果出现复杂的供电和环境问题——比如热量和湿度等,那么意味着不仅没有成功修复故 障负载,而且需要提前关闭上级系统以防止级联问题继续蔓延,即便这些系统仍然能够支持负载正常运行。

灾难发生时,负载优先级管理就变得异常重要。如果现有资源不能保证所有负载全部正常运行,那么就需要根据当前情况决定如何进行下一步操作。通常相关流程应该包含在灾难恢复策略当中,根据现有策略逐步执行比专家临时商议解决方案要快得多。

理想情况下,可以根据优先级对负载进行标记:关键性基础架构——比如域控制器、防火墙、文件服务器或者数据库——这些都是当前环境能够正常运行的必要组件。如果能够按照这种方式对负载划分优先级,那么在大规模故障发生时,就可以向应用程序所有者或者用户提前发送警报。

本质上,如果已经为负载标记优先级,那么当物理基础架构出现问题时,自动化数据中心就可以按照优先级由高到低的顺序为负载提供保护。

是的,这非常重要

20世纪90年代,对于大部分企业来说,能够感知当前环境并做出响应的物理基础架构还仅仅是一种有趣的学术讨论。21世纪之后,其才成为大规模数据中心管理员和很多大型企业的策略推动者。现在即便是对于小型企业,其重要性也在不断提升。数据中心自动化的重要性不言而喻,因为不论何种规模的企业,都必须依赖于IT环境才能够保证业务正常进行。

许多专家和分析师会简单地告诉企业决策人员使用公有云计算。如果企业了解自己的目标和相关原理,那么公有云计算的确是一种具有很大弹性的方式,这些云租户不再需要关注如何维护物理数据中心。但是云计算并不能帮助VMware,或者那些想要在本地运行负载、受到数据所有权限制以及负载必须和本地设备进行集成等情况。

发展是必须的。对于VMware来说,简单地提供虚拟基础架构、依靠现有平台运行不同种类的负载还远远不够。如果VMware想要现在和将来吸引用户的注意力,那么就需要和物理基础架构进行紧密集成,简化数据中心异常处理流程。

作者

Trevor Pott
Trevor Pott

Trevor Pott作为IT顾问,具有长达15年以上的专业经验,编写了各种技术类出版物。

翻译

王学强
王学强

TechTarget特邀编辑,毕业于计算机专业,现任职于外企IT分析师,负责网络、防火墙和服务器等系统运维工作,对虚拟化、网络安全和渗透测试拥有浓厚兴趣,工作外热爱旅行、汽车和健身。