借助vSphere High Availability解决主机硬件降级问题

日期: 2017-02-23 作者:Rob Bastiaansen翻译:王学强 来源:TechTarget中国 英文

在全新vSphere 6.5中, Proactive High Availability通过和硬件厂商进行合作,及时排查问题并迁移虚拟机,能够有效防止主机出现硬件降级问题。 除了针对Distributed Resource Scheduler和Fault Tolerance的更新外,vSphere 6.5还包含了全新的Proactive High Availability特性,能够提升用户对于资源管理的综合体验。全新版本的 vSphere High Availability特性需要和 Distributed Resource Scheduler以及硬件厂商的代理客户端协同工作,在问题出现之前将……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

在全新vSphere 6.5中, Proactive High Availability通过和硬件厂商进行合作,及时排查问题并迁移虚拟机,能够有效防止主机出现硬件降级问题。

除了针对Distributed Resource Scheduler和Fault Tolerance的更新外,vSphere 6.5还包含了全新的Proactive High Availability特性,能够提升用户对于资源管理的综合体验。全新版本的 vSphere High Availability特性需要和 Distributed Resource Scheduler以及硬件厂商的代理客户端协同工作,在问题出现之前将虚拟机迁移到其他主机中。

设想这样的情况,服务器双电源模块中的一个出现故障或者某个CPU风扇停止工作,导致硬件传感器发送报警,虽然这些问题并不会影响系统正常工作,但是服务器的崩溃风险会变得非常高。因此将虚拟机从这些问题“主机”中转移,确保负载运行在集群的健康节点上是最为稳妥的做法。这样管理员就有机会修复硬件问题,重新将主机上线,同时,用户不会察觉到任何服务中断时间。

如何启用全新vSphere High Availability特性

如图A所示,为了启用Proactive HA (High Availability)特性,集群必须已经启用DRS(Distributed Resource Scheduler ),因为DRS能够利用vMotion将运行状态的虚拟机转移到其他主机中。硬件厂商提供的客户端代理——比如戴尔定制的 VMware ESXi 6.5,能够触发硬件报警,也是必要的组成部分。这种定制化镜像——其他厂商也会推出类似镜像——可以提供良好的硬件检查功能。

借助vSphere High Availability解决主机硬件降级问题

图A. 启用Proactive High Availability

之后在 vSphere Availability页面中,管理员必须定义如果出现硬件降级问题,系统需要如何应对。如下面的图B所示, Proactive High Availability提供了两种检查模式。根据硬件错误的严重等级不同,管理员仍然可以使用这台主机,但是必须满足DRS  affinity规则。如果 affinity规则并不存在,并且所有虚拟机都可以运行在其他主机上,那么虚拟机就会被迁移到其他主机上。

借助vSphere High Availability解决主机硬件降级问题

图B.在vSphere Availability配置硬件降级行为

VSphere High Availability并不是唯一具有主动防护特性的工具;DRS也能够在集群实现一些主动保护功能。如果和vROps(vRealize Operations )一起使用,其能够基于之前的测量数据预测虚拟机将会何时出现使用高峰,并且将虚拟机迁移到其他主机中。

这种方式通常需要定义应对行为,DRS应对使用高峰的传统方式。DRS和vROps协同工作的原理非常简单:VROps从虚拟机收集并存储各种指标,之后使用这些指标计算动态阈值。VROps能够通过这种方式发现系统的异常,但是VMware工程师想出另外一种方式,通过记录虚拟机资源使用情况来预测资源消耗方面的重复性峰值。当然,这种方式在数据中心才能够发挥最大作用,虚拟机负载均衡遵循既定方案,办公室的用户每天几乎同一时间段开始工作或者相近的时间去吃午饭。

启用这种特性需要最新版本的vROps,现在为6.4,如图C所示,你可以看到一条到 vCenter Server的连接,也就是使用这种特性的集群。

借助vSphere High Availability解决主机硬件降级问题

图C.配置vRealize Operations 向vCenter发送数据

其他vSphere DRS 全新特性

在配置vROps向vCenter发送数据之后,就可以在集群中启用Predictive DRS了。启用之后,管理员需要坐来下,查看这些系统如何工作。和其他 vSphere High Availability主动响应版本一样,这是一种全新特性,因此其是否能够提升集群中资源的可用性还不得而知。需要说明的是这种特性只能应用在虚拟机数量不超过4000台的集群中。

借助vSphere High Availability解决主机硬件降级问题

图D.  vSphere DRS全新特性

如图D所示, vSphere DRS还包含了其他三种全新特性:VM Distribution、Memory Metric for Load Balancing和CPU Over-Commitment.

VM Distribution允许管理员根据虚拟机数量、而不是资源使用情况来调整集群的虚拟机所在主机位置。管理员可能会遇到这种情况,一大组虚拟机运行在很少几台主机上,而其他主机上只有很少、甚至是没有虚拟机。这种情况会在服务器出现故障之后发生,当故障主机重新上线之后,集群拥有很多资源,DRS没有必要将虚拟机迁移到那台主机中,因此其资源使用率非常低。

只有当没有足够理由证明应该进行迁移时这种情况才会发生。如果虚拟机被平均分配到集群节点,相比于大量虚拟机运行在故障节点上,VM Distribution能够降低服务器故障所产生的影响。这种方式是负载均衡的备选方案,因此只有当资源负载均衡能够正常工作的时候虚拟机才会被平均分配。

最后两项控制资源负载均衡的设定需要和 overcommitment结合使用。 Memory Metric for Load Balancing允许管理员利用已经消耗的内存,而不是活动内存。如果管理员逐台检查虚拟机,就会发现其报告的是被消耗的所有内存。通过这种配置,虚拟机能够基于内存分配、而不是实际消耗的内存实现负载均衡。

CPU overcommitment技术允许管理员配置最大的vCPU to pCPU比例。比如,如果管理员将其设定为200%,那么就每个pCPU就能够支持两个vCPU。管理员能够配置的最大值为500%。这种限制防止集群对CPU资源的过度over-commitment。

翻译

王学强
王学强

TechTarget特邀编辑,毕业于计算机专业,现任职于外企IT分析师,负责网络、防火墙和服务器等系统运维工作,对虚拟化、网络安全和渗透测试拥有浓厚兴趣,工作外热爱旅行、汽车和健身。

相关推荐