VMware High Availability(HA,即高可用性)是VMware环境里一个有用的组件不过像虚拟环境的其他部分,HA需要配置和一定数量的规划。由于随着环境增长,HA会出现故障,就需要谨慎地规划,这包括哪个工作负载需要你使用HA保护及经常运行测试。在本文中,TechTarget中国的特约作者Rick Vanover将讨论可能的HA错误,在每个集群里,HA能支持多少台主虚拟机,当主机或子虚拟机出现故障导致HA不工作时应该怎么做,以及在不能使用HA的情况下该怎么办。 为什么要考虑使用多少VMware HA? VMware HA是VI3环境下一个较好的实例决策组件,但是关于如何……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
VMware High Availability(HA,即高可用性)是VMware环境里一个有用的组件不过像虚拟环境的其他部分,HA需要配置和一定数量的规划。由于随着环境增长,HA会出现故障,就需要谨慎地规划,这包括哪个工作负载需要你使用HA保护及经常运行测试。在本文中,TechTarget中国的特约作者Rick Vanover将讨论可能的HA错误,在每个集群里,HA能支持多少台主虚拟机,当主机或子虚拟机出现故障导致HA不工作时应该怎么做,以及在不能使用HA的情况下该怎么办。
为什么要考虑使用多少VMware HA?
VMware HA是VI3环境下一个较好的实例决策组件,但是关于如何配置它有大量的规划。其中包括与预留容量相关的资源规划。在我们决定HA在我们的系统中使用到何种程度时,我们就回到了HA的基本概念上—主机故障。如果主机出现故障,VMware HA就可以发挥功能,在其它主机上直接接管并且重建受到影响的工作负载。在此,我们并不深入介绍HA基本操作,在这个规划材料之前我曾写有一篇文章详细介绍HA能够带来的效果,详情请查看“如何安装与配置VMware HA?”
我不会详细介绍VMware HA的各个方面,只介绍用户使用VMware HA使其正常工作时遇到麻烦的情形。每一个用户肯定都会遇到类似情况,要么HA不能如预期那样工作,报告没用的错误信息或者VI客户端图标颜色发生改变;要么让用户试图判断HA Agent出现错误的原因。虽然这是VI3工作平台很有价值的一个特点,但是这也是使许多管理员头疼的一个问题。所以非常有必要考虑用户使用VMware HA到底要保护何种工作负载。
理想情况是很少使用HA,只是经常用HA做来测试。因此相当重要的是测试HA配置来验证其是否如声称那样工作。随着虚拟工作平台不断增长,就需要验证预留容量带来的系统开销。主机出现故障不能正常工作情况下,这个就可以在HA实例中显明,因为集群中没有足够容量来调节适应当前工作负载。
然而,决定HA使用程度的关键问题是集群内主机的数量。VMware管理员们会经常问到这样一个问题:一个集群内主机的理想数目是多少?遗憾的是,对于这个问题并没有确切答案。对大多数工作环境来讲,一个集群内5—8个主机就可以处理大多数需求。随着集群规模变大,就有足够的理由允许一个以上主机出现故障。下图是VMware HA配置中需要注意的几个重要问题(这种配置方式为主机故障预留容量):
这在设计和重新配置VI3环境中是一个关键问题,比如如果没有足够容量来调整适应已经配置好的HA规则,就有可能出现比较麻烦的问题。一个比较值得注意的问题是准入控制计算,这些计算是一系列规则的集合,用于决定在满足HA配置的同时,有多少RAM能分配给运行中的工作负载。把工作负载和HA搭配在一起的负面影响是将会报告错误消息,如“insufficient resources to satisfy HA failover”,或者是常见的不太有用的“HA agent has an error”等。VMware开发指南中有几个介绍准入控制的例子,但是没有明确的规则。对于较大集群来讲,如果允许出现第二个主机故障,就需要集群预留容量有相应增加。
VMware出现故障怎么办?
当VMware HA出现故障时非常难解决。ESX主机上的代理与VirtualCenter不正常通信的情况有许多种,如果出现类似问题,就需要诸多方法来校正通信。下面是VMware HA出现故障(主机或者客体机故障也有可能影响HA正常工作)的一些解决方案:
- 减小负载:关闭不必要的虚拟机,包括开发系统和测试系统
- 重新配置HA:如果一个主机出现故障,点击右键,然后选择“Reconfigure for VMware HA”
- 进入维护模式:关闭主机工作负载,退出维护模式;重新加给系统一个工作负载
- 重新登录一个集群:使一个主机进入维护模式,退出集群,然后重新登录。这样可以重新配置主机上的HA(如果用到DRS代理的话,该方法同时也可以重新配置DRS代理)
- 查看其它相关资料:有许多解决HA问题的资源,如SearchVMware.com blogs、VMware Communities sites以及VMware技术支持(当然需要首先选定)
- 简化配置:遗憾的是,HA在简单配置下总是能够正常工作
HA当然有可能出现故障,但更重要的是如果用户遇到功能性问题,需要知道如何校正。虽然对于下一代HA和VMware产品容错有着更大规划,但是对于当前我们使用的基于VI3的HA,还是需要知道出现问题如何解决。
不需要HA的情况
对于实施虚拟化并获得成功的组织来说,经常会出现分层效果。这个效果和一些工作负载相互独立,如需要添加VMware HA这样的插件来满足高可用性和其它不要求这个功能的工作负载。一个显著的例子是设计灾难恢复和容错虚拟机,如Web服务器池。在这个例子中,VMware HA不用提供过多的功能。因为在大多数HA实例中,都需要重启虚拟机。虽然虚拟机在HA实例中重启后可以重新连线,但原来的Web对话就会受到影响。如果Web服务器池在负载分布网关之后,同时拥有虚拟IP地址的话,这个对话可以重定向到一个可用Web服务器。在这种情况下HA就不能是真正创建一个实例来保护这些工作负载。
另外一类不需要HA的情况是开发系统和测试系统。每个组织都有各种大小与范围的开发或测试系统,但唯一相同点是它们不需要为公司盈利,也不需要和公司最高目标保持一致。那么在这种情况下还需要VMware基础架构标准化和企业版本(其中包括VMotion和DRS特性)吗?如果有机会使开发环境完全独立,在这个工作负载上就可以为虚拟化中较低层部分创建一个实例。
VMware HA规划和带来的问题
在上面介绍了VMware HA的优点和缺陷,最后一个建议是给予当前正在使用的Virtual Center足够重视。特别需要注意的是,VirtualCenter 2.5 Update 3解决了九个与HA相关的问题,VirtualCenter 2.5 Update 2解决了四个与HA相关的问题。升级Virtual Center相对来讲不太费事,和升级ESX主机相比,调整适应也要简单得多。虽然有许多可以借鉴,维护VMware HA可以使管理员工作更加轻松,既不用很费劲地解释HA不能正常工作的原因,也不用过多地解释在开发系统上为HA花费额外财力的原因。
如果你还有其它问题,请发邮件至editor@searchvmware.com。我在收到网站编辑转发的问题之后,会尽快回答。
作者
翻译
相关推荐
-
通过VMware DRS规则管理Windows Server 2016授权成本
对于想要缓解Windows Server 2016授权成本负担的IT管理员,可以考虑VMware的分布式资源调 […]
-
VMware VVOLs应用案例逐步增加
有时技术具有一定的超前性,VMware VVOL就是一个例证,它承诺满足人们对hypervisor技术的所有预 […]
-
esxi中的虚拟机老是自动关机,爆如下这样的日志,有人遇到过吗?
XXX esx.audit.dcui.enabled.formatOnHost not found XXX X […]
-
架构师和研发经理那个对公司更重要一些?
公司最近赶上裁员,技术团队里就研发经理和架构师工资高,老板的意思是肯定要裁一个,那应该留那个?