这个系列包含四个部分,主要专注于微软Hyper-V虚拟机集群问题的解决方法。所提到的问题及解决办法包含了来自微软、硬件厂商和个人的技巧,这些技巧有助于虚拟环境的总体稳定性。 这里边的许多技巧不仅仅适用于Hyper-V,也可能适用于VMware和Citrix XenServer。第一部分涉及硬件、驱动、补丁和配置等四类可能引起虚拟化环境不稳定的因素。
所有的这些虚拟机问题都曾经折腾过我,导致我的Hyper-V集群环境变得不稳定。我的目的就是告诉你这些问题以便你能未雨绸缪。 固件升级 升级固件对稳定性至关重要。在集群模式下,这不仅仅是BIOS的更新,因为你必须考虑到完整的数据路径,……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
这个系列包含四个部分,主要专注于微软Hyper-V虚拟机集群问题的解决方法。所提到的问题及解决办法包含了来自微软、硬件厂商和个人的技巧,这些技巧有助于虚拟环境的总体稳定性。
这里边的许多技巧不仅仅适用于Hyper-V,也可能适用于VMware和Citrix XenServer。第一部分涉及硬件、驱动、补丁和配置等四类可能引起虚拟化环境不稳定的因素。
所有的这些虚拟机问题都曾经折腾过我,导致我的Hyper-V集群环境变得不稳定。我的目的就是告诉你这些问题以便你能未雨绸缪。
固件升级
升级固件对稳定性至关重要。在集群模式下,这不仅仅是BIOS的更新,因为你必须考虑到完整的数据路径,因此这要比单机环境复杂得多。一个固件的升级可以影响BIOS、HBA卡、光纤交换机和SAN存储控制器。
当我把Hyper-V迁移到刀片服务器之后,发现有很多因素可能影响虚拟化环境的稳定性。相比机架式环境,刀片环境中,刀片机箱需要更新大量部件的固件。因此,当我要升级某个部件的固件时,我不得不考虑该固件是否与环境中其他的、旧的固件有关。
以前,我发现我们的HP Virtual Connect网络设备会自动重置。而机箱内的其他刀片却没有这个问题。不过,当主网络和集群心跳失去连接30到45秒的情况下,Hyper-V集群则会出现问题。表现出好像有故障产生,而其他的集群节点会将虚拟机迁移到其余的主机上。
查看HP的文档后发现,Virtual Connect网络设备的固件有一个缺陷,不过,在更新该固件之前,BIOS、HBA、HP Onboard Administrator和Virtual Connect光纤交换机的固件都需要更新。当时一共有六个机箱,花了三个星期的时间,还好,更新完后,系统又稳定起来了。
主机驱动
对现有的硬件来说,新的驱动总是会出现。虽然我不会仅仅因为新版本的驱动出来了就赶紧去更新,不过,有的情况确实需要更新。通常,当新的固件更新之后,就需要更新与之对应的许多驱动。
与固件升级相似,集群环境下的驱动升级也是关联颇多。请记住:在集群模式下,驱动的一致性极为重要。
就拿FC HBA卡或者iSCSI驱动来说。特别是每一个连接到MPIO架构中的卡。当使用EMC PowerPath或者HP MPIO架构时,为所有集群节点匹配与MPIO级别对应的驱动很重要。
在某些情况下,混用和匹配MPIO级别驱动会引起集群的Failover功能失效。不仅HBA卡驱动会引起这个问题,当集群中网络或者电源管理模块的驱动不一致时,也会发生其他的问题。
以前,我为集群增加节点时,曾经遇到过这些问题。那时,最新的MPIO、HBA和网络驱动都安装好了。可是,新旧节点驱动的不匹配导致我的虚拟化集群环境不稳定并且有不可预知的问题。
那么,我的建议是什么? 为每一个节点安装与目前固件匹配的同一版本的驱动。有时,大部分最新的固件更新都是最好的。我倾向于坚持用稳定的版本。那就是说,如果因为某些原因要安装新的驱动,就要试着立刻为每个主机都安装该驱动。
补丁
服务器的虚拟化仍然处于成长中。尽管厂商的推动为虚拟化环境带来了很多新的功能,但是这些新的特色和功能不可避免的有缺陷从而导致问题发生。虽然厂商们会经常发布补丁,但是,有的时候,你很难找到这些补丁。
在我的Hyper-V集群中,仅有少数的案例需要较长的电话沟通来解决。大部分案例,我都会在问题发生之前找到补丁,或者给微软的技术支持一个简短的电话就可以搞定。
以下是我寻找补丁的三个站点:
Microsoft Hyper-v
VMware
Citrix System’s XenServer
这些站点都非常有用,不过,微软支持博客通常更有用。下次,当你与微软的技术支持通电话的时候,你可以问下他们是否有一个博客给出了你所遇到的问题的解决方法。另外,有一些对最新补丁的解析和增强会来自技术前沿的专家。这里是几个我收藏的博客:
Jonathan's Virtual Blog
Hyper-V Notes From the Field
Energized about IT
无论是集群还是单机,从你的虚拟化软件提供商获取最新的主机或者虚拟机补丁都是非常重要的。这个技术进展很快,因为产品bug造成主机故障将会是灾难性的。如果你想在你的虚拟化环境中增加一个复杂的集群,你必须定期寻找新的补丁。
自动服务器恢复(ASR)重启
ASR是一种服务器重启机制,当安装代理感知到系统故障(比如,内部错误或者OS自锁)的时候,它会以Gracefully的模式重启服务器。如果你不使用Hyper-V,大部分厂商都有一个形似的功能。
我要”揭露”的ASR功能来自于HP硬件,许多次错误的ASR行为导致我的主机集群冷断电(在HP硬件上,有一些拥有相同问题的其他例子)。为此,我禁用了ASR。该技术的可靠性遭到了怀疑,我也因该功能不理会是否有虚拟机在运行就蛮横的关掉服务器而对它丧失了信心。
在我的印象中,HP ProLiant BL460c虚拟主机很稳定。内存芯片可能会失效,驱动也会间歇性的失效;另一方面,它的性能很不错。而HP附送的软件则是另外一回事。我建议在BIOS中禁止ASR和激发重启的代理,从而提高虚拟主机集群的可靠性。
最后,匹配固件和驱动,升级补丁,禁止ASR重启将会为你的虚拟集群主机提供一个稳定的基础。在本系列的其他三个部分中,我将介绍其他的Hyper-V集群问题。虽然一些问题是产品缺陷,一些是管理错误和失误。无论如何,我将提供一些技巧避免这些问题和虚拟机停机。
在那之前,欢迎发信rob@virtuallyaware.com告诉我你在虚拟主机集群环境中遇到的问题和任何经验。
相关推荐
-
通过SCVMM部署Hyper-V集群不可忽略的三大问题
管理员在设置虚拟集群时有多种选择,但不妨考虑一下SCVMM(系统中心虚拟机管理器)提供的强大功能和简单易用性。
-
使用VMM创建移动Hyper-V集群?
-
解决Hyper-V虚拟机集群配置文件和虚拟机状态问题
这个系列的四篇文章主要集中在讨论微软Hyper-V虚拟机集群可能出现的一些问题。本文提供了两个帮助改进虚拟环境稳定性的实用技巧。
-
Hyper-V高级使用手册
在之前的专题“Hyper-V指南”与“Hyper-V管理手册”中,我们探讨了Hyper-V的虚拟架构、系统要求、如何备份与迁移Hyper-V等等技巧。在本手册中,我们将学习Hyper-V的高级管理技巧,如Hyper-V的免费管理工具、Hyper-V集群等。