修复微软Hyper-V虚拟机集群问题

日期: 2010-01-12 作者:Rob McShinsky翻译:李建军 来源:TechTarget中国 英文

这个系列包含四个部分,主要专注于微软Hyper-V虚拟机集群问题的解决方法。所提到的问题及解决办法包含了来自微软、硬件厂商和个人的技巧,这些技巧有助于虚拟环境的总体稳定性。   这里边的许多技巧不仅仅适用于Hyper-V,也可能适用于VMware和Citrix XenServer。第一部分涉及硬件、驱动、补丁和配置等四类可能引起虚拟化环境不稳定的因素。

  所有的这些虚拟机问题都曾经折腾过我,导致我的Hyper-V集群环境变得不稳定。我的目的就是告诉你这些问题以便你能未雨绸缪。   固件升级   升级固件对稳定性至关重要。在集群模式下,这不仅仅是BIOS的更新,因为你必须考虑到完整的数据路径,……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

这个系列包含四个部分,主要专注于微软Hyper-V虚拟机集群问题的解决方法。所提到的问题及解决办法包含了来自微软、硬件厂商和个人的技巧,这些技巧有助于虚拟环境的总体稳定性。

  这里边的许多技巧不仅仅适用于Hyper-V,也可能适用于VMware和Citrix XenServer。第一部分涉及硬件、驱动、补丁和配置等四类可能引起虚拟化环境不稳定的因素。

  所有的这些虚拟机问题都曾经折腾过我,导致我的Hyper-V集群环境变得不稳定。我的目的就是告诉你这些问题以便你能未雨绸缪。

  固件升级

  升级固件对稳定性至关重要。在集群模式下,这不仅仅是BIOS的更新,因为你必须考虑到完整的数据路径,因此这要比单机环境复杂得多。一个固件的升级可以影响BIOS、HBA卡、光纤交换机和SAN存储控制器。

  当我把Hyper-V迁移到刀片服务器之后,发现有很多因素可能影响虚拟化环境的稳定性。相比机架式环境,刀片环境中,刀片机箱需要更新大量部件的固件。因此,当我要升级某个部件的固件时,我不得不考虑该固件是否与环境中其他的、旧的固件有关。

  以前,我发现我们的HP Virtual Connect网络设备会自动重置。而机箱内的其他刀片却没有这个问题。不过,当主网络和集群心跳失去连接30到45秒的情况下,Hyper-V集群则会出现问题。表现出好像有故障产生,而其他的集群节点会将虚拟机迁移到其余的主机上。

  查看HP的文档后发现,Virtual Connect网络设备的固件有一个缺陷,不过,在更新该固件之前,BIOS、HBA、HP Onboard Administrator和Virtual Connect光纤交换机的固件都需要更新。当时一共有六个机箱,花了三个星期的时间,还好,更新完后,系统又稳定起来了。

  主机驱动

  对现有的硬件来说,新的驱动总是会出现。虽然我不会仅仅因为新版本的驱动出来了就赶紧去更新,不过,有的情况确实需要更新。通常,当新的固件更新之后,就需要更新与之对应的许多驱动。

  与固件升级相似,集群环境下的驱动升级也是关联颇多。请记住:在集群模式下,驱动的一致性极为重要。

  就拿FC HBA卡或者iSCSI驱动来说。特别是每一个连接到MPIO架构中的卡。当使用EMC PowerPath或者HP MPIO架构时,为所有集群节点匹配与MPIO级别对应的驱动很重要。

  在某些情况下,混用和匹配MPIO级别驱动会引起集群的Failover功能失效。不仅HBA卡驱动会引起这个问题,当集群中网络或者电源管理模块的驱动不一致时,也会发生其他的问题。

  以前,我为集群增加节点时,曾经遇到过这些问题。那时,最新的MPIO、HBA和网络驱动都安装好了。可是,新旧节点驱动的不匹配导致我的虚拟化集群环境不稳定并且有不可预知的问题。

  那么,我的建议是什么? 为每一个节点安装与目前固件匹配的同一版本的驱动。有时,大部分最新的固件更新都是最好的。我倾向于坚持用稳定的版本。那就是说,如果因为某些原因要安装新的驱动,就要试着立刻为每个主机都安装该驱动。

  补丁

  服务器的虚拟化仍然处于成长中。尽管厂商的推动为虚拟化环境带来了很多新的功能,但是这些新的特色和功能不可避免的有缺陷从而导致问题发生。虽然厂商们会经常发布补丁,但是,有的时候,你很难找到这些补丁。

  在我的Hyper-V集群中,仅有少数的案例需要较长的电话沟通来解决。大部分案例,我都会在问题发生之前找到补丁,或者给微软的技术支持一个简短的电话就可以搞定。

  以下是我寻找补丁的三个站点:

  Microsoft Hyper-v
  VMware
  Citrix System’s XenServer

  这些站点都非常有用,不过,微软支持博客通常更有用。下次,当你与微软的技术支持通电话的时候,你可以问下他们是否有一个博客给出了你所遇到的问题的解决方法。另外,有一些对最新补丁的解析和增强会来自技术前沿的专家。这里是几个我收藏的博客:

  Jonathan's Virtual Blog
  Hyper-V Notes From the Field
  Energized about IT

  无论是集群还是单机,从你的虚拟化软件提供商获取最新的主机或者虚拟机补丁都是非常重要的。这个技术进展很快,因为产品bug造成主机故障将会是灾难性的。如果你想在你的虚拟化环境中增加一个复杂的集群,你必须定期寻找新的补丁。

  自动服务器恢复(ASR)重启

  ASR是一种服务器重启机制,当安装代理感知到系统故障(比如,内部错误或者OS自锁)的时候,它会以Gracefully的模式重启服务器。如果你不使用Hyper-V,大部分厂商都有一个形似的功能。

  我要”揭露”的ASR功能来自于HP硬件,许多次错误的ASR行为导致我的主机集群冷断电(在HP硬件上,有一些拥有相同问题的其他例子)。为此,我禁用了ASR。该技术的可靠性遭到了怀疑,我也因该功能不理会是否有虚拟机在运行就蛮横的关掉服务器而对它丧失了信心。

  在我的印象中,HP ProLiant BL460c虚拟主机很稳定。内存芯片可能会失效,驱动也会间歇性的失效;另一方面,它的性能很不错。而HP附送的软件则是另外一回事。我建议在BIOS中禁止ASR和激发重启的代理,从而提高虚拟主机集群的可靠性。

  最后,匹配固件和驱动,升级补丁,禁止ASR重启将会为你的虚拟集群主机提供一个稳定的基础。在本系列的其他三个部分中,我将介绍其他的Hyper-V集群问题。虽然一些问题是产品缺陷,一些是管理错误和失误。无论如何,我将提供一些技巧避免这些问题和虚拟机停机。

  在那之前,欢迎发信rob@virtuallyaware.com告诉我你在虚拟主机集群环境中遇到的问题和任何经验。

相关推荐