为硬件故障制定恢复计划——设计

日期: 2014-08-12 作者:Brian Kirsch翻译:王学强 来源:TechTarget中国 英文

对于现在的虚拟化环境,因为vMotion、容错、高可用性和冗余技术,我们不再考虑硬件故障问题,而是将注意力集中在应用程序和系统可用性上。现在我们基于可用性而非故障进行设计、配置和安装。由此引发的一个问题是:“如果发生硬件故障会怎么样?” 针对可用性还是故障进行设计 针对可用性的设计流程和针对故障的设计流程有很大区别,理解其中的差异对于成功部署是至关重要的。当针对可用性进行部署时,我们关注的是可以避免产生中断的产品和技术。

而如果针对故障进行设计,我们则需要制定计划来解决已经出现的中断情况。这在概念上听起来很简单,但是能够完全理解却很难。 拿传统的机架服务器来说,其通常会使用包括RAID技术等冗余……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

对于现在的虚拟化环境,因为vMotion、容错、高可用性和冗余技术,我们不再考虑硬件故障问题,而是将注意力集中在应用程序和系统可用性上。现在我们基于可用性而非故障进行设计、配置和安装。由此引发的一个问题是:“如果发生硬件故障会怎么样?”

针对可用性还是故障进行设计

针对可用性的设计流程和针对故障的设计流程有很大区别,理解其中的差异对于成功部署是至关重要的。当针对可用性进行部署时,我们关注的是可以避免产生中断的产品和技术。而如果针对故障进行设计,我们则需要制定计划来解决已经出现的中断情况。这在概念上听起来很简单,但是能够完全理解却很难。

拿传统的机架服务器来说,其通常会使用包括RAID技术等冗余硬件来防止数据丢失,如果磁盘发生故障,通常采用备份的方式来保护数据。这些都是基于可用性的设计步骤。但是如果多个磁盘同时发生故障,这些数据能够存放在哪里呢?另一方面,如果我们针对故障、而不是可用性进行设计,我们就可以使用现有的备用硬件来立刻进行恢复,从而省去了等待供应商上门服务的两到四个小时时间。在更换磁盘之后,我们是否需要从头开始进行恢复,或者是否需要重新安装操作系统和备份客户端才能开始进行恢复?

专用管理集群的优势

整个恢复过程需要花费几个小时才能完成,但是当我们谈论系统的可用性时通常不会将其计算在内。就像我们的虚拟化环境一样,我们看到的是99.999%的可用性,并且关注于硬件方面。虚拟环境中最为重要的一部分是管理工具,对于VMware环境来说,就是vCenter。对于许多情况来说,可以采用将vCenter安装在物理服务器当中的方式来实现管理工具和其管理环境的隔离。但是,VMware正在逐渐推行将vCenter物理设备替换为vCenter虚拟设备,作为管理环境的首选平台选择。虽然vCenter对于虚拟化来说并不是必须的,理论上可以使用任何虚拟集群进行替换,但是专用的管理集群可以提供多种优势,包括关键虚拟机(VM)的管理。

分离管理集群并不是针对可用性的设计,而是为了防止故障的设计。你的管理集群可能只有两三台主机,只使用本地磁盘而不是共享存储。不使用存储区域网络或者网络文件系统存储架构听起来会很奇怪,但是需要记住的是使用管理集群的目的是创建一个和生产系统相隔离的环境。这种分隔的主要目的在于实现相互独立,如果环境中发生任何事故,不会影响其他部分。它可以帮助你缩小故障范围,为补丁和更新提供更多的灵活性。当然,下一步就是在你的生产环境中构建一个相关联的、拥有备份管理服务器的vCenter,以便在生产环境或者管理环境发生故障时,你仍旧可以访问管理工具。

你的虚拟环境中另外一个非常重要的部分是经常拖延或者忽略相关文档。相关注意事项请看第二部分《为硬件故障制定恢复计划——制定文档》。

翻译

王学强
王学强

TechTarget特邀编辑,毕业于计算机专业,现任职于外企IT分析师,负责网络、防火墙和服务器等系统运维工作,对虚拟化、网络安全和渗透测试拥有浓厚兴趣,工作外热爱旅行、汽车和健身。

相关推荐