VMworld 2011：vSphere延伸集群引发灾难恢复争论

在VMworld 2011大会上虚拟机在站点之间的可移植性是个热门话题。一些用户使用延伸集群（stretched clusters）设想了非破坏性灾难恢复的新场景。

　　然而，就延伸集群对灾难恢复的可用性而言，专家说存在大量的警告以及一些错误的想法。

　　vSphere 5中的新技术引起了虚拟机在站点之间可移植性的大讨论。vSphere 5现在支持Metro vMotion，允许的网络延迟可达10毫秒（假定用户已经购买了企业增强版许可）。一种称为VXLAN的新技术的预览版为虚拟机提供了三层网络所具有的隔离和细分（isolation and segmentation）优势，同时将虚拟机的可移植性带到了最前方。

　　在讨论中一些与会者的想法转向了延伸集群的灾难恢复。延伸集群通常在距离超过100公理的两个站点之间建立，由单个vCenter管理，占据单个IP地址段，因此虚拟机能够使用vMotion进行无干扰迁移。

　　最终的版本是无破坏灾难恢复，因为VMware的站点恢复管理器（SRM）仍然需要经过转换阶段——通常大概要花费15到20分钟。而且在进行故障切换时，SRM通常会切换整个站点而不是单个组件或单个虚拟机。

　　某虚拟化架构师说：“不必切换整个站点，仅仅运行单个服务组件，这非常具有吸引力，而且资源使用将更有效率。”他说，“即使主站点不可用，延伸集群也可能使单个站点的通信成为可能。”

　　从延伸集群中获取的教训

　　据高级IT工程师在上周三的VMworld大会上所说，在过去的14个月左右，财务服务公司TIAA-CREF在vSphere 4.1版本中使用了延伸集群。

　　该公司开始考虑替代SRM全站点故障切换解决方案，以实现为基础设施中的所有组件包括存储、网络以及计算提供高可用性。

　　高级IT工程师Glenn Walker 说道：“这意味着软件栈中的任一组件需要能够靠自己生存。如果仅仅是一个组件失败，那么我们不想迁移整个站点。企业通常也不喜欢仅仅因为一个组件的失败而迁移整个站点的做法。”

　　但是延伸集群并不是要替代传统的灾难恢复。事实上除了主数据中心之外，TIAA-CREF仍然在使用灾难恢复站点。由于某些原因延伸集群尚处于概念验证阶段，工程师们说道。

　　有关延伸集群的警告之一就是“大脑分离（split brain）”场景，在这种情况下两个站点之间的网络连接丢失，但是两个站点仍然是“活的”。为解决该问题，TIAA-CREF在灾难恢复站点引入了“仲裁”节点监控站点之间的连通性。该过程借助NetApp提供的PERL脚本TieBreaker实现。

　　TIAA-CREF同样必须开发针对vCenter Orchestrator的定制插件以监控每个站点的资源，这样虚拟机不会与相关的存储分离。如果分离可能会导致性能问题。

　　仍然有其他问题需要解决。例如，延伸集群使用单个vCenter。TIAA-CREF使用vCenter Server心跳以及支撑vCenter的底层SQL数据库尝试解决该问题。TIAA-CREF同时也在寻找其他方法使思科的Nexus 1000V虚拟监管员模块在两个站点可用。

　　TIAA-CREF的高级IT工程师Andy Daniel说到：“目前还没有实际的解决方案。有一些已发布的文档讨论了如何实现，但是仅限于在单个站点保持两个节点的一致性。”

　　除了需要考虑上述问题外，TIAA-CREF进行概念验证测试还需要专业的“半生产”组件，包括思科的Nexus交换机产品线，NetApp的高端阵列镜像，以及专业的网络和存储服务比如思科的覆盖传输虚拟化（Overlay Transport Virtualization）以及NetApp的MetroCluster。

　　灾难恢复 vs.灾难避免

　　故障切换无宕机的想法很吸引人，但是VMware和EMC官方在另一个会议中强调说灾难恢复以及灾难避免场景经常被曲解。

　　VMware北欧地区的一名系统工程师专家Lee Dilworth说，只有IT管理人员发现中断，站点之间的高可用性才能起作用。

　　传统的灾难恢复方法通常对已经发生过的意料之外的事件做出响应。但是“参与灾难恢复的用户想要一种不需要考虑哪些因素在驱动他们做出该决定的解决方案。”他说道，“进行灾难避免的业务案例有哪些？如果花费金钱为延伸集群提供网络基础设施，那么在两个站点购买额外的容量并在站点间提供灾难恢复解决方案可能更加简单。”

　　Chad Sakac是VMware的母公司EMC的战略联盟的副总裁，他与Dilworth一同出席了该会议。他说存在延伸集群的用例，比如在不能容忍宕机的组织比如医院或其他相似的组织进行有计划地迁移。但是他估计这一用率大概占据VMware安装的10%左右。Sakac说世界上大概有5000个SRM用户，而“运行延伸集群的用户数目并不多。”

　　使灾难恢复及灾难避免更加接近的线路图

　　尽管目前对延伸集群的限制存在不少警告，但是VMware官方说公司正在致力于使其更加简单。据VMware高级技术营销架构师Tom Stephens所说，站点关联性规则在将来可能会整合进VMware HA（现在称为故障域管理器（FDM））中。“我们同样在寻找在单个站点内提供多个vCenter的方法。”

　　目前，FDM不监控ESXi主机上的物理资源比如主机总线适配器或者网卡的健康状况，但是Stephens和Dilworth说针对延伸集群场景的组件保护正在研发当中，这样工作负载就不会运行在可能正在发生故障的主机上。

　　在将来可能会有新技术将三个站点之间的延伸集群和长距离灾难恢复整合在一起，其中站点A和站点B代表了用于HA的延伸集群，而站点C使用SRM的异步复制用于灾难恢复。

　　实际上，如果不从技术角度分析，用户“想将灾难避免和灾难恢复整合在一起”，Dilworth认可用户的想法，“这一天终究会到来。”

我们一直都在努力坚持原创.......请不要一声不吭，就悄悄拿走。

我原创，你原创，我们的内容世界才会更加精彩！

【所有原创内容版权均属TechTarget，欢迎大家转发分享。但未经授权，严禁任何媒体（平面媒体、网络媒体、自媒体等）以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号