实战:使用NetApp将1000台物理服务器整合成20台VMware ESX

日期: 2009-06-08 来源:TechTarget中国

  在NetApp位于印度班加罗尔的工程试验室,我们的运行目标是满足约700个开发工程师的计算和存储需求,这些工程师负责众多关键性NetApp开发工作,其中包括WAFL、NAS、SAN、存储管理、VTL、开放系统SnapVault®(OSSV)和SnapDrive® for UNIX®。

  截至2008年8月,我们已经部署约1,000台x86物理服务器,以满足这些及其它工程项目的各种需求,但需求仍以每月约40个服务器的速度不断增长,几乎每个月需要增加两个机架的计算服务器。如此增长的需求导致可用机架空间、电力、冷却等方面的问题。由于物理服务器程序比较缓慢而且不灵活,情况变得更加复杂,使我们越来越难以满足工程师的需求。

  为此,我们启动了COLD项目(Consolidation and Optimization of Lab/Datacenter,即实验室/数据中心的整合与优化),以整合和虚拟化这些关键性工程应用资源。目前我们处于转型中期。项目完成后,我们预计将能够用20台VMware® ESX取代50%甚至更多原有的1,000台物理服务器,只有少数物理服务器(最后数目未定)将予以保留,主要用于那些需要物理硬件进行测试的应用。

  我们的VMware服务器还可以满足未来的增长,极大地提高我们适应工程师不断变化的需求的能力

  本文我们将讨论:

  • 整合和虚拟化的目的
  • 主要挑战
  • 设置和配置程序
  • P2V迁移
  • 转型的现状
  • 未来计划

  整合和虚拟化

  服务器和存储整合通过提高运行效率和有效性可以降低成本,虚拟化则通过提高自动化、可扩展性以及从一个单一平台提供多种功能或服务使服务器和存储技术的价值达到最大化。我们新的数据中心正在向虚拟化的模式迈进,该模式将使我们能够利用更加强大的技术满足不断变化的工程应用需求,满足业务增长或者降低的要求。虚拟化技术为我们的数据中心增加了价值,提高了灵活性、可扩展性、易管理性以及响应能力。

  虚拟化使IT能够在更加经济的规模下运行,最大化利用现有资源,就算基础设施的增长速度非常快,也能够有效地被管理。我们在决定选用VMware配合NetApp存储之前评估了多个虚拟化解决方案。最后我们选择VMware,原因是它支持的客户运行系统的范围很广,这对我们这个项目非常关键。

  最初的挑战

  在起始阶段,要推进项目我们必须解决众多结构和技术方面的挑战。

  有限的预算。首先,由于我们的预算是有限的,这个虚拟化项目必须以最少的设备开始。项目最初是以两台租用的服务器(已安装有VMware ESX服务器)和一个独立NetApp FAS3050存储系统开始。这使我们有足够的设备做一个概念验证(proof of concept,即POC)。这些租用的服务器通过加大的内存进行了升级,所以可以处理更多的虚拟机。

  工程师们的担心。工程师们在开始的时候持怀疑态度。他们不相信一个虚拟的机器能够处理他们原来习惯使用的物理服务器所处理的工作。而且每个工程项目的需求都是独特的,所以更增加了这个问题的复杂性。然而,使用仅仅两台最初的虚拟服务器,我们成功地说服了大部分工程师,使项目得以进行下去。

  网络集成。扫除了这个障碍后,我们开始商量如何在现有环境中集成一个虚拟服务器。工程应用实验室网络的设计旨在最小化第 2 层广播。接入层交换机配置了多重VLAN,向上连接至使用第3层的核心骨干交换机。(这个网络架构相当于一个校园网,每个功能/院系使用一个单独的VLAN。)

  我们有两个选择:在每个VLAN上提供一个单独的ESX服务器,或修改网络布局。如果是前一种情况,资源将无法完全利用。我们会需要更多的ESX授权,而且管理也会更加困难。但是,第二种方案更加复杂,而且需要很长的宕机时间来完成。

  在与我们的网络合作伙伴和工程客户进行大量的讨论后,我们最后决定采用包含有一个整合虚拟服务器群的解决方案,可以放置我们所有的ESX服务器、存储系统和网络闸,而且可连接至每个项目的VLAN。

虚拟服务器
 
图1)虚拟服务器群和网络设置

  虚拟服务器群设置和配置

  在设计这个设置的时候,我们遵从TR-3428:NetApp和VMware虚拟基础架构3:存储最佳实践。我们的虚拟基础架构已经拥有一个由8个服务器组成的群和一个NetApp FAS3050集群,拥有436台虚拟机,支持17个工程团队。至今我们已经完成了150个物理至虚拟(P2V)转换和100个GSX至ESX迁移。以前我们曾在一些项目上采用VMware GSX很有限、分散地进行过虚拟化。基本上我们是每个物理服务器拥有4-5个虚拟机。

  资源池通过VMware Virtual Center设置,以聚合和管理多组以组为单位的虚拟机。每个组的网络连接由2个1GB的网络端口提供,两个端口组合在一起以进行负载平衡和冗余。

  我们的集群FAS3050配备有4个磁盘架,采用300GB FC驱动和多路径,以应对存储故障。该存储系统的网络端口采用NetApp VIF,以处理冗余和进行负载均衡。

  所有ESX数据存储都采用NFS在该存储系统中进行。我们选择NFS因为它性价比高,而且很容易配置和管理。光纤通道数据存储可能需要额外的硬件,如FC交换机、HBA、线缆,而我们由于预算有限所以可能无法满足。此外,采用NFS数据存储的性能与FC的性能是具有可比性的。

  新的虚拟机配置有NetApp rapid cloning utility version 1。该过程利用了NetApp FlexClone,因此类似的虚拟机可以分享同一个存储,而无须浪费很多的空间重存储同一个操作系统的文件。你可以在最近的一篇Tech OnTap文章中了解更多该过程,该文章介绍了同样的过程,只不过针对的是VMware虚拟桌面。
从物理机迁移至虚拟机

  由于工程应用团队要求现有服务器配置保持不变,当我们在将服务器从物理机迁移至虚拟机的过程中,我们面临保持主机命名、IP地址、操作系统配置不变的挑战。

  为了完成这些迁移,我们首先将每个组的数据网络扩展至虚拟服务器群。P2V转换通过使用VMware Virtual Center实现。大部分迁移在周末或节假日进行,以降低宕机时间。定期检测新的虚拟机,确保性能。我们还与团队密切合作,以防止出现性能问题,并在需要的情况下分配更多的资源给虚拟机。

  现状

  我们定期监测虚拟机的增长和物理服务器的逐渐退役数量,并且用图表标注出来。我们计划在未来6至9个月内把物理服务器的数目降低至500台。同期虚拟机数量预计将增至1,500。我们预计将所有1,500台虚拟机放置至20台VMware ESX服务器。我们现在8台服务器支持450个虚拟机,平均的CPU和内存使用率约为30%,因此有很多余量支持更多的虚拟机。

虚拟化平台
 
  图2)转型进程

  未来计划

  我们对目前所取得的进展感到非常高兴,而且已经能够看到因为虚拟环境所带来的额外的机会:

  • 多平台支持。我们目前的环境仅仅包括基于Intel®的服务器。我们也希望能够支持采用IBM逻辑分区(LPAR)的PowerPC平台和AIX操作环境虚拟,以及采用Solaris™ container的SPARC。
  • 单一仪表板。我们目前的管理环境主要依赖Virtual Center检测和管理VMware服务器/虚拟机,以及NetApp Operations Manager检测和管理存储。现在我们正在积极采用NetApp SANscreen,以使我们能够在单一的仪表板上既能看到服务器也能看到存储。
  • 业务连续性。在物理服务器环境中进行恢复是很难的。新的虚拟环境使我们能够提供更高水平的业务连续性。我们希望采用SnapMirror将所有虚拟机数据镜像至一个单一的 NetApp NearStore®系统。这样一来,我们将能够迅速地从任何服务器或存储硬件错误中进行恢复,提供数据的异地副本进行站点恢复。
  • 按需分配服务器与存储。我们的最终梦想是创造一个自主服务的环境,实现工程师能够在线询问服务器和存储资源,而且资源无需管理员的参与即可被自动配置。

  结论
 
  虽然我们的转型只进行了一半,但我们已经看到虚拟环境所带来了大量好处:

  • 更快的配置。由于我们快速的增长,以前要走在需求前面或者满足预料之外的要求很困难。如果一个工程项目需要多个附加的服务器进行测试,可能需要长达4个星期去准备和配置所需要的硬件。现在我们几分钟就可以配置新的虚拟服务器。
  • 负载平衡。与配置相似,如果一台物理服务器负载过重,通常会是一个痛苦而且很长的重新配置过程。现在,我们定时检测 VM,查看性能,如果需要就尽快采用VMware工具迅速增补资源。如果某一个VMware服务器负载过高,我们可以使用VMotion移动虚拟机,在最小的间断内重新平衡负载。
  • 弹性提高。我们现在可以更快地从服务器/操作系统错误中恢复。如果一个物理服务器有了硬件错误,这显然会很费时间。如果在VM上出现一个错误,我们可以很快地重启。如果一个虚拟服务器要出现错误,我们可以采用VM移植快速地在其它虚拟服务器上重启它的负载。
  • 减少宕机时间。VMware和NetApp存储的维护特点使我们的维护几乎没有宕机时间,减少了对工程师的影响。

  这些改进最直接的结果就是一个更加灵活、有弹性的开发和测试环境,最终可以提高工程师的生产力,缩短上市时间。认识到这个方法的优势后,其它NetApp工程应用实验室也正在采取相似的办法。

  本文作者希望特别感谢整个NetApp班加罗尔工程应用支持团队的成员,是他们不知劳累的工作才使这个项目获得成功。工程支持 Jim Harrigan和NFS产品经理Sunita Rao提供了非常有价值的指导。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

相关推荐