如何识别和修复虚拟机性能问题(上):从完整的检查起步

日期: 2013-10-24 作者:Stephen J. Bigelow翻译:李哲贤 来源:TechTarget中国 英文

虚拟的性能问题总是需重点关注的,资源瓶颈可能会不经意间发生。对物理资源的需求有时因虚拟环境不同而不同,而虚拟环境的安装以及应用对虚拟化的适应度都会对实际负载的运行情况产生影响。本文提供的指南可以帮助管理员跟踪和解决可能引起虚拟机性能低下的行为。 从完整的检查起步 虚拟机性能监控和评估的真正挑战在于虚拟性能“好”和“坏”之间没有明确的标准,通常是主观判断的。

由于缺少基准数据相关的细节,技术人员可能会感觉到虚拟机存在性能问题,进而浪费大量的时间去追踪并非实际存在的问题。在您做出要改善性能的决定之前,请先了解性能应该为多少或者拥有可供比较的基准数据。 我指的是benchmark。例如,物理机负载通常……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

虚拟的性能问题总是需重点关注的,资源瓶颈可能会不经意间发生。对物理资源的需求有时因虚拟环境不同而不同,而虚拟环境的安装以及应用对虚拟化的适应度都会对实际负载的运行情况产生影响。本文提供的指南可以帮助管理员跟踪和解决可能引起虚拟机性能低下的行为。

从完整的检查起步

虚拟机性能监控和评估的真正挑战在于虚拟性能“好”和“坏”之间没有明确的标准,通常是主观判断的。由于缺少基准数据相关的细节,技术人员可能会感觉到虚拟机存在性能问题,进而浪费大量的时间去追踪并非实际存在的问题。在您做出要改善性能的决定之前,请先了解性能应该为多少或者拥有可供比较的基准数据。

我指的是benchmark。例如,物理机负载通常要比虚拟负载运行效率高一点,因为hypervisor会带来少量的额外系统开销。进行P2V迁移动作之前,先在物理负载上运行benchmark是一个获得基准数据的好方法。如果迁移完成后的benchmark测试清楚的显示出工作负载存在性能问题,那么很容易缩小问题发生的范围。

同样,初始的benchmark数据可以显示出虚拟机正常的性能值波动范围。如果虚拟机在之后的测试中显示出性能问题,那么对同一虚拟机的benchmark测试就可以清楚的显示出特定子系统或资源的性能下降,从而帮助IT人员量化问题并规划一组矫正动作,而且避免了大量的时间浪费和破坏性的故障诊断。

保持平台的更新

硬件是通过软件驱动的,当所有的软件组件都可以很好地整合工作时,硬件系统的性能提升会让您感到震惊的。通常,OS打补丁或在服务器和虚拟机上应用升级,服务器上hypervisor打补丁或升级,有时甚至是应用的升级都会带来影响。这些因素都可能会影响到工作负载的最终性能。

而且不仅仅是新软件的升级——当某些升级或补丁错失的时候可能也会导致问题。例如,某个看似普通的hypervisor升级可能会需要宿主机OS先升级某个补丁。如果OS补丁被忽视,升级可能会最终引发稳定性、性能或其它问题,从而触发对硬件做故障诊断。

这也是软件升级在应用到生产环境之前,必须首先在实验设置下进行测试的最主要原因。在应用任何改变之前对系统和工作负载先进行benchmark测试,在应用了更改之后再测一次,这样可以直接对结果进行对比。如果确实存在性能问题,您将会知道跟刚刚应用的软件升级相关,对于做好准备的管理员而言,回滚到升级之前的状态并解决问题并不太难,等到问题定位之后再继续。

而且永远不要允许反病毒软件扫描虚拟机文件——扫描过程一定会导致虚拟机性能问题。相反,反病毒软件应该安装在每台虚拟机内并只扫描该虚拟机。

检查资源分配

很多企业通过临时分配一定的计算资源来创建虚拟机,通常导致内存、CPU周期、IO等各种资源分配过多或过少。如果是资源分配过多,虽然多出的资源都浪费了但是不会伤害系统,只是限制了服务器潜在的整合能力。如果分配资源不足就要严重的多,将会导致虚拟机性能问题。例如,如果虚拟机没有足够的物理内存资源,需要依赖速度慢的多的交换区文件,会引发问题。

企业为每个应用分配计算资源时,通常一开始先参考建议的系统需求——在此基础增加额外10%或20%来满足将来可能的需求变化。

资源的审核可以通过对虚拟机做基准测试,了解空闲资源的数量或每个资源的利用率。Benchmark的结果显示很少(或没有)资源空闲就是明显的资源短缺信号。例如,如果虚拟机的CPU利用率总是达到90%到100%的范围内,那么虚拟机需要额外的计算资源。内存短缺的情况类似。

当某个潜在的资源短缺被识别,管理员可以为该虚拟机分配额外的资源并重新进行基准测试来量化对性能的改善。

记住一点,随着时间推移很多虚拟机的资源需求会发生改变。例如,某邮件服务器可能现在运行的很好,但是随着加入更多用户和邮件数量增加后最终会导致性能问题的发生。每台虚拟机都应该重新做基准测试并定期地评估,把这作为容量规划工作的一部分。这可以帮助管理员对计算资源进行预调,以防止性能问题的发生对用户体验带来影响。

下半部分请看《如何识别和修复虚拟机性能问题(下):检查处理器设置 》。

作者

Stephen J. Bigelow
Stephen J. Bigelow

数据中心和虚拟化网站的高级技术编辑,拥有20年的PC和技术写作经验。

翻译

李哲贤
李哲贤

TT虚拟化特约作者

相关推荐