遇到虚拟系统内存问题怎么办?Hypervisor帮你除bug

日期: 2016-04-12 作者:Stephen J. Bigelow翻译:张冀川 来源:TechTarget中国 英文

服务器可靠性取决于识别错误并从错误中迅速恢复,否则可能导致服务器上所有虚拟机同时宕机的系统错误,内存错误就是其中一个重要的示例。很多内存错误是不容易重现的“软”错误,但如果没有及时解决可能会导致整个服务器宕机。 随着内存子系统设计的改进,内存错误记录在每个DIMM上的部分串行存在检查芯片的日志文件中。系统可以使用错误数据识别可能存在问题的地址,避免使用包括可疑地址的那些地址页。

例如热备份功能, DIMM上的一个错误可能会导致内容被交换到一个已安装的备份DIMM,服务器停止使用有问题的DIMM,并提醒技术人员空闲的DIMM已经被调用。 Hypervisor也可以读取内存错误日志然后对有问题的内存……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

服务器可靠性取决于识别错误并从错误中迅速恢复,否则可能导致服务器上所有虚拟机同时宕机的系统错误,内存错误就是其中一个重要的示例。很多内存错误是不容易重现的“软”错误,但如果没有及时解决可能会导致整个服务器宕机。

随着内存子系统设计的改进,内存错误记录在每个DIMM上的部分串行存在检查芯片的日志文件中。系统可以使用错误数据识别可能存在问题的地址,避免使用包括可疑地址的那些地址页。例如热备份功能, DIMM上的一个错误可能会导致内容被交换到一个已安装的备份DIMM,服务器停止使用有问题的DIMM,并提醒技术人员空闲的DIMM已经被调用。

Hypervisor也可以读取内存错误日志然后对有问题的内存地址做出正确的决策。例如,非常规数量的纠正错误,比如使用纠错码修正错误可能意味着DIMM即将发生“硬”错误。像VMware的ESXi这样的hypervisor可能会停止使用有问题的地址页,避免内存错误升级并可能破坏虚拟机或者整个系统。

同时,这类错误隔离行为能够向hypervisor事件日志报告发现的错误,甚至触发管理告警以便于进一步调查。服务器可以继续运行直到技术人员能够将虚拟机迁移到其他服务器并将遇到麻烦的系统下线以进行详细的故障诊断与修复。即使内存故障诊断测试没有给出确定的结论,预先替换可疑的DIMM也是理所当然的事儿。

内存是核心的虚拟化资源,往往也是服务器整合时很有限的资源,但内存技术一直在不断完善。hypervisor一直都支持过度分配,能够识别并重新分配空闲的内存,新系统能够在多个虚拟机之间共享通用的内存内容,而压缩能够缓存空闲页面,不需要进行磁盘交换。上述技术进步有助于更好地使用资源、提升整合比率、减少内存错误、提升虚拟环境的可靠性。

作者

Stephen J. Bigelow
Stephen J. Bigelow

数据中心和虚拟化网站的高级技术编辑,拥有20年的PC和技术写作经验。

翻译

张冀川
张冀川

TechTarget中国特约专家,任职于某国企信息中心,负责数据中心硬件基础设施及信息系统运维管理工作,对虚拟化及云计算技术有浓厚兴趣,并在工作中积极应用

相关推荐

  • 起底虚拟机优势

    虚拟机是物理计算机的逻辑表现形式。虚拟机有众多优势,但列举虚拟机的众多优势之前有必要了解下虚拟机是如何创建以及如何工作的。为创建一个虚拟机,先要在物理计算机上安装hypervisor。

  • 主流hypervisor总拥有成本及功能对比

    在众多hypervisor中做出选择可能是管理员要做出的最重要的决定之一。在做出上述决定时,务必牢记要在已经推出市场一段时间的hypervisor中进行选择。

  • 如何根据业务需求对超融合技术进行评估

    超融合技术的发展已经吸引了许多IT管理员和企业高管的注意。相比传统方式,超融合基础架构提供了一种更为简便的资源部署、管理和支持方式。

  • 预测潜风险:加强容器保护

    容器是IT行业最热门的软件话题。共享虚拟机通用部分——操作系统、管理工具乃至应用,大大减少了镜像消耗的内存资源,同时减少了加载相同代码的众多副本所需占用的网络带宽。