如何排除VMware vCloud Automation Center故障

日期: 2015-01-15 作者:Rob Bastiaansen翻译:张冀川 来源:TechTarget中国 英文

VMware vCloud Automation Center,现在称之为vRealize Automation,用于帮助企业管理云并部署各种各样的数据中心资源。当所有不相干的组件无法协同工作时,顺利完成部署通常面临着一些挑战。 我们在本文深入探讨vCloud Automation Center (vCAC)的部署过程,看看在什么地方会出问题以及如何找到问题出现的根源。由于vCAC改名为vRealize Automation的时间并不长,考虑到本文的主要目的,我们继续使用旧名字vCAC。

检查组件 使用vCAC时,所有组件使用正确的版本非常重要。使用的SSO版本不正确,数据库服务器或者其他模块……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

VMware vCloud Automation Center,现在称之为vRealize Automation,用于帮助企业管理云并部署各种各样的数据中心资源。当所有不相干的组件无法协同工作时,顺利完成部署通常面临着一些挑战。

我们在本文深入探讨vCloud Automation Center (vCAC)的部署过程,看看在什么地方会出问题以及如何找到问题出现的根源。由于vCAC改名为vRealize Automation的时间并不长,考虑到本文的主要目的,我们继续使用旧名字vCAC。

检查组件


使用vCAC时,所有组件使用正确的版本非常重要。使用的SSO版本不正确,数据库服务器或者其他模块的功能可能会出故障或者出现异常。请在VMware网站查看vCAC兼容列表,要了解本文中提到的组件的更多背景信息,同样建议访问VMware网站。

在深入研究故障诊断前,先看一下vCAC涉及到的组件。最小化部署包括如下机器及服务:

  • 身份识别设备或者是现有的vSphere SSO
  • vCAC设备
  • Windows IAAS 服务器
  • SQL 数据库服务器
  • 活动目录或者是OpenLDAP

vCAC 6.1 参考架构技术白皮书中的一张图表详细描述了组件之间的关系。在部署该产品时一定要看一下这张图表。这个很特别的图表适用于最小部署,但参考架构文档同样对大规模部署进行了概述,在大规模部署中所有组件都实现了冗余。需要了解的另一件很重要的事儿就是每个组件的作用。

vCAC 6.1参考架构技术白皮书中的这张图表展示了组件之间的关系。

登录有问题?


身份识别虚拟设备或者现有的SSO服务器用于身份认证。如果身份验证出问题,那么你需要对上述设备或者服务器的工作状态进行确认。SSO在正常运行吗?可以使用Web客户端登录到vCenter环境吗?

为使整个vCAC部署能够正常运行,通常要进行如下配置,登录遇到问题时,我们一般需要对一下配置进行检查。

  • DNS:确保所有组件有一个完全限定域名并在DNS环境中进行了注册。
  • 时钟同步:确保vCAC部署中的所有服务器使用了同一个时间源而且与时间源进行了同步。
  • 证书:所有服务器应该有有效的SSL证书。

vCAC Web门户布局


登录后,Web界面显示了源自两台服务器的两个区域。左侧区域来源于运行在vCAC设备之上的Tomcat服务器。右侧区域来源于IIS服务器,该服务器运行在基于Windows的IaaS服务器之上。该IaaS服务器将运行Model Manager,规模更小的环境可能还会运行Distributed Execution Manager Orchestrator以及DEM Worker实例。
Web门户界面划分为两部分,左侧显示的信息来自Tomcat服务器,右侧显示的信息来自IIS服务器。

左侧能够显示正确的信息而右侧显示HTTP Error 404时,请检查Windows IAAS服务器并确认IIS正在运行。

确认服务


门户中的任何一个组件发生故障时,需要检查一下所有的服务是否都已经注册。需要打开端口为5480的Web管理界面,确认所有服务都已注册。

服务标签显示了已注册服务,其中一个例外就是sts-service,该服务注册后不会显示在列表中。当任何一个服务未被注册或者显示的状态为FAILED时,你可以研究下出了什么问题或者简单处理,重启下服务,不需要重启整个Linux设备。不幸的是,无法重启单个服务,你必须重启整个服务器。使用SSH登录虚拟设备或者通过vSphere Web客户端登录本地控制台,然后在命令行界面下执行如下命令:

service vcac-server restart

这将会先停止然后再启动服务器,你会看到服务被启动而且立刻再次启动。很有意思的一件事儿就是vCAC会启动Tomcat服务器的一个实例。所有的服务器组件都运行在该Tomcat实例之上,服务器组件初始化需要花一些时间。

所有服务出现在Web管理界面中可能需要15分钟。如果想跟踪发生了什么事儿,可以使用如下命令检查消息日志文件:

tail -f /var/log/messages

这个命令将会在屏幕上显示消息日志文件的最新信息。之后,所有的服务应该都被注册了。如果不是这样,需要检查一下哪些服务出问题了。
服务注册界面将显示vCAC中所有服务的状态

当其中一个服务未注册或者发生故障,需要访问vCAC设备并查看该服务的状态。https://vcacappliance/component-registry/services/status/current

在浏览器中搜索关键词error或warning,以发现包含服务出问题的更多信息。
在vCAC服务中搜索’error’或‘warning’关键词

本文不可能列出所有可能的错误或者告警信息,但在Google中搜索一下并查看一下前文提供的指南应该有助于分析并更正大多数问题。

诊断故障时检查其他路径


当所有组件都在线或者没有发现错误或告警时,接下来就要检查下日志文件了。VMware在其编号为2074803的知识库中列出了所有日志文件的路径。

当所有服务都在运行而且整个vCAC部署都在线时,其他组件仍有可能出故障,比如终端无法访问或者存储满了。对于这类问题,可以在基础设施>监控>日志标签下查找错误及告警信息。该页面允许你基于关键词及其他过滤条件查找错误及告警信息。
使用日志部分发现VCAC之外的组件出现的问题

出现问题时,基础设施>监控>日志下的分布式执行状态也可能包括一些线索。DEM orchestrator 以及DEM Worker实例及正在运行的工作流的状态在此处显示。 
分布式执行状态部分显示DEM Worker处于离线状态,而且某些工作流被挂起了

如果DEM Worker处于离线状态—而且只有一个DEM Worker—那么没有一个工作流能够继续流转。如果有多个DEM Worker,那么工作流可能仍旧能够继续流转,但完成整个工作流可能需要花更长的时间。如果有一些工作流挂起了,那么最终用户可能会抱怨请求被延迟处理了。

翻译

张冀川
张冀川

TechTarget中国特约专家,任职于某国企信息中心,负责数据中心硬件基础设施及信息系统运维管理工作,对虚拟化及云计算技术有浓厚兴趣,并在工作中积极应用

相关推荐