【贝克汉姆经验分享】Cognos服务器维护-解决方法论

浏览: 2986

步骤一、发现问题

  一般而言,开发测试阶段发现问题的开发和维护人员,后期主要是客户。发现问题的方法最直观的是门户界面,但作为技术人员应该根据错误现象马上想到后台日志。为什么呢?所有由软件应用导致的错误均会被服务器后台记录在相应的日志文件里,比如access_log,cogserver.log等。每一个错误一般有一个对应的错误代码,比如SYS-COG-1057等。有时一个错误会同时出现几个错误代码,秘诀就是看该段错误日子的最后一个error code。

  一般而言应用程序里会有很多个log文件,至于每一个log文件的用途是什么,就需要依赖您对应用系统的理解。其实理解也不难,只要在help文档里即可找到它们的用途。

步骤二、分析问题

  也就是调研问题,您需要了解错误是在什么背景下出现的,如发生时间、操作人员、步骤如何操作,操作对象是那些?这一步需要您结合已掌握的知识去分析所有可能,并把可能性缩小到最小范围内,从而为‘步骤三’奠定基础。例如,前段时间某银行的cognos推送active report到部门领导的mobile设备,偶尔能成功,一般情况下都失败。我接手该问题时第一想到的是试试其它active report和adhoc report,结果发现都能正常推送,从而我把可能性缩小到被推送的报表对象本身。您所能做的就是列举所有可能性,然后一步一步分析和缩小范围。

步骤三、解决问题

  现在就到了解决问题的时候,最常用的方法如下:

1、  网络搜索

  为了提高效率,若根据Error Code搜索到已有的解决方法,我们何必还需要去苦苦思索呢?直接‘拿来主义’即可,于是想到一个典故,王安石考科举路上偶遇对对联招亲,几乎无人能应对。谁知王安石意外想到招亲对联刚好和考官所出的最难的对联吻合,从而成就了状元和联姻的双喜临门。

2、  找‘大牛’解决

  把您的错误详细日志截图发给能帮助您的同事或发帖求助,把别人的建议结合现场情况达到目的。如果您觉得我是‘牛’的话,也可以来找我,但是我可不是‘牛市’哦,^_^。

3、  顺藤摸瓜

  该方法最有效最直接,当然前提是您必须对服务器的工作任务流很熟悉,然后根据工作流一步一步排解出问题的点。很早以前,我刚读完《IBM Cognos部署与架构指南》手册,上海的同事说安装了2个Node的集群,结果发现Cognos门户时而能打开页面,时而打不开。我首先想到了Cognos打开门户页面的工作流程,如下:

HTTP请求-->Apache HTTP Server-->Cognos Gateway-->Dispatcher Services-->Presentation Services-->Content Store查询请求内容-->返回查询结果给PresentationServices-->通过Dispatcher返回给CognosGateway显示页面

根据此流程,很快就排查出问题出现了其中一个Node的Presentation Service出现了问题,解决方法就是把成功安装的安装目录复制并覆盖到有问题的Node上,再改一下配置即可。

4、  排除法

  当我们面对一个棘手的Case,无迹可寻,无规律可循,上面三种方法都无效的情况下,无疑排除法是最‘傻瓜’最有效的方法。4个月前我在农商行遇到了一个案例,Cognos两个节点服务器是客户自己部署的,几乎每一周应用服务就要崩溃一次,必须重启服务。根据提供的错误日志,我直觉是安装环境导致,但不确定是什么原因,因此只有先列举所有可能性然后一一排除。当然最后问题得到了解决,至于解决方法我们在后面详细讲解。

  最后,总结和归纳,并向客户提出优化或改进建议和预防措施,这一步很重要,因为它会彰显您作为技术支持和咨询人员的重要性,并体现您的价值。

推荐 3
本文由 贝克汉姆 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

2 个评论

贝哥的方法论很不错啊,学习啊,顺便问下,IBM Cognos部署与架构指南 这个书籍哪里有卖的,可以给个地址嘛,谢谢。
安装后自带了帮助文档 <IBM Cognos Deployment and Architecture>

要回复文章请先登录注册