ZXME-MMSC 彩信中心系统应急处理
方案
气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载
ZXME-MMSC彩信中心系统应急处理
方案
第 1 / 23 页
目 录
1、目的..................................................................................................................................... 3
2、使用对象............................................................................................................................. 3
3、适用场合............................................................................................................................. 3
4、应急处理流程说明 ............................................................................................................. 3
4.1 应急处理流程说明 ................................................................................................... 3
4.2 应急措施及应急流程 ............................................................................................... 3 5、常见故障及应急处理篇 ..................................................................................................... 5
5.1 硬件故障篇 ............................................................................................................... 5
5.2 软件故障篇 ............................................................................................................... 8 6、预警处理篇 ....................................................................................................................... 20
6.1 CPU过负荷预警处理 .............................................................................................. 20
6.2 内存预警处理 ......................................................................................................... 21
6.3 磁盘空间预警处理 ................................................................................................. 21
6.4 彩信流量过负荷预警处理 ..................................................................................... 21
6.5 彩信业务程序故障预警处理 ................................................................................. 22
6.6 彩信数据库故障预警处理 ..................................................................................... 23
第 2 / 23 页
1、目的
彩信中心应急处理方案是针对彩信中心系统设备在运行过程中或者操作过程中可能出现的紧急问题,如业务中断或系统性能严重下降等而制定的操作指导,其目的是缩短系统中断时间,降低业务损失。
2、使用对象
彩信中心设备维护人员及监控人员。
3、适用场合
彩信中心核心设备包括防火墙、核心交换机、路由器,以及内部业务服务器和数据库服务器等设备。
设备出现紧急问题时,指导设备维护人员进行初步的故障定位与排除。 4、应急处理流程说明
4.1 应急处理流程说明
为了将紧急情况下的设备故障与日常维护中出现的设备故障相区分,将彩信中心的紧急情况界定如下:
根据对业务的影响界定:
1) 大面积用户不能发送和接收多媒体消息;
2) 彩信计费异常;
根据设备原因界定:
1) 防火墙退出服务;
2) 交换机退出服务器;
3) 业务节点退出服务;
4) 数据库退出服务;
5) 彩信中心与外部网元连接中断;
4.2 应急措施及应急流程
在出现紧急情况后,采用相应的应急措施,系统内部具体流程如下:
第 3 / 23 页
??
?????????
?
????????????????????
??
??????????????????
??
??????????????????
??
?????????????????
??
?????????????????
??
??????????????????
??
?????????
?
????????
??
第 4 / 23 页
5、常见故障及应急处理篇
5.1 硬件故障篇
本篇主要介绍在日常维护及应急处理中的一些常见硬件故障,指导相关彩信维护人员掌握日常应急处理方法及流程。
5.1.1 电源故障
在系统日常运行过程中,是不能够断电的,机房对设备都配有不间断电源(UPS)进行供电,来保证系统稳定运行。
但在某些特殊情况下,如遭受雷击或其它不可抗拒等原因,系统会异常掉电而无法正常地使用。
为使系统在掉电的情况下,尽快恢复并能够正常使用,现将系统重启步骤说明如下。
业务处理机重启或双机倒换对业务有影响,因此不得擅自启动或倒换业务处理机。如果需要重启或倒换,请与中兴通讯技术人员或者中兴通讯全球技术支持中心800电话联系(800-830-1118)。
1. 【业务处理系统掉电重启步骤,双机】
需要注意,系统在掉电瘫痪后,不能马上重启,必须查明事故原因,以防止电源短路等更严重的后果发生。
1(业务处理部分(小型机)电源启动顺序
, 业务处理机为双机+磁盘阵列系统,先打开磁盘阵列电源,约2分钟后打开第一台
服务器电源;
, 等其完全启动并登录后,再启动另一服务器;
, 登录小型机系统,查看小型机运行状况,业务运行状况;
2.关闭电源的顺序说明
, 首先停止业务程序;
, 再root用户使用 sync;sync;sync;init 0 关闭操作系统;
, 当系终端显示可以关闭电源的时候,关闭主机电源。
2. 【业务处理系统掉电重启步骤,多台单机】
需要注意,系统在掉电瘫痪后,不能马上重启,必须查明事故原因,以防止电源短路等更严重的后果发生。
1(业务处理部分(小型机)电源启动顺序
第 5 / 23 页
, 业务处理机为多台单机,磁盘阵列系(NAS方式),先打开磁盘阵列电源,约2分
钟后打开启业务处理机电源;
, 等其完全启动,登录小型机系统,查看小型机运行状况,业务运行状况;
2.关闭电源的顺序说明
, 首先停止业务程序;
, 再root用户使用 sync;sync;sync;init 0 关闭操作系统;
, 当系终端显示可以关闭电源的时候,关闭主机电源。
3. 【用户数据库重启步骤】
1(用户数据库服务器/计费服务器,启动顺序如下
, 先打开磁盘阵列电源,约2分钟后打开第一台服务器电源;
, 等其完全启动并登录后,再启动另一服务器;
, 登录小型机系统,查看小型机运行状况,业务运行状况;
4. 【操作维护管理服务器重启】
维护管理服务器重启,对业务没有任何影响,重启前做好数据备份,但非必要情况不要重启操作。
5. 【日志、报表、自服务服务器重启】
后台服务器重启,对业务没有任何影响,重启前做好数据备份,但非必要情况不要重启操作。
5.1.2一台网络设备(防火墙、交换机、路由器、负载均衡)故障
登录到另一台查看运行状态和配置确认正确,如需要人工方式进行切换,并对故障设备进行检查、维修、确定故障原因。
【快速恢复故障前提条件】
, 有备用防火墙设备;
, 备用网络设备中相关参数已经预先设置成与现网主用设备完全一致。 【恢复故障步骤】
, 正常情况下,网络设备均使用主备方案,主用设备故障会自动切换到备用设备,
如果故障不能自动切换,解决则进入下一步。
, 登录到另一台查看状态和配置确认正确,人工进行切换。
, 检查网络上业务处理机和数据库双机网络都正常通路。
, 进行各项相关的业务测试。
第 6 / 23 页
5.1.3业务处理机硬件故障
业务处理机服务器采用双机方式或者多台单机负载方式,单台硬件故障运行在该服务器上的资源可能不能正常工作,不会对整个系统业务造成影响。
【快速恢复故障前提条件】
, 有备用的硬盘服务器硬件;
, 对业务处理机器应用程序应该日常有整个配置的COPY备份。
【恢复故障步骤】
, 联系相关服务器供应商或中兴技术支持人员,负责技术支持;
, 检查是不是硬盘故障,如果是,在服务器供应商的技术支持下换上损坏的硬盘等
服务器硬件,更换硬盘等损坏的硬件,开启服务器电源;
, 进行相关业务的测试。
第 7 / 23 页
5.2 软件故障篇
本篇主要介绍在日常维护及应急处理中的一些常见软件故障,指导彩信中心维护人员掌握日常应急处理方法及流程。
5.2.1检查业务是否正常
当维护人员接到故障信息后,首先检查业务是否正常,并判断故障影响范围,可通过以下方法检查:
1(进行业务拨打测试;
2. 是否之间做过什么配置操作;
3(查看性能统计或报表系统KPI指标;
4(进行对测试的业务查询日志分析系统,进行初步判断。
5.2.2业务程序软件应急维护
业务程序软件的故障可以直接导致业务链接不正常,会直接影响部分或全部用户彩信业务。
业务程序的进程会有看门狗程序在守护,一般情况下,如果业务程序异常退出,看门狗程序会自动把退出的进程再次调用,会自动恢复业务程序的应用。
【快速恢复故障前提条件】
, 对业务程序应该有整个目录的copy备份。
【恢复故障步骤】
, 如果看门狗调用业务应用程序不成功,可以首先停止整个业务程序,使用zxme用
户登陆执行superstop命令停止业务程序。
, 启动业务应用程序,使用zxme用户登陆执行zxmoni&命令启动程序。
, 如果再次启动不成功,可以先停止业务程序,并将业务程序的整个目录COPY备份
下以便后续进行原因分析,然后将换上原来备份的程序目录。
, 再次启动程序。
, 进行相关业务测试。
MMSC内部业务处理机主要是指MMSP和DB SERVER。MMSP处理机是负荷分担的,另外配置了健康检查,一旦机器出现故障,四层交换机四层交换机会自动把其上所有业务切换到其它运行良好的业务处理机上。
【NAS存储设备出现故障的应急处理】
NAS存储设备出现故障时,应立即把业务存储处理切换到本地,过程如下:
1) 在本地建立NAS目录
(1)在承载业务运行的服务器上用执行命令df -k ,找一块剩余空间较大的磁盘,
第 8 / 23 页
(2)在其下新建NAS目录(执行创建NAS目录脚本):
创建nas目录的程序参考版本路径\install\zxme_mmsc\toolkit\mknewdir.sh
使用ascii方式上传到某一台relay的/zxme/mmsc/script目录下;
(3)用zxme用户执行此脚本sh mknewdir.sh,输入创建目录路径如/zxme/nas7,
脚本将自动创建目录。
2) 修改业务处理上/zxme/mmsc/config/mmsccfg.ini配置文件,并加密后重启业务程
序:(配置修改见蓝色字体,表示在本地nas目录为/zxme/nas7) ;netapp参数配置
[NetAppPar]
;MMSC系统配置的netapp的个数
NetAppNum=1
;netapp对应的本地mount点
NetAppMountPoint0=/zxme/nas7/ ;修改为本地新建NAS所在的目录,其他保持不变 ;netapp对应的本地mount点
NetAppMountPoint1=/zxme/nas1/ ;NetAppBackupPoint00 表示备份第一个目录
NetAppBackupPoint00=/export/home/nasback/ ;是否使用新的存储路径生成方式,0-使用目前中移的默认生成方式,1-使用为海外版本修改的路径生成方式,平时默认为0
UseNewPath=0
;各个Relay使用上面的哪一个mount点,例如,左边1表示Relay00对应第1个mount点
Relay00=0
;Relay01=0
;MMSC配置的Relay的数目
[RelayNum]
RelayNum=1
5.2.3业务处理机双机程序故障应急维护
彩信中心业务处理机采用双机,磁阵的结构,单台小型机发生硬件故障宕机,不会对彩信业务业务造成严重影响。如果双机阵列或者双机都发生故障,就会对业务造成影响。 首先检查数据库是否正常,包括CPU占用率、磁盘空间、数据库空间。如果发现其中一台服务器存在问题或者业务宕机的情况下,需要把其上的业务倒换到另外一台服务器上。 1. 【SunCluster双机系统日常操作与维护】
, 切换资源
第 9 / 23 页
# scswitch -z -g zmers_rg –h HN-MMSC-SP1
-g 是指定要切换的资源组的名字,如是zmers_rg
-h 是指定目标服务器的机器名,如是HN-MMSC-SP1或HN-MMSC-SP2
, 检查双机状态
# scstat (检查跟双机系统相关的全部状态)
# scstat -g (用于检查资源组及资源状态)
root@HN-MMSC-SP1 # scstat -g
-- Resource Groups and Resources --
Group Name Resources
---------- ---------
Resources: zmers_rg lh-relay lh-dbsvr lh-agent lh-ismap zmers-rg-storage mmsc-app
-- Resource Groups --
Group Name Node Name State Suspended
---------- --------- ----- ---------
Group: zmers_rg HN-MMSC-SP1 Online No
Group: zmers_rg HN-MMSC-SP2 Offline No
-- Resources --
Resource Name Node Name State Status Message
------------- --------- ----- --------------
Resource: lh-relay HN-MMSC-SP1 Online Online -
LogicalHostname online.
第 10 / 23 页
Resource: lh-relay HN-MMSC-SP2 Offline Offline - LogicalHostname offline.
Resource: lh-dbsvr HN-MMSC-SP1 Online Online - LogicalHostname online.
Resource: lh-dbsvr HN-MMSC-SP2 Offline Offline - LogicalHostname offline.
Resource: lh-agent HN-MMSC-SP1 Online Online - LogicalHostname online.
Resource: lh-agent HN-MMSC-SP2 Offline Offline - LogicalHostname offline.
Resource: lh-ismap HN-MMSC-SP1 Online Online - LogicalHostname online.
Resource: lh-ismap HN-MMSC-SP2 Offline Offline - LogicalHostname offline.
Resource: zmers-rg-storage HN-MMSC-SP1 Online Online
Resource: zmers-rg-storage HN-MMSC-SP2 Offline Offline
Resource: mmsc-app HN-MMSC-SP1 Online Online
Resource: mmsc-app HN-MMSC-SP2 Offline Offline
, 停止服务
# scswitch –F –g zmers_rg
, 启动服务
# scswitch –Z –g zmers_rg
, 停单机
# init 0
如果该结点上有应用服务,双机软件会自动将服务切换到另外的结点。
第 11 / 23 页
, 同时停两台机器
# scshutdown –y –g 0
该命令会停两部主机的双机软件并且将主机shutdown至OK状态,现网运行设备
不可轻易执行该命令。
5.2.3用户数据库/计费双机程序故障应急维护
彩信中心数据库采用双机,磁阵的结构,单台小型机发生硬件故障宕机,不会对彩信业务业务造成影响。如果双机阵列或者双机都发生故障,就会对业务造成影响。
首先检查数据库是否正常,包括CPU占用率、磁盘空间、数据库空间。如果发现其中一台服务器存在问题或者业务宕机的情况下,需要把其上的业务倒换到另外一台服务器上。
1. 【SunCluster用户数据/计费服务器双机日常维护和操作】
1、一台用户数据库异常处理
登录到另一台查看状态和配置确认正确,人工进行切换,对故障设备进行检查、维修、确定故障原因。
待故障恢复后,恢复该服务器的业务。
2、两台用户数据库异常处理
修改业务处理机上配置文件/zxme/mmsc/config/mmsccfg.ini方法:
(1)先解密/zxme/mmsc/config/mmsccfg.scr,命令ostool -D mmsccfg.scr
在mmscfg.ini文件中找到
NotUseUserDb=0
修改成如下:
NotUseUserDb=1
(2)修改完成后对mmsccfg.ini进行加密ostool –e mmsccfg.ini
(3)操作维护服务上进行,进行“数据同步”操作
第 12 / 23 页
2. 【Suse Linux用户数据/计费服务器双机日常维护和操作】 1、一台用户数据库/计费服务器异常
登录到另一台查看状态和配置确认正确,人工进行切换,对故障设备进行检
查、维修、确定故障原因。
待故障恢复后,恢复该服务器的业务。
2、两台用户数据库异常处理
修改业务处理机上配置文件/zxme/mmsc/config/mmsccfg.ini方法: (1)先解密/zxme/mmsc/config/mmsccfg.scr,命令ostool -D mmsccfg.scr
在mmscfg.ini文件中找到
NotUseUserDb=0
修改成如下:
NotUseUserDb=1
(2)修改完成后对mmsccfg.ini进行加密ostool –e mmsccfg.ini (3)操作维护服务上进行,进行“数据同步”操作
第 13 / 23 页
3. 【SunVaritas用户数据/计费服务器双机日常维护和操作】
1、一台用户数据库异常处理
登录到另一台查看状态和配置确认正确,人工进行切换,对故障设备进行检查、维修、确定故障原因。
待故障恢复后,恢复该服务器的业务。
使用方法如下
#hagui&,出现如下界面:
单击图中最左下角的小圆,弹出如下的界面。
第 14 / 23 页
输入用户名:admin,密码:admin后,点击OK弹出如下界面。
可见现在双机管理的只有ORAGRP和ZXME-DBSVR两个资源组,右键单击需要倒换的资源组,如图:
右键单击资源组ZXME-DBSVR,选择switch To,单击VCS480-2后,ZXME,DBSVR就会自动倒换到服务器VCS480-2;
如果需要重启server,则步骤如下:
第 15 / 23 页
(1) pkill zxme_dbsvr (停止DB Server业务处理进程);
(2) zxmoni进程会自动将zxme_dbsvr进程掉起;
(3) ps –ef |grep zxme_ (检查业务处理进程是否已经启动)。
2、两台用户数据库异常处理
修改业务处理机上配置文件/zxme/mmsc/config/mmsccfg.ini方法: (1)先解密/zxme/mmsc/config/mmsccfg.scr,命令ostool -D mmsccfg.scr
在mmscfg.ini文件中找到
NotUseUserDb=0
修改成如下:
NotUseUserDb=1
(2)修改完成后对mmsccfg.ini进行加密ostool –e mmsccfg.ini (3)操作维护服务上进行,进行“数据同步”操作
4. 【Sun cluster双机系统的日常操作与维护】
, 切换服务
# scswitch –z –g oracle-rg –h MMSDB1/MMSDB2
-g 是指定要切换的资源组的名字,可以是oracle-rg 或zxme-rg
-h 是指定需要将服务切换到的目标服务器,可以是MMSDB1或MMSDB2 , 检查双机状态
# scstat (检查跟双机系统相关的全部状态)
# scstat –g (用于检查资源组及资源状态)
第 16 / 23 页
-- Resource Groups and Resources --
Group Name Resources
---------- ---------
Resources: oracle-rg lh-oracle ora-lsnr-rs storage-rs ora-server-rs
Resources: zxapp-rg lh-zxapp zxapp-rs
-- Resource Groups --
Group Name Node Name State
---------- --------- -----
Group: oracle-rg server1 Offline
Group: oracle-rg server2 Online
Group: zxapp-rg server1 Online
Group: zxapp-rg server2 Offline
-- Resources --
Resource Name Node Name State Status Message
------------- --------- ----- --------------
Resource: lh-oracle server1 Offline Offline - LogicalHostname offline.
Resource: lh-oracle server2 Online Online - LogicalHostname online.
Resource: ora-lsnr-rs server1 Offline Offline
Resource: ora-lsnr-rs server2 Online Online
Resource: storage-rs server1 Offline Offline
Resource: storage-rs server2 Online Online
Resource: ora-server-rs server1 Offline Offline
Resource: ora-server-rs server2 Online Online
Resource: lh-zxapp server1 Online Online - LogicalHostname online.
Resource: lh-zxapp server2 Offline Offline - LogicalHostname offline.
Resource: zxapp-rs server1 Online Online
Resource: zxapp-rs server2 Offline Offline
# scstat –D (用于检查设备组的状态)
-- Device Group Servers --
第 17 / 23 页
Device Group Primary Secondary
------------ ------- ---------
Device group servers: rmt/1 - -
-- Device Group Status --
Device Group Status
------------ ------
Device group status: rmt/1 Offline
-- Multi-owner Device Groups --
Device Group Online Status
------------ -------------
, 停止数据库服务
# scswitch –F –g oracle-rg
, 启动数据库服务
# scswitch –Z –g oracle-rg
, 停单机
# init 0
如果该结点上有应用服务,双机软件会自动将服务切换到另外的结点。
, 同时停两台机器
# scshutdown –y –g 0
该命令会停两部主机的双机软件并且将主机shutdown至OK状态,现网运行
设备不可轻易执行该命令。
5.2.4 网络设备故障应急维护
由于两台网络设备用作网络传输的通道,内网中每台机器都采用了主备网卡,分别连
接至这两台核心交换机,如果其中任意一台交换机发生故障,MMSC内部网络通讯还会保持
正常。如果与主用防火墙连接的交换机发生故障,将会导致主用防火墙发生倒换,此时也不
会影响业务。
1. 防火墙故障应急维护
第 18 / 23 页
一旦主用防火墙发生故障,主用防火墙将自动倒换到备用防火墙上,备用防火墙自动
接管主用上的任务继续工作,此时建议关掉备用防火墙。
如不能自动倒换,则手动执行,防火墙防火墙倒换步骤如下:
1、CISCO防火墙:
telnet ×.×.×.×(主用防火墙地址)
conf t
no failover active //把当前防火墙设置为备机
failover active //把当前防火墙设置为主用机
show failover //察看当前防火墙的主备状态
2、JUNIPER防火墙:
倒换方法
telnet ×.×.×.×(主用防火墙地址)
get nsrp vsd-group id 0 //查看当前防火墙的工作状态是为主用、还是备用 exec nsrp vsd-group 0 mode backup //在主用设备上执行该切换命令,此时该主用
设备没有启用抢占模式,即备用模式。
恢复配置数据方法
恢复备份配置,只需将其上传到JUNIPER设备即可。要上传配置: 通过WebUI来备份:
Configuration > Update > Config File:输入以下内容,然后单击Apply: 如果要将新配置和当前配置合并在一起,请选择Merge to Current Configuration; 如果要用新配置覆盖当前配置,请选择Replace Current Configuration。 > New Configuration File:输入配置文件位置或单击Browse 找到文件位置, 选择该文件,然后单击Open。
通过CLI来备份:
save config from { tftp ip_addr | slot } filename to flash [ merge [ from
interface ]
其中ip_addr为运行tftp程序的计算机。
2. 四层交换机故障应急维护
第 19 / 23 页
由于两台四层交换机采用主备的方式,当主用四层交换机发生故障时,主备四层交换机将发生倒换,备用四层交换机将接管工作,网络通讯还会保持正常,这时建议关闭故障四层交换机,防止意外。如不能自动倒换,则手动执行,倒换步骤如下:
telnet ×.×.×.× (登陆四层交换机)
big01:/var/log# b failover show (查看四层交换机当前状态)
big01:/# b failover standby (倒换四层交换机到备机)
5.2.7 检查彩信中心与外部连接是否正常
当业务测试出现异常时,经初步判断MMSC系统内部正常时,应检查与外部网元的连接情况,主要检查以下网元的连接:
1) 检查与WAP网关的连接,如异常应联系WAP维护人员共同检查排障;
2) 检查与SMSC的连接,如异常应联系SMSC维护人员共同检查排障;
3) 检测与ISMP的网络连接,如异常应联系ISMP维护人员共同检查排障;
4) 检测与MMSG或ISAG的网络连接,如异常应联系MMSG或ISAG维护人员共同检查
排障。
6、预警处理篇
6.1 CPU过负荷预警处理
【故障预警现象】
, Solaris/linux用sar 1 5 (或用prstat)命令,即可查看CPU的当前使用情况,
也可查看是当前哪一个进程占用CPU高等。
, CPU长期占用在70%以上,占用时间超过30-60分钟以上。
【预警处理步骤】
, 用sar 1 5 (或用prstat)命令查看是哪一个进程使用CPU最多。
, 如果在业务程序使用最多,则为当前业务量太大,需要进行限制流量处理。 【故障处理步骤】
, 对业务流量进行控制,登陆业务处理机,修改/zxme/mmsc/config/mmsccfg.ini
接口流量控制参数如下,根据现实数据情况进行接口流量控制。
单位:条/秒(不需要重启, 要129同步数据)
MM1LOAD=200
MM3LOAD=200
MM4LOAD=200
MM7LOAD=200
第 20 / 23 页
, 继续观察业务状况CPU占用情况。
6.2 内存预警处理
【故障预警现象】
, Solaris/linux用sar 1 5 (或用prstat)命令,即可查看CPU的当前使用情况,
也可查看是当前哪一个进程占用CPU高等。
, 如果内存占用占整个操作系统的80%以上,则开始进行预警状态。 【预警处理步骤】
, 用ps -o,vsz -Usybase可以查出sybase用户使用内存情况。
, 在数据库机器上检查$SYBASE/ASE-12*/*.cfg文件中是否对数据库使用内存有最
大限制。建议最大内存限制为机器整个内存的50%。
【故障处理步骤】
, 修改数据库最大内存限制为机器的50%。
, 用命令stop_db.sh停止数据库服务。
, 用命令start_db.sh启动数据库服务,使之内存限制生效。
, 进行相关业务测试。
6.3 磁盘空间预警处理
【故障预警现象】
, 有solasir、linux机器上用df –k,即可查到刚才文件系统的空间使用情况。
, 如果空间使用超过80-85%,则需要进行相关处理。
【预警处理步骤】
, 检查文件系统中是否有无用的备份文件,定期清除备份文件。
, 如果属于文件系统不够大,可以通以进行扩文件系统操作。
【故障处理步骤】
, 如果处理失败,建议在中兴技术支持人员指导下重启操作系统进行恢复。
6.4 彩信流量过负荷预警处理
【故障预警现象】
在话务量增大的情况下,彩信中心有一套限制流量、自我保护机制,这主要是通过对彩信中心与相关网元的流量限制参数进行设置实现。当业务量增大并超过某个门限值时,系统将会产生对当前业务进行业务限制,以保证系统能正常运行。
同时在监控过程中如果发现已经出现业务量不断增大、彩信中心开始拥塞、资源占用
第 21 / 23 页
快用尽的情况,局方维测人员应该采取一定的应急措施,以确保彩信系统的安全。 【预警处理步骤】
, 节假日使用合适设置MM1、MM4的流量限制。
, 当使用值到达最大值的90,时,建议重起业务处理机。
, 检查数据库空间,各服务器、计费磁盘阵列系统空间使用情况,当使用值达到最
大值的90,以上,需要清理磁盘空间。
【故障处理步骤】
在节假日,彩信使用一般会是平时所有增加,所以在这期间,定期对系统进行检查,可以及早发现系统是否出现业务量增大问题。
监控的主要对象:
1、 彩信系统当天小时业务量或日业务量,注意是否已经接近系统
设计
领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计
的最大容量;
2、 彩信业务处理机的系统资源,跟踪系统占用资源是否已经接近系统设计的最大容
量;
3、 当前的告警和失败观察情况:
1) 业务处理机机cpu、memory使用达到最大上限。
2) 程序意外重起通知。
3) 失败观察存在大量异常呼损。
4) 数据库连接断开告警。
5) 节点通讯链路断告警。
6.5 彩信业务程序故障预警处理
【故障预警现象】
, 出现小部份用户发消息失败。
, 程序日志目录$ZXME_HOME/log下日志中大量异常error告警。
, 彩信中心失败观察上出现异常呼损。
【预警处理步骤】
, 联系相关中兴技术支持人员。
, 检查操作系统环境是否业务程序的使用。
, 检查彩信业务程序占用CPU及内存情况,是否异常。
【故障处理步骤】
, 用superstop停止业务程序。
, 用zxmoni&命令启动业务程序。
, 再次观察失败观察及日志情况。
, 进行相关业务测试。
第 22 / 23 页
6.6 彩信数据库故障预警处理
【故障预警现象】
, 检查数据库的CPU及内存占用情况,长期大量占用CPU及内存即属于异常。。
, CPU长期占用在70%以上,占用时间超过30-60分钟以上。
, 在系统中数据库日志异常报警,日志路径为$SYBASE/ASE-12*/install目录下。 【预警处理步骤】
, 联系相关中兴技术支持人员。
, 联系相关数据库供应商技术支持人员。
, 在技术支持人员的指导下进行预处理。
, 对预警日志中出现资源不够等故障,可以通过调整数据库参数以实现。调整方法
可以更改$SYBASE/ASE-12*/*.cfg文件中进行相关配置。
, 重启数据库即生效。
, 再次检查相关告警及日志。
, 进行相关业务测试。
【故障处理步骤】
, 如果数据库完全异常,无法恢复,就变成数据库故障。
, 联系中兴及数据库供应商相关技术人员。
第 23 / 23 页