全栈数字化解决方案提供商

Products and solutions

IT运维监控管理系统

1. 建设背景

在过去的IT运维管理中,由于没有一套先进的IT运维监控管理系统,使得企业对业务系统的运维管理比较被动且滞后。当系统出现严重故障时才能发现该异常,导致故障处理速度较慢,有时甚至会影响业务系统的正常运行,所以,及时准确的了解设备性能、资源利用率、业务系统运行瓶颈等指标对于企业的信息化建设有不可或缺的参考价值。企业对信息中心各项运维工作提出了更高的要求,系统管理人员的工作压力越来越大。因此建设一套功能先进、安全可靠的IT运维监控管理系统势在必行。

2.建设价值

1) 帮助企业快速定位问题,节约成本:建设技术运行监控平台,实现对软硬件基础设施、网络环境、业务系统进行自动化监测,帮助运维人员快速获取网络、服务器、数据库、应用、存储等监控对象的信息,快速发现和定位系统故障,快速而直观的诊断和分析问题,快速恢复系统运行,提高维护效率,提高业务系统的运行效率。
2) 优化运维流程,提升网站管理水平:技术运行监控平台能够存储各类监测数据、报警数据和配置数据,快速预警、发现和定位应用与系统性能问题,并提供ITSM让运维人员快速的响应并解决问题,提高工作效率,实现量化管理。
3) 可视化的IT运维管理模式,系统运行透明化:技术运行监控平台建立全景拓扑的展示模式,将用户的业务视图、网络视图、应用视图、数据中心机房视图完美融合,完整展现用户统一的IT架构,让用户全局掌握IT系统整体的运行情况。
4) 报表统计分析,为决策者提供战略依据:报表生成的灵活性和呈现的多样性能满足用户不断变化的需求。通过它能够有序地展现网络运维的所有管理指标,生成各种分析报告和图表,全面地呈现网络系统的设备资源、告警统计、系统运行状况等,为故障诊断、领导决策提供科学的、可量化的决策依据。
5) 统一门户管理:技术运行监控平台基于统一的平台和视角,QA/运维/开发等角色同平台对话,提高工作效率消除管理对象之间的差别,对各种不同数据来源统一处理、统一展现、统一用户登录、统一权限控制。

3.系统架构

系统架构图
技术运行监控平台采用松耦合模块的平台架构进行设计,遵循ITIL实践标准,实现对客户IT资源的监控;基于单点登录的统一登录Portal界面以及统一的管理门户,全方位展现与业务相关联的所有设备和软件的应用状况和处理性能,平台由Agent、Server、Client三部分构成:
1) Agent:Agent安装在被监控的应用服务器的JVM/CLR上,收集各种性能数据,并传输到Server。
2)Server:处理从Agent接收的性能数据,将数据保存到文件和数据库中,并且提供可视化图形展示等信息。Server是高性能一体机,已经含有预先配置完毕的服务端,仅需完成上架、连接电源网线、配置IP即可工作。
3)Client:通过基于浏览器的Client管理界面,可以实现对Agent收集的性能数据的实时监控。通过应用性能数据分析、故障诊断、代码级问题定位、告警提示、历史性能对比分析等任务,实现对应用程序的性能管理

4.系统简介

1) 业务监控模块
基于java探针工作原理,利用Java SE 5的新特性java.lang.instrument做动态Instrumentation,替换和修改特定类的定义。在java容器启动过程中,通过指定–javaAgent参数指定.jar文件(包含 Instrumentation 代理)来启动探针程序。探针收集的数据包括业务性能数据、后端性能数据、容器性能数据、主机性能数据、异常数据、事件数据、慢请求、错误请求等。业务性能、后端性能、异常、事件、慢请求、错误请求等数据通过对特定类进行插码、扩展类功能来收集,容器性能数据和主机性能数据通过调用系统接口收集。
2) 基础监控模块
直观的体现系统总览信息,展示监控对象的关键数据,方便监控设备状态,及时发现设备的异常状态,保证设备的正常运行。对于重要性监控指标,将性能数据进行排名,以便运维掌控监控对象整体性能信息,鼠标放置相应指标可弹出趋势小界面,即时的查看趋势曲线,随时进行运维和管理。

3) 流程中心模块
在告警列表界面对接工单流程中心,对监控对象进行事前、事中、事后流程管理选择需要发送工单的告警,单击“发送工单”,会弹出发送工单选择弹窗,选择对应的工单类型,将会发送到对应的负责人(资产所属)