基于爬虫的数据监控系统

正文

基于爬虫的数据监控系统

2018-09-29 | 作者 : jiping

category : 数据爬取

科技云服务监控的类型可划分为以下三种类型: 文本类型数据监 控、数值类型数据监控以及布尔类型数据监控(URL 类型数据监控). 其中URL 类型数据指传统的服务可 用性监控, 通常每次监控为布尔值数据, 即0 或1; 数值 类型的数据指具体以浮点类型所监控到的数据, 例如 某项服务的数据值等; 文本类型数据为字符串类型, 每 种类型的文本类型数据可自定义解析代码, 在后期进 行数据解析、处理和可视化。

根据每种数据类型的特点和网络爬虫技术, 分别 实现对相应数据的爬取; 并为方便服务管理人员和用 户快速聚焦到关注的服务和数据上, 而实现了数据的 可视化, 以及发生故障的报警. 系统设计主要分为数据 获取层、数据存储层及数据访问层三部分, 整体架构 图如下图所示。

数据获取层通过爬虫引擎和相应的适配器获取各 类资源数据, 然后按照对应的时间单位(例如: 分钟, 小 时, 天等) 拼接成JSON 字符串, 每次爬取都会生成一 个JSON 字符串. 把JSON 数据传输到数据存储层, 通 过Cobar 中间件交由分布式MySQL 数据库进行存储. 当数据访问层访问数据时, 直接从数据存储层拉取对应的JSON 数据并解析, 对解析出来的数据进行可视 化或者提供给接口访问等. 为了方便对数据的处理, 这 三个模块之间统一利用JSON 数据作为传输手段, 省 去了各模块之间传输数据不一致造成的麻烦。

数据存储层主要实现对监测数据的存储和查询。由于单节点数据库无法满足对大量监测数据的存取, 且对服务器的性能要求较高, 因此本系统数据存储层 采用分布式数据库存储技术。分布式数据库对网络中 各结点计算机配置要求不高, 同时提高了系统的可靠 性, 再者其非常便于扩充。

数据访问层包括接口封装和访问、可视化与展 示、故障报警。

接口封装和访问, 是提供给用户的公共URL 访问 接口。接口模块有两种用途: 第一, 用于供用户访问并 获取监测的数据. 用户可以通过URL 请求, 访问指定 监测对象的监测数据, 数据以统一的JSON 格式展现, 支持三种数据类型的数据。第二, 用于给可视化模块提 供接口访问, 完成数据的可视化, 数据格式的统一, 为 数据可视化提供很大的便利; 可视化模块通过访问对 应的接口, 利用统一的解析方法对数据进行解析, 最终 可视化出相应的图表。

label :
    请 登陆 后进行评论

评论列表 ( 0 )

 



最多关注
近期文章