数据采集

2019-10-11 19:58栏目:十大网赌网址
TAG:

1系统简介

1.1功能简述

在众多的软件分类中,有几类的软件不是很重要,但也很重要。它们有的是每隔一段时间需要执行一些任务的软件,我们叫它定时类软件;还有一种软件是采集网页中的数据,我们叫它采集类软件。

本产品是任务管理器,包括上述2种软件

同步服务,可以根据配置好的时间间隔执行任务。可以每隔一段时间,也可以在某个时间点执行

采集服务,可以采集指定页面的数据,用于大数据分析。可根据网址直接采集,也可以可视化采集(如:淘宝中我的订单,就是需要登录才能采集)

1.2运行环境

.NET Framework 4.0

1.3使用方法

双击软件图标,打开登录页面,验证成功后弹出如图1-1所示

十大网赌网址 1

图1-1

1.4产品亮点

l 定时模块,任务类型包括:间隔时间和时间点

十大网赌网址,l 采集模块,支持可视化采集和非可视化采集

l 完善的日志模块帮助问题的定位和解决

2同步服务

2.1配置同步项

十大网赌网址 2

只要定义好同步项,这些同步项可保存至内存中,也可以存储在数据库中。用于定义有哪些任务需要定时执行

2.2运行同步项

十大网赌网址 3

如上图所示

1, 记录同步项的开始和结束时间,定时执行次数,还有配置项,如:间隔时间,时间点等

2, 最下面的日志用于输出同步项的操作结果

2.3定时邮件

是指程序每间隔一定时间,向系统管理员发送邮件。以通知管理员系统运行正常

2.4配置采集项

是采集模块范围,下一部分详细描述

3数据采集

3.1主界面

十大网赌网址 4

图3-1

如上图所示

1. 本产品已经内置几个采集模板,如:博客园、糗事百科、淘宝网和1688(需登录后可视化采集)

2. 选中某个采集模板,点击:创建,相当于创建了这个模板的一个实例(可同时创建多个)

  1. 再选中某个实例,点击:开始。实现采集数据
3.2创建实例

十大网赌网址 5

3.3开始采集

十大网赌网址 6

如上图所示

点击开始后,实现数据采集

3.4采集结果

十大网赌网址 7

3.5可视化采集

十大网赌网址 8

若是可视化采集,点击:开始的时候,会自动弹出可视化采集页面(注:有的需要登录)

3.5.1调试

十大网赌网址 9

l 取分页数:是指获取有多少分页,如下图所示

十大网赌网址 10

l 采集当页:是指只采集当前页数据,如下图所示

十大网赌网址 11

l 下一页:是指当前页采集完成后,直接触发:下一页按钮,实现页面翻转

3.5.2登录帐户

是指登录的帐户和密码,可直接复制。当然,需要提前配置好才行

3.5.3采集

采集是指采用调试中的方式,实现对所有页面的采集。步骤如下

a. 先获取有多少分页

b. 循环从第1页开始采集

c. 当前页采集成功后,再触发下一页按钮,采集第2页,直至所有页面均采集完成

3.6组件化开发

十大网赌网址 12

无论是可视化采集,还是非可视化采集。均已实现组件化开发。如:采集页面只有一个,不同的采集模板,只需传入不同的参数即可实现

4FAQ

4.1FAQ1

问:若360安全卫士开启时,会弹出是否允许此程序运行,如图8-1所示

十大网赌网址 13

图8-1

答:选择:一直允许运行(加入白名单)

4.2FAQ2

问:可视化采集页面中的浏览器控件用的是哪个?

答:可视化采集控件采用的是微信自带的WebBrowser控件,在Win7或Win10系统中,它需要修改注册,来保证使用的IE内核与系统的IE内核保持一致

5后记

对本产品感兴趣的,可以加我微信号(xiyang1011或13867408830)私聊

 

我的博客即将搬运同步至腾讯云+社区,邀请大家一同入驻:

版权声明:本文由金莎国际发布于十大网赌网址,转载请注明出处:数据采集