蓝天采集器官方版是一款强大的网络数据采集工具,主要作用是用来采集网页内容,采用php+mysql开发,可部署在云服务器,几乎能采集所有类型的网页,无缝对接各类CMS建站程序,免登录实时发布数据,全自动无需人工干预;这款工具的功能比较强大,并且也很灵活,它可以进行多级子页面的采集和关联页面的采集,满足了用户采集数据的各种需求;蓝天采集器在很多领域中都可以使用,比如自媒体,招投标,信息获取等等工作中;这款工具是使用php+mysql进行开发的,可以直接部署在用户的服务器中,轻松对接各种类型的CMS系统;通过半自动化的数据采集功能,让用户采集数据更加的便捷。
蓝天采集器软件功能
云端部署
蓝天采集器(SkyCaiji),致力于网站数据自动化采集发布,系统采用PHP+Mysql开发,可部署在云端服务器,使数据采集便捷化、智能化、云端化,让您随时随地移动办公。
数据采集
支持多级、多页、分页采集,自定义采集规则(支持正则、XPATH、JSON等)精准匹配任意信息流,几乎能采集所有类型的网页,绝大多数文章类型页面内容可实现智能识别。
内容发布
无缝对接各类CMS建站程序,实现免登陆导入数据,支持自定义数据发布插件,也可以直接导入数据库、存储为Excel文件、生成API接口等。
自动化及云平台
软件实现定时定量全自动采集发布,无需人工干预!内置云平台,用户可分享及下载采集规则,发布供求信息以及社区求助、交流等。
蓝天采集器软件特色
1、可以使用这款工具帮助用户采集网站上的网页内容。
2、用户可以灵活的设置采集器的采集规则。
3、这款工具可以满足用户在日常工作中的各种采集需求。
4、可以采集网页中的各种内容,包括音频,视频以及小说等。
5、配置方式非常的简单,默认配置也可以满足绝大部分用户的使用需求。
6、用可以可以输入采集规则名称和目标网站编码。
7、页面渲染可自动加载出ajax内容,适用于js脚本较多的页面。
8、自动补全网址可以将网页中的相对地址转为绝对网址。
9、网址不排重,默认会将采集过的内容页排重处理,不排重适用于更新频繁的动态页面。
10、修改请求头信息以适应需要登录的、手机浏览的等界面。
蓝天采集器使用方法
1、登录采集器的后台之后,在页面左侧的边栏中查到“添加任务”选项并编辑。
2、然后在添加任务界面中按照提示填写相关的信息并保存。
3、任务创建完成之后,可以在任务底部进度条的采集设置选项中进入编辑界面。
4、您可以切换到“其实页网址”界面中选择添加起始页。
5、可以添加或者修改内容页网址,支持多级网址获取。
6、多级网址获取的方式比较适合在采集小说和电影的时候使用。
7、当需要抓取的内容不在当前页面,而是在与其关联的页面,您可以在此设置关联页的规则。
8、“添加默认”可以自动设置几个常见的字段,能满足大部分文章类型的站点采集。
蓝天采集器更新日志
1、优化了用户使用界面
2、修复了某些已知bug