Spider是埃帕Cooling搜索引擎的非结构与结构化数据的抓取与分析模块,也被称为"网络爬虫"或"网络蜘蛛"。
Spider已经被用于埃帕酷灵舆情服务平台,目前采集的数据源包括:
- 近万个新闻类站点,覆盖所有大型门户网站和代表性地方门户,涉及财经、汽车、互联网、社会、科技等众多行业;
- 近千个人气bbs,如百度贴吧、天涯、宽带山、中关村在线、东方财富、搜房网等,并可跟踪贴子的更新;
- 新浪、腾讯、网易、搜狐四大微博平台,包括用户信息,转发、评论数据的抓取;
- 开心网、人人网等社交网站;
- 优酷、土豆等社频网站;
抓取数据源
在非结构化数据方面,Spider包含了完整的HTTP/1.1规范的实现,能够识别并分析HTML,XML,RDF,OFFICE,PDF,Text等各类格式的文件
在结构化数据方面,Spider能够支持对Oracle,SQL Server,DB2,MySQL等主流关系型数据的抓取与分析。
抓取规则
Spider使用正则表达式实现了简单而高效的URL过滤,保证将大量无效的URL进行过滤,并提升抓取效率。
抓取策略
Spider支持深度优先、广度优先和最佳优先三种抓取策略。
数据抽取
Spider能够对常见的新闻类数据(正文、标题、发布时间、作者、来源)实现自动抽取。其它特定数据能够通过配置xpath实现定制抽取。
页面脚本支持
Spider能够通过webkit与IE的内核,实现页面脚本的支持,保证爬虫抓取到的页面与浏览器上展示的完全一致。
分布式爬虫
Spider采用高效的分布式任务调度算法(同时也遵循礼貌原则),可通过增加服务器来覆盖更多的数据源。同时,动态增加或删除节点,对集群无影响。
自动登陆
Spider通过认证管理器维护特点站点的认证信息,实现自动登陆功能,实现了对于某些需要授权进行访问的网页的采集。