上海埃帕信息科技有限公司

信息采集产品模块(Spider)

Spider是埃帕Cooling搜索引擎的非结构与结构化数据的抓取与分析模块，也被称为"网络爬虫"或"网络蜘蛛"。

Spider已经被用于埃帕酷灵舆情服务平台，目前采集的数据源包括：

功能

抓取数据源

在非结构化数据方面，Spider包含了完整的HTTP/1.1规范的实现，能够识别并分析HTML，XML，RDF，OFFICE，PDF，Text等各类格式的文件

在结构化数据方面，Spider能够支持对Oracle，SQL Server，DB2，MySQL等主流关系型数据的抓取与分析。

抓取规则

Spider使用正则表达式实现了简单而高效的URL过滤，保证将大量无效的URL进行过滤，并提升抓取效率。

抓取策略

Spider支持深度优先、广度优先和最佳优先三种抓取策略。

数据抽取

Spider能够对常见的新闻类数据（正文、标题、发布时间、作者、来源）实现自动抽取。其它特定数据能够通过配置xpath实现定制抽取。

页面脚本支持

Spider能够通过webkit与IE的内核，实现页面脚本的支持，保证爬虫抓取到的页面与浏览器上展示的完全一致。

分布式爬虫

Spider采用高效的分布式任务调度算法（同时也遵循礼貌原则），可通过增加服务器来覆盖更多的数据源。同时，动态增加或删除节点，对集群无影响。

自动登陆

Spider通过认证管理器维护特点站点的认证信息，实现自动登陆功能，实现了对于某些需要授权进行访问的网页的采集。

上海埃帕信息科技有限公司

021-33848989

021-33848989 转 818

contact@ape-tech.com

上海市浦东新区东方路2981号东方金融园4C