专利名称:一种基于协作式爬虫的抓取网页数据的控制方法及
系统
专利类型:发明专利发明人:庞威
申请号:CN201710943646.7申请日:20171011公开号:CN107885777A公开日:20180406
摘要:一种基于协作式爬虫的抓取网页数据的控制方法及系统,包括:将抓取网页数据的过程分解为第一阶段和第二阶段;网络爬虫在第一阶段通过列表页配置文件只获取页面的URL路径信息;之后网络爬虫通过详情页配置文件,根据获取的各页面的URL路径信息,进一步获取各页面的详情数据,并对详情页进行关键内容的抓取,同时将获取的需要数据存储到数据库中,以完成第二阶段的流程;其中,在第二阶段中多个网络爬虫通过详情页配置文件获取各页面的详情数据的策略包括从详情待解析URL队列信息中得到首个URL路径信息后,便从详情待解析URL队列信息中去除该URL路径信息。本发明解决了从网页层次结构较深或详情页面较多的网站抓取数据花费时间过多,抓取效率低的问题。
申请人:北京智慧星光信息技术有限公司
地址:100080 北京市海淀区北四环西路56号辉煌大厦15层
国籍:CN
代理机构:北京国昊天诚知识产权代理有限公司
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容