Win Web Crawler是一个强大的网络抓取工具,它能够从网址、网站、元标记、网络目录、标签之间的纯文本、搜索结果、页面大小和来自文件的URL列表中高速,多线程,准确的提取,并直接将数据保存到磁盘文件中,程序有许多过滤器来限制会话,例如URL过滤器,文本过滤器,数据过滤器,域过滤器,日期修改等,欢迎下载。
软件特色:
1、关键词
“Win Web Crawler”蜘蛛顶级搜索引擎用于正确的网站,并从中获取数据。
2、快速开始
“Win Web Crawler”将查询所有流行的搜索引擎,从搜索结果中提取所有匹配的URL,删除重复的URL,最后访问这些网站并从中提取数据。
3、深度
在这里,您需要告诉“Win Web Crawler” - 在指定的网站中挖掘多少级别。如果您要“Win Web Crawler”保留在第一页内,只需选择“仅处理第一页”即可。“0”的设置将在整个网站中处理和查找数据。设置“1”将仅在根目录下处理具有关联文件的索引或主页。
4、Spider Base URL
使用此选项,您可以告诉“Win Web Crawler”来始终处理外部站点的基本URL。
5、忽略网址
设置此选项以避免重复的URL,如
//www.xyz.com/product/milk/
//www.xyz.com/Product/Milk/
这两个URL相同。当您设置为忽略URL的情况下,“Win Web Crawler”将所有URL转换为小写,并可以删除如上所述的重复URL。但是 - 某些服务器区分大小写,您不应该在这些特殊站点上使用此选项。
|