智能和简单的Web爬虫1.2.0_Smart and Simple Web Crawler 1.2.0下载地址

点这里下载 → 下载地址
相关Tags:

智能和简单的Web爬虫1.2.0_Smart and Simple Web Crawler 1.2.0软件简介

智能和简单的框架,抓取一个网站

智能和简单的网络爬虫是一个有用的工具,可以实现在你的应用程序和运行在两种不同的模式。

下面是一些主要特点的“智能和简单的Web爬行”:

·集成Lucene的神器出山:www.shenqi73.com支持
·在自己的应用程序,它是简单的整合框架
·履带可以从一个或一个链接列表,

两种爬行型号可供选择:
·最大迭代:抓取一个网站,通过数量有限的链接:一个小的内存占用和CPU使用率的快速模型。
·最大深度:一个简单的图形模型解析器,而不记录的输出链接。快最大的互动。互动模型。

·接受过滤功能,限制被抓取的链接
·核心接受过滤器可供选择:ServerFilter,BeginningPathFilter和RegularExpressionFilter
接受过滤器结合使用AND,OR和NOT可能
·可插拔的http连接库的HttpClient(默认)和HTMLParser的(可选)
·自己的听众可以在解析过程中添加
该框架是一个基于GUI的工具,以反映一个网站,浏览的网站离线!

要求:

·相关 Java 1.4
·履带式1.2.0.jar
的commons-httpclient的3.1.jar公地编解码器1.3.jar和commons-测井1.1.1.jar

此版本中的新功能:

·降低带宽成本,从而避免了两次请求页面的DownloadEventListener(抓取和下载)
·改进的编码支持通过检查的字符集的响应头
·MaxDepthModel支持的最大迭代次数(2048默认情况下,迭代)
·SimpleHttpClientParser和DownloadHelper大关的一个错误的状态,如果一个IOException异常发生PageData
·DownloadHelper和DownloadEventListener的设定的最后修改文件的最后修改头的基础上邮票
·LinkFilterUtil支持阵列的ILinkFilter,AND和OR现在
·LuceneParserEventListener indexDocument的废弃,INDEXFILE公众,让不同的HTML解析器
·审查和更新的例子页
·并发问题固定在MultiThreadedCrawler
·问题在LinkGraphParserEventListener固定,从而忽视了新的外出时,他们还无法抓取的链接
·更新到Lucene 2.3.2
·FindBugs的报告整合
·Checkstyle,Lint4J和FindBugs修复
·更新于JUnit 4.4
·的实验命令行工具...

随便看看

软件简略信息
  • 软件大小:1.07 MB
  • 下载次数:99
  • 更新时间:2013-03-02 04:55:00
  • 不能下载请报告错误,谢谢
本类热门软件