Archive for the ‘Heritrix’ Category

Heritrix中定制Queue-assignment-policy的相关研究

星期一, 03月 31st, 2008

Heritrix缺省使用的QueueAssignmentPolicy是HostnameQueueAssignmentPolicy,就是基于主机名区分。这样在主要抓同一个网站的情况下,只有一个线程工作。这里讨论了对于这个问题的一些基本测试和使用自己的QueueAssignmentPolicy替换缺省Policy的方法。仅仅是一些初步的研究,具体那个算法适合不同的应用还有区分不同的需要来确定。

Popularity: 13% [?]

阅读全文...


(转)几个Java的开源爬虫

星期二, 03月 18th, 2008

这里列出了网上流行的几个开源Java网络爬虫和简单介绍。

Popularity: 22% [?]

阅读全文...


Heritrix的Modules界面不能改变选择项的问题(涉及Scope, Frontier, PreProcessor, Fetcher, Extractor, Writer, PostProcessor)

星期一, 03月 10th, 2008

在Eclipse环境中配置好我的Heritrix后,就可以使用Heritrix了。很快我就遇到了第一个问题(实际是两个,但是只能先解决第一个了)。我在新建Job的时候,按照书上说的,先选Jobs,再With defauls,再输入名字,然后”Modules”,这时候我发现我的界面和书上说的不一样。书上说这个界面里面应该是显示现在已经缺省设置的 Scope,Frontier,PreProcessor,Fetcher,Extractor,Writer,PostProcessor,然后用户可以选择添加或者替换这些Class的。但是我的界面里面只显示了现在设置的Class,可以改变次序,可以删除。但是所有本来应该是添加新Class或者改变现在选择项目的功能在我的界面上都没有。怎么办呢?

Popularity: 42% [?]

阅读全文...


在Windows平台上配置Heritrix的Eclipse开发环境

星期一, 03月 10th, 2008

最近由于对搜索引擎有兴趣,买了一本《开发自己的搜索引擎-Lucene 2.0 + Heritrix》。看到其中介绍的强大的Heritrix,就决定开始研究一下。遍历了网上,发现到处有求助如何在Eclipse环境下配置Heritrix的帖子,但是没有解答。决心自己花一点时间来解决这个问题。

Popularity: 43% [?]

阅读全文...


(转) Heritrix爬虫和Nutch爬虫的比较

星期四, 02月 21st, 2008

对于Heritrix和Nutch这两个比较出名的开源网络爬虫的比较。

Popularity: 27% [?]

阅读全文...


(翻译)在Windows平台安装Heritrix

星期三, 02月 6th, 2008

Heritrix是一个基于Java语言的开源网络爬虫项目,来源于Internet Archive ,在网络上的使用很广泛。
虽然Heritrix是用Java开发的,理论上来说是平台无关的,但是官方没有提供对于Windows平台的支持。这里给出了一个在Windows平台使用Heritrix的参考。

Popularity: 41% [?]

阅读全文...