Archive for the ‘Heritrix’ Category
星期一, 03月 31st, 2008
Heritrix缺省使用的QueueAssignmentPolicy是HostnameQueueAssignmentPolicy,就是基于主机名区分。这样在主要抓同一个网站的情况下,只有一个线程工作。这里讨论了对于这个问题的一些基本测试和使用自己的QueueAssignmentPolicy替换缺省Policy的方法。仅仅是一些初步的研究,具体那个算法适合不同的应用还有区分不同的需要来确定。
Popularity: 13% [?]
阅读全文...
Posted in Heritrix | No Comments »
星期二, 03月 18th, 2008
这里列出了网上流行的几个开源Java网络爬虫和简单介绍。
Popularity: 22% [?]
阅读全文...
Posted in Heritrix | No Comments »
星期一, 03月 10th, 2008
在Eclipse环境中配置好我的Heritrix后,就可以使用Heritrix了。很快我就遇到了第一个问题(实际是两个,但是只能先解决第一个了)。我在新建Job的时候,按照书上说的,先选Jobs,再With defauls,再输入名字,然后”Modules”,这时候我发现我的界面和书上说的不一样。书上说这个界面里面应该是显示现在已经缺省设置的 Scope,Frontier,PreProcessor,Fetcher,Extractor,Writer,PostProcessor,然后用户可以选择添加或者替换这些Class的。但是我的界面里面只显示了现在设置的Class,可以改变次序,可以删除。但是所有本来应该是添加新Class或者改变现在选择项目的功能在我的界面上都没有。怎么办呢?
Popularity: 42% [?]
阅读全文...
Posted in Heritrix, 原创 | 1 Comment »
星期一, 03月 10th, 2008
最近由于对搜索引擎有兴趣,买了一本《开发自己的搜索引擎-Lucene 2.0 + Heritrix》。看到其中介绍的强大的Heritrix,就决定开始研究一下。遍历了网上,发现到处有求助如何在Eclipse环境下配置Heritrix的帖子,但是没有解答。决心自己花一点时间来解决这个问题。
Popularity: 43% [?]
阅读全文...
Posted in Heritrix, 原创 | No Comments »
星期四, 02月 21st, 2008
对于Heritrix和Nutch这两个比较出名的开源网络爬虫的比较。
Popularity: 27% [?]
阅读全文...
Posted in Heritrix, Nutch, 搜索引擎 | No Comments »
星期三, 02月 6th, 2008
Heritrix是一个基于Java语言的开源网络爬虫项目,来源于Internet Archive ,在网络上的使用很广泛。
虽然Heritrix是用Java开发的,理论上来说是平台无关的,但是官方没有提供对于Windows平台的支持。这里给出了一个在Windows平台使用Heritrix的参考。
Popularity: 41% [?]
阅读全文...
Posted in Heritrix, 搜索引擎 | No Comments »