(翻译)在Windows平台安装Heritrix

2008-02-06 – 10:04 pm

原文地址

网络遍历:在Windows平台安装Heritrix

简介

Heritrix是一个基于Java语言的开源网络爬虫项目,来源于Internet Archive ,在网络上的使用很广泛。

虽然Heritrix是用Java开发的,理论上来说是平台无关的,但是官方没有提供对于Windows平台的支持。这里给出了一个在Windows平台使用Heritrix的参考。

这里介绍的方法已经在WindowsXP SP2和WindowServer2003测试过,不能保证在更早的Windows平台运行。

安装

这里的介绍是基于Heritrix1.8.0 - Heritrix 1.10.1。更晚的版本有可能和这里的介绍不兼容。

  1. 取得最新的Heritrix http://crawler.archive.org 取得最新版本的Heritrix,解压到你需要的目录 (这里是c:\heritrix)。 你可以手工设置环境变量HERITRIX_HOME到这个目录,但实际上启动脚本会帮你做这个事。
  2. 取得最新的Windows平台的启动脚本 所有最近的Heritrix发布都已经包含了Windows平台的启动脚本,你也可以在这里找到最新的Windows启动脚本:
    最新的Windows启动脚本
    或者是最基本的启动脚本:
    最基本的启动脚本
    把它们拷贝到 HERITRIX_HOME\bin目录
  3. 拷贝缺省的profile 因为Heritrix的一个Bug,缺省profile不能从JAR中被加载。 一个临时解决办法是手工解压这个文件并把它拷贝到conf目录。将安装目录下的heritrix-?.?.?.jar文件( ?是版本号)拷贝并改名为zip后缀,使用Zip工具解压。将”profiles”目录拷贝到安装目录的conf目录下。(译者:我在这里遇到的不止是Profile目录的问题,而且需要把Modules目录也拷贝过来,否则在对于Job设置Module的时候会发生没有其他Module配置项可以选择的问题,因为Modules的选择文件在这个目录。而且我必须拷贝到Heritrix的安装目录才可以,conf目的才可以。原因查找中。我用的是1.12.1版本)
  4. 创建jmxremote.password 文件 拷贝HERITRIX_HOME\conf\jmxremote.password.template文件到HERITRIX_HOME\jmxremote.password,使用文本编辑工具打开它。到文件的底部,找到下面这行:
      monitorRole  @PASSWORD@  controlRole  @PASSWORD@

    改为:(这里的letmein是用户密码)

      monitorRole  letmein  controlRole  letmein
  5. 启动Heritrix 打开Windows命令行窗口,到你的Heritrix安装目录。使用下面的命令:
      \:>bin\heritrix --admin=admin:letmein

    现在你将会被提示(在大多数情况下)由于JMX密码文件的权限问题Heritrix不能启动。输入”Y”来解决权限问题,再输入”Y”来确认,重新启动Heritrix应该可以成功。(如果没有,请参考可能的问题.
    现在你可以通过 http://127.0.0.1:8080 使用用户名”admin”密码”letmein”来登陆系统。

可能的问题

最容易遇到的问题是 8080已经被其他的应用(或者另一个Heritrix实例)使用了。或者Profile目录或JXM密码文件不存在。你应该先检查这些。

(译者:在安装目录下的conf目录中有一个heritrix.properties文件,里面可以找到有关端口的设置)

  • 启动脚本试图修复JMX权限问题,但是你还是遇到权限错误:jmxremote.password 文件的所有人不是当前用户的时候可能遇到这个问题。你应该在文件属性->安全->高级下面来检查这个问题。
  • Java问题: 推荐使用最新的Java版本来运行Heritrix。启动脚本会试图检测你的java版本,但是如果你有不止一个JVM存在的话,最好是通过JAVA_HOMEJAVACMD 来只是Heritrix使用哪一个JVM。

参考资料

Popularity: 39% [?]

Leave a Reply

You must be logged in to post a comment.