关于站长工具箱
从1997年春节前买了第一个33.6K的Modem(可能对于现在的大多数人属于古董了,现在还记着94年见到的第一个1X的SonyCDROM,当时要3000多,呵呵)开始上网已经10年了。中间想过无数次自己做个网站,或者象90年代末流行的叫法——个人主页。但是我是一个懒人,总是想得很多,实践很少。结果到现在真的开始动手,已经10年以后了。
开始买了一些书,在网上恶补了一下建站相关的知识,发现网站的技术虽然对于我这种C/C++的软件开发人员属于小儿科,但是涉及的领域却是前所未有的广泛。从HTML,CSS这些页面描述语言,到PHP,JS这些脚本开发,到MySQL数据库,Apache服务器,CMS系统象Joomla!,WordPress,再加上外观设计,图像处理,SEO等等。整个过程中需要不断地查找各种技术。互联网真的是一个好东西,基本所有的东西都可以找到答案。但是互联网带来的问题就是因为什么都可以找到,所以每次用的时候找,用完就丢掉了。过了一段想用发现已经忘了,还要再去找。
于是决定建这么一个网站,把自己用过认为有帮助的文章都放在一起,以便以后好用。也希望有偶尔光临这里的朋友们在这里能发现一些能对你们有帮助的东西。
为了网站研究了SEO,对于SEO的认识还比较肤浅,但是站长开始对搜索引擎感兴趣了。买了一本Lucene2.0+Heritrix开发自己的搜索引擎,开始学习了。
2008年5月5日(对前面一段的总结)
研究了一段时间之后,决定自己做一个垂直搜索引擎玩玩。方向是Job、IT产品信息。考虑到Job的目标网站比较确定,就是3大网站了,所以从Job搜索开始。
先看了Heritrix。发现对于我的需求,Heritrix有点太Heavy了。它真的是功能很完善,而且考虑了很多扩展性,可以把整个网页(网站)抓下来。但是如果做垂直搜索的话,因为目标网页的结构比较固定,所以并没有这么大的需求。而且Lucene2.0+Heritrix这本书关于Heritrix的使用有问题,他实际是就用了Heritrix的抓取功能,把网页抓到本地硬盘上。再用一个软件去读硬盘上的文件去分析。实际这个功能完全没必要用Heritrix。
后来又研究了HTMLParser,它可以把HTML文件里面的内容整理成一棵树,这样你可以很方便地操作上面的信息。但是发现实际我也不需要,对于垂直搜索,目标网页结构确定的话,应该用 Lucene2.0+Heritrix里面分析本地文件的方法,直接字符串比较确定目标信息。这样的好处是简单又快,缺点是目标网页结构改了你就要改你的代码。但是因为我下面的兴趣主要还是学Lucene,所以先这样了。
Popularity: 5% [?]