Archive for the ‘搜索引擎’ Category

(转)搜索引擎的基本原理与实现

星期一, 05月 5th, 2008

本文主要探讨如何实现类似baidu和google的搜索引擎,这里指的是全文检索搜索引擎,也就是通常所说的搜索引擎,用于查找网络上的所有资源,而搜索引擎事实上共分3种,另外两种分别是:目录搜索引擎(代表是Yahoo)、元搜索引擎。对于这两种本文不做讨论。目前占领搜索引擎这个领域主要有baidu、google。

Popularity: 5% [?]

阅读全文...


(转)如何测试搜索引擎的索引量大小

星期日, 05月 4th, 2008

首先需要注意的是,对于搜索引擎,网页的索引量和抓取量是不同的概念。搜索引擎的网页抓取数量一般都要远大于索引量,因为抓取的网页中包括很多内容重复或者作弊等质量不高的网页。搜索引擎需要根据算法从抓取的网页当中取其精华,去其糟粕,挑选出有价值的网页进行索引。因此,对用户而言,搜索引擎的索引量大小才更有意义。

Popularity: 4% [?]

阅读全文...


(转)2008年最值得期待的八大垂直搜索引擎

星期三, 04月 23rd, 2008

被称为“搜索年”的2007年已经过去,进入2008年,搜索引擎仍然持续走热。据艾瑞咨询公布的最新统计数据显示,2007年搜索引擎广告市场 实现爆发式增长,2007年同比增长率由2006年不足50%快速增超过100%,总体市场规模比重已经达到27.3%,相比2006年的23.0% 上升了4.3个百分点。Khan预计全球搜索引擎收入将从2007年的262亿美元升至2008年的305亿美元,上升幅度超过16%。

百度与谷歌占有的搜索引擎市场比重仍然比较大,但是对于中国目前搜索引擎市场尚处于发展阶段的实际情况来看,仍然不乏创造者进入搜索引擎领域。快速成长 的搜索引擎市场充满了变数,垂直化、细分化的搜索引擎由于更贴近用户体验而迅速成为2008年被关注的焦点。几乎在各个产业细分的领域,我们都可以发现一 个迅速成长起来的搜索引擎,它们引领了垂直搜索的潮流,它们用看未来的眼光和敢为天下先的情怀,在中国乃至世界的互联网大潮里破浪前行。
有道、SOSO、搜狗的崛起使中国综合搜索引擎市场进入战国时代,而执着在垂直细分领域的搜索引擎厂商也看到了市场的第一缕阳光,并期待着朝阳必然升起 的时刻。纵观中国,我们用一种战略的眼光审视那些值得期待的垂直搜索引擎厂商,在王婆卖瓜和众说纷纭中擦亮眼睛、理清脉络,把握中国年里垂直搜索网站的走 势,期待那些厂商可以带给我们全新的互联网搜索体验。

Popularity: 7% [?]

阅读全文...


(转)Nutch 0.8笔记–Google式的搜索引擎实现

星期四, 02月 21st, 2008

Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。

Popularity: 19% [?]

阅读全文...


(转) Heritrix爬虫和Nutch爬虫的比较

星期四, 02月 21st, 2008

对于Heritrix和Nutch这两个比较出名的开源网络爬虫的比较。

Popularity: 27% [?]

阅读全文...


(翻译) 搜索引擎-17个Google不具有的创新功能

星期六, 02月 9th, 2008

不断有大量的新的搜索引擎出现 (最新的统计有100多个 ) - 每一个都有一些先锋的,创新的技术。这里有17个引人注目的创新,我们认为它们代表着未来的方向。它们主要有以下4类:查询预处理(Query Pre-processing);信息源(Information Sources); 算法优化(Algorithm Improvement); 结果展示和后处理(Results Visualization and Post-processing)。

Popularity: 27% [?]

阅读全文...


(翻译)在Windows平台安装Heritrix

星期三, 02月 6th, 2008

Heritrix是一个基于Java语言的开源网络爬虫项目,来源于Internet Archive ,在网络上的使用很广泛。
虽然Heritrix是用Java开发的,理论上来说是平台无关的,但是官方没有提供对于Windows平台的支持。这里给出了一个在Windows平台使用Heritrix的参考。

Popularity: 41% [?]

阅读全文...