(翻译)SEO入门指南(2)-搜索引擎如何工作
2008-01-04 – 2:20 pm搜索引擎有一些核心技术以实现为用户进行搜索的功能
- 遍历网络
搜索引擎使用被称为“机器人”或“蜘蛛”的自动程序来遍历网络上的每一个链接来操作World Wide Web的网页信息。初步的估算现存的网页数量在200亿以上,搜索引擎可以遍历其中大约80到100亿的网页。 - 文档索引
当一个网页被遍历以后,其中的内容会被“索引”——存储在一个非常巨大的索引数据库中。这些索引会被有效地管理以满足用户搜索的需求。 - 响应用户搜索
当一个搜索的请求发送给搜索引擎后(这样的请求每天会有亿万个),搜索引擎根据索引找出相关的文档。例如,在Google搜索“SEO技术”可以得到大约1,550,000个结果,而搜索“SEO 先进技术”可以得到大约158,000个结果。 - Ranking结果
当搜索引擎确定一个文档符合搜索的要求后,引擎的算法开始计算每一个符合的文档来决定哪一个更加符合用户的需要。根据运算的结果对这些文档进行排序。
搜索引擎的系统差不多是世界上最复杂和高效的计算系统,时时刻刻进行着数以百万计的计算来满足用户的搜索请求。
搜索引擎友好的链接方式
有些类型的链接组织方法可能会阻止搜索引擎访问你的网站的部分或全部内容。搜索引擎的“蜘蛛”浏览你的网站,它根据网站上的链接来发现网站的内容,了解最新的变化。复杂的链接,深深的网站结构和很少的独特内容,或者有“蜘蛛”不可访问的链接都会对你的网站造成影响。
可能会引起问题的链接:
- 有两个以上动态参数的URLs。例如: http://www.sitemasterkit.com/test.php?id=4&value=34 (蜘蛛可能不会访问这样的链接,因为这样的链接一般是错误或者不是用户需要直接访问的)。
- 一页上有超过100个链接(蜘蛛可能不会访问其中的全部)
- 那些需要从主页上点击3次以上才能到达的网页。(除非这个网站有很多的外部链接,否则蜘蛛可能忽略这些网页)
- 那些需要SessionID或者Cookie才能访问的网页(蜘蛛不能保持Session或Cookie的数据,所以不能访问这些网页)
- 那些包含Frame的网页,可能使蜘蛛没法分清到底哪个才是有效的网页。
可能会影响访问的链接:
- 那些只能通过人工操作(Select或按钮)才能访问的网页
- 那些需要从下拉菜单访问的网页。
- 那些只能通过Search才能到达的网页。
- 那些在robots.txt里面阻止蜘蛛访问的网页。
- 那些需要登录才能访问的网页。
- 那些被重指向的网页。
确保所有网页都可以被访问的方法是为蜘蛛“指路”,为每一个希望到达的网页建立链接。请记住如果一个网页不能通过网站的主页(大多数蜘蛛从这里开始遍历网站),这个网页很可能不会被蜘蛛访问。一个正确的站点地图(sitemap)可以在很大程度上解决这个问题。
现代的商业搜索引擎的基础是信息检索技术(information retrieval -IR)。这项技术兴起与20世纪中期,大量地在图书馆、研究机构和政府实验室中使用。信息检索技术基于两个判断条件:
符合性(Relevance) – 这个文档中找到的内容与用户搜索的目的符合的程度。如果用户查找的内容在文档中多次重复出现,或者在标题和重要提示中出现,则这个文档更符合用户的需求。
流行性(Popularity) - 外界对这份文档的引用的数量。
这两个条件被引进到网络搜索中,被用于文档内容和链接的分析。
在文档分析中,搜索引擎查找是否要查找的内容在文档的重要位置出现。标题,meta数据区,标题,文档内容。搜索引擎也试图分析文档的质量(通过非常复杂的算法,远远超出了本文的范围)
在链接分析中,搜索引擎不止简单统计到这个网站或网页的链接的数量,同时分析对这个网站或链接的描述。而且搜索引擎也分析这些链接的关系(通过历史记录,站点注册记录,和其他资源),哪些链接可以被信任(例如来自.edu或.gov的链接的可靠性更高一些),还有来源网页的内容是否和被链接的网页有一定的关系。(比如本站www.sitemasterkit.com是讨论网站相关技术的,那样本站对于另一个讨论网站技术的链接自然比本站对于一个电影讨论站点的链接有意义得多)
对于文档和链接的分析基于数以百计的各种参数,不同的搜索引擎的算法各有区别。这些算法最终决定了你的文档和网站的得分,(理想状态下)将搜索结果按照重要性从高到低显示给用户。
搜索引擎可以信任的数据
一个搜索引擎对网站链接的结构和网页的内容进行索引,这里有两种信息——这个网站/网页对自己的描述和外界对这个网站/网页的描述。 因为网络是一个商业化的场所,有很多对于SEO的方法。搜索引擎也知道不能完全相信网上的数据。所以那些可以简单通过设置meta标志来控制搜索结果的时代(大约1998年以前)已经一去不复返了。
理论上来说,如果有千百个其他的网站链接到你的网站,你的网站应该是比较重要和有价值的。如果这些链接到你的网站是比较流行和重要的(并且可信的),他们为你的网站带来的信任是被成倍放大的。从那些象NYTimes.com,Yale.edu, Whitehouse.gov,这样搜索引擎比较信任的网站给你带来的链接将大大提高你的网站在搜索引擎心目中的地位。反之,如果链接到你的网站的都是一下不那么可信的网站,或者就是一些交换链接的网站,搜索引擎会大大降低这些链接的价值。
最著名的基于链接对于网站进行评价(Ranking)的系统就是Google——PageRank。 PageRank,Google在自己网站上对它的描述如下:
PageRank relies on the uniquely democratic nature of the web by using its vast link structure as an indicator of an individual page’s value. In essence, Google interprets a link from page A to page B as a vote, by page A, for page B. But, Google looks at more than the sheer volume of votes, or links a page receives; it also analyzes the page that casts the vote. Votes cast by pages that are themselves “important” weigh more heavily and help to make other pages “important.”
PageRank 基于网络独特的民主性,通过分析指向一个网页的链接情况来评价一个网页。从根本上来说,Google把从网页A到网页B的链接作为网页A投向网页B的一票。但是Google做的不仅仅是简单统计票数,它也分析投票的网页A,比较重要的网页A投出的票也会使网页B变得更重要。
Google使用了PageRank “代理” 值,将真实的PageRank通过对数运算成为一个0到10间的值,来标识这个网站的级别((1最低,10最高)。查看一个网页的PageRank最简单的方法是通过Google工具条。(看了看我的站长工具箱,www.sitemasterkit.com,本以为可能是0呢,结果是“没有pagerank信息”,呜呜)
PageRank从基本上是一个简略的基于指向一个网页的链接来评估一个网页的价值的系统。因为PageRank是在90年代后期引入的,已经有和很多更先进的系统。因此,在现代的SEO中,PageRank的价值已经有限了。有PR8的网页可能出现在PR3或PR4的站点以后。另外,Google工具条上显示的信息每3-6个月才更新,这使得PR值的价值更低。整体地考虑链接的价值比关注PageRank更重要。
这里有一个简短的列表描述了搜索引擎可能用来判断一个链接的价值的参数:
- 链接本身的描述文字 – 这是可见的文字用来描述链接的内容。例如,短语“站长工具箱”是一个有效的描述,但是我更喜欢“站长工具箱——SEO基础知识”这样的描述。“站长工具箱”可以指向网站的主页www.sitemasterkit.com,而第二个链接可以指向网站上特定的网页或文章。当有千百个这样的链接指向www.sitemasterkit.com的时候,搜索引擎会建立“站长工具箱”和www.sitemasterkit.com紧密链接的印象,这样即使网站上没有“站长工具箱”的字样(实际现在也没有,呵呵),搜索引擎也可以把用户正确引导到目的。
- 这个网站的流行性 – 如果到一个网站的链接很多并且很有价值,这个网站就比较流行,同样这个网站给与其他网站的链接价值也会比较高。因此,如果有从www.sina.com或www.pku.edu.cn来的站长工具箱www.sitemasterkit.com的链接,会增加站长工具箱的价值,这样从这里出去的链接价值也就比较高。这是PageRank做得比较好的一个地方。
- 网站在相关领域的流行性 – 在上面的例子里面,衡量的网站基于整个网络的流行性。在搜索引擎技术提高以后,它可以了解在网络上存在不同内容的领域。在相关内容的网站间的链接的价值比不相关网站见的链接要高。
- 链接周围的文字内容 – 搜索引擎意识到在链接周围的文字对于链接比网页其他位置的文字对于这个链接更有价值。 所以,在文章主题内容中的一个链接的价值比在网页侧边或页脚的链接要大。
- 链接页的主题内容 – 包含这个链接的网页的内容也会影响搜索引擎对于这个链接价值的判断。因此,从一个讨论网站技术的网页对于站长工具箱www.sitemasterkit.com的链接比一个讨论电影的网页的链接价值要高。
对于链接的分析可以使得搜索引擎确定信息的可信性。在学术上,更多的引用表示更重要。但是在一个商业世界里,太多的其他因素可以影响对于事实的判断。因此,在现代的WWW世界里,应用的来源,风格,内容都可以影响对于结果的判断。
对于超链接的分析
一个标准的超链接是下面的样子:
<a href=”http://www.sitemasterkit.com”>站长工具箱</a>
站长工具箱
在这个例子里,代码指出文字“站长工具箱”(被称为链接的“锚文本”)应该被链接到网址www.sitemasterkit.com。搜索引擎可以分析这段代码,认为网页www.sitemasterkit.com和文本“站长工具箱”是有联系的。
一个更复杂一点的HTML代码的例子里面会有更多的参数:
<a href=”http://www.sitemasterkit.com” title=”Rand’s Site” rel=”nofollow”>站长工具箱</a>
站长工具箱
在这个例子里,新的参数“title”和“rel”可以影响搜索引擎对于这个链接的处理,尽管外表看起来这个链接没有变化。“title”参数提供了更多的信息,告诉搜索引擎www.sitemasterkit.com不仅仅和“站长工具箱”有关系,而且是一个网站的首页。“rel”参数原来是用来描述当前网页和链接指向的网页的关系的,但是最近引入的“nofollow”参数使得它可以提供更多的功能。
“Nofollow” 是一个专门给搜索引擎使用的标志。它用来告诉搜索引擎这个链接不应该被看作是本网页向链接指向的网页的“投票”。近来,3个主要的搜索引擎(Yahoo!,MSN和Google)都可以支持“nofollow”。其他也有一些搜索引擎还不支持,会把它忽略。
有些链接是一个图片而不是文本:
<a href=”http://www.sitemasterkit.com”><img src=”sitemasterkit.jpg” alt=”站长工具箱“></a>
这个例子展示了如果把一个图片链接到一个地址。“alt”属性,被设计用来在图片不能显示的情况下代替图片,或者在一些残疾人友好的软件中可以将其读出。搜索引擎可以处理这个属性,将其作为分析这个链接的参考信息。
在网站上也可能有其他类型的链接,但是并不对蜘蛛有影响也没法被搜索引擎处理。比如链接指向的重定义,JavaScript或其他的一些技术。除了标准的<a href=”URL”>text</a> 格式以外的其他方法都可能多多少少地遇到问题(取决于不同搜索引擎的实现)。
<a href=”redirect/jump.php?url=%2Fgro.zomoes.www%2F%2F%3Aptth” title=”http://www.sitemasterkit.com/” target=”_blank” class=”postlink”>站长工具箱</a>
在上面这个例子里,使用了重定向的链接,这样的链接需要对于脚本的处理,一般的搜索引擎不喜欢这样的链接。<a href=”redirectiontarget.htm”>站长工具箱</a>
在这个例子里,假设使用了JavaScript进行重定向(代码没有在这里展示)。在网站使用JavaScript可以使网站变得丰富多彩,但是搜索引擎并不喜欢这样。
理解这些很重要,虽然从表面看不出区别,但是不同的链接形式会对搜索引擎产生不同的影响。
anatomy and deployment of links.
当用户查找信息的时候,搜索引擎使用自己的算法来决定返回什么样的结果给用户,并且决定这些结果的排序。但是搜索引擎做的不仅仅是简单地排列结果,而是通过一套复杂的算法,以理解网页上内容的真正含义,将真正有意义的信息按照对用户的重要程度返回给用户(虽然一直做得有些问题,呵呵)。例如一个用户查找“贷款 提供者”,可以把银行相关的信息返回,虽然用户并没有直接查找“银行”。
搜索引擎根据关键字或短语在网页或网站出现的频繁程度来决定这个网页或网站与关键字或短语的相关性。如果出现的比较频繁,搜索引擎就认为相关程度比较高。
从垃圾中搜索有用的信息
在传统的信息检索领域,没有商业因素对于算法的影响,使用很简单而且直接的算法就可以得到相对准确的结果。但是在互联网的世界,情况正好相反。商业因素使得大家都在尽量影响搜索引擎的SERPs(Search Engine Results Pages)。数以千计的人员(不幸的,大部分是做SEO的)尽力在找办法影响SERPs,来提高他们自己(或服务的)网站的排名。
最坏的一种情况在业界被称为“垃圾搜索”( search spam)—— 网页或者网站只有非常少的有效信息,却包含大量的向其他网页的链接、重定向或是拷贝的内容。这些网页对于进行搜索的用户是没有什么实际价值的,搜索引擎也在努力在搜索结果中去除这样的网页。这样的网页和垃圾邮件基本一样,没有保留的必要。
另外一种“垃圾”的网页是使用了不正确的技术,影响了网页在搜索引擎中的排名,使得不那么有价值的网页在搜索结果中排到更有价值的网页前面,这样对于进行搜索的用户也是不公平的。搜索引擎也在努力改进算法以削除这样的网页的影响。但是情况总是“魔高一尺道高一丈”,或者反之。搜索引擎在优化算法,同时SEOr也子优化SEO的方法。这将是一种无期的战争。
Popularity: 16% [?]