我爱Aspx >> Asp.Net >> Google工程师详述Google的搜索结果排列算法如何查找包含了用户提问的网页?让我们返回到上面举的“civil war”例子。单词“civil”在编号为3、8、22、56、68和92的文件上,单词“war”在编号为2、8、15、22、68和77的文件上,我们可以在网页上显示文件并寻找包含两个单词的文件(从下表中可以看出是8、22和68号文件)。
单词civil 3 8 22 56 68 92
单词war 2 8 15 22 68 77
两个单词都出现 8 22 68
包含了一个单词的文件列表被称为“文件标识列表”,查找包含两个单词的文件被称为“文件标识列表的交集”。
评定搜索结果
有了包含用户提问的网页后,就该按照相关性评定网页了。Google使用了很多技术,其中 PageRank算法是最有名的。PageRank评定的是两种事情:从网站到某一网页有多少个链接,提供链接的网站的排名。使用PageRank,来自 CNN和纽约时报网站的链接的价值,是很多不太有名网站的两倍。
除了PageRank外Google还使用了很多其他技术,例如一份文件所包含的 “civil”和“war”两个单词靠的很近,就比只使用了“war”单词的包含“Revolutionary War”(独立战争)的文件相关性要大的多。另外在题目中出现了“civil war”的网页,它的相关性就比题目为“19th Century American Clothing”(19世纪的美国服装)要重要的多。同样如果“civil war”在网页上出现了数次,比出现一次的网页要相关的多。
Google的目的是要找到知名度和相关性都大的网页。如果两个网页出现匹配提问的信息数量几乎一样,我们常常会选择更有名网站的链接。但如果其他方面表明一个网页更为相关,也会选择更少链接或更低排名的网页。例如,一个网页全篇都是讲“南北战争”的内容,会比只是略微提到“南北战争”的网页更为有用,即使这个网页是出现不太有名的网站上。一旦我们有了文件的列表和分值,就会选择最高分值、最匹配的文件。
Google从包含了提问单词的每一份文件中提取几句话作为摘要显示,接着将排好的URLs和摘要显示在搜索结果上。正如你所知道的运行一个搜索器需要大量的计算资源。每一次搜索需要500台以上的电脑一起工作,搜索的时间还不到半秒钟。
Ҷƪл˵?
GOOGLE 提供的在线翻译 感谢GOOG..[05-20]
GOOGLE 提供的在线翻译 感谢GOOG..[05-20]
使用VB.NET实现 Google Web Serv..[05-20]
手把手教你制作Google Sitemap(详..[05-20]
Google Sitemap原来支持普通Feed[05-20]
google生活搜索上线啦[05-18]
ASP利用Google实现在线翻译功能[05-12]
使用Manual for UrlRewriteFilte..[05-12]
百度主题推广和Google Adsense[05-11]
G-Browser——会是Google牌浏览器..[05-01]
用WebService和javascript实例类..[05-20]
如何执行用字符串组成的SQL语句并..[05-20]
JavaScript 生成随机数[05-20]
更改ASP.NET问参的值,也就是Quer..[05-20]
远程桌面连接[5.2.3790]msrdpcli..[05-20]
一口气申请了几个免费.be域名[05-20]
使用数据2分处理的通用分页存储过..[05-20]
IIS中的 MIME类型[05-20]
SQL Server存储过程编程经验技巧[05-20]
SQL Server 索引结构及其使用(三..[05-20]