我爱Aspx >> C#.Net >> 中文搜索引擎的研究目前很多高校语言学的硕士论文都写的这个
baidu用的自己开发分词方法,google用的第3方的分词方法。。
海量中文分词挺不错,不过是商业的。。
猎兔的中文分词方法也不错,不过是.so的,无法研究
3。索引库
搜索引擎都不会用已经成型的数据库系统,他们是自己开发的类似数据库功能的东西。
搜索引擎需要保存大量网页信息,快照,关键字索引(建议应该也保存网页的截图,我在研究中),所以数据量特别大。
4。网页摘要的提取
网页摘要是指对某个网页信息的总结(初中语文课,老师经常让总结文章的中心思想,就这个意思,我最怕老师提问让我总结,人总结都这么难,现在让计算机总结,天啦),搜索引擎搜索结果里,往往会有网页标题下面,会有些介绍,让搜索者很容易的发现此文章是不是想要的信息。
5。网页相似度
网上经常有很多内容一样的网站,比如说同一条新闻,各大门户网站都会发布,它们的新闻内容都是一样的。还有一些个人网站,尤其是偷别人网站资料的网站,和别人网站搞的一模一样(我搞过,在此ps下自己),这样的网站毫无意义,搜索引擎会自动区分,降低其权值(baidu最狠,直接封站,我尝试过)。
目前我研究的计算网页相似度的几种方法如下:
1) 根据网页摘要来比较,如果多个网页摘要的md5值一样,证明这些网页有很高的相似性
2) 根据网页出现关键词,按照词频排序,可以取N个词频高的,如果md5值一样,证明这些网页有很高的相似性。
google baidu 的新闻,是对此技术的应用。
目前很多高校的数据挖掘专业的研究生论文都写的这个
6。信息的自动分类
网络的信息实在是太庞大了,如何对其进行分类,是搜索引擎面临的难题。要让计算机对数据自动分类,先要对计算机程序进行培训,目前我正在研究中
爬狗做的不错。
以上是我个人对搜索引擎了解后的看法,均为柳志强原创,其中难免有认识不全面或者错误的,恳请各位同仁指正(别砸我就行)!
Ҷƪл˵?
IBM.com网站用户界面评析[07-30]
建立用自己域名结尾的Hotmail邮箱..[07-30]
建立用自己域名结尾的Hotmail邮箱..[07-30]
社区类网站得一般设计思路[07-30]
四轮定位建站法则[07-30]
成功站长必看:购物网站的经营要素[07-30]
搜索引擎注册九大秘法[07-30]
域名选取十技巧[07-30]
判断反向链接质量高低的标准[07-30]
为什么你的网站没流量?做不大!..[07-30]