白话搜索引擎

    在五六十年代,谁拥有了原子弹,谁就是一个超级大国,在国际上也会受到其他国家的尊敬,如今的时代,谁拥有了搜索引擎,谁就拥有了在互联网的重型武器。

   搜索引擎并不是每个公司都有的技术,搜索引擎的海量存储和海量的计算能力非任何一家公司所能及,即使在中国著名的阿里巴巴、腾讯等公司也不例外。在独立开发的搜索引擎技术方面,百度、新浪、搜狐以及原来的3721(已被中国雅虎收购)等公司都做过实验性工作,但是存活下来的全网搜索引擎只剩下百度一家。目前Google中国和中国雅虎仍然使用的是非独立开发的搜索引擎技术,是借用美国的技术的衍生。

 

   搜索引擎主要包含这几个方面:

   1,蜘蛛:用于爬取互联网上的任何可见的资料,目前新的研究方向是Deep Web方向的挖掘;

   2,内容处理:这里的内容处理不牵涉到自然语言方面的处理,主要是从html页面抽取出可用的文字内容出来,其中模板抽取、网页结构是重点研究对象;

   3,文档处理:这里将结构化的内容信息通过自然语言处理方面的知识进行深层次方面的挖掘,目前自然语言处理仍然以统计学为主导,但是无法很好的表达语意层面的涵义,在人工智能逐渐弱势的情况下,目前已经成为了瓶颈;虽然目前国际上很多论文在这个上面做了很多文章,但是提出了各种模型、算法等还需要在实际中去验证,无法向前突进一步;

   4,索引:将各式各样的内容进行一种排序,目前搜索引擎使用通常是倒排索引(如开源项目:Lucene),重点在于解决海量的计算,其实个人觉得对内容提供一定的特征,扩展层面上的,并不一定是内容上有的,可以丰富索引,更加灵活;

   5,相关性排序:在索引之后,其实为了增加相关性,对索引进行了二次排序,虽然这不是搜索引擎主要部分,但是好的搜索引擎是必不可少的,重点在于如何利用各种算法或用机器学习方法解决相关性问题;

   6,前端:提供接口供用户使用。

Monthly Archives

Pages

Powered by Movable Type 7.7.2

About this Entry

This page contains a single entry by Cnangel published on July 17, 2009 8:36 PM.

[Fw]When Linux Runs Out of Memory was the previous entry in this blog.

C/C++语言里面的空间节省 is the next entry in this blog.

Find recent content on the main index or look in the archives to find all content.