- 从搜索引擎的网络连接关系出发,一个页面可以连接多个页面,每个连接称为一个url,这样在整个互联网关系图中,就形成一个巨大的网络连接关系图,平面看来,这种关系类似一张网,每个环路上的节点关系连接数目不同而已。
- 扩充到应用,每个节点相当于一个对象,而节点与节点的连接相当于对象与对象间的关系。
- 当寻求一个最好(坏)的对象时,可以采用一种关系连接来评价另外一个对象的好坏,这是一个非常简单的道理。
- 比如五个对象和你的关系如下:
父母、近亲、好友、远亲、陌生人
- 显然,父母与你的关系最亲,而陌生人与你的关系最远;为什么会发生这种现象呢?因为你自从出生在这个世界上,就经常与父母接触,父母相当 于你这个对象的第一个节点,而父母双方的近亲则是通过父母这个节点连接你的间隔节点,依次类推,陌生人是离你最远的一个节点,关系也非常远。
- 虽然扯得很远,上面的一个例子就是现实生活中的一种相关性模型。
- 怎样寻求网络关系图中最好的网页或者找出最差(Spam)的页面呢?在最早搜索引擎模型中,这样定义:
- 人工取一些权威性、可信任的站点,人为的定义该网站的分数为10分,然后让蜘蛛进行抓取。
- 蜘蛛抓取是一种遍历抓取,当抓到一个url是非该domain下的url时,会将这个url作为一个新的节点重新开始抓取。
- 我们了解到蜘蛛抓取的一个大概模式后,我们知道从可信任的站点引出的url一定是比较可信的站点,那么由蜘蛛定义该网站的分数为9分,依次类推,当一个网站的得到的信任分值越低,网站的优先级也会越低。
- 当然,上面的介绍也是最原始的搜索引擎的做法,现代的搜索引擎技术不仅仅只简单的考虑link的关系权重,而且有更多复杂的模式或算法的考虑,但做很多项目时,都离不开这个网络链接关系模型。