网络链接关系模型分析

By Cnangel on March 24, 2008 5:16 PM

从搜索引擎的网络连接关系出发，一个页面可以连接多个页面，每个连接称为一个url，这样在整个互联网关系图中，就形成一个巨大的网络连接关系图，平面看来，这种关系类似一张网，每个环路上的节点关系连接数目不同而已。
扩充到应用，每个节点相当于一个对象，而节点与节点的连接相当于对象与对象间的关系。
当寻求一个最好（坏）的对象时，可以采用一种关系连接来评价另外一个对象的好坏，这是一个非常简单的道理。
- 比如五个对象和你的关系如下：

  父母、近亲、好友、远亲、陌生人

显然，父母与你的关系最亲，而陌生人与你的关系最远；为什么会发生这种现象呢？因为你自从出生在这个世界上，就经常与父母接触，父母相当于你这个对象的第一个节点，而父母双方的近亲则是通过父母这个节点连接你的间隔节点，依次类推，陌生人是离你最远的一个节点，关系也非常远。

自己.png

虽然扯得很远，上面的一个例子就是现实生活中的一种相关性模型。
怎样寻求网络关系图中最好的网页或者找出最差(Spam)的页面呢？在最早搜索引擎模型中，这样定义：
- 人工取一些权威性、可信任的站点，人为的定义该网站的分数为10分，然后让蜘蛛进行抓取。
- 蜘蛛抓取是一种遍历抓取，当抓到一个url是非该domain下的url时，会将这个url作为一个新的节点重新开始抓取。
- 我们了解到蜘蛛抓取的一个大概模式后，我们知道从可信任的站点引出的url一定是比较可信的站点，那么由蜘蛛定义该网站的分数为9分，依次类推，当一个网站的得到的信任分值越低，网站的优先级也会越低。

权威性网站(10).png

当然，上面的介绍也是最原始的搜索引擎的做法，现代的搜索引擎技术不仅仅只简单的考虑link的关系权重，而且有更多复杂的模式或算法的考虑，但做很多项目时，都离不开这个网络链接关系模型。

Categories:

cnangel手记

Tags:

模型