谷歌如何找到并收录你上传的内容?
图5 发生在用户搜索之前
谷歌使用它的"爬虫"工具在一刻不停地周游互联网世界的每一个角落。上图中间的6个步骤依次描绘了从内容出现在互联网上到内容被收录进谷歌的数据库供用户检索这一过程,其中第2、3、5步又有许多分支,所有这些都是为了建立一个信息"集汇池",这是第一个阶段的工作,第二个阶段才是从这个"池"中为用户筛选他们所需要的内容。接下来我们一步步看谷歌是如何搜集并整合信息的。
1、网友上传内容,比如博客、微博或其它类型的WEB内容被更新到网上。
2、Google的"爬虫"发现了这一更新。在这一步,谷歌加入了许多判断机制,主要包括以下几点:
2.1、Google的"爬虫"沿着链接路径(URL)周游互联网,但如果没有URL指向某一站点,则这一站点将不会被索引。
2.2、如果你在robots.txt中设置了不许索引(部分或全部),Google的"爬虫"将不会抓取你站点上的相应内容。
2.3、如果指向你站点的连接上有nofollow标签,Google的"爬虫"将不会从这些URL路径来到你的站点。如下图:
图6 图7 网页原代码中的nofollow标签
URL就像是Google"爬虫"周游互联网时的路标,谷歌当然希望收录有价值的网页,所以必须采取一种机制分辨哪些URL是垃圾信息,nofollow标签正是谷歌所倡导的方法之一。网站的合法更新人员几乎不会上传垃圾URL,但它们往往大量出现在评论跟帖和论坛中,就像上图中的例子,这些URL对于谷歌来讲是没有意义的,为了防止"爬虫"经由这些URL到达某一站点,在源代码中它们都会自动被加上nofollow标签。
2.4、Google也能通过blog软件或xml站点地图找到你的网站。
2.5、从权威性越高的网站链接到你网站的URL越多,你的网站的权威性也就越高,但Google"爬虫"始终会忽略被加上了nofollow标签的URL。
上面这几点大概就是谷歌在收录信息时对内容提出的"准入"要求,看来在一些开放的地方(比如论坛)大量发布URL以求让谷歌关注,这一小伎俩是没有什么效果的。以上是信息被谷歌收录之前所发生的事,一旦信息被谷歌收录了会发生什么呢?请往下看:
图8 信息"素材"的存储
3、信息被谷歌收录之后当然也要进行加工处理,主要包括两个步骤,一是信息"素材"的存储,二是对收录的信息按要求进行优化,上图描绘了"素材"的存储方式,主要包括两部分:网页标题和链接数据被保存在一个索引中,用于广度优先搜索(可见文章标题是多么的重要,做编辑的一定要有驾驭标题党的觉悟);网页内容保存在另一个索引中,以用于检索频率不高的长尾、个性化、深度优先搜索。
此时可能你已经明白了,当你用谷歌搜索时,你并没有在检索时时更新的互联网,而是在检索谷歌的缓存,只是谷歌更新的速度非常快,以让其缓存尽量与互联网上的内容同步。
图9 优化已收录的信息
4、谷歌基于URL评估域名和网页的总体权威性。
5、检查网页以防止作弊行为,包括以下几点:
5.1、谷歌的搜索质量和反垃圾信息审查。
5.2、1万多远程测试用户评价搜索结果的质量。
5.3、谷歌征请用户对有PageRank讹诈嫌疑的垃圾信息进行举报。
5.4、谷歌根据数字千年版权法(DMCA)去除盗版内容。
6、在对页面进行分析之后,每个页面都被附加上很多用于辅助用户搜索的数据片。
从信息出现在互联网上到被谷歌收录,然后谷歌对这些数据进行分析优化,至此,一个实时更新的互联网信息"集汇池"就建立起来了,可以说谷歌存储着整个互联网的快照。以上就是我们在按谷歌搜索按钮之前它所做的事情,接下来我们看一下谷歌如何响应用户的搜索请求,另外谷歌的广告是如何来到我们面前的,不要忘记,谷歌可是靠广告营生的。
只要有人用谷歌的服务它就能从中赚钱,就怕像安卓(Android)手机系统那样,有些流氓厂家把安卓装在了自己的智能手机中,但是把其上谷歌的各种服务全部抹掉,改用自己的服务,这样谷歌当然不干了,所以安卓一更新,这些流氓手机厂家就紧张。