在您搜索之前,网页抓取工具会从数千亿个网页中收集信息,然后在 Google 搜索索引中进行整理。

Google 搜索基础知识

抓取流程是从以往所抓取内容的网址列表和由网站所有者提供的站点地图开始的。在访问这些网站时,我们的抓取工具会使用网站上的链接来探索其他网页。该软件会特别关注新网站、对现有网站进行的更改以及无效链接。计算机程序会确定要抓取的网站、抓取频率以及要从每个网站中抓取的网页数量。

为了让网站所有者能够更精细地指定 Google 如何抓取他们的网站,我们推出了 Search Console:网站所有者可以详细指导我们如何处理其网页,申请重新抓取,或使用 robots.txt 文件完全禁止抓取工具抓取他们的网站。Google 绝不接受网站为获得更频繁地抓取而付费的行为 - 我们为所有网站提供相同的工具,以确保尽可能为用户提供最理想的搜索结果。

通过抓取查找信息

网络就像一个规模与日俱增的图书馆,虽然收藏的图书已有数十亿本之多,却没有中央档案管理系统。我们使用一种称为网页抓取工具的软件来发现供公众访问的网页。抓取工具会查看网页,并跟踪访问这些网页上的链接,就好像您在网上浏览内容一样。这类抓取工具会逐一访问各个链接,并将各网页的相关数据返回至 Google 的服务器。

通过编入索引整理信息

当抓取工具找到一个网页时,我们的系统就会像浏览器一样呈现该网页的内容。我们会记下关键信号(从关键字到网站新鲜度),然后会在 Google 搜索索引中跟踪所有这些内容。

Google 搜索索引中包含数千亿个网页,其大小远远超过 1 亿千兆字节。它就像图书后部的索引一样 - 编入索引的每个网页上出现的每个字词都对应着一个条目。在将某个网页编入索引时,系统会将该网页分别添加到其包含的所有字词的对应条目中。

 

 

借助知识图谱,我们将继续超越关键字匹配,以更好地了解您关注的人、地点和事物。为此,我们不仅要整理有关网页的信息,还要整理其他类型的信息。如今,Google 搜索不仅可帮助您搜索大型图书馆内数百万册图书中的内容,查找当地公交公司的线路和车次安排,还可帮助您浏览世界银行等公开来源的数据。