第9章 Web 机器人

本章我们来仔细了解一下被称为 Web 机器人(Web robot)的自活跃(self-animating)用户代理,以继续我们的 HTTP 架构之旅。

Web 机器人是能够在无需人类干预的情况下自动进行一系列 Web 事务处理的软件程序。很多机器人会从一个 Web 站点逛到另一个 Web 站点,获取内容,跟踪超链,并对它们找到的数据进行处理。根据这些机器人自动探查 Web 站点的方式,人们为它们起了一些各具特色的名字,比如“爬虫”、“蜘蛛”、“蠕虫”以及“机器人”等,就好像它们都有自己的头脑一样。

这里有几个 Web 机器人的示例。

 
  • 股票图形机器人每隔几分钟就会向股票市场的服务器发送 HTTP GET,用得到的数据来构建股市价格趋势图。

  • Web 统计机器人会收集与万维网规模及发展有关的“统计”信息。它们会在 Web 上游荡,统计页面的数量,记录每个页面的大小、所用语言以及媒体类型。1

    1 http://www.netcraft.com 收集了大量统计度量值,用于统计 Web 站点使用的是哪种类型的服务器。

  • 搜索引擎机器人会搜集它们所找到的所有文档,以创建搜索数据库。

  • 比较购物机器人会从在线商店的目录中收集 Web 页面,构建商品及其价格的数据库。