Google 推动将网络爬虫机器人规范标准化

2019年7月3日 4:59 发表评论 阅读评论

Google 推动将网络爬虫机器人规范标准化

网站用来告诉前来搜刮内容的爬虫机器人什么地方能去,什么不能去的“Robot Exclusion Protocol”(REP)协定虽然早在 1994 年就由荷兰软件工程师 Martijn Koster 提出,并由大部份的网站与机器人所遵守,但其实 25 年来它都不是一个真正的“标准”,因此在各家的解析器(Parser)在解译时可能会有所偏差,而且对于许多特殊的状况都没有个明确的规范。Google 推动将网络爬虫机器人规范标准化

举例来说,一般爬虫机器人都是去网站的根目录寻找 robot.txt 文件,来了解网站对于爬虫机器人活动范围与频度…

本文链接 : Google 推动将网络爬虫机器人规范标准化,转载请保留链接

如果你喜欢本文,那么请订阅最新文章,或者收藏本站。当前订阅数 现在订阅最新数码资讯的人数
分类: 酷炫数码 标签:
  1. 还没有评论,欢迎您发表评论