Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方式,用来指导搜索引擎更好地抓取网站内容,更好的保护用户的隐私和版权信息。
Robots协议可能给我们网站带来的好处:
1、 可以制止不必要的搜索引擎占用服务器的宝贵带宽,例如,E-MAIL这类搜索引擎对大多数网站是没有意义的;再有像image strippers,对于大多数非图形类网站来说也没有太大的意义,但是却耗用了大量的带宽。
2、 可以制止搜索引擎对非公开页面的爬行与索引,如网站的后台程序、管理程序,事实上,对于某些在运行中面临页面的网站来说,如果没有配置robots协议,搜索引擎甚至会索引那些临时文件。
Robots协议可能给我们带来的风险:
给攻击者指明了网站的目录结构和私密数据的所在位置。虽然在WEB服务器的安全措施配置得当的前提下这不是很大的问题,但是降低了那些不怀好意者的攻击难度。
Robots协议可以保护网络安全,以免网络陷入混乱的状态,可以在信息多元化的时代为网络传播保驾护航。