robots协议是什么?有何作用?

  魔贝课凡这节课来学习第二阶段名词解释里边的技术部分,主要讲解robots的概念,还有robots的演示。  我们先来看robots的概念,文本文件,它其实就是一个协议,魔贝课凡讲解:spid

  魔贝课凡这节课来学习第二阶段名词解释里边的技术部分,主要讲解robots的概念,还有robots的演示。

  我们先来看robots的概念,文本文件,它其实就是一个协议,魔贝课凡讲解:spider爬虫什么可以抓取,什么不可以抓取。我们知道搜索引擎是不产出内容的,它会派出大量的爬虫来抓取我们网站的内容,网站有些内容是不允许它抓取的,有些内容是可以让它抓取的,所以我们要写一个规则来限制。一般搜索引擎会遵循这个规则,也就是这个文本协议,但是百度往往会跳过这个规则。robots协议就相当于一个公司门口贴的公告,这个公告会允许哪些人可以进入,哪些人免进。

robots协议怎么做

robots文件国内很多人喜欢叫做“萝卜丝”文件

  robots文件是以txt结尾的文档,存于网站的根目录,这个就是robots文本协议。搜索引擎爬虫访问网站的第一站就会看这个协议,然后遵循协议去抓取文件,所以我们要屏蔽一些无用信息节省蜘蛛资源,以及屏蔽一些隐私信息不公布于网络,这样不至于搜索引擎把你的内容全部都给你抓取过去。屏蔽掉无用信息的话,把更多的爬虫引向有用页面,从而提升你的收录。后面的课程中会详细给大家讲写法,屏蔽哪些文件,开放哪些文件。

这就是robots文件的位置,在根目录

这就是robots文件的位置,在根目录

  我们回到桌面打开浏览器,打开我们的演示站点www.moocfan.com,我们在网址后方输入一个斜杠,然后输入robots.txt,回车访问,这里就是我们seo教学演示站点里边的robots文件。这里是允许所有的爬虫来访问,不允许访问的是这个目录,还有这一个目录,这两个目录是我们网站的重要两个目录。这里仅仅屏蔽掉的是程序里面的一些函数文件、动态文件等。

本站的robots文件

robots写法示例

  接下来再演示一个屏蔽了百度爬虫的网站,也就是万能的淘宝网。回到浏览器里面输入www.taobao.com/robots.txt,我们看到这里他屏蔽掉的百度的写法是这样子,这是淘宝的一个政策,整站不允许百度来爬取,因为它压根就不需要搜索引擎流量。而且百度向来是违反robots协议抓取,所以淘宝还要在服务器里设置一些屏蔽措施。

  可能很多同学不知道这个该怎么用,简单讲一下。我们该如何使用百度站长平台生成robots文件?方法很简单,就是桌面上建立一个txt文档,然后把这个名字改成robots,然后通过ftp工具上传到空间。里边的内容你可以直接去模仿其他网站,或者直接用百度站长平台功能生成,如果你已经有了账号可以直接登录,如果没有账号,就去注册一个。选择验证过的站点,检测更新就出来了,怎么写一目了然。

robots检测更新

  我们一般用到的都是不允许抓取,比如说不允许所有的爬虫抓取整站,只需要Disallow: /,然后点击创建就可以了。Disallow: /是不允许所有的网爬虫来抓取,可以直接把文件保存到桌面上,自己动手试试。当然了,你也可以复制内容到自己建的robots文件里,它和淘宝的萝卜丝文件是一样的。另外还可以不允许所有的爬虫来访问具体的一个目录,比如说我们有一个目录是admin目录,写成Disallow: /admin/,爬虫就不会抓取这个目录了。

手把手教你做robots协议

国内的几个爬虫都挺垃圾的

  还可以不允许抓取目录中的第一篇文章,直接“Disallow: /链接地址"就行了,创建后搜索引擎就不会再抓取这篇文章了。根目录下不要存在两个以上的robots文件,我们要删掉其中一个,不然会对搜索引擎爬取造成困扰,对seo也不好。

  我们把这个协议通过ftp上传到网站根目录,这个协议就开始生效了,这里讲了robots的概念及以及操作方法。

  本文由魔贝课凡讲师团队原创编辑,转载请注明出处:www.moocfan.net/tool/book/229.html


发表评论