Typecho博客设置robots文件

xiongmao
2021-10-30 / 9 评论 / 1,559 阅读 / 正在检测是否收录...
温馨提示:
本文最后更新于2021年11月21日,已超过1229天没有更新,若内容或图片失效,请留言反馈。

什么是Robots协议(robots.txt)?

  Robots协议(也称为爬虫协议、机器人协议等)全称是“网络爬虫排除标准”(Robots Exclusion Protocol),是国际互联网界通行的道德规范,Robots是站点与spider沟通的重要渠道站点通过robots告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯.因其不是命令,故需要搜索引擎自觉遵守

robots.txt如何奏效呢?

  搜索引擎机器人访问网站时,首先会寻找站点根目录有没有 robots.txt文件,如果有这个文件就根据文件的内容确定收录范围,如果没有就按默认访问以及收录所有页面。

另外,当搜索蜘蛛发现不存在robots.txt文件时,会产生一个404错误日志在服务器上,从而增加服务器的负担,因此为站点添加一个robots.txt文件还是很重要的。

百度也会严格遵守robots的相关协议,要注意区分你不想被抓取或收录的目录的大小写,百度会对robots中所写的文件和你不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。

robots.txt基本语法

描述希望被访问的一组URL
即:设定允许访问的部分,不过因为默认是全部允许的,这个语法通常是配合disallow使用的,用它来完成 如“除了xxx.html该目录下全部不能访问”这样的设定。 要注意的是allow和disallow的顺序是有讲究的,搜索引擎会以它先看到的规则为判断标准。

如何辨别自己网站是否配置了robots.txt呢?

第一种方法:访问网址 http(s):你的域名/robots.txt即可
第二种方法:通过 [百度站长工具] 来检测

如何正确编写一个保护网站隐私的robots.txt呢?

我们想要的效果是:

  • 要求所有搜索引擎遵循我的这个协议
  • 禁止蜘蛛抓取我的后台地址和Typecho的安装路径
  • 指引蜘蛛去抓取我的Sitemap

那么我们可以这样写,在网站根目录下新建一个robots.txt文件,内容如下:

检测效果图

https://img.32yunbk.cn/img/589

本文共 758 个字数,平均阅读时长 ≈ 2分钟
1

打赏

海报

正在生成.....

评论 (9)

取消
  1. 头像
    小熊猫 Lv.3
    ·Android · Google Chrome
    沙发

    小熊猫测试

    回复 删除 垃圾
  2. 头像
    Lv.1
    上海 ·iPhone · Safari
    板凳

    拿走

    回复 删除 垃圾
  3. 头像
    sdg Lv.1
    ·Windows 10 · FireFox
    地毯

    试一下

    回复 删除 垃圾
  4. 头像
    马云 Lv.1
    深圳 ·Windows 10 · Google Chrome
    第4楼

    服了 天天偷文章

    回复 删除 垃圾
    1. 头像
      小熊猫1 Lv.3
      XX ·Android · Google Chrome
      @ 马云

      你真厉害,我花两个小时才测试好,来个偷文章,脑子累兄弟

      回复 删除 垃圾
  5. 头像
    aas Lv.1
    XX ·Android Pie · QQ Browser
    第5楼

    画图

    回复 删除 垃圾
  6. 头像
    小妖王 Lv.1
    ·Android · QQ Browser
    第6楼

    6666

    回复 删除 垃圾
  7. 头像
    啧啧啧 Lv.1
    东莞 ·Android · QQ Browser
    第7楼

    画图

    回复 删除 垃圾
  8. 头像
    阿兴 Lv.1
    XX ·Android · Google Chrome
    第8楼

    看看

    回复 删除 垃圾