1 robots.txt
robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。
2 WordPress类型站的robots.txt参考
新建robots.txt文件,设置为UTF-8编码,并往该文件中添加以下内容:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-
Disallow: /feed/
Disallow: /comments/feed
Disallow: /trackback
Disallow: /comments
Sitemap: http://stubbornhuang.com/sitemap.xml
Sitemap: http://stubbornhuang.com/sitemap.xml
各个参数含义如下:
- User-agent: * :允许博客被所有引擎收录。
- Disallow: /cgi-bin
- Disallow: /wp-:不允许蜘蛛访问cgi-bin文件夹以及wp开头的文件,这主要是为了博客的安全。
- Disallow: /feed/
- Disallow: /comments/feed:不允许搜索引擎蜘蛛访问feed及comments的feed文件,主要是为了避免重复内容,这一点百度尤其重视,将wordpress 的很多页面视为重复内容,这也是wordpress博客在百度中排名不高的原因之一。事实上,在禁用了feed文件之后,我的博客来自百度的流量由之前的几乎为0增长到现在的每天300-500IP。
- Disallow: /trackback
- Disallow: /comments:禁止访问trackback和comments是为了避免垃圾评论和垃圾引用。
- Sitemap:表明站点地图文件路径。
本文作者:StubbornHuang
版权声明:本文为站长原创文章,如果转载请注明原文链接!
原文标题:WordPress – robots.txt
原文链接:https://www.stubbornhuang.com/678/
发布于:2020年01月18日 18:30:11
修改于:2023年06月26日 22:42:53
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
评论
52