说到 robots.txt 大家已经都不会陌生了,但是有些时候很多的细节却还是没有被大多数人注意,比如忽略了一个细节,导致最近的一些文章在搜索引擎结果中出现了重复而没有意义的链接,如果你也是使用的WordPress,不妨你也看看你自己的 robots.txt 文件。
如果你的 WordPress 站点还没有 robots.txt 文件,那么你就更有必要添加一个了,即使你的站点可以让搜索引擎随意抓取,因为搜索引擎机器人访问网站时,首先会寻找站点根目录有没有 robots.txt 文件,如果有这个文件就根据文件的内容确定收录范围,如果没有就按默认访问以及收录所有页面。另外,当搜索蜘蛛发现不存在 robots.txt 文件时,会产生一个 404 错误日志在服务器上,从而增加服务器的负担,因此为站点添加一个 robots.txt 文件还是很重要的。
好了,还是来分享一个经过整理的比较完善的适用于 WordPress 的 robots.txt 文件内容吧!
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 |
User-agent: * Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ Disallow: /trackback/ Disallow: /comments/ Disallow: /attachment/ Disallow: /comments/feed Disallow: /feed Disallow: /*/feed Disallow: /*/comment-page-* Disallow: /*?replytocom=* Disallow: /*/trackback Disallow: /?s=* Disallow: /*/?s=*\ Disallow: /wp-*.php Sitemap: 你的域名/sitemap.html |
使用方法:新建一个名称为 robots.txt 文本文件,将以上的内容放进去,然后上传到网站根目录即可。
最后还是简单的解析一下其对应作用
1、User-agent: *
允许所有搜索引擎抓取网站,除非你网站有特别针对某个或多个搜索引擎,你可以适当的设置其抓取。如下只允许百度和谷歌抓取:
1 2 3 4 |
User-agent: Baiduspider Disallow: / User-agent: Googlebot Disallow: / |
这样设置的意思为只允许百度和谷歌的蜘蛛抓取所有,但是这里用的是 Disallow 并设置的/根目录,所以这里其实是禁止了百度和谷歌抓取,如果要允许所有可以使用Allow,大家可以举一反三的使用,仔细的体会感受一下。
一般新站在建阶段,建议大家首先要屏蔽所有蜘蛛的抓取,如果前期被蜘蛛抓取了,后期又做了变动更新过大,有可能会影响后期的收录周期,增长我们整站的考核周期。
禁止所有搜索引擎访问网站的任何部分 User-agent: * Disallow: / 参见《百度搜索帮助中心-禁止搜索引擎收录的方法》
2、Disallow: /wp-admin/、Disallow: /wp-content/和 Disallow: /wp-includes/
用于告诉搜索引擎不要抓取后台程序文件页面。
3、Disallow: /*/comment-page-*和 Disallow: /*?replytocom=*
禁止搜索引擎抓取评论分页等相关链接。
4、Disallow: /category/*/page/和 Disallow: /tag/*/page/
禁止搜索引擎抓取收录分类和标签的分页。(这一条子凡并未添加到上面演示,因为不同 WordPress 站点可能会有所不同,大家可以根据需要添加)
5、Disallow: /*/trackback 和 Disallow: /trackback/
禁止搜索引擎抓取收录 trackback 等垃圾信息
6、Disallow: /feed、Disallow: /*/feed 和 Disallow: /comments/feed
禁止搜索引擎抓取收录 feed 链接,feed 只用于订阅本站,与搜索引擎无关。
7、Disallow: /?s=*和 Disallow: /*/?s=*\
禁止搜索引擎抓取站内搜索结果
8、Disallow: /attachment/
禁止搜索引擎抓取附件页面,比如毫无意义的图片附件页面。
9、Disallow: /wp-*.php
禁止搜索引擎抓取 WordPress 网站根目录的以 wp 开头的文件。
10、Sitemap: http://yourdomain.com/sitemap.html
这个就是为了方便搜索引擎利用的网站地图,具体的根据自己网站需要添加。
其实关于网站 robots.txt 的内容还有很多很多,这里清扬就只是列举了 WordPress 最常用的一些规则罢了,希望能帮助到大家!