wordpress的robots文件规则写法说明

品味人生 • 发布于 2019-02-01 21:37:02

这个家伙很害羞,不想介绍自己!

近期观察服务器日志,发现各搜索引擎蜘蛛频繁的爬取内容相同的页面。从SEO的角度来讲,搜索引擎爬取的路径中出现大量相同类型的内容时可能会判定为重复内容,严重的情况下可能会导致网站被降权。

由于wordpress存在各种形式的订阅、回评等机制,会导致一个文章页面出现各种五花八门的路径形式,因此为了网站的SEO结构健康,应当合理的设置robots文件以屏蔽搜索引擎爬取我们不希望爬取的路径。

以本博目前的robots文件为例讲述各种robots规则适用的路径,大家可以根据自己的需要选择性添加规则。

 

User-agent: *   //设置robots规则适用的浏览者身份为全部UA身份

 

Disallow: /*?*  //屏蔽掉页面中的动态路径

 

Disallow: /?p=*  //屏蔽掉非固定链接的文章页面路径,因为每个页面中都会有一个shortlink使用的是?p= 的路径。

 

Disallow: /index.php  //屏蔽掉首页默认页面的index.php 页面地址

 

Disallow: /wp-admin  //屏蔽掉后台登陆页面地址,主要是考虑到服务器安全

 

Disallow: /wp-content/plugins  //屏蔽掉wordpress的插件目录

 

Disallow: /wp-content/themes  //屏蔽掉wordpress的模板目录

 

Disallow: /wp-includes  //屏蔽掉wordpress的底层程序目录

 

Disallow: /trackback  //屏蔽wordpress的页面回评路径

 

Disallow: /*/*/trackback  //屏蔽wordpress分类目录、文章页面的回评路径

 

Disallow: /feed  //屏蔽wordpress的内容订阅路径

 

Disallow: /*/*/feed  //屏蔽wordpress分类目录、文章页面的订阅路径

 

Disallow: /comments/feed  //屏幕wordpress评论的订阅路径

 

Disallow: /page/  //屏蔽默认的翻页路径

 

Disallow: /*/*/page/  //屏蔽分类目录的翻页路径

 

Disallow: /page/1$  //屏蔽翻页路径中的数字路径

 

Disallow: /tag/  //屏蔽标签页面

 

Disallow: /?s=*  //屏蔽搜索结果路径,主要是避免搜索结果的缓存被搜索引擎收录

 

Disallow: /?r=*

 

Disallow: /*/comment-page-*

 

Disallow: /*?replytocom*

 

Disallow: /date/  //屏蔽按日期分类显示的列表页面

 

Disallow: /author/  //屏蔽作者文章列表页面

 

Disallow: /category/  //屏蔽以category为起始路径的分类路径,如果您没有使用插件生成不带category前缀的路径时,请不要使用此项规则。

 

Disallow: /?p=*&preview=true

 

Disallow: /?page_id=*&preview=true

 

Disallow: /wp-login.php  //屏蔽后台登陆页面

 

Sitemap: http://www.frontopen.com/sitemap.xml  //引导蜘蛛爬取网站地图

 

Sitemap: http://www.frontopen.com/sitemap_baidu.xml  //引导百度蜘蛛爬取网站地图