WordPress个别文章怎么禁止蜘蛛抓取

WordPress个别文章怎么禁止蜘蛛抓取,第1张

WordPress由于是开源的博客程序,全世界很多用户喜爱。也就会产生许多个性需求。
例如,一些文章我们可能不希望搜索引擎抓取,这可以通过robots实现,但很麻烦。 代码添加一个屏蔽功能更为方便

WordPress个别文章怎么禁止蜘蛛抓取,第2张

一、设置方法

 

方法依然很简单,几段代码就实现了。我们在自己主题文件中找到“functions.php”文件,不保证每个主题文件名称都完全一致,但是绝大多数是的。
然后把下面代码添加到functions.php”文件中。提示:如果你的WordPress站点开启了页面缓存,此功能无效!!

// 站点开启了页面缓存,此功能无效 

function ludouse_add_custom_box() {
 if (function_exists('add_meta_box')) { 
 add_meta_box('ludou_allow_se', '搜索引擎', 'ludou_allow_se', 'post', 'side', 'low');
 add_meta_box('ludou_allow_se', '搜索引擎', 'ludou_allow_se', 'page', 'side', 'low');
 }
}
add_action('add_meta_boxes', 'ludouse_add_custom_box');

function ludou_allow_se() {
 global $post;
 
 //添加验证字段
 wp_nonce_field('ludou_allow_se', 'ludou_allow_se_nonce');
 
 $meta_value = get_post_meta($post->ID, 'ludou_allow_se', true);
 if($meta_value)
 echo '<input name="ludou-allow-se" type="checkbox" checked="checked" value="1" /> 屏蔽搜索引擎';
 else
 echo '<input name="ludou-allow-se" type="checkbox" value="1" /> 屏蔽搜索引擎';
}

// 保存选项设置
function ludouse_save_postdata($post_id) {
 // 验证
 if ( !isset( $_POST['ludou_allow_se_nonce']))
 return $post_id;

$nonce = $_POST['ludou_allow_se_nonce'];

// 验证字段是否合法
 if (!wp_verify_nonce( $nonce, 'ludou_allow_se'))
 return $post_id;

// 判断是否自动保存
 if (defined('DOING_AUTOSAVE') && DOING_AUTOSAVE) 
 return $post_id;

// 验证用户权限 
 if ('page' == $_POST['post_type']) {
 if ( !current_user_can('edit_page', $post_id))
 return $post_id;
 }
 else {
 if (!current_user_can('edit_post', $post_id))
 return $post_id;
 }
 
 // 更新设置
 if(!empty($_POST['ludou-allow-se']))
 update_post_meta($post_id, 'ludou_allow_se', '1');
 else
 update_post_meta($post_id, 'ludou_allow_se', '0');
}
add_action('save_post', 'ludouse_save_postdata');

// 对于设置不允许抓取文章和页面
// 禁止搜索引擎抓取,返回404
function do_ludou_allow_se() {
 // 本功能只对文章和页面有效
 if(is_singular()) {
 global $post;
 $is_robots = 0;
 $ludou_allow_se = get_post_meta($post->ID, 'ludou_allow_se', true);

if(!empty($ludou_allow_se)) {
 // 下面是爬虫Agent判断关键字数组
 // 有点简单,自己优化一下吧
 $bots = array(
 'spider',
 'bot',
 'crawl',
 'Slurp',
 'yahoo-blogs',
 'Yandex',
 'Yeti',
 'blogsearch',
 'ia_archive',
 'Google',
 'baidu'
 );
 
 $useragent = $_SERVER['HTTP_USER_AGENT'];
 
 if(!empty($useragent)) {
 foreach ($bots as $lookfor) {
 if (stristr($useragent, $lookfor) !== false) {
 $is_robots = 1;
 break;
 }
 }
 }

// 如果当前文章/页面禁止搜索引擎抓取,返回404
 // 当然你可以改成403
 if($is_robots) {
 status_header(404);
 exit;
 }
 }
 }
}
add_action('wp', 'do_ludou_allow_se');

二、优化方法

当我们把上面代码添加到主题“functions.php”后,在WordPress后台的文章编辑页面就会出现一个文件屏蔽搜索引擎按钮,如果你想某篇文章不被搜索引擎抓取勾选即可。
但上面的代码是当勾选后,勾选的文章被搜索引擎访问时返回的状态是404,如果你担心返回404死链会影响SEO,那么我们可以使用下面代码。
但前提你先在主题文件的“header.php”中添加meta声明告诉搜索引擎不要收录本页面。

<meta name="robots" content="noindex,noarchive" />

并且你主题header.php文件中必须有以下代码:

wp_head();

然后再在主题“functions.php”文件中添加下面优化代码。当然如果出现问题的话,我们可以不选择使用优化代码,因为你设置不要收录的页面绝对是极少数的,所以对搜索引擎也起不了多大的影响。

 

// 站点开启了页面缓存,此功能无效 

function ludouse_add_custom_box() {
 if (function_exists('add_meta_box')) { 
 add_meta_box('ludou_allow_se', '搜索引擎', 'ludou_allow_se', 'post', 'side', 'low');
 add_meta_box('ludou_allow_se', '搜索引擎', 'ludou_allow_se', 'page', 'side', 'low');
 }
}
add_action('add_meta_boxes', 'ludouse_add_custom_box');

function ludou_allow_se() {
 global $post;
 
 //添加验证字段
 wp_nonce_field('ludou_allow_se', 'ludou_allow_se_nonce');
 
 $meta_value = get_post_meta($post->ID, 'ludou_allow_se', true);
 if($meta_value)
 echo '<input name="ludou-allow-se" type="checkbox" checked="checked" value="1" /> 屏蔽搜索引擎';
 else
 echo '<input name="ludou-allow-se" type="checkbox" value="1" /> 屏蔽搜索引擎';
}

// 保存选项设置
function ludouse_save_postdata($post_id) {
 // 验证
 if ( !isset( $_POST['ludou_allow_se_nonce']))
 return $post_id;

$nonce = $_POST['ludou_allow_se_nonce'];

// 验证字段是否合法
 if (!wp_verify_nonce( $nonce, 'ludou_allow_se'))
 return $post_id;

// 判断是否自动保存
 if (defined('DOING_AUTOSAVE') && DOING_AUTOSAVE) 
 return $post_id;

// 验证用户权限 
 if ('page' == $_POST['post_type']) {
 if ( !current_user_can('edit_page', $post_id))
 return $post_id;
 }
 else {
 if (!current_user_can('edit_post', $post_id))
 return $post_id;
 }
 
 // 更新设置
 if(!empty($_POST['ludou-allow-se']))
 update_post_meta($post_id, 'ludou_allow_se', '1');
 else
 update_post_meta($post_id, 'ludou_allow_se', '0');
}
add_action('save_post', 'ludouse_save_postdata');

// 对于设置不允许抓取文章和页面
// 禁止搜索引擎抓取,返回404
function do_ludou_allow_se() {
 // 本功能只对文章和页面有效
 if(is_singular()) {
 global $post;
 $is_robots = 0;
 $ludou_allow_se = get_post_meta($post->ID, 'ludou_allow_se', true);

if(!empty($ludou_allow_se)) {
 // 下面是爬虫Agent判断关键字数组
 // 有点简单,自己优化一下吧
 $bots = array(
 'spider',
 'bot',
 'crawl',
 'Slurp',
 'yahoo-blogs',
 'Yandex',
 'Yeti',
 'blogsearch',
 'ia_archive',
 'Google',
 'baidu'
 );
 
 $useragent = $_SERVER['HTTP_USER_AGENT'];
 
 if(!empty($useragent)) {
 foreach ($bots as $lookfor) {
 if (stristr($useragent, $lookfor) !== false) {
 $is_robots = 1;
 break;
 }
 }
 }

// 如果当前文章/页面禁止搜索引擎抓取,返回404
 // 当然你可以改成403
 if($is_robots) {
 echo "<meta name="robots" content="noindex,noarchive" />\n";
 }
 }
 }
}
add_action('wp_head', 'do_ludou_allow_se');
DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
网站模板库 » WordPress个别文章怎么禁止蜘蛛抓取

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情