TypeCodes

再议wordpress反垃圾评论:都是strpos函数惹的祸

1 strpos函数引起的失误

前天写了一篇文章《wordpress关键词黑名单:反垃圾评论再升级》。文章内容是关于如何通过在Willin Kan大神写的comments-ajax.php文件中添加关键词黑名单,实现对评论者的昵称和评论内容进行检测,最终判定是否为垃圾评论。在程序中,博主使用了strpos函数,其功能是:查找字符串首次出现的位置。由于对该函数了解不全,上午 @坏坏博客 童鞋一个邪恶测试,发现了上篇文章代码的BUG。晚上下班回来,仔细看了下代码,发现是自己对strpos函数的片面认识,因此做个笔记Mark一下。

2 strpos函数的原型

相信大家对strpos函数并不陌生,经常在字符串的处理中能看到它的身影。strpos函数原型是:

/**
 * @Para string $source:  在该字符串中进行查找[*]
 * @Para mixed $target:  要查找的字符串;如若不是字符串,将被转换为整型并被视为字符的顺序值[*]
 * @Para int $offset:  查找的起始位置
 * @Return int/boolean:  成功则返回第一次出现的位置; 失败返回 FALSE 
 */
 int strpos(string $source, mixed $target [, int $offset = 0 ]);
3 strpos函数的简单测试

了解了strpos函数的原型之后,我们先来看一段简单的测试代码。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
/**
 * @Author:  vfhky 2013年09月21日20:35
 * @Description:  通过两个不同的测试变量$test_1和$test_2直击关键
 */
<?php
 $words = "com,cn,info,net,www,http,cc,host,代理,移动,电,国,港,日,购";
 $word = explode(',', $words);
 $num = count($word);

 $test_1 = "购买TT";
 for($i=0;$i< $num ;$i++){
    if (strpos($test_1,$word[$i],0)){
        echo '广告必删,多谢理解!';
        break;
    }
 }
 echo "<br/><br/>----------This is $test_1 END----------<br/><br/>";

 $test_2 = "坏坏购买TT";
 for($i=0;$i< $num ;$i++){
    if (strpos($test_2,$word[$i],0)){
        echo '广告必删,多谢理解!';
        break;
    }
 }
 echo "<br/><br/>----------This is $test_2 END----------<br/><br/>";
?>

测试结果如下图所示:

再议wordpress反垃圾评论:都是strpos函数惹的祸

4 strpos函数的测试结果分析

上面这段代码中有两个不同的测试变量$test_1和$test_2,并且二者都包含了黑名单中的关键词:购。但是从图中显示的测试结果来看,$test_1变量没有别有效屏蔽,而变量$test_2却被提示包含广告词。奥秘就在于变量$test_1和$test_2中的“购”字出现的位置就!当关键词“购”出现在最前面时($test_1),strpos($test_1,$word[$i],0)函数的执行结果为0,因为“购”字在字符串“购买TT”的最前面。那么for循环中的if语句变成了if(0){},从而不会被视为垃圾评论,这就造成了BUG。下面分别是继续用strpos函数和使用PHP正则表达式,两种方法来实现“wordpress关键词黑名单:反垃圾评论再升级”。

5.1 正确使用strpos函数修正BUG
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
/**
 * @Author:  vfhky 2013年09月24日20:06
 * @Description:   正确使用strpos函数,解决上一篇文章代码的BUG
 * @Related article:  https://typecodes.com/web/wpantispamstrpoerror.html
 */
 $words = "com,cn,info,net,www,http,cc,host,代理,移动,电,国,港,器,服,医,肥,药,农,信,贷,日,购,播";
 $word = explode(',', $words);
 $num = count($word);
 for($i=0;$i< $num ;$i++){
  if ( (strpos($comment_author,$word[$i],0) !== false) || (strpos($comment_content,$word[$i],0) !== false) ){
        err( __('广告必删,多谢理解!') );
        break;
  } 
 }
5.2 使用PHP正则表达式修正BUG
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
/**
 * @Author:  vfhky 2013年09月24日20:06
 * @Description:   使用PHP正则表达式修正BUG,实现“wordpress关键词黑名单:反垃圾评论再升级(非插件)”
 * @Related article:  https://typecodes.com/web/wpantispamstrpoerror.html
 */
 $words = "com,cn,info,net,www,http,cc,host,代理,移动,电,国,港,器,服,医,肥,药,农,信,贷,日,购,播";
 $word = explode(',', $words);
 $num = count($word);
 for($i=0;$i< $num ;$i++){
  if( preg_match("/$word[$i]/i", $comment_author) || preg_match("/$word[$i]/i", $comment_content) ){
        err( __('广告必删,多谢理解!') );
        break;
  } 
 }
6 函数strpos的重要提醒
使用strpos函数还需要注意的一点就是:它可能返回布尔值 FALSE,但也可能返回等同于 FALSE 的非布尔值。
例如返回整型0,浮点型值0.0,空字符串,字符串 "0",不包括任何元素的数组,不包括任何成员变量的对象,特殊类型NULL等等。
因此,应使用会检查返回的值的类型的恒等运算符“===”来测试此函数的返回值,而不是使用简单的等号“==”来判别。
7Update 2013.09.26 22:27

经过 @星河大帝 的提醒,可以使用数组来代替字符串,执行效率应该差不多。

7.1 使用strpos函数+数组修正BUG
1
2
3
4
5
6
7
8
$words = array("com","cn","info","net","www","http","cc","host","代理","移动","电","国","港","购");
$num = count($words);
for($i=0;$i< $num ;$i++){
    if (strpos($comment_author,$words[$i],0) !== false || strpos($comment_content,$words[$i],0) !== false){
        err( __('广告必删,多谢理解!') );
        break;
    }
}
7.2 使用正则式+数组修正BUG
1
2
3
4
5
6
7
8
$words = array("com","cn","info","net","www","http","cc","host","代理","移动","电","国","港","购");
$num = count($words);
    for($i=0;$i< $num ;$i++){
        if( preg_match("/$words[$i]/i", $comment_author) || preg_match("/$words[$i]/i", $comment_content) ){
            err( __('广告必删,多谢理解!') );
            break;
    }
}
打赏支持

Comments »