今天的内容非常简单,不过也很有趣。不知道各人有没有经历过这样的事情,就是在某些字体下,0 和 O 不好区分,1 和 l 也是很难看清晰。当然,现在大部门的编辑器和 IDE 的默认字体都是会选择那些比较好区分这些相似字符的,好比给 0 中间加上个斜杠或者一个点之类的。在 PHP 中也有这样的函数可以或许帮助我们来检查是否有这样的不好区分的字符存在。
雷同字符检测
$checker = new Spoofchecker();var_dump($checker->areConfusable('google.com', 'goog1e.com')); // truevar_dump($checker->areConfusable('google.com', 'g00g1e.com')); // falseSpoofchecker 类就是用来进行这类检测的类,它的 areConfusable() 方法就可以或许帮助我们检测两个字符串中是否有相似的字符。好比我们第一个测试代码中,l 和 1 ,如果不仔细看还真有可能认错。第二段检测代码返回的 false ,说明不存在非常相似的字符,但如果我们将第一个字符串中的小写的 o 换成大写的 O 的话,这段也会返回 true 。各人可以自己测试一下。
可疑字符检测
别的,我们可以使用 Spoofchecker 类的另一个方法来检测字符串中是否有可疑的字符。
var_dump($checker->isSuspicious('google.com')); // FALSEvar_dump($checker->isSuspicious('Рaypal.com')); // TRUE为什么 Paypal.com 会返回 true 呢?它那里可疑了?
其实 isSuspicious() 检测是字符串中的各个字符是否来自不同的 Unicode 字符。大写的 P 是有可能来自于 Cyrylic 这个 Unicode 字符集中,不肯定是拉丁字符的那个 P 。当然,这方面的知识做为中国人的我们并不是太了解,除了专门学外语专业或者学习过字母源头相关知识的朋友可能会比较清晰。
不同地区语言中的效果
既然是国际化的类和方法,那么如果我们修改地区语言,检测的结果会有不同吗?
$checker->setAllowedLocales('zh_CN');var_dump($checker->areConfusable('google.com', 'goog1e.com')); // truevar_dump($checker->areConfusable('google.com', 'g00g1e.com')); // falsevar_dump($checker->isSuspicious('google.com')); // TRUEvar_dump($checker->isSuspicious('Рaypal.com')); // TRUE使用 Spoofchecker 的 setAllowedLocales() 方法可以为 Spoofchecker 的操作设置当前的地区语言信息。在设置为中文后,isSuspicious() 返回的内容都是 TRUE 了,究竟采用的字符集不同了,都不会走默认的拉丁字符集了。
总结
好吧,这篇文章真的只是为了有趣。在实际的业务中,如果我们要做一些文章、代码校验的功能,或许 areConfusable() 可以或许为我们提供一些便利。各人还是以了解的态度试着玩玩吧!
测试代码:
https://github.com/zhangyue0503/dev-blog/blob/master/php/202011/source/9.学习PHP中有趣的字符集国际化验证功能.php
参考文档:
https://www.php.net/manual/zh/class.spoofchecker.php |