preg_match unicode parsing(预匹配Unicode解析(_M))
本文介绍了预匹配Unicode解析(_M)的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我想匹配Unicode/UTF-8字符的子集(这里用黄色标记http://solomon.ie/unicode/),根据我的研究,我得出了以下结论:
// ensure it's valid unicode / get rid of invalid UTF8 chars
$text = iconv("UTF-8","UTF-8//IGNORE",$text);
// and just allow a basic english...ish.. chars through - no controls, chinese etc
$match_list = "x{09}x{0a}x{0d}x{20}-x{7e}"; // basic ascii chars plus CR,LF and TAB
$match_list .= "x{a1}-x{ff}"; // extended latin 1 chars excluding control chars
$match_list .= "x{20ac}"; // euro symbol
if (preg_match("/[^$match_list]/u", $text) )
$error_text_array[] = "<b>INVALID UNICODE characters</b>";
测试似乎表明它的工作情况与预期一致,但作为一名初学者,如果在座的任何人能发现我忽略的任何漏洞,我将不胜感激。
我是否可以确认十六进制范围与Unicode代码点匹配,而不是实际的十六进制值(即欧元符号的x20ac而不是xe282ac是正确的)?
我是否可以混合文字字符和十六进制值,如preg_Match("/[^0-9x{20ac}]/u",$Text)?
谢谢, 凯文
注意,我以前尝试过这个问题,但它被关闭了-"更适合codereview.stackexchange.com",但没有响应,所以希望以更简洁的格式重试没有问题。
推荐答案
我创建了一个包装器来测试您的代码,我认为它在过滤您期望的字符方面是安全的,但当您的代码发现无效的UTf-8字符时,它会引起E_NOTICE。因此,我认为您应该在图标行的开头添加@以取消通知。
对于第二个问题,可以混合使用原义字符和十六进制值。你也可以自己试一试。:)
<?php
function generatechar($char)
{
$char = str_pad(dechex($char), 4, '0', STR_PAD_LEFT);
$unicodeChar = 'u'.$char;
return json_decode('"'.$unicodeChar.'"');
}
function test($text)
{
// ensure it's valid unicode / get rid of invalid UTF8 chars
@$text = iconv("UTF-8","UTF-8//IGNORE",$text); //Add @ to surpress warning
// and just allow a basic english...ish.. chars through - no controls, chinese etc
$match_list = "x{09}x{0a}x{0d}x{20}-x{7e}"; // basic ascii chars plus CR,LF and TAB
$match_list .= "x{a1}-x{ff}"; // extended latin 1 chars excluding control chars
$match_list .= "x{20ac}"; // euro symbol
if (preg_match("/[^$match_list]+/u", $text) )
return false;
if(strlen($text) == 0)
return false; //For testing purpose!
return true;
}
for($n=0;$n<65536;$n++)
{
$c = generatechar($n);
if(test($c))
echo $n.':'.$c."
";
}
这篇关于预匹配Unicode解析(_M)的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持编程学习网!
沃梦达教程
本文标题为:预匹配Unicode解析(_M)
基础教程推荐
猜你喜欢
- 在 Woocommerce 中根据运输方式和付款方式添加费用 2021-01-01
- WooCommerce 中选定产品类别的自定义产品价格后缀 2021-01-01
- Libpuzzle 索引数百万张图片? 2022-01-01
- XAMPP 服务器不加载 CSS 文件 2022-01-01
- mysqli_insert_id 是否有可能在高流量应用程序中返回 2021-01-01
- 如何在 PHP 中的请求之间持久化对象 2022-01-01
- 在多维数组中查找最大值 2021-01-01
- 在 PHP 中强制下载文件 - 在 Joomla 框架内 2022-01-01
- 通过 PHP SoapClient 请求发送原始 XML 2021-01-01
- 超薄框架REST服务两次获得输出 2022-01-01