Python正则表达式匹配中文汉字
Python使用正则表达式匹配中文,只需要将中文的unicode字符串转换成utf-8格式即可,然后在re中随意调用。unicode中中文的编码为/u4e00-/u9fa5,因此正则表达式u”[u4e00-u9fa5]+”可以表示一个或者多个中文字符。

例如:
import re
s='中文:123456aa哈哈哈bbcc'.decode('utf8')
re.match(u"[u4e00-u9fa5]+", s)
正则表达式匹配中文汉字方法
正则表达式匹配中文汉字在实际应用中十分常见,例如爬虫网页文本提取、验证用户输入标准等。以下面文本字符串为例,介绍两种方法实现匹配的代码:
方法一:
import re
astr='aaaaa何时when杖尔看see南雪snow,我me与梅花plum blossom两白头'
res=re.findall('[u4e00-u9fa5]',astr)
print(res)
方法二:
import re
astr='aaaaa何时when杖尔看see南雪snow,我me与梅花plum blossom两白头'
res=re.findall('[一-龥]',astr)
print(res)
注:其实这里“一”对应的Unicode编码就是“u4e00”,“龥”(yù)对应的Unicode编码就是“u9fa5”。常见非英文字符Unicode编码范围:u4e00-u9fa5(中文)、u0800-u4e00(日文)、uac00-ud7ff(韩文)。
综上所述,本文介绍了Python正则表达式匹配中文汉字的方法,希望对大家有所帮助。
原创文章,作者:小编小本本,如若转载,请注明出处:https://www.benjiyun.com/yunzhujiyunwei/vps-yunwei/7206.html
