1. 本际云推荐 - 专业推荐VPS、服务器,IDC点评首页
  2. 云主机运维
  3. VPS运维

怎么用python正则表达式提取/匹配中文汉字

Python正则表达式匹配中文汉字

Python使用正则表达式匹配中文,只需要将中文的unicode字符串转换成utf-8格式即可,然后在re中随意调用。unicode中中文的编码为/u4e00-/u9fa5,因此正则表达式u”[u4e00-u9fa5]+”可以表示一个或者多个中文字符。

怎么用python正则表达式提取/匹配中文汉字

例如:

import re
s='中文:123456aa哈哈哈bbcc'.decode('utf8')
re.match(u"[u4e00-u9fa5]+", s)

正则表达式匹配中文汉字方法

正则表达式匹配中文汉字在实际应用中十分常见,例如爬虫网页文本提取、验证用户输入标准等。以下面文本字符串为例,介绍两种方法实现匹配的代码:

方法一:

import re
astr='aaaaa何时when杖尔看see南雪snow,我me与梅花plum blossom两白头'
res=re.findall('[u4e00-u9fa5]',astr)
print(res)

方法二:

import re
astr='aaaaa何时when杖尔看see南雪snow,我me与梅花plum blossom两白头'
res=re.findall('[一-龥]',astr)
print(res)

注:其实这里“一”对应的Unicode编码就是“u4e00”,“龥”(yù)对应的Unicode编码就是“u9fa5”。常见非英文字符Unicode编码范围:u4e00-u9fa5(中文)、u0800-u4e00(日文)、uac00-ud7ff(韩文)。

综上所述,本文介绍了Python正则表达式匹配中文汉字的方法,希望对大家有所帮助。

原创文章,作者:小编小本本,如若转载,请注明出处:https://www.benjiyun.com/yunzhujiyunwei/vps-yunwei/7206.html