1. 本际云推荐 - 专业推荐VPS、服务器,IDC点评首页
  2. 云主机运维
  3. VPS运维

Python开展文字识别中的省份并绘图

介绍Cpca模块

正在进行NLP(自然语言处理)相关任务完成后,经常碰到务必辨别并获得省、大都市、行政区的需求。虽然自身依据关键词表一个一个搜索也可以实现获得目的,但必须要先搜集省份关键词表,相对而言比较复杂。

Python开展文字识别中的省份并绘图

今天给大家介绍一个模块,你只需将结构体数组传递给这个模块,他就可以给你返回这个结构体数组内的省、市、区关键词,并可以给你在图片里标出下去,它是Cpca模块。

基本使用

通过两行代码就能实现最基本的省市区提取:

# 公众号:Python实用宝典
# 2022/06/23
import cpca
location_str=[
    "广东省深圳市福田区巴丁街深南中路1025号新城大厦1层",
    "特斯拉上海超级工厂是特斯拉汽车首座美国本土以外的超级工厂,位于中华人民共和国上海市。",
    "三星堆遗址位于中国四川省广汉市城西三星堆镇的鸭子河畔,属青铜时代文化遗址"
]
df=cpca.transform(location_str)
print(df)

效果如下:

地址 adcode
广东省 深圳市 福田区 巴丁街深南中路1025号新城大厦1层 440304
上海市 None None 特斯拉上海超级工厂是特斯拉汽车首座美国本土以外的超级工厂,位于中华人民共和国上海市。 310000
四川省 德阳市 广汉市 城西三星堆镇的鸭子河畔,属青铜时代文化遗址 510681

注意第三条的广汉市,cpca不仅识别到了语句中的县级市广汉市,还能自动匹配到其代管市的德阳市,非常强大。

高级使用

它还可以从大段文本中批量识别多个地区:

#公众号:Python实用宝典
# 2022/06/23
import cpca
long_text="对一个城市的评价总会包含个人的感情。如果你喜欢一个城市,很有可能是喜欢彼时彼地的自己。"
"在广州、香港读过书,工作过,在深圳买过房、短暂生活过,去北京出了几次差。"
"想重点比较一下广州、深圳和香港,顺带说一下北京。总的来说,觉得广州舒适、"
"香港精致、深圳年轻气氛好、北京大气又粗糙。答主目前选择了广州。"
df=cpca.transform_text_with_addrs(long_text,pos_sensitive=True)
print(df)

效果如下:

地址 adcode
广东省 广州市 None None 440100-1
香港特别行政区

原创文章,作者:小编小本本,如若转载,请注明出处:https://www.benjiyun.com/yunzhujiyunwei/vps-yunwei/5781.html