介绍Cpca模块
正在进行NLP(自然语言处理)相关任务完成后,经常碰到务必辨别并获得省、大都市、行政区的需求。虽然自身依据关键词表一个一个搜索也可以实现获得目的,但必须要先搜集省份关键词表,相对而言比较复杂。

今天给大家介绍一个模块,你只需将结构体数组传递给这个模块,他就可以给你返回这个结构体数组内的省、市、区关键词,并可以给你在图片里标出下去,它是Cpca模块。
基本使用
通过两行代码就能实现最基本的省市区提取:
# 公众号:Python实用宝典
# 2022/06/23
import cpca
location_str=[
"广东省深圳市福田区巴丁街深南中路1025号新城大厦1层",
"特斯拉上海超级工厂是特斯拉汽车首座美国本土以外的超级工厂,位于中华人民共和国上海市。",
"三星堆遗址位于中国四川省广汉市城西三星堆镇的鸭子河畔,属青铜时代文化遗址"
]
df=cpca.transform(location_str)
print(df)
效果如下:
| 省 | 市 | 区 | 地址 | adcode |
|---|---|---|---|---|
| 广东省 | 深圳市 | 福田区 | 巴丁街深南中路1025号新城大厦1层 | 440304 |
| 上海市 | None | None | 特斯拉上海超级工厂是特斯拉汽车首座美国本土以外的超级工厂,位于中华人民共和国上海市。 | 310000 |
| 四川省 | 德阳市 | 广汉市 | 城西三星堆镇的鸭子河畔,属青铜时代文化遗址 | 510681 |
注意第三条的广汉市,cpca不仅识别到了语句中的县级市广汉市,还能自动匹配到其代管市的德阳市,非常强大。
高级使用
它还可以从大段文本中批量识别多个地区:
#公众号:Python实用宝典
# 2022/06/23
import cpca
long_text="对一个城市的评价总会包含个人的感情。如果你喜欢一个城市,很有可能是喜欢彼时彼地的自己。"
"在广州、香港读过书,工作过,在深圳买过房、短暂生活过,去北京出了几次差。"
"想重点比较一下广州、深圳和香港,顺带说一下北京。总的来说,觉得广州舒适、"
"香港精致、深圳年轻气氛好、北京大气又粗糙。答主目前选择了广州。"
df=cpca.transform_text_with_addrs(long_text,pos_sensitive=True)
print(df)
效果如下:
| 省 | 市 | 区 | 地址 | adcode |
|---|---|---|---|---|
| 广东省 | 广州市 | None | None | 440100-1 |
| 香港特别行政区 |
原创文章,作者:小编小本本,如若转载,请注明出处:https://www.benjiyun.com/yunzhujiyunwei/vps-yunwei/5781.html |
