大数据开发–基于ip2region实现在流式数据ip归属转换
你好,我是本际云服务器推荐网的小编小本本。在流式计算数据加工流程中,我们需要实现一种基于流式数据里面ip转换成对应的归属地信息。这个场景首先想到是如何找一个符合条件的ip映射库。

ip2region的应用
通过调研,开源ip2region.db数据库符合我们实际场景需求。本文档主要介绍在flink流式计算中如何使用ip2region,通过测试程序了解flink是如何加载外部文件机制。
实现方式
为了能够使用ip2region,我们需要下载项目并引用maven依赖。接下来,我们可以开始编写api来实现我们的需求了。
编写api比较简单就三行代码,采用的是memory查询算法。打包测试程序打包成功后,将程序提交到flinkonyarn环境之前,我们要考虑ip2regiog.db存储的位置及加载方式,否则在分布式环境下flink程序是无法读到该数据库。
我们提供了两种方式:一种是将ip2region.db数据库文件放入hadoop各计算节点上指定位置上,通过配置文件指定读取的路径;另一种是一次性加载方式,通过指向目录确保外部文件在存储的目录,并在提交的过程中自动分发到各个计算节点的classpath中。
方案二相比方案一优势明显,只需提交任务的时候指定外部文件在存储的目录,提交的过程,会自动分发到各个计算节占的任务所在的classpath中,很好解决了外部文件加载的问题。
以上就是我们在流式计算数据加工流程中,如何使用ip2region实现ip归属转换的方法。如果需要了解更多详情,请自行到官网地址查阅 https://github.com/lionsoul2014/ip2region。
原创文章,作者:小编小本本,如若转载,请注明出处:https://www.benjiyun.com/yunzhujiyunwei/vps-yunwei/6249.html
