spark系列-结构化数据流-数据源

小编小本本 • 2023年4月18日 am8:00 • VPS运维

Spark系列：结构化数据流

自Spark 2.0之后，DataFrame和DataSet可以用于表示静态有界数据和无界流数据，并使用SparkSession从流源创建DataFrame/DataSet。使用spark.readStream()可以创建流。

spark系列-结构化数据流-数据源

我们设计了数据源、接收器和执行引擎，以实现端到端一次传输。数据源具有偏移量，执行引擎使用检查点和预写日志来记录每次触发后正在处理数据的偏移范围。接收器使用幂等接收，确保结构化数据流实现了端到端一次性传输。

数据源

内置数据源包括：

Filesource：读取目录中的文件，按文件修改时间进行处理。支持text、csv、json、orc、parquet格式。
Kafkasource：兼容kafkabroker0.10.0或更高版本。
Socketsource（用于测试）：从socket连接中读取数据，监听socket套接字。
Ratesource（用于测试）：以每秒指定的行数生成数据。

案例

可以通过创建socket流和文件流来测试数据集是否为流数据。可以使用DF.isStreaming来判断数据集是否为流数据。Spark 3.1开始，也支持根据DataStreamReader.table()来创建结构化数据流。当读取目录时如果存在key=value形式的子目录时，将自动递归到这些目录中并发生分区。

以上内容来源于IT那活儿（上海新炬王翦团队）的潘宗昊。

原创文章，作者：小编小本本，如若转载，请注明出处：https://www.benjiyun.com/yunzhujiyunwei/vps-yunwei/6259.html

赞 (0)

小编小本本

kibana总是创建index-pattern

« 上一篇 2023年4月18日 am8:00

Docker开源之Docker-Compose

下一篇 » 2023年4月18日 am8:00

VPS运维

维护模式恢复P630小型机AIX用户口令

维护模式恢复P630小型机AIX用户口令你好，我是本际云服务器推荐网的小编小本本。今天我们来分享一下如何恢复P630小型机AIX用户口令。下面是详细的步骤：步骤 1. 停机确认…

2023年4月15日
VPS运维

Java使用JMX监控宝兰德BES

使用JMX监控宝兰德BES 欢迎来到“IT那活儿”公众号，我是本际云服务器推荐网的小编小本本，今天将和大家分享如何在Java中使用JMX来监控BES的各种状态。步骤 1. 在所需…

2023年4月17日
VPS运维

感恩节的由来(感恩节2021年是几月几日由来？)

感恩节2021将于11月25日举行感恩节（Thanksgiving Day）是一个传统节日，在美国和加拿大都很盛行。它被创造出来是为了感激上天赐予的好收成和印第安人的帮助。最初，…

2023年4月16日
VPS运维

应用Python脚本制作获取基因组测序指定位置编码序列

Python脚本制作获取基因组测序指定位置编码序列的实例本篇文章将详细说明应用Python脚本获取基因组测序指定位置编码序列的实例，使您可以准确地获取所需的基因序列。前言在基…

2023年4月16日
VPS运维

用ahooks如何解决用户多次提交方法？

小编介绍大家好，我是本际云服务器推荐网的小编小本本，今天我要和大家分享一下实现客户多次提交的方法。实现客户多次提交的方法要求可以实现客户多次提交，这样的要求如何实现？实现方法…

2023年4月15日
VPS运维

怎么使用Flask实现接收与上传图片

Python Flask实现接收与上传图片详解小编将为大家解答关于Python中Flask实现接收与上传图片的知识。方案一：复杂写法思路整理：接收图片->定义一个图片存…

2023年4月19日
VPS运维

mysql双主加keepalived

MySQL双主加Keepalived 欢迎来到本际云服务器推荐网，我是小编小本本。今天我们来了解一下MySQL双主加Keepalived的配置方法。配置半同步在192.168….

2023年4月15日
VPS运维

OB篇-关于约束不得不知道的事

关于OceanBase约束的重要性作为蚂蚁集团自主研发的分布式关系数据库，OceanBase在高可用、性能扩展等方面表现出色。然而，在使用OceanBase时，合理使用约束也是至…

2023年4月19日
VPS运维

国际短信怎么发-国际短信平台哪家好

UCloud优刻得介绍小编小本本很高兴为大家介绍 UCloud 优刻得，这是一家专注于云通信领域技术研发的公司。凭借着多年来的积累，UCloud 已经拥有了独特的资源和技术优势，…

2023年4月17日
VPS运维

优秀nginx版本推荐：如何选择？

什么是nginx 首先，让我们来了解一下什么是nginx。Nginx是一个高性能的开源Web服务器软件，可以作为反向代理服务器、负载均衡器、邮件代理服务器等。它以其高性能、稳定性和…

2023年4月14日