spark系列-结构化数据流-基本内容

小编小本本 • 2023年4月16日 am8:00 • VPS运维

Spark系列 – 结构化数据流基本内容

本文将介绍Spark结构化数据流的基本概念和使用方法，StructuredStreaming的编程模型以及外部存储器模式等内容。

spark系列-结构化数据流-基本内容

Spark结构化数据流是基于SparkSQL引擎的可扩展和容错的数据流处理框架，可以处理结构化数据流，并且保证仅一次容错。数据以增量连续方式运行，在流数据到达时进行更新。可以使用scala、java、python或R的DataSet/DataFrame API来表示数据流聚合、时间窗口等，通过检查点、预写日志方式实现容错。

编程模型

StructuredStreaming的关键是将实时数据流作为无边界的连续追加的表，和批处理模型很像，实时处理可以看作是一个静态表进行处理。

每个消息实体作为表的一行追加到表中，针对输入表查询将生成结果表，每次触发新的ROWDATA将被追加到输入表中，然后更新结果表。无论何时更新，我们都希望将更新后的数据写入到外部存储器。

外部存储器模式

StructuredStreaming支持三种外部存储器模式：

CompleteMode：每次触发整个结果表将写入到外部存储器。适用于聚合查询输出的情况。
AppendMode：每次触发将追加到结果表中的新行才会被写入到外部存储器，适用于结果表中现有行不会更改的查询。
UpdateMode：每次触发后在结果表中较上次触发后更新或新增的行才会被写入到外部存储器。如果没有聚合操作，则该模式与AppendMode相同。如果有聚合操作，则可以基于watermark清理过期的状态。

需要注意的是，StructuredStreaming只读取最近可用的数据而不是整个数据表，然后更新结果表，然后就丢弃输入数据，只保留处理最新状态的数据。

以上就是Spark结构化数据流基本内容的介绍，想要了解更多信息，请关注IT那活儿（上海新炬王翦团队）。

原创文章，作者：小编小本本，如若转载，请注明出处：https://www.benjiyun.com/yunzhujiyunwei/vps-yunwei/6258.html

赞 (0)

小编小本本

« 上一篇 2023年4月16日 am8:00

如何在Windows上配置Nginx？

下一篇 » 2023年4月16日 am8:00

VPS运维

python+pytest接口自动化之session对话维持的完成

序言你好，我是本际云服务器推荐网的小编小本本。在app测试的过程中，我们经常需要处理登录状态的问题。我们可以通过Cookie绕开登录，也可以使用session对话维持机制来维持登…

2023年4月19日
VPS运维

ELK日志系统-部署文档

ELK日志系统-部署文档本文将介绍如何在服务器上进行ELK日志系统的部署，包括Elasticsearch、Logstash、Kibana三个组件的安装和插件、证书等细节的配置。 …

2023年4月15日
VPS运维

记一次oracle连接数暴涨hang分析经验

小编笔记：本次分享以某运营商核心数据库连接数暴涨进而导致数据库hang的故障分析处理经验为例，介绍了该事件的整个发生过程以及分析处理过程。主要通过查询数据库预警文件、Trc、OSW…

2023年4月14日
VPS运维

优化服务器性能，提高网站速度：gzip与nginx的完美结合

引言服务器的性能和网站速度是网站优化中不可忽视的要素之一。为了提高用户体验和搜索引擎排名，更快的网站速度和更高的服务器性能可以帮助网站获得更多的访问量和更好的用户体验。在本文中，…

2023年4月14日
VPS运维

使用rsyslog读取本地日志文件

使用rsyslog读取本地日志文件小编小本本提醒大家，当日志已经保存为文件后，该如何从日志文件中读取日志并传输到日志服务器呢？这就要使用到rsyslog中自带的imfile模块。…

2023年4月14日
VPS运维

useEffect支持async及await如何运用

背景在使用useEffect中用啦回调函数中使用async…await…这时候就会报错。上面代码可以看到，在报错，effectfunction应该返回一…

2023年4月19日
VPS运维

阿里巴巴外贸学院(阿里巴巴参观申请方法？)

阿里巴巴参观申请方法如果您想参观阿里巴巴，可以通过专业做标杆企业考察平台”标杆考察游学网”进行申请预约。申请时需要提前10-15天整理好您的单位名称、姓名…

2023年4月10日
VPS运维

CentOS下创建用户和用户组的方法

在CentOS下创建用户和用户组的方法在Linux操作系统中，用户和用户组是非常重要的概念。用户是系统中的个人账户，而用户组则是一组具有相同权限的用户的集合。在CentOS下，创建…

2023年3月22日
VPS运维

开源组件Flink关于redisSink业务需求改造分享

小本本介绍大家好，我是本际云服务器推荐网的小编小本本，今天给大家分享一下关于开源组件Flink中redisSink业务需求的改造方案。 Flink中redisSink业务需求改造…

2023年4月20日
VPS运维

云服务器托管

介绍您好，我是本际云服务器推荐网的小编小本本。云服务器托管公司是提供虚拟化的服务器租赁服务的公司，用户可以使用这些服务器来运行自己的应用程序和服务。这些公司通常会提供多种服务器配…

2023年4月16日