结构化数据流-JOIN操作

小编小本本 • 2023年4月19日 am8:00 • VPS运维

结构化数据流中的JOIN操作

本文介绍了结构化数据流中支持的JOIN操作的类型，包括inner、outer和semi连接。结构化数据流可以支持streamingDataFrame/DataSet与静态DataFrame/DataSet进行JOIN操作，也支持两个streamingDataFrame/DataSet进行JOIN操作，流连接的结果以增量方式生成，与流聚合结果类似。

结构化数据流-JOIN操作

流数据集的不同连接类型

Spark2.3添加了支持流连接的功能，可以连接两个流数据集/数据帧。在两个数据流之间生成连接结果的挑战在于，在任何时间点，数据集的视图对于连接的两侧都是不完整的，这使得查找输入之间的匹配变得更加困难。从一个输入流接收到的任何行都可以与将来从另一个输入流接收到的任何行相匹配。因此，对于这两个输入流，我们使用流状态来缓存过去的输入，使得每个未来的输入都能与过去的输入匹配，并相应地生成连接的结果。

基于水印的连接操作

基于水印的INNERJOIN操作支持任何类型的列上的内部连接以及任何类型的连接条件。然而，随着流的运行，流状态的大小将无限期的增长，因为所有过去的输入都必须保存。为了避免无限的状态，必须定义额外的连接条件，以便过去的旧输入无法与将来的输入匹配，因此在连接中必须定义水印、事件时间范围条件等，以删除旧状态。

基于水印的OUTERJOIN和SEMIJOIN操作也必须指定水印和事件时间约束条件，以生成正确的连接结果。

总之，流数据集可以与静态数据集进行JOIN操作，也可以连接两个流数据集/数据帧。JOIN操作支持不同的连接类型，例如inner、outer和semi连接。除了使用连接条件外，还需要指定水印和事件时间范围条件以删除旧状态。

原创文章，作者：小编小本本，如若转载，请注明出处：https://www.benjiyun.com/yunzhujiyunwei/vps-yunwei/6340.html

赞 (0)

小编小本本

Python学习笔记

« 上一篇 2023年4月19日 am8:00

利用nginx配置多个域名，实现网站访问控制（附：从百度获取的建议）

下一篇 » 2023年4月19日 am8:00

VPS运维

vROPs集成监控方案

需求某行业公司平台需要新的采集服务来解决现有产品获取资源实例指标不够精细，数据不准确等问题，需求如下：根据vROPs平台提供的接口服务，完成虚拟机及宿主机更高精度的数据获取。 …

2023年4月16日
VPS运维

“轻松上手，快速编译安装nginx”

背景介绍 Nginx是一个高性能、高并发的Web服务器软件，拥有优秀的负载均衡功能和反向代理功能，适合作为Web应用的服务端。本篇文章将介绍如何轻松上手编译安装Nginx。安装前…

2023年4月16日
VPS运维

2u服务器托管

2U服务器托管的优点 2U服务器托管是一项服务，指将服务器托管在数据中心，由专业的服务提供商维护和管理，在这个过程中，您不必担心服务器的硬件和软件维护问题。2U服务器托管有以下优点…

2023年4月18日
VPS运维

nginx的端口号是多少？快速获取端口号指南（附：详细教程）

简介要想使用nginx搭建网站，必须知道nginx的端口号是多少。但是，首先需要知道什么是端口号。什么是端口号？端口号是一种用于区分不同进程或应用程序的标识符。对于使用TCP…

2023年4月14日
VPS运维

Python报表怎么实现自动化并发送到邮箱？仔细阅读下文哦

Python报表自动化办公作为数据分析师，制作报表太多的时候会耽误我们的数据分析时间。因此，利用Python编程自动化实现报表制作和发送可以大大提高我们的工作效率。那么，我们应该…

2023年4月11日
VPS运维

python+pytest自动化技术测试函数测试类测试标准的封装形式

介绍Python+pytest自动化技术测试函数测试类测试标准的封装形式我是本际云服务器推荐网的小编小本本，今天想跟大家聊聊Python+pytest接口自动化中测试程序开展封装…

2023年4月18日
VPS运维

海外电商平台有哪些(b2c跨境电商平台有哪些？)

十大B2C跨境电商平台跨境电商平台已成为全球电商行业的热门领域之一，以下是十大B2C跨境电商平台：一、速速卖通速度卖通是阿里巴巴帮助中小企业联系终端批发的零售商，全面打造集订…

2023年4月15日
VPS运维

哥伦布日(四位著名航海家的国籍和支柱国？)

四位著名航海家的国籍和支柱国以下按时间顺序排列： 1487年，葡萄牙人迪亚士（支持国：葡萄牙），航行目的：好望角； 1492年，意大利人哥伦布（支持国：西班牙），航行目的：古巴、…

2023年4月13日
VPS运维

商标转让手续费(商标过户流程及费用？)

商标过户流程及费用详解大家好，我是本际云服务器推荐网的小编小本本。今天给大家讲一下商标过户流程及费用的相关知识。个人商标转让流程 1、确定商标购买意向并商定价格，提供受让人身份…

2023年4月12日
VPS运维

什么是对象存储？

对象存储的几个关键特点：与传统的文件存储不同，对象存储将数据存储为单个对象，每个对象具有唯一标识符（ObjectID）和元数据（Metadata），并不像传统的文件存储那样存储在…

2023年4月16日