spark Dstreams-缓存及持久性存储

小编小本本 • 2023年4月16日 am8:00 • VPS运维

Spark Dstreams缓存

与RDD类似，DStreams也可以使用persist()方法将数据流持久化到内存中。使用Cache/Persistence对于需要多次计算的数据流中的数据非常有用。在基于窗口和状态操作时，持久性存储将隐式进行，无需开发人员显示调用persist()方法。需要显示指定持久化的数据集可以通过调用persist()方法实现。默认情况下，通过网络接收的输入流将被复制到两个节点以实现容错，并且默认持久性存储级别将在内存中进行序列化。

spark Dstreams-缓存及持久性存储

Spark Dstreams持久性存储

Checkpointing是Spark Streaming应用程序保持持久性的关键机制。由于流式应用程序需要24/7运行，因此必须适应与程序逻辑无关的故障。checkpointing有两种类型：metadata checkpointing和data checkpointing。元数据checkpointing将定义流式计算的信息保存到可靠的存储（如HDFS）中，以便于从程序驱动节点的故障中进行恢复。数据checkpointing将生成的RDD保存到可靠的存储中。对于有状态转换的基本功能，data checkpointing是必需的。在此类转换中，生成的RDD依赖于以前批处理的RDD，导致依赖链不断增加。为了避免恢复时间的无限增加，data checkpointing定期检查到可靠的存储中以切断依赖链。需要使用checkpointing的流应用程序必须提供checkpoint目录以允许定期RDD检查点。

需要注意的是RDD检查点会导致成本，并会导致检查点所在批次的处理时间增加。因此，需要谨慎设置检查点间隔。而对于无法从Spark Streaming中的检查点恢复累加器和广播变量的，需要对其创建延迟实例化的单例实例。在使用持久化时，persist()方法将RDD的partition持久化到磁盘，但当executor所在进程CoarseGrainedExecutorBackendstop后，被cache到磁盘上的RDD也会被清空。而checkpoint将RDD持久化到HDFS或本地文件夹，并且一直存在。在实际使用中，应根据实际情况选择适合的持久化方法。

原创文章，作者：小编小本本，如若转载，请注明出处：https://www.benjiyun.com/yunzhujiyunwei/vps-yunwei/6222.html

赞 (0)

小编小本本

怎么使用Python实时向文件写入数据

« 上一篇 2023年4月16日 am8:00

学习Nginx服务器的安装及配置（附详细步骤）

下一篇 » 2023年4月16日 am8:00

VPS运维

Flex布局详解

Flex布局详解本文将介绍Flex布局，也被称为“弹性布局”，它可为盒状模型提供高度灵活性。以下为常见的Flex布局术语：容器和项目(container/item) 主轴与交叉…

2023年4月13日
VPS运维

使用Armbian轻松安装Nginx（附：配置详解）

什么是Armbian？简单介绍Armbian的背景和用途，让读者对Armbian有个基本的了解。为什么要使用Nginx？介绍Nginx的优点，以及为什么需要使用Nginx作为…

2023年4月10日
VPS运维

CDH5.5.1环境部署

CDH5.5.1环境部署作为本际云服务器推荐网的小编小本本，发现Hadoop使用的是Cloudera公司（Hadoop的分发商）的CDH5版本，操作系统为Centos6.5版本。…

2023年4月16日
VPS运维

一条SQL引起的mysql宕机

小本本的故事大家好，我是本际云服务器推荐网的小编小本本。今天我要跟大家分享一条SQL引起的MySQL宕机的案例。 MySQL物化子查询的问题 MySQL引入了物化（Materia…

2023年4月17日
VPS运维

切库工具(nacos)

切库工具(nacos) 小编在本文里给大家分享nacos通过脚本对配置中心的配置进行修改的方法。随着程序应用的微服务化推进，微服务管理程序如nacos、zookeeper、apol…

2023年4月10日
VPS运维

记一次ora-01578分析过程

ORA-01578分析：我最近遇到了一个问题，应用报出ORA-01578错误导致某张业务表无法查询。经过分析，发现表存在坏块。我使用了analyze命令来分析它，确定了表有坏块。…

2023年4月16日
VPS运维

云服务器优势有哪些

介绍你好，我是本际云服务器推荐网的小编小本本。今天我要向大家介绍云服务器的优点。优点便捷性云服务器可以通过互联网访问，这使得用户可以随时随地访问他们的服务器，而不必担心物理…

2023年4月18日
VPS运维

什么是云服务器？

云服务器简介作为一种简单高效、安全可靠、处理能力可弹性伸缩的计算服务，云服务器的管理方式比物理服务器更简单高效。用户无需提前购买硬件，即可迅速创建或释放任意多台云服务器。用一个比…

2023年4月17日
VPS运维

Python怎么全面解析json数据，保存csv文件？

python解析json数据并保存csv文件本文将详细解答python解析json数据并保存为csv文件的方法，首先需要导入json和pandas两个包来进行处理。打开json文…

2023年4月18日
VPS运维

Nginx面试必备：展现你的技能和经验（附：提高面试成功率的技巧）

Nginx面试必备技能 Nginx作为一款高性能的Web服务器和反向代理服务器，近年来在互联网行业得到了广泛的应用。在Nginx技术面试中，需要掌握以下几个方面的知识： 1. Ng…

2023年4月11日