触发器的设置和流式查询
流式查询中触发器的设置定义了流数据处理的时间,可以是微批处理,也可以是连续查询执行。

微批触发类型和连续处理模式
微批触发类型和连续处理模式是流查询中的两种方式,可以实现低延迟的流数据处理。连续处理模式是Spark2.3中引入的一种新的实验性流式执行模式,可实现小于1毫秒的端到端延迟。自spark2.4,连续处理模式下仅支持操作、数据源和接收器等查询类型。
注意:使用连续处理模式需要确保集群中有足够的内核并行执行任务,同时需要采用合适的数据源和接收器来观察端到端的低延迟处理。
流查询管理通过start()方法后生成StreamingQuery对象,可用于监视可管理流查询。可以使用spark的DropwizardMetrics支持或编程方式进入查询进行监控和恢复。
需要注意的是,在故障和故意关闭后,可以通过检查点和预写日志来恢复以前查询的进度和状态,并在停止时继续流数据处理。
原创文章,作者:小编小本本,如若转载,请注明出处:https://www.benjiyun.com/yunzhujiyunwei/vps-yunwei/6341.html
