flink以增量+全量的方式更新广播状态

news/2024/7/24 2:27:11 标签: flink, 大数据

背景

flink在实现本地内存和db同步配置表信息时,想要做到类似于增量(保证实时性) + 全量(保证和DB数据一致)的效果,那么我们如何通过flink的广播状态+外部定时器定时全量同步的方式来实现呢?

实现增量+全量的效果

package wikiedits.schedule;


import java.util.List;
import java.util.Map;

import org.apache.commons.lang3.StringUtils;
import org.apache.flink.api.common.state.BroadcastState;
import org.apache.flink.api.common.state.MapState;
import org.apache.flink.api.common.state.MapStateDescriptor;
import org.apache.flink.api.common.typeinfo.BasicTypeInfo;
import org.apache.flink.api.java.typeutils.ListTypeInfo;
import org.apache.flink.streaming.api.functions.co.KeyedBroadcastProcessFunction;
import org.apache.flink.util.Collector;

//处理函数
public class BroadcastStatePlusSchedulerFunction extends KeyedBroadcastProcessFunction<String, String, String, String> {

    // 键值分区状态
    private final MapStateDescriptor<String, List<String>> mapStateDesc =
            new MapStateDescriptor<>("items", BasicTypeInfo.STRING_TYPE_INFO, new ListTypeInfo<>(String.class));

    // 广播状态
    private final MapStateDescriptor<String, String> ruleStateDescriptor = new MapStateDescriptor<>(
            "RulesBroadcastState", BasicTypeInfo.STRING_TYPE_INFO, BasicTypeInfo.STRING_TYPE_INFO);



    @Override
    public void processBroadcastElement(String value, Context ctx, Collector<String> out) throws Exception {
        // 1.增量消息更新广播状态
        BroadcastState<String, String> broadcastState = ctx.getBroadcastState(ruleStateDescriptor);
        broadcastState.put(value, value);
        // 2.全量更新,判断广播状态和DB配置表在本地缓存的配置项是否一致,比如如果广播状态记录少了,使用本地缓存中的记录来更新下广播状态
        for (Map.Entry<String, String> entry : StaticLoadUtil.getConfigCache().asMap().entrySet()) {
            String broadcastValue = broadcastState.get(entry.getKey());
            if(!StringUtils.equals(entry.getValue(), broadcastValue)){//如果不相等,那么以DB缓存中的为准

            }
        }
        // 3.自此,广播状态和DB配置表的状态几乎一致,不过由于他们的比较只发生于收到广播元素,所以我们可以在凌晨的时候故意从db中找出几条记录发送kafka消息到这个广播状态来进行触发比较,当然这里也可以当收到某个元素时覆盖掉flink的广播状态
    }

    @Override
    public void processElement(String value, ReadOnlyContext ctx, Collector<String> out) throws Exception {
        // 键值分区状态
        final MapState<String, List<String>> state = getRuntimeContext().getMapState(mapStateDesc);
        // 广播状态
        for (Map.Entry<String, String> entry : ctx.getBroadcastState(ruleStateDescriptor).immutableEntries()) {

        }
    }


}


// 外部定时器实现
package wikiedits.schedule;

import java.util.concurrent.Executors;
import java.util.concurrent.ScheduledExecutorService;
import java.util.concurrent.TimeUnit;

import com.google.common.cache.Cache;
import com.google.common.cache.CacheBuilder;

/**
 * 静态类定时加载DB配置表到本地内存中
 */
public class StaticLoadUtil {

    // 定时任务执行器
    private static transient ScheduledExecutorService scheduledExecutorService;

    public static final Cache<String, String> configCache =
            CacheBuilder.newBuilder().initialCapacity(50).maximumSize(500).build();

    // 通过定时执行器定时同步本地缓存和DB配置表
    static {
        scheduledExecutorService = Executors.newScheduledThreadPool(10);
        scheduledExecutorService.scheduleWithFixedDelay(() -> {
            // 2.1 定时任务更新本地内存配置项
            // List<ConfigEntity> configList = DBManager.SELECTSQL.getConfigs();
            // for(ConfigEntity entity : configList){
            configCache.put("key", "value");
            // }
            // 2.2 更新本地变量threshold的值
            // threshold = DBManager.SELECTSQL.getConfig("threshold");
        }, 0, 100, TimeUnit.SECONDS);
    }

    /**
     * 获取本地缓存
     */
    public static Cache<String, String> getConfigCache() {
        return configCache;
    }


}

总结:

1.在处理广播元素的时候,除了更新广播状态之外,还要对比下广播状态和DB配置表在flink的本地缓存的数据,如果不一致,需要打印告警日志或者采取更新等措施

2.由于全量广播状态和DB配置表在flink的本地缓存的数据对比是在接收到某个广播元素的时候才进行,所以我们可以多余多发送一些相同的广播元素来触发对比

3.通过这种方式,广播状态就可以实现增量(实时性) + 全量(准确性) 的结果


http://www.niftyadmin.cn/n/5078129.html

相关文章

hive 知识总结

​编辑 社区公告教程下载分享问答JD 登 录 注册 01 hive 介绍与安装 1 hive介绍与原理分析 Hive是一个基于Hadoop的开源数据仓库工具&#xff0c;用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架&#xff0c;提供了类似于SQL语法的HQL&#xf…

单目标应用:遗传算法(Genetic Algorithm,GA)求解微电网优化MATLAB

一、微网系统运行优化模型 微电网优化模型介绍&#xff1a; 微电网多目标优化调度模型简介_IT猿手的博客-CSDN博客 二、遗传算法GA 遗传算法&#xff08;Genetic Algorithm&#xff0c;GA&#xff09;起源于对生物系统所进行的计算机模拟研究&#xff0c;是一种随机全局搜索…

B端企业如何通过软文提升品牌影响力?

生活中我们采购某种商品时总会考虑这类商品行业类的知名品牌&#xff0c;这就是品牌影响力的重要性&#xff0c;B端企业也需要品牌影响力&#xff0c;由于B端企业的特殊性&#xff0c;它更需要通过口碑和声誉的提升增强用户信任。软文就能帮助企业提升品牌影响力&#xff0c;下…

Apache Doris 数据建模之 Aggregate Key 模型

了解 Doris 数据模型对于我们使用 Doris 来解决我们业务问题非常重要&#xff0c;这个系列我们将详细介绍 Doris 的三种数据模型及 Doris 数据分区分桶的一些策略&#xff0c;帮助用户更好的使用 Doris 。 这个系列我会讲解 Doris 的三种数据模型及在这三种数据模型之上的 Rol…

【JAVA版本】最新websocket获取B站直播弹幕——非官方API

一、教程 如果只想要代码实现,直接看第二部分。 1、相关依赖 fastjson2用于解析JSON字符串,可自行替换成别的框架。 hutool-core用于解压zip数据,可自行替换成别的框架。 <dependency><groupId>com.alibaba.fastjson2</groupId><artifactId>fas…

JVM第一讲:JVM相关知识体系详解+面试(P6熟练 P7精通)

JVM相关知识体系详解面试(P6熟练 P7精通) 面试时常常被面试官问到JVM相关的问题。本系列将给大家构建JVM核心知识点全局知识体系&#xff0c;本文是JVM第一讲&#xff0c;JVM相关知识体系详解和相关面试题梳理。 文章目录 JVM相关知识体系详解面试(P6熟练 P7精通)1、JVM学习建议…

【Shell】进程内存过高告警脚本

说明 由于应用内存过高会导致应用异常&#xff0c;所以特写当前的脚本验证。而内存过高可能由以前的原因导致&#xff1a; 内存泄漏 &#xff1a;程序中存在内存泄漏问题&#xff0c;导致内存无法正常释放&#xff0c;最终使服务器内存被占满。 内存碎片&#xff1a;服务器在运…

Lab 1: Unix utilities汇总

这个实验主要学习了常用的一些系统调用。 Lab 1: Unix utilities Boot xv6 (easy) git克隆&#xff0c;切换分支&#xff0c;qemu。根据要求进行操作即可。 $ git clone git://g.csail.mit.edu/xv6-labs-2020 $ cd xv6-labs-2020 $ git checkout util $ make qemusleep (ea…