巧用ChatGPT 解决 Hbase 快照方式读性能优化问题

news/2024/7/24 5:07:16 标签: hbase

一、背景

最近公司采用Hbase scan 的方式,经常性会遇到任务跑不出来region 读取超时,由于scan 全量数据,合计行数10个亿,列数接近500。根据建议方案,改为Hbase 快照读方式,避免给region 造成过大压力

二、Hbase 快照原理

snapshot流程主要涉及3个步骤:

1. 加一把全局锁,此时不允许任何的数据写入更新以及删除

2. 将Memstore中的缓存数据flush到文件中(可选)

3. 为所有HFile文件分别新建引用指针,这些指针元数据就是snapshot

三、实际线上表现

改为快照方式扫描之后,提交的任务半天提交不起来,接近1小时,任务才能启起来。

一般遇到程序卡住不动,会想到使用jstack 查看程序的堆栈信息

(1)查看程序的进程pid(top 命令或者ps -ef|grep 命令)

(2)找到程序的pid,打印jstack 信息

 能看到程序一直卡在这个地方,一直计算block 信息,找到对应的Hbase 源码,查看对应的代码信息

可以看到是由于计算block location信息,那什么是location 呢?

利用chatGPT查询hbase locality的含义,能发现其实就是数据本地性,而我们实际任务中是不需要计算这个本地性占比,因为只需要能拉到数据即可,无论是从本地还是远端

HBase locality的原理可以分为两个方面,即数据本地性和任务本地性。

数据本地性
在HBase中,数据是以Region的形式存储的,一个Region包含了一段连续的行键范围。每个Region都会被分配到一个RegionServer上进行管理,并在该RegionServer上存储它所包含的所有数据。

当客户端访问HBase中的数据时,它会首先向HBase的Master节点请求获取对应数据所在的RegionServer的信息,然后再从该RegionServer上获取所需的数据。如果客户端所在的节点与该数据所在的RegionServer节点相同,就可以直接在该节点上获取数据,避免了网络传输的延迟,从而提高了数据访问的效率。

任务本地性
HBase中的任务包括数据写入和数据查询两种类型。在HBase中,数据写入是通过向表中的RegionServer发送写请求来完成的。如果客户端所在的节点与该RegionServer节点相同,那么写请求可以直接发送到该节点上,从而实现本地写入。

另一方面,数据查询任务是由HBase的RegionServer节点完成的。当RegionServer节点接收到查询请求时,它会首先检查所需数据所在的Region是否已经在该节点上加载到内存中,如果是,则可以直接在该节点上执行查询操作,否则需要从其他节点上获取数据,这将导致额外的网络延迟和资源开销。

因此,为了最大化任务本地性,HBase通常会将数据分布在多个Region中,并将这些Region分配到尽可能多的节点上进行管理,从而最大化数据和任务之间的本地性。此外,HBase还提供了一些机制来管理Region的负载均衡和RegionServer节点的故障转移,以保证系统的高可用性和稳定性。

 最终只需要在提交任务的地方设置 hbase.TableSnapshotInputFormat.locality.enabled 为false 即可,任务提交就非常快了。

参考:

HBase原理 – 分布式系统中snapshot是怎么玩的? – 有态度的HBase/Spark/BigData


http://www.niftyadmin.cn/n/157884.html

相关文章

Unity图片切割

切图片的代码实现 一般可能需要切帧动画这种, 但个人用,只是刚好需要切个别图 (最好其实是利用同一个贴图,不同的渲染,可以达到图集共用,减少texture实例,但就只是简单用用,就这样) static public Texture2D DePackTexture(Texture2D tex,int x, int y, int width, in…

语音芯片各个管脚的作用你都知道多少?WT588F语音ic

在现代科技的发展中,语音芯片的应用越来越广泛,特别是在智能家居、智能玩具、语音提示等领域中得到广泛应用。WT588F语语音芯片各个脚位的作用你都知道多少?WT588F语音ic音芯片作为其中一种较为常用的语音芯片,其功能强大、使用方…

Linux IPC:共享内存

目录一、共享内存的理解二、共享内存操作流程三、共享内存操作接口1.创建/打开共享内存2.进程与共享内存建立映射关系3.操作共享内存4.进程解除与共享内存的映射5.删除共享内存四、共享内存相关指令1.查看共享内存信息2.删除指定共享内存本文介绍另一种进程间通信方式&#xff…

详解centos7 下双网卡如何配置静态IP

1,双网卡,双IP;或者单网卡,双IP。 这种方案,成本低,但是维护挺麻烦,并且速度比后面二个要慢。 2,BGP双线机房。 BGP的费用要比第一种方案要高,但是全国真正是BGP机房的到底有多少,应…

游戏蓝牙耳机哪个品牌好?打游戏专用的蓝牙耳机推荐

现在的蓝牙耳机越来越多,耳机品牌也数不胜数,不少蓝牙耳机为了满足用户玩手游的需求,配备了低延迟模式。尽可能地将延迟降低,给用户更好的使用体验。今天,我来给大家推荐几款打游戏专用的蓝牙耳机,感兴趣的…

正则表达式大全,一篇前后端都可用

正是掌握了这些正则表达式,冰河平均每天比别人少写200行代码,极大的提高了研发效率。 熟练的掌握正则表达式,能够帮助程序员以最快的速度写出最优雅的代码。冰河在多年的编程工作中,对使用过的正则表达式进行了梳理和总结&#x…

栈的定义及基本操作实现(顺序栈)

个人主页:【😊个人主页】 系列专栏:【❤️数据结构与算法】 学习名言:天子重英豪,文章教儿曹。万般皆下品,惟有读书高 系列文章目录 第一章 ❤️ 学前知识 第二章 ❤️ 单向链表 第三章 ❤️ 递归 文章目录…

44岁了,我从没想过在CSDN创作2年,会有这么大收获

1998年上的大学,02年毕业,就算从工作算起,我也有20余年的码龄生涯了。 但正式开启博文的写作,却是2021年开始的,差不多也就写了2年的博客,今天我来说说我在CSDN的感受和收获。 我是真的没想到,…