网站首页 > 文章精选 正文
1. 问题描述
原sql:
select a.user_id, a.其他字段, b.其他字段
flink sql on hive,使用了left join去关联字典表,由于字典表中某一个值对应的左边记录表中的数据条数非常非常多,是其他字典值的数十倍之多,因此在join时发生了数据倾斜,这一个字典值对应的所有记录都跑到了一个并行度中,如下图所示:
其他并行度接收的数据量远远小于第一个并行度。
2. 解决方案
2.1 字典表数据扩展
将字典表数据进行扩展。
比如字典表为用户信息,和记录表的关联字段为用户id,则可以在用户id后面添加从0~9的数字,将其扩展为原来的十倍,示例sql如下所示:
insert into temp.user_info_10select concat(user_id, '0') as user_id, 其他字段值保持不变insert into temp.user_info_10select concat(user_id, '1') as user_id, 其他字段值保持不变insert into temp.user_info_10select concat(user_id, '2') as user_id, 其他字段值保持不变
上面一个10个sql语句,在用于关联的字段“用户id”后面拼接0~9的数字,将原字典表数据扩展为原来的10倍。
2.2 left join
当用户日志表和用户字典表关联时,需要将用户日志表的“用户id”字段后面拼接上0~9的数字,两个目的:
- 和字典表进行关联,能够找到对应的值。由于两边都在字段值后面添加了指定范围内的数字,因此肯定可以关联上,而且结果和原sql一致。
- 将用户日志记录数据中的“用户id”打散到不同的并行度,解决数据倾斜问题。
示例SQL:
select a.user_id, a.其他字段, b.其他字段left join user_info_10 as bon concat(a.user_id, cast(cast(rand(10) * 10 as int) as int)) = b.user_id
运行过程图:
可以看到,和原sql相比,数据倾斜已经不是特别严重了。
3. 其他倾斜情况
如果记录表中的某个用户,在字典表中并不存在,但是这个用户的的日志非常多,造成了严重的数据倾斜,此时就不用扩展字典表了,直接将对该用户的id进行随机数拼接,然后打散该用户的记录,关联时使用该用户拼接之后的id进行关联即可。
由于该用户原id就无法关联到字典表数据,所以打散之后也关联不到字典表数据,对结果无影响。
示例sql如下:
select a.user_id, a.其他字段, b.其他字段 when user_id = '记录最多,但是字典表中没有的用户id' then concat(user_id, cast(cast(rand(10) * 10 as int) as string)) else user_id endon a.user_id_join = b.user_id
- 上一篇: 数据倾斜以及本地模式的介绍
- 下一篇: Hive性能优化(全面)
猜你喜欢
- 2025-03-07 阿里云云原生一体化数仓—数据治理新能力解读
- 2025-03-07 Apache Hive分区:定义、实现方式、优劣势分析、分区管理实践
- 2025-03-07 Delta Lake在Soul的应用实践
- 2025-03-07 大数据开发工程师面试主要面试内容
- 2025-03-07 Sqoop高频面试题知识点总结
- 2025-03-07 大数据技术之Hive
- 2025-03-07 Hive最全总结,学习与面试,收藏这一篇就够了!
- 2025-03-07 Hive 迁移参考方案及测试(上)
- 2025-03-07 2021年超全超详细的最新大数据开发面试题
- 2025-03-07 【大数据】Hive 小文件治理和 HDFS 数据平衡讲解
- 最近发表
-
- 100%开源免费的低代码/可视化数据分析、数据展示平台
- Spring Boot跨域问题终极解决方案:3种方法根治CORS报错
- 永久免费内网穿透很简单,一看就明白
- Odoo 用户菜单架构解析及创建和管理实战
- 关于编码的那些事 - URL 编码(编码url是什么意思)
- 20 个让人惊叹的 JavaScript 单行代码技巧,效率瞬间提升
- 如何使用java.net.URLConnection发起和处理HTTP请求
- 崩溃!代码总掉链子?6 个 JavaScript 技巧助你稳操胜券
- 抓狂!代码总出错?5 个 JavaScript 技巧助你逆风翻盘
- 前端性能拉胯?这 8 个 JavaScript 技巧让你的代码飞起来!
- 标签列表
-
- newcoder (56)
- 字符串的长度是指 (45)
- drawcontours()参数说明 (60)
- unsignedshortint (59)
- postman并发请求 (47)
- python列表删除 (50)
- 左程云什么水平 (56)
- 计算机网络的拓扑结构是指() (45)
- 稳压管的稳压区是工作在什么区 (45)
- 编程题 (64)
- postgresql默认端口 (66)
- 数据库的概念模型独立于 (48)
- 产生系统死锁的原因可能是由于 (51)
- 数据库中只存放视图的 (62)
- 在vi中退出不保存的命令是 (53)
- 哪个命令可以将普通用户转换成超级用户 (49)
- noscript标签的作用 (48)
- 联合利华网申 (49)
- swagger和postman (46)
- 结构化程序设计主要强调 (53)
- 172.1 (57)
- apipostwebsocket (47)
- 唯品会后台 (61)
- 简历助手 (56)
- offshow (61)