网站首页 第219页
-
【大数据】Hive 小文件治理和 HDFS 数据平衡讲解
一、Hive小文件概述在Hive中,所谓的小文件是指文件大小远小于HDFS块大小的文件,通常小于128MB,甚至更少。这些小文件可能是Hive表的一部分,每个小文件都包含一个或几个表的记录,它们以文本格式存储。Hive通常用于分析大量数...
2025-03-07 balukai 文章精选 14 ℃ -
5.HIVE定位调优指导
1.1.日志搜集1.1.1.HiveServer日志获取Hive调优需要看HiveServer的运行日志及GC日志。HiveServer日志路径为:HiveServer节点的/var/log/Bigdata/hive/hiveserve...
2025-03-07 balukai 文章精选 4 ℃ -
hive报错:running beyond physical memory limitsn××终极解决方式
1.案例描述:hive有个定时任务平时正常,没有啥问题,正常一般大概执行1个小时左右,但是今天突然报错了,报错代码::runningbeyondphysicalmemorylimits.Currentusage:2.0GB...
2025-03-07 balukai 文章精选 9 ℃ -
干货分享,新浪大数据岗位面试题汇总
新浪面试题学长1一面1)自我介绍叫什么名字,来自哪里,本科哪个学校,硕士哪个学校,大数据做了多长时间,对Hadoop生态圈以及Spark生态圈中的哪些技术比较了解(很简单的一句就带过了),说完大概2min2)技术部分(1)让我介绍下Sqoo...
2025-03-07 balukai 文章精选 2 ℃ -
大数据开发-第4课(补) hive初步
Hive相关的组件有4个部分:Hive元数据、资源管理和调度、分布式文件系统和计算引擎Hive步入1.x版本后,整体架构稳定,后续的迭代版本就没有太多重大的调整,更多的只是功能增强了,Hive2.x引入的LLAP,Hive3.x在2.x...
2025-03-07 balukai 文章精选 3 ℃ -
数仓/数开面试题真题总结(二)
二.Hive1.大表join小表产生的问题,怎么解决?2.udfudafudtf区别3.hive有哪些保存元数据的方式,各有什么特点。4.hive内部表和外部表的区别5.生产环境中为什么建议使用外部表?6.insertinto和o...
2025-03-07 balukai 文章精选 4 ℃ -
Hive性能优化(全面)
简介:Hadoop的计算框架特性下的HIve有效的优化手段作者:浪尖原文链接本文转载自公众号:Spark学习技巧1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比...
2025-03-07 balukai 文章精选 8 ℃ -
flink sql left join数据倾斜问题解决
1.问题描述原sql:selecta.user_id,a.其他字段,b.其他字段flinksqlonhive,使用了leftjoin去关联字典表,由于字典表中某一个值对应的左边记录表中的数据条数非常非常多,是其他字典值的数十...
2025-03-07 balukai 文章精选 2 ℃ -
数据倾斜以及本地模式的介绍
一:数据倾斜Map数1)通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小。2)是不是map数越多越好?答案是否定的。如果一个任务有很多小文...
2025-03-07 balukai 文章精选 9 ℃ -
Hive面试题整理(一)
1、Hive表关联查询,如何解决数据倾斜的问题?1)倾斜原因:map输出数据按keyHash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce上的数据量差异过大。(1)key...
2025-03-07 balukai 文章精选 3 ℃
- 控制面板
- 网站分类
- 最新留言
-