程序员求职经验分享与学习资料整理平台

网站首页 > 文章精选正文

2021年超全超详细的最新大数据开发面试题

balukai 2025-03-07 15:57:11 文章精选 21 ℃

大数据面试题，题量不多，但都是大厂精选题，面试必会知识点

篇幅有限，没有解答，需要解答的可以下方评论，或私信我：答案，即可获得

Hadoop

请说下HDFS读写流程
HDFS在读取文件的时候,如果其中一个块突然损坏了怎么办
HDFS在上传文件的时候,如果其中一个DataNode突然挂掉了怎么办
NameNode在启动的时候会做哪些操作
Secondary NameNode了解吗，它的工作机制是怎样的
Secondary NameNode不能恢复NameNode的全部数据，那如何保证NameNode数据存储安全
在NameNode HA中，会出现脑裂问题吗？怎么解决脑裂
小文件过多会有什么危害,如何避免
请说下HDFS的组织架构
请说下MR中Map Task的工作机制
请说下MR中Reduce Task的工作机制
请说下MR中shuffle阶段
shuffle阶段的数据压缩机制了解吗
在写MR时，什么情况下可以使用规约
yarn 集群的架构和工作原理知道多少
yarn 的任务提交流程是怎样的
yarn 的资源调度三种模型了解吗

Hive

hive 内部表和外部表的区别
hive 有索引吗
运维如何对hive进行调度
ORC、Parquet等列式存储的优点
数据建模用的哪些模型？
为什么要对数据仓库分层？
使用过Hive解析JSON串吗
sort by 和 order by 的区别
怎么排查是哪里出现了数据倾斜
数据倾斜怎么解决
hive 小文件过多怎么解决
hive优化有哪些？

Spark

通常来说，Spark与MapReduce相比，Spark运行效率更高。请说明效率更高来源于Spark内置的哪些机制？
hadoop和spark使用场景？
spark如何保证宕机迅速恢复?
hadoop和spark的相同点和不同点？
RDD持久化原理？
checkpoint检查点机制？
checkpoint和持久化机制的区别？
RDD机制理解吗？
Spark streaming以及基本工作原理？
DStream以及基本工作原理？
spark有哪些组件？
spark工作机制？
说下宽依赖和窄依赖
Spark主备切换机制原理知道吗？
spark解决了hadoop的哪些问题？
数据倾斜的产生和解决办法？
你用sparksql处理的时候，处理过程中用的dataframe还是直接写的sql？为什么？
现场写一个笔试题
RDD中reduceBykey与groupByKey哪个性能好，为什么
Spark master HA主从切换过程不会影响到集群已有作业的运行，为什么
spark master使用zookeeper进行ha，有哪些源数据保存到Zookeeper里面

Kafka

为什么要使用 kafka？
Kafka消费过的消息如何再消费？
kafka的数据是放在磁盘上还是内存上，为什么速度会快？
Kafka数据怎么保障不丢失？
采集数据为什么选择kafka？
kafka 重启是否会导致数据丢失？
kafka 宕机了如何解决？
为什么Kafka不支持读写分离？
kafka数据分区和消费者的关系？
kafka的数据offset读取流程
kafka内部如何保证顺序，结合外部组件如何保证消费者的顺序？
Kafka消息数据积压，Kafka消费能力不足怎么处理？
Kafka单条日志传输大小

Hbase

Hbase是怎么写数据的？
HDFS和HBase各自使用场景
Hbase的存储结构
热点现象（数据倾斜）怎么产生的，以及解决方法有哪些
HBase的 rowkey 设计原则
HBase的列簇设计
HBase 中 compact 用途是什么，什么时候触发，分为哪两种，有什么区别

Flink

Flink 的容错机制（checkpoint）
Flink checkpoint与 Spark Flink 有什么区别或优势吗 3.. Flink 中的 Time 有哪几种
对于迟到数据是怎么处理的
Flink 的运行必须依赖 Hadoop组件吗
Flink集群有哪些角色？各自有什么作用
Flink 资源管理中 Task Slot 的概念
Flink的重启策略了解吗
Flink是如何保证Exactly-once语义的
如果下级存储不支持事务，Flink 怎么保证 exactly-once
Flink是如何处理反压的
Flink中的状态存储
Flink是如何支持批流一体的
Flink的内存管理是如何做的
Flink CEP 编程中当状态没有到达的时候会将数据保存在哪里

业务方面

在处理大数据过程中，如何保证得到期望值
你感觉数仓建设中最重要的是什么
数据仓库建模怎么做的
数据质量怎么监控
数据分析方法论了解过哪些？

上一篇：【大数据】Hive 小文件治理和 HDFS 数据平衡讲解
下一篇： Hive 迁移参考方案及测试(上)

猜你喜欢

2025-03-07 阿里云云原生一体化数仓—数据治理新能力解读
2025-03-07 Apache Hive分区:定义、实现方式、优劣势分析、分区管理实践
2025-03-07 Delta Lake在Soul的应用实践
2025-03-07 大数据开发工程师面试主要面试内容
2025-03-07 Sqoop高频面试题知识点总结
2025-03-07 大数据技术之Hive
2025-03-07 Hive最全总结，学习与面试，收藏这一篇就够了!
2025-03-07 Hive 迁移参考方案及测试(上)
2025-03-07 【大数据】Hive 小文件治理和 HDFS 数据平衡讲解
2025-03-07 5.HIVE定位调优指导

最近发表