程序员求职经验分享与学习资料整理平台

网站首页 > 文章精选 正文

2021年超全超详细的最新大数据开发面试题

balukai 2025-03-07 15:57:11 文章精选 13 ℃


大数据面试题,题量不多,但都是大厂精选题,面试必会知识点

篇幅有限,没有解答,需要解答的可以下方评论,或私信我:答案,即可获得

Hadoop

  1. 请说下HDFS读写流程
  2. HDFS在读取文件的时候,如果其中一个块突然损坏了怎么办
  3. HDFS在上传文件的时候,如果其中一个DataNode突然挂掉了怎么办
  4. NameNode在启动的时候会做哪些操作
  5. Secondary NameNode了解吗,它的工作机制是怎样的
  6. Secondary NameNode不能恢复NameNode的全部数据,那如何保证NameNode数据存储安全
  7. 在NameNode HA中,会出现脑裂问题吗?怎么解决脑裂
  8. 小文件过多会有什么危害,如何避免
  9. 请说下HDFS的组织架构
  10. 请说下MR中Map Task的工作机制
  11. 请说下MR中Reduce Task的工作机制
  12. 请说下MR中shuffle阶段
  13. shuffle阶段的数据压缩机制了解吗
  14. 在写MR时,什么情况下可以使用规约
  15. yarn 集群的架构和工作原理知道多少
  16. yarn 的任务提交流程是怎样的
  17. yarn 的资源调度三种模型了解吗

Hive

  1. hive 内部表和外部表的区别
  2. hive 有索引吗
  3. 运维如何对hive进行调度
  4. ORC、Parquet等列式存储的优点
  5. 数据建模用的哪些模型?
  6. 为什么要对数据仓库分层?
  7. 使用过Hive解析JSON串吗
  8. sort by 和 order by 的区别
  9. 怎么排查是哪里出现了数据倾斜
  10. 数据倾斜怎么解决
  11. hive 小文件过多怎么解决
  12. hive优化有哪些?

Spark

  1. 通常来说,Spark与MapReduce相比,Spark运行效率更高。请说明效率更高来源于Spark内置的哪些机制?
  2. hadoop和spark使用场景?
  3. spark如何保证宕机迅速恢复?
  4. hadoop和spark的相同点和不同点?
  5. RDD持久化原理?
  6. checkpoint检查点机制?
  7. checkpoint和持久化机制的区别?
  8. RDD机制理解吗?
  9. Spark streaming以及基本工作原理?
  10. DStream以及基本工作原理?
  11. spark有哪些组件?
  12. spark工作机制?
  13. 说下宽依赖和窄依赖
  14. Spark主备切换机制原理知道吗?
  15. spark解决了hadoop的哪些问题?
  16. 数据倾斜的产生和解决办法?
  17. 你用sparksql处理的时候, 处理过程中用的dataframe还是直接写的sql?为什么?
  18. 现场写一个笔试题
  19. RDD中reduceBykey与groupByKey哪个性能好,为什么
  20. Spark master HA主从切换过程不会影响到集群已有作业的运行,为什么
  21. spark master使用zookeeper进行ha,有哪些源数据保存到Zookeeper里面

Kafka

  1. 为什么要使用 kafka?
  2. Kafka消费过的消息如何再消费?
  3. kafka的数据是放在磁盘上还是内存上,为什么速度会快?
  4. Kafka数据怎么保障不丢失?
  5. 采集数据为什么选择kafka?
  6. kafka 重启是否会导致数据丢失?
  7. kafka 宕机了如何解决?
  8. 为什么Kafka不支持读写分离?
  9. kafka数据分区和消费者的关系?
  10. kafka的数据offset读取流程
  11. kafka内部如何保证顺序,结合外部组件如何保证消费者的顺序?
  12. Kafka消息数据积压,Kafka消费能力不足怎么处理?
  13. Kafka单条日志传输大小

Hbase

  1. Hbase是怎么写数据的?
  2. HDFS和HBase各自使用场景
  3. Hbase的存储结构
  4. 热点现象(数据倾斜)怎么产生的,以及解决方法有哪些
  5. HBase的 rowkey 设计原则
  6. HBase的列簇设计
  7. HBase 中 compact 用途是什么,什么时候触发,分为哪两种,有什么区别

Flink

  1. Flink 的容错机制(checkpoint)
  2. Flink checkpoint与 Spark Flink 有什么区别或优势吗 3.. Flink 中的 Time 有哪几种
  3. 对于迟到数据是怎么处理的
  4. Flink 的运行必须依赖 Hadoop组件吗
  5. Flink集群有哪些角色?各自有什么作用
  6. Flink 资源管理中 Task Slot 的概念
  7. Flink的重启策略了解吗
  8. Flink是如何保证Exactly-once语义的
  9. 如果下级存储不支持事务,Flink 怎么保证 exactly-once
  10. Flink是如何处理反压的
  11. Flink中的状态存储
  12. Flink是如何支持批流一体的
  13. Flink的内存管理是如何做的
  14. Flink CEP 编程中当状态没有到达的时候会将数据保存在哪里

业务方面

  1. 在处理大数据过程中,如何保证得到期望值
  2. 你感觉数仓建设中最重要的是什么
  3. 数据仓库建模怎么做的
  4. 数据质量怎么监控
  5. 数据分析方法论了解过哪些?
最近发表
标签列表