网站首页 > 文章精选 正文
大数据面试题,题量不多,但都是大厂精选题,面试必会知识点
篇幅有限,没有解答,需要解答的可以下方评论,或私信我:答案,即可获得
Hadoop
- 请说下HDFS读写流程
- HDFS在读取文件的时候,如果其中一个块突然损坏了怎么办
- HDFS在上传文件的时候,如果其中一个DataNode突然挂掉了怎么办
- NameNode在启动的时候会做哪些操作
- Secondary NameNode了解吗,它的工作机制是怎样的
- Secondary NameNode不能恢复NameNode的全部数据,那如何保证NameNode数据存储安全
- 在NameNode HA中,会出现脑裂问题吗?怎么解决脑裂
- 小文件过多会有什么危害,如何避免
- 请说下HDFS的组织架构
- 请说下MR中Map Task的工作机制
- 请说下MR中Reduce Task的工作机制
- 请说下MR中shuffle阶段
- shuffle阶段的数据压缩机制了解吗
- 在写MR时,什么情况下可以使用规约
- yarn 集群的架构和工作原理知道多少
- yarn 的任务提交流程是怎样的
- yarn 的资源调度三种模型了解吗
Hive
- hive 内部表和外部表的区别
- hive 有索引吗
- 运维如何对hive进行调度
- ORC、Parquet等列式存储的优点
- 数据建模用的哪些模型?
- 为什么要对数据仓库分层?
- 使用过Hive解析JSON串吗
- sort by 和 order by 的区别
- 怎么排查是哪里出现了数据倾斜
- 数据倾斜怎么解决
- hive 小文件过多怎么解决
- hive优化有哪些?
Spark
- 通常来说,Spark与MapReduce相比,Spark运行效率更高。请说明效率更高来源于Spark内置的哪些机制?
- hadoop和spark使用场景?
- spark如何保证宕机迅速恢复?
- hadoop和spark的相同点和不同点?
- RDD持久化原理?
- checkpoint检查点机制?
- checkpoint和持久化机制的区别?
- RDD机制理解吗?
- Spark streaming以及基本工作原理?
- DStream以及基本工作原理?
- spark有哪些组件?
- spark工作机制?
- 说下宽依赖和窄依赖
- Spark主备切换机制原理知道吗?
- spark解决了hadoop的哪些问题?
- 数据倾斜的产生和解决办法?
- 你用sparksql处理的时候, 处理过程中用的dataframe还是直接写的sql?为什么?
- 现场写一个笔试题
- RDD中reduceBykey与groupByKey哪个性能好,为什么
- Spark master HA主从切换过程不会影响到集群已有作业的运行,为什么
- spark master使用zookeeper进行ha,有哪些源数据保存到Zookeeper里面
Kafka
- 为什么要使用 kafka?
- Kafka消费过的消息如何再消费?
- kafka的数据是放在磁盘上还是内存上,为什么速度会快?
- Kafka数据怎么保障不丢失?
- 采集数据为什么选择kafka?
- kafka 重启是否会导致数据丢失?
- kafka 宕机了如何解决?
- 为什么Kafka不支持读写分离?
- kafka数据分区和消费者的关系?
- kafka的数据offset读取流程
- kafka内部如何保证顺序,结合外部组件如何保证消费者的顺序?
- Kafka消息数据积压,Kafka消费能力不足怎么处理?
- Kafka单条日志传输大小
Hbase
- Hbase是怎么写数据的?
- HDFS和HBase各自使用场景
- Hbase的存储结构
- 热点现象(数据倾斜)怎么产生的,以及解决方法有哪些
- HBase的 rowkey 设计原则
- HBase的列簇设计
- HBase 中 compact 用途是什么,什么时候触发,分为哪两种,有什么区别
Flink
- Flink 的容错机制(checkpoint)
- Flink checkpoint与 Spark Flink 有什么区别或优势吗 3.. Flink 中的 Time 有哪几种
- 对于迟到数据是怎么处理的
- Flink 的运行必须依赖 Hadoop组件吗
- Flink集群有哪些角色?各自有什么作用
- Flink 资源管理中 Task Slot 的概念
- Flink的重启策略了解吗
- Flink是如何保证Exactly-once语义的
- 如果下级存储不支持事务,Flink 怎么保证 exactly-once
- Flink是如何处理反压的
- Flink中的状态存储
- Flink是如何支持批流一体的
- Flink的内存管理是如何做的
- Flink CEP 编程中当状态没有到达的时候会将数据保存在哪里
业务方面
- 在处理大数据过程中,如何保证得到期望值
- 你感觉数仓建设中最重要的是什么
- 数据仓库建模怎么做的
- 数据质量怎么监控
- 数据分析方法论了解过哪些?
猜你喜欢
- 2025-03-07 阿里云云原生一体化数仓—数据治理新能力解读
- 2025-03-07 Apache Hive分区:定义、实现方式、优劣势分析、分区管理实践
- 2025-03-07 Delta Lake在Soul的应用实践
- 2025-03-07 大数据开发工程师面试主要面试内容
- 2025-03-07 Sqoop高频面试题知识点总结
- 2025-03-07 大数据技术之Hive
- 2025-03-07 Hive最全总结,学习与面试,收藏这一篇就够了!
- 2025-03-07 Hive 迁移参考方案及测试(上)
- 2025-03-07 【大数据】Hive 小文件治理和 HDFS 数据平衡讲解
- 2025-03-07 5.HIVE定位调优指导
- 最近发表
-
- 100%开源免费的低代码/可视化数据分析、数据展示平台
- Spring Boot跨域问题终极解决方案:3种方法根治CORS报错
- 永久免费内网穿透很简单,一看就明白
- Odoo 用户菜单架构解析及创建和管理实战
- 关于编码的那些事 - URL 编码(编码url是什么意思)
- 20 个让人惊叹的 JavaScript 单行代码技巧,效率瞬间提升
- 如何使用java.net.URLConnection发起和处理HTTP请求
- 崩溃!代码总掉链子?6 个 JavaScript 技巧助你稳操胜券
- 抓狂!代码总出错?5 个 JavaScript 技巧助你逆风翻盘
- 前端性能拉胯?这 8 个 JavaScript 技巧让你的代码飞起来!
- 标签列表
-
- newcoder (56)
- 字符串的长度是指 (45)
- drawcontours()参数说明 (60)
- unsignedshortint (59)
- postman并发请求 (47)
- python列表删除 (50)
- 左程云什么水平 (56)
- 计算机网络的拓扑结构是指() (45)
- 稳压管的稳压区是工作在什么区 (45)
- 编程题 (64)
- postgresql默认端口 (66)
- 数据库的概念模型独立于 (48)
- 产生系统死锁的原因可能是由于 (51)
- 数据库中只存放视图的 (62)
- 在vi中退出不保存的命令是 (53)
- 哪个命令可以将普通用户转换成超级用户 (49)
- noscript标签的作用 (48)
- 联合利华网申 (49)
- swagger和postman (46)
- 结构化程序设计主要强调 (53)
- 172.1 (57)
- apipostwebsocket (47)
- 唯品会后台 (61)
- 简历助手 (56)
- offshow (61)