当当云阅读 > 科技 > 计算机/网络 > 计算机理论与教程 > 大数据工程师面试笔试宝典

大数据工程师面试笔试宝典电子书

《大数据工程师面试笔试宝典》系统覆盖大数据工程师岗位需要掌握的重要概念、技术和工具，包括Hadoop、Spark、Flink、Hive、HBase、Kafka等，以及大数据与人工智能的交叉。视频精讲：68个大数据核心知识分享视频真题全解：提供超200页大数据面试笔试真题及答案

售价：¥

纸质售价：¥64.10购买纸书

2人正在读 | 0人评论

6.8

作者：杨俊,姜伟,许朋举

出版社：机械工业出版社

出版时间：2024-07-09

字数：22.3万

所属分类：科技 > 计算机/网络 > 计算机理论与教程

温馨提示：数字商品不支持退换货，不提供源文件，不支持导出打印

为你推荐

读书简介
目录
累计评论(条)

读书简介
目录
累计评论(条)

《大数据工程师面试笔试宝典》全面讲解了大数据的核心技术及如何解答大数据工程师面试笔试中的常见问题，还引了相关知识辅以说明，让读者对所学知识行查漏补缺，帮助读者顺利通过大数据工程师面试笔试。《大数据工程师面试笔试宝典》的题目均来自一线互联网公司面试笔试真题，涵盖大数据基础、大数据生态圈技术组件以及大数据不同岗位的面试笔试题。第1～2章主要介绍了职业道路如何选择、面试笔试前如何准备、面试笔试过程中如何应对，以及面试经常遇到的“坑”。第3章介绍了大数据基础面试笔试题，让读者学会利用大数据思维解决常见应用场景；第4～10章重介绍了大数据生态圈核心技术的面试笔试题，让读者加强对大数据技术组件的理解；第11～13章介绍了大数据仓库、大数据项目、大数据运维方向的常见面试笔试题；第14章探讨了大数据与人工智能的交叉，让读者可以轻松应对大数据工程师的面试笔试。《大数据工程师面试笔试宝典》内容的深度和广度贴近实际，将帮助大数据领域的求职者为面试笔试做好充分的准备，提高面试成功率，同时，《大数据工程师面试笔试宝典》也可作为从业者的实用工具书，以加深对大数据技术和实践的理解。无论是初学者还是有经验的专业人士，都将从本书提供的详实信息和实用建议中受益。 【推荐语】 《大数据工程师面试笔试宝典》系统覆盖大数据工程师岗位需要掌握的重要概念、技术和工具，包括Hadoop、Spark、Flink、Hive、HBase、Kafka等，以及大数据与人工智能的交叉。视频精讲：68个大数据核心知识分享视频真题全解：提供超200页大数据面试笔试真题及答案 【作者】 杨俊，资深大数据架构师和技术专家，拥有十余年的大数据发经验。精通Hadoop、Spark、Flink等主流大数据生态技术，尤其擅长Hadoop源码级技术。参与并主导了十余个重量级大数据项目，曾在广电数据咨询公司担任大数据架构师，负责大数据平台的架构设计与实施，并构建了企业级数据仓库。畅销书《实战大数据（Hadoop Spark Flink）》和《Hadoop大数据技术基础与应用》的作者。51CTO知名培训讲师，拥有30余万粉丝，具有丰富的大数据技术培训经验。为数十家高校和企业提供过大数据技术课程培训，包括首都经济贸易大学、河北大学、北京交通大学等高校，以及中国移动、新华三（H3C）等知名企业。

目录展开

前言 PREFACE

第1章面试笔试心得交流

1.1 摆正求职心态

1.2 求职前准备

1.3 做好自我介绍

1.4 职业规划是什么

1.5 为什么离开上一家公司

1.6 被面试官否定怎么办

1.7 加分项一定要呈现出来

1.8 面试禁忌

1.9 面试会有哪些“坑”

1.10 如何应对自己不会回答的问题

1.11 如何应对某一次面试失败

1.12 面试成功是否就高枕无忧

第2章大数据工程师面试笔试攻略

2.1 大数据职业的岗位划分

2.2 典型大数据工程师的职业发展路径

2.3 公司大数据部门划分与人员编制

2.4 大数据工程师的工作职责

2.5 大数据工程师简历如何编写

2.6 缺少大数据项目经验如何应对

2.7 大数据面试笔试需要掌握哪些技能

2.8 如何把握大数据工程师的面试笔试重点

2.9 引导面试官提问自己擅长的技术

第3章大数据基础应用

3.1 大数据基础知识

3.1.1 大数据生态体系

3.1.2 大数据基石——云计算

3.1.3 大数据核心——海量数据

3.1.4 大数据灵魂——大数据技术

3.1.5 大数据价值——商业应用

3.2 大数据算法

3.2.1 如何从海量数据中找出最高频词

3.2.2 如何找出访问百度次数最多的IP地址

3.2.3 如何从2.5亿个整数中找出不重复的整数

3.2.4 判断一个数在40亿数据中是否存在

3.2.5 如何找出CSDN网站最热门的搜索关键词

3.2.6 如何从大量数据中统计不同手机号的个数

3.2.7 如何从大量数据中找出重复次数最多的一条数据

3.2.8 如何对大量数据按照query的频度排序

3.2.9 如何从大量的URL中找出相同的URL

3.2.10 如何从5亿个数中找出中位数

第4章 ZooKeeper分布式协调服务

4.1 简述ZooKeeper包含哪些重要特性

4.2 简述ZooKeeper包含哪些应用场景

4.3 简述ZooKeeper包含哪几种Znode节点类型

4.4 请问ZooKeeper对Znode的监听是永久的吗

4.5 请问ZooKeeper集群包含多少节点合适

4.6 简述ZooKeeper集群节点包含哪些角色

4.7 简述ZooKeeper集群节点有哪几种工作状态

4.8 请问ZooKeeper节点宕机后内部如何处理

4.9 请问ZooKeeper集群是否支持动态添加机器

4.10 简述ZooKeeper集群的数据读写流程

4.11 简述ZooKeeper的监听器原理

4.12 谈谈你对CAP原则的理解

4.13 谈谈ZAB协议在ZooKeeper中的作用

4.14 谈谈你对ZooKeeper选举机制的理解

4.15 阐述ZooKeeper如何保证事务的顺序一致性

4.16 阐述如何迁移ZooKeeper集群

第5章 Hadoop大数据平台

5.1 Hadoop分布式文件系统（HDFS）

5.1.1 阐述HDFS中的数据块大小设置

5.1.2 简述HDFS的副本存放策略

5.1.3 阐述如何处理HDFS大量小文件问题

5.1.4 简述NameNode元数据存储在什么位置

5.1.5 阐述如何解决edits文件过大的问题

5.1.6 简述HDFS读数据流程

5.1.7 简述HDFS写数据流程

5.1.8 简述NameNode HA的运行机制

5.1.9 简述HDFS联邦机制

5.1.10 阐述如何处理NameNode宕机问题

5.1.11 阐述如何处理DataNode宕机问题

5.1.12 简述HDFS支持哪些存储格式与压缩算法

5.2 Hadoop资源管理系统（YARN）

5.2.1 简述YARN应用的运行机制

5.2.2 阐述YARN与MapReduce1的异同

5.2.3 简述YARN高可用原理

5.2.4 简述YARN的容错机制

5.2.5 简述YARN调度器的工作原理

5.2.6 阐述YARN的任务提交流程

5.3 Hadoop分布式计算框架（MapReduce）

5.3.1 简述MapReduce作业运行机制

5.3.2 简述MapReduce Shuffle过程

5.3.3 简述MapReduce作业失败与容错机制

5.3.4 阐述如何解决MapReduce数据倾斜问题

5.3.5 简述MapReduce二次排序原理

5.3.6 简述MapReduce Join实现原理

第6章 Hive数据仓库工具

6.1 简述Hive与传统数据库的异同

6.2 简述Hive与HBase的异同

6.3 简述Hive包含哪些建表方式

6.4 简述Hive内部表与外部表的区别

6.5 简述Hive分区表与分桶表的区别

6.6 简述Hive包含哪些表连接方式

6.7 简述collect_list()与collect_set()函数的区别

6.8 简述ORDER BY、DISTRIBUTE BY、SORT BY和CLUSTER BY的区别与联系

6.9 谈谈如何预防Hive查询全表扫描

6.10 简述Hive包含哪些自定义函数

6.11 阐述如何解决Hive数据倾斜问题

6.12 阐述Hive有哪些性能调优手段

第7章 HBase分布式数据库

7.1 简述HBase的应用场景

7.2 简述HBase读数据流程

7.3 简述HBase写数据流程

7.4 阐述HBase Region如何定位

7.5 简述HBase Region的合并与分裂过程

7.6 阐述HBase如何设计RowKey

7.7 阐述HBase如何实现预分区

7.8 谈谈你对HBase二级索引的理解

7.9 阐述HBase如何降低磁盘IO

7.10 阐述HBase如何处理冷热数据

7.11 简述HBase有哪些性能调优手段

第8章 Kafka分布式消息队列

8.1 简述ZooKeeper在Kafka中的作用

8.2 简述Kafka文件存储设计特点

8.3 简述Kafka的使用场景

8.4 简述Kafka写数据流程

8.5 阐述Kafka为什么不支持读写分离

8.6 简述Kafka哪些地方涉及选举

8.7 简述Kafka Topic分区的分配规则

8.8 谈谈你对Kafka消费者负载均衡策略的理解

8.9 谈谈你对Kafka再均衡的理解

8.10 简述Kafka生产者ACK机制

8.11 阐述Kafka如何实现数据同步

8.12 阐述如何提高Kafka吞吐量

8.13 阐述如何优化Kafka生产者数据写入速度

8.14 阐述Kafka如何实现高效读取数据

8.15 阐述Kafka如何保证高吞吐量

8.16 阐述Kafka如何保证数据可靠性

8.17 阐述Kafka如何保证数据不丢失

8.18 阐述Kafka如何保证消息幂等性

8.19 阐述Kafka如何保证消息被顺序消费

8.20 阐述Kafka消费者数量较大对性能有何影响

第9章 Spark内存计算框架

9.1 谈谈Hadoop和Spark的区别与联系

9.2 简述Spark与MapReduce的Shuffle区别

9.3 阐述Spark解决了Hadoop哪些问题

9.4 简述Spark应用程序的生命周期

9.5 谈谈你对RDD机制的理解

9.6 简述RDD包含哪些缺陷

9.7 阐述Spark如何划分DAG的Stage

9.8 请问Spark中的数据位置由谁来管理

9.9 谈谈reduceByKey与groupByKey的区别与联系

9.10 谈谈Cache和Persist的区别与联系

9.11 阐述如何解决Spark中的数据倾斜问题

9.12 阐述如何解决Spark中的OOM问题

9.13 阐述Spark Streaming如何保证Exactly-Once语义

9.14 阐述Spark Streaming如何性能调优

9.15 谈谈你对Spark Streaming背压机制的理解

第10章 Flink流式计算框架

10.1 谈谈Spark与Flink的区别与联系

10.2 简述Flink有哪些方式设置并行度

10.3 阐述如何合理评估Flink任务的并行度

10.4 谈谈你对Flink Operator Chain的理解

10.5 谈谈你对Flink重启策略的理解

10.6 阐述Flink内存管理是如何实现的

10.7 阐述Flink Task如何实现数据交换

10.8 阐述Flink状态如何实现容错

10.9 简述Flink分布式快照原理

10.10 阐述Flink如何保证端到端Exactly-Once语义

10.11 阐述如何解决Flink任务延迟高的问题

10.12 阐述如何处理Flink反压问题

10.13 阐述Flink海量数据如何实现去重

10.14 阐述Flink如何处理迟到的数据

10.15 阐述如何解决Flink数据倾斜

10.16 阐述如何解决Flink Window中的数据倾斜

第11章大数据仓库

11.1 谈谈你如何理解数据库三范式

11.2 阐述为什么需要数仓建模

11.3 简述事实表分为哪几类

11.4 简述维度建模包含哪些常用的模型

11.5 简述维度建模实现过程

11.6 谈谈你对元数据的理解

11.7 谈谈数仓架构如何分层

11.8 谈谈你对离线数仓架构的理解

11.9 谈谈你对Lambda架构的理解

11.10 谈谈你对Kappa架构的理解

11.11 阐述字段频繁变更的数仓架构如何设计

11.12 阐述如何实现拉链表

11.13 阐述如何查询连续7日登录的用户

11.14 阐述如何统计注册用户的留存数与留存率

第12章大数据项目

12.1 谈谈大数据项目组如何分工与协作

12.2 谈谈你在项目中扮演什么角色

12.3 简述你所在或曾任职公司的大数据集群规模

12.4 简述你所在或曾任职公司的项目数据类型及规模

12.5 简述你所在或曾任职公司的项目产生的表及数据量

12.6 简述你所在或曾任职公司的大数据项目业务需求

12.7 简述项目整体架构及技术选型

12.8 简述大数据项目遇到过的难点及解决方案

12.9 简述大数据项目遇到的瓶颈及优化方法

12.10 简述大数据项目开发周期及安排

第13章大数据运维

13.1 请问ZooKeeper节点宕机如何处理

13.2 阐述多次修改HDFS副本数如何计算数据总量

13.3 阐述如何估算HDFS需要的内存大小

13.4 请问DataNode节点宕机如何恢复

13.5 请问NameNode节点宕机如何恢复

13.6 阐述晚高峰期DataNode节点不稳定如何处理

13.7 阐述如何调优才能加快NameNode启动速度

13.8 请问Hadoop出现文件块丢失如何处理

13.9 请问文件写入HDFS是先全部写入再备份吗

13.10 请问如何查看HDFS目录下的文件数及位置

13.11 阐述集群硬盘损坏后的详细处理流程

13.12 阐述集群扩容后如何处理数据不均衡的现象

13.13 阐述运维人员如何避免开发人员误删数据

13.14 阐述大数据集群如何自动化扩容

13.15 阐述如何对大数据集群进行有效监控

13.16 阐述如何保证海量数据写入HBase的及时性

13.17 简述哪些情况会导致HBase Master发生故障

13.18 简述哪些情况会导致HBase RegionServer发生故障

13.19 阐述Kafka如何选择适当的分区数量

13.20 简述Kafka分区是否可以增加或减少

第14章大数据+人工智能

14.1 如何解释大数据与人工智能之间的关系

14.2 阐述数据采集的作用以及数据质量对人工智能模型性能的影响

14.3 当前流行的大型语言模型如何利用大数据进行训练

14.4 AIGC、Sora等项目是如何将大数据与人工智能相结合的

14.5 请解释什么是数据驱动的人工智能

14.6 介绍一下常用的人工智能开发工具和平台

14.7 阐述AI中的基本概念及其区别与联系

14.8 数据预处理在人工智能中的作用是什么

14.9 如何评估人工智能模型的性能

14.10 阐述过拟合和欠拟合现象在机器学习中的含义及如何解决

14.11 阐述在大数据环境中人工智能项目的伦理和隐私问题

14.12 阐述数据可视化的作用并介绍一些常用的工具和技术

14.13 阐述什么是监督学习、无监督学习和半监督学习

14.14 谈谈数据安全的挑战和解决方案

14.15 如何有效地管理和处理大规模的数据集

14.16 阐述深度学习的应用及其在大数据环境中的挑战和解决方案

14.17 阐述强化学习的基本原理及其应用场景和优劣势

14.18 如何利用大数据和人工智能技术来优化企业的运营和决策

累计评论(条) 个书友正在讨论这本书 发表评论

发表评论

发表评论，分享你的想法吧！

发表评论

买过这本书的人还买过

读了这本书的人还在读

DeepSeek硬核技术解读￥59.00

刘丹;尹俊希;杨院伶

￥59.00

豆包*学习:AI 辅助中小学生学习的方法与技巧￥47.00

薛碧芸;郭泽德

￥47.00

精通Excel数据统计与分析￥57.54

李宗璋著

￥57.54

更多同类图书 >

大数据工程师面试笔试宝典电子书

支持设备

豆包使用秘笈:从入门到精通的100个实用技巧￥53.00

豆包从入门到精通:AI助手和智能体轻松搞定工作、学习和生活难题￥47.00

千问从入门到精通:AI助手和智能体轻松搞定工作、学习和生活难题￥35.00

学会提问,驾驭AI:提示词从入门到精通￥61.60

OpenClaw实战指南:零基础打造会干活的AI数字员工￥79.00

腾讯元宝使用秘笈:从入门到精通的100个实用技巧￥53.00