hadoop问答

发表于2025-07-07|更新于2025-07-29|笔记

|浏览量:

1. hadoop组件有哪些?分别有什么功能

组件	功能
HDFS	分布式文件存储系统，提供高容错性海量存储
MapReduce	分布式计算框架，并行处理大数据集
YARN	资源调度系统，管理集群资源并分配任务
Hive	主要用于处理结构化和半结构化数据
Common	通用工具库，支持其他模块

2. 分布式存储的组件是什么 ?有哪些进程? 进程的作用是什么?

分布式存储组件是 HDFS，其包含的进程及作用如下：

进程	作用
NameNode	管理元数据（文件名、块位置、权限），响应客户端请求
DataNode	存储实际数据块，定期向NN发送心跳和块报告
SecondaryNameNode	定期合并FsImage和Edits日志（非热备，缓解NN压力）

3. 资源调度使用什么组件? 该组件有哪些进程?每个进程的作用是什么?

资源调度使用的组件是 YARN，相关进程及作用如下：

进程	作用
ResourceManager	负责全局资源的调度和分配
NodeManager	管理单个节点上的资源和容器
ApplicationMaster	为特定应用程序协调资源，并与 NodeManager 进行通信

4. 分布式计算分为几个步骤? shuffle有几个步骤?

分布式计算主要包含 Map 和 Reduce 两个步骤。
典型的 MapReduce 分布式计算过程大致可以分成 4 个主要阶段：

阶段	主要作用
1️⃣ Input	从 HDFS（或其他存储）读取输入数据，切分成 Split，分配给不同的 Map Task
2️⃣ Map	每个 Map Task 处理 Split，生成 `<key, value>` 对，中间结果按 key 排序、分区、缓冲
3️⃣ Shuffle	核心阶段，从 Map Task 把数据传输到 Reduce Task，包括分区、排序、拷贝、合并
4️⃣ Reduce	Reduce Task 聚合同一个 key 的所有 value，执行用户逻辑，输出结果写回 HDFS

Shuffle 作为连接 Map 和 Reduce 的阶段，具体步骤如下：

Map 端输出并分区：Map 任务完成后，输出结果会按照键进行分区。
排序与合并：对分区内的数据进行排序，并可能进行合并操作。
网络传输：将排序好的数据通过网络传输到对应的 Reduce 任务。
Reduce 端合并与排序：Reduce 任务接收数据后，再次进行合并和排序。

5. hdfs文件系统的读取数据流程是什么?

客户端向 NameNode 发送文件读取请求。
NameNode 返回文件数据块的位置信息。
客户端直接与 DataNode 建立连接读取数据。
DataNode 将数据块传输给客户端。
若读取多个数据块，客户端会并行读取以提高效率

6. hdfs文件系统的写文件流程是什么?

客户端向 NameNode 发起文件创建请求。
NameNode 检查文件是否存在以及客户端权限，若通过检查则创建文件记录（响应上传请求）。
客户端将数据分成数据块，以流式方式写入第一个 DataNode。
DataNode 按照流水线方式将数据块复制到其他副本节点。
完成写入后，DataNode 向客户端确认，客户端再向 NameNode 确认（数据同步）。

7. hdfs文件系统 namenode的更新流程是什么?

所有对文件系统元数据的修改操作都会记录到编辑日志（EditLog）中。
内存中的命名空间（Namespace）会被实时更新。
SecondaryNameNode 定期从 NameNode 获取编辑日志和命名空间镜像。
SecondaryNameNode 将编辑日志合并到命名空间镜像中，生成新的检查点。
NameNode 在启动时会使用最新的检查点恢复元数据。

8. 整个mapreduce阶段经历几次排序?分别在哪些阶段?

在整个 MapReduce 阶段中，核心的排序大致发生 3 次，主要在以下阶段：

阶段	排序目的	主要发生在哪
Map输出排序	对 Map 输出按 key 排序	Map Task 内存缓冲区写磁盘时
Shuffle 归并排序	把多个 Map 输出文件归并成有序流	Reduce Task 拉取后本地归并
Reduce输入排序	按 key 进行最终分组（可有自定义二次排序）	Reduce Task 输入流

9. hive中内部表和外部表有什么区别? 分区表和分桶表有什么区别?

内部表与外部表的区别：
- 内部表（Managed Table）：Hive 管理数据的存储位置，删除表时会同时删除数据。
- 外部表（External Table）：数据由用户指定存储位置，删除表时仅删除元数据，数据不会被删除。
分区表与分桶表的区别：
- 分区表（Partitioned Table）：按照指定字段（如日期、地区）将数据存储在不同的目录中。
- 分桶表（Bucketed Table）：通过哈希函数将数据分到不同的文件（桶）中，常用于提高查询效率

10. 数据倾斜是什么? 如何规避和处理?

数据倾斜指的是在分布式计算中，部分任务处理的数据量远大于其他任务，导致整体性能下降的现象。

规避和处理方法有：

对 key 进行预处理，如添加随机前缀。
采用 Combiner 减少数据传输量。
增大 Reduce 任务数量。
利用 Hive 的 skewjoin 优化。
过滤异常 key 或对其进行单独处理。

11. 如何使用hdfs文件系统上传或下载数据? 关闭hdfs文件系统安全模式

上传数据：使用命令 hdfs dfs -put <本地路径> <HDFS路径>。
下载数据：使用命令 hdfs dfs -get <HDFS路径> <本地路径>。
关闭安全模式：先使用命令 hdfs dfsadmin -safemode get 查看安全模式状态，再使用 hdfs dfsadmin -safemode leave 关闭安全模式。

12. order by 和sort by 的区别和使用场景?

Order By：对查询结果进行全局排序，会将所有数据发送到一个 Reduce 任务中，在处理大量数据时效率较低。
Sort By：仅保证每个 Reduce 任务内部数据有序，最终结果可能不是全局有序的，但处理效率更高。

使用场景：当需要严格全局有序时使用 Order By，对全局顺序要求不高时使用 Sort By。

13. cluster by 和distribute by 的区别和使用场景?

Cluster By：相当于 Distribute By 和 Sort By 的组合，既按照指定字段进行数据分发，又对分发后的数据进行排序。
Distribute By：仅控制数据在不同 Reduce 任务之间的分发，不保证排序。

使用场景：Cluster By 用于需要数据分发和排序的场景，Distribute By 用于只需要控制数据分发的场景。

Hadoop 大数据

相关推荐

6.24 Hadoop部署

Hadoop简介 Hadoop是一个由Apache基金会所开发的分布式系统基础架构主要解决，海量数据的存储和海量数据的分析计算问题广义上来说，Hadoop通常是指一个更广泛的概念-Hadoop生态圈分布式存储Hadoop 的分布式存储主要基于 HDFS（分布式文件系统）:HDFS将数据分割成多个数据块（block），这些数据块分散存储在集群中的不同节点上。每个数据块会有多个副本，通常默认是 3 个副本.采用分布式存储在不同的节点上，提高了数据的可靠性和容错性。 Hadoop的分布式核心组件是MapReduce编程模型:在MapReduce任务中，数据被切分为多个任务，每个任务由或多个节点并行。每个节点负责将输入数据映射为键-值对生成中间结果。最后，中间结果按照键的排序进行合并和归并。 Hadoop组件HDFSHDFS组件用于存储数据,主要由NameNode,DataNode,SecondaryNameNode 组成 NameNode (nn): 存储文件的元数据，如文件名，文件目录结构，文件属性 (生成时间、副本数、文件权限)，以及每个文件的块列表和块所在的DataNo...

Hive复合数据类型、相关函数

Hive复合数据类型通过以下三种复合类型，Hive 能够高效处理半结构化数据（如日志、JSON），避免频繁进行表连接操作 array 数组array<value数据类型>存储同类型元素的有序集合，元素通过索引访问（从 0 开始） 12345--查询复合数据select a_score[0] from student2--构造复合数据-arrayselect array(值,值) from student struct 集合struct<key值:value数据类型,key值:value数据类型>存储不同类型字段的集合，每个字段有名称和类型，通过点号（.）访问 12345--查询复合数据select s_score.chinese from student2--构造复合数据select named_struct(key,value,key,value) from student map 字典map<key数据类型,value数据类型>存储键值对（Key-Value）集合，键必须唯一，通过键访问值 12345--查询复合数据select m_...

Hive分区表、分桶表

分区表分区是将一个表或索引物理地分解为多个更小、更可管理的部分。分区对应用透明，即对访问数据库的应用而言，逻辑上讲只有一个表或一个索引（相当于应用“看到”的只是一个表或索引），但在物理上这个表或索引可能由数十个物理分区组成。在 Hadoop 中，Hive 分区表通常以特定的目录结构来存储。每个分区对应一个独立的目录，目录名通常包含分区列的值。数据文件会存储在相应的分区目录下。分桶表•分区提供一个隔离数据和优化查询的便利方式。不过，并非所有的数据集都可形成合理的分区。对于一张表或者分区，Hive 可以进一步组织成桶，也就是更为细粒度的数据范围划分。 •分桶是将数据集分解成更容易管理的若干部分的另一个技术。 •分区针对的是数据的存储路径；分桶针对的是数据文件。分桶策略：Hive的分桶采用对分桶字段的值进行哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。分区表分桶表划分依据分区列的离散值（目录分割）分桶列的哈希值（文件分割）数量灵活性分区数量可动态新增桶数量固定（创建时指定）优化目标减少扫描范围（过滤查询）优化 Join...

医药项目：数据清洗、合并

SparkSQLSpark SQL 是 Apache Spark 生态系统中的一个核心模块，专门用于处理结构化数据。它为用户提供了使用 SQL 语句或 DataFrame API 来查询和操作数据的能力，极大地简化了大数据分析任务的开发流程。一、Spark SQL 的核心特点统一的数据访问方式Spark SQL 支持从多种数据源读取数据，包括： JSON、Parquet、ORC、CSV 等文件格式 JDBC/ODBC 接口连接传统数据库（如 MySQL、PostgreSQL） Hive 表（通过 HiveContext） Kafka 流数据（结合 Structured Streaming） SQL 支持用户可以直接使用标准 SQL 查询数据，例如： 1SELECT name, age FROM people WHERE age > 30 这使得熟悉 SQL 的数据分析师可以轻松上手。 DataFrame 和 Dataset APISpark SQL 提供了高层次的抽象： DataFrame：以结构化方式组织的分布式数据集，类似于传统数据库中的表或 P...

6.25 Hive安装、配置beeline

安装mysql12345678910111213141516#下载安装源wget https://dev.mysql.com/get/mysql57-community-release-el7-11.noarch.rpm# 安装 mysql 源yum localinstall mysql57-community-release-el7-11.noarch.rpm# 导入keyrpm --import https://repo.mysql.com/RPM-GPG-KEY-mysql-2022# 修改国内源vim /etc/yum.repos.d/mysql-community.repo修改 baseurl 为 https://mirrors.cloud.tencent.com/mysql/yum/mysql-5.7-community-el7-x86_64/#安装mysqlyum install -y mysql-community-server 安装Hive12345678910111213#解压apache-hive-3.1.2-bin.tar.gz到/opt/module/...

Python连接Hive

hadoop上传数据12345hadoop dfs -mkdir /emphadoop dfs -put emp0901.txt /emp/hadoop dfs -mkdir /studenthadoop dfs -put student2.csv /student/ 处理student2.txt表12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849import jsondef transform_student_data(input_file, output_file): """ 将JSON格式的学生数据转换为CSV格式参数: input_file: 输入JSON数据文件路径 output_file: 输出CSV文件路径 """ try: with open(input_file, 'r', encoding=&#x...

数据加载中