Windows系统下Hadoop安装全攻略

为什么要在Windows上安装Hadoop

Hadoop作为大数据处理的核心框架，传统上主要在Linux环境下运行。但随着数据分析需求的普及，越来越多的开发者需要在Windows系统上进行Hadoop的学习和开发。Windows平台安装Hadoop可以让初学者更轻松地入门大数据技术，无需额外配置Linux虚拟机或双系统。

安装前的准备工作

Windows安装Hadoop的过程

在开始安装前，需要确保系统满足基本要求。Windows 10或11系统运行更稳定，建议使用64位版本。内存至少8GB，硬盘空间保留20GB以上用于Hadoop运行和存储数据。

需要提前安装的软件包括：

Java JDK 8或11（Hadoop 3.x支持Java 11）
解压缩工具如7-Zip或WinRAR
可选但推荐的Cygwin或Windows Subsystem for Linux(WSL)

详细安装步骤

第一步：下载Hadoop安装包

访问Apache官网获取最新稳定版的Hadoop二进制包。选择预编译的二进制版本（文件名通常包含”bin”字样），避免从源码编译的复杂过程。

第二步：配置Java环境

Hadoop依赖Java运行环境。安装JDK后，需要设置JAVA_HOME环境变量：

右键”此电脑”→”属性”→”高级系统设置”
点击”环境变量”，在系统变量中新建JAVA_HOME
变量值填写JDK安装路径，如”C:Program FilesJavajdk1.8.0_301″
将%JAVA_HOME%bin添加到Path变量中

验证Java安装是否成功，在命令提示符输入”java -version”，应显示安装的Java版本信息。

第三步：解压并配置Hadoop

将下载的Hadoop压缩包解压到不含空格和中文的路径，如”D:hadoop-3.3.4″。然后配置以下环境变量：

HADOOP_HOME：指向Hadoop解压目录
将%HADOOP_HOME%bin添加到Path变量

第四步：修改Hadoop配置文件

进入Hadoop安装目录下的etc/hadoop文件夹，需要修改几个核心配置文件：

core-site.xml – 配置HDFS地址和临时目录

<configuration>
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
</property>
<property>
    <name>hadoop.tmp.dir</name>
    <value>/D:/hadoop-3.3.4/tmp</value>
</property>
</configuration>

hdfs-site.xml – 配置HDFS参数

<configuration>
<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>
<property>
    <name>dfs.namenode.name.dir</name>
    <value>/D:/hadoop-3.3.4/namenode</value>
</property>
<property>
    <name>dfs.datanode.data.dir</name>
    <value>/D:/hadoop-3.3.4/datanode</value>
</property>
</configuration>

mapred-site.xml – 配置MapReduce框架

<configuration>
<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>
</configuration>

yarn-site.xml – 配置YARN资源管理器

<configuration>
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
<property>
    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>