centos系统下的hadoop分布式文件系统(hdfs)配置详解
在centos环境中部署hadoop hdfs,需要正确配置四个核心配置文件,它们位于Hadoop安装目录下的etc/hadoop文件夹中。以下详细介绍每个配置文件及其关键参数:
-
core-site.xml: 定义系统级参数,例如HDFS的URL和Hadoop的临时目录。
示例配置:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/usr/local/hadoop/tmp</value> </property> <property> <name>hadoop.proxyuser.root.hosts</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.root.groups</name> <value>*</value> </property> </configuration>
-
hdfs-site.xml: 配置HDFS特有的参数,例如NameNode和DataNode的地址、副本数量以及文件访问权限等。
示例配置:
<configuration> <property> <name>dfs.http.address</name> <value>localhost:9870</value> </property> <property> <name>dfs.namenode.secondary.http-address</name> <value>localhost:9870</value> </property> <property> <name>mapreduce.jobhistory.address</name> <value>localhost:10020</value> </property> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>localhost:19888</value> </property> </configuration>
-
mapred-site.xml: 配置MapReduce框架的参数。
示例配置:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
-
yarn-site.xml: 配置YARN(Yet Another Resource Negotiator,Hadoop集群资源管理器)的参数。
示例配置:
<configuration> <property> <name>yarn.Resourcemanager.address</name> <value>localhost:8032</value> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>localhost:8030</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>localhost:8031</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> <property> <name>yarn.nodemanager.vmem-check-enabled</name> <value>false</value> </property> <property> <name>yarn.nodemanager.disk-health-checker.max-disk-utilization-percentage</name> <value>99</value> </property> <property> <name>yarn.application.classpath</name> <value>/usr/lib/hadoop/client-0.20/lib/*</value> </property> </configuration>
在实际配置过程中,需要根据集群环境和具体需求调整这些参数的值。例如,fs.defaultFS 指定 NameNode 的地址,dfs.replication 设置文件副本数量等。 务必仔细检查每个参数的含义,确保配置正确,以避免HDFS运行出现问题。