hadoop学习第三天

   

搭建完全分布式

ip地址规划

192.168.13.130 bigdata1
192.168.13.131 bigdata2
192.168.13.132 bigdata3

ip地址映射

vi /etc/hosts
192.168.13.130 bigdata1
192.168.13.131 bigdata2
192.168.13.132 bigdata3

集群规划

bigdata1 bigdata2 bigdata3
HDFS NameNode、SecondaryNameNode、DataNode DataNode DataNode
YARN ResourceManager、NodeManager NodeManager NodeManager

集群配置

创建 data 和 logs 临时目录

cd /data/module/hadoop-2.7.3
mkdir logs data

core-site.xml 配置文件

vi core-site.xml
...
<!-- 指定 HDFS 中 NameNode 的地址 低版本是8020端口-->
<property>
  <name>fs.defaultFS</name>
  <value>hdfs://主机名:9000</value>
</property>
<!-- 指定 hadoop 运行时产生文件的存储目录 -->
<property>
  <name>hadoop.tmp.dir</name>
  <value>/data/module/hadoop-2.7.3/tmp</value>
</property>
...

hdfs-site.xml 配置文件

<property>
    <name>dfs.replication</name>
    <value>3</value></property>
<!--secondary NameNode 的地址,端口号是50090-->
<property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>主机名:50090</value>
</property>
<!--关闭权限-->
<property>
    <name>dfs.permissions</name>
    <value>false</value>
</property>

yarn-site.xml 配置文件

<!-- Site specific YARN configuration properties -->
<!-- reducer 获取数据的方式 -->
<property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
</property>
<!-- 指定 YARN 的 ResourceManager 的地址 -->
<property>
  <name>yarn.resourcemanager.hostname</name>
  <value>bigdata1</value>
</property>
<!-- 日志聚集功能使用 -->
<property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>
<!-- 日志保留时间设置 7 天(秒) -->
<property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
</property>

mapred-site.xml 配置文件

<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
</property>
<!--历史服务器的地址-->
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>bigdata1:10020</value>
</property>
<!--历史服务器页面的地址-->
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>bigdata1:19888</value>
</property>

hadoop-env.sh配置文件

vi hadoop-env.sh
...
export JAVA_HOME=/data/module/jdk1.8.0_261
...

配置slaves

vi slaves
bigdata1
bigdata2
bigdata3

SSH免密登录

# 1.生成公钥和私钥(过程需要进行三次回车)
ssh-keygen -t rsa
# 2.拷公钥(执行过程需要输入每台主机的密码)
ssh-copy-id bigdata1
ssh-copy-id bigdata2
ssh-copy-id bigdata3

格式化HDFS

hdfs namenode -format

集群调试

在bigdata1启动HDFS,其他两台机也会联动开启服务

start-dfs.sh
start-yarn.sh
jsp
4626 DataNode
5107 NodeManager
4996 ResourceManager
5429 Jps
4490 NameNode
4798 SecondaryNameNode

发表评论