第3章Hadoop基础操作

Imagemap

hide

第3章Hadoop基础操作

hide

任务3.1查看Hadoop集群基本信息

hide

Hadoop集群的核心功能

hide

分布式存储

hide

hide

leaf

leaf

浏览器方式

hide

leaf

计算资源分布在集群的各个节点上

leaf

通过ResourceManager与NodeManger协同调配

hide

操作终端机hosts修改

leaf

说明:
在windows文件中找到System32-->drivers-->etc,进入到etc文件夹中就能看到hosts文件,添加如下行,其中IP和机器名要改为本小组集群的IP和名称

leaf

192.168.137.134 slave1
192.168.137.135 slave2
192.168.137.133 master
192.168.137.136 slave3
10.255.10.31 c31
10.255.10.32 c32
10.255.10.33 c33
10.255.10.34 c34

hide

查询监控日志JOB

hide

leaf

http://10.255.10.65:19888/

hide

任务3.2上传文件到HDFS目录

hide

了解HDFS文件系统

hide

查看HDFS文件或目录

leaf

http://192.168.137.133:9870/

leaf

用户电脑e:/data.txt->集群服务器节点/root/hadoop/->Hadoop HDFS:/user/root/

hide

掌握HDFS的基本操作

leaf

说明:以下内容中myname都要替换为本人姓名全拼

hide

获取测试数据

leaf

说明：
在外网:wget https://hddly.oss-cn-hangzhou.aliyuncs.com/down/file/email_log.tar.gz
在内网:wget http://10.255.10.50/file/email_log.txt

leaf

cd /root/hadooop

leaf

wget https://hddly.oss-cn-hangzhou.aliyuncs.com/down/file/email_log.tar.gz

User Link

leaf

tar -zxvf ./email_log.tar.gz

hide

创建hdfs目录(myname替换为本人)

leaf

hdfs dfs -mkdir -p /user/myname

hide

leaf

hdfs dfs -copyFromLocal email_log.txt /user/myname/

leaf

hdfs dfs -moveFromLocal email_log.txt /user/myname/

leaf

hdfs dfs -put email_log.txt /user/myname/email_log.txt

hide

leaf

hdfs dfs -copyToLocal /user/myname/email_log.txt ./

leaf

hdfs dfs -get /user/myname/email_log.txt ./

hide

leaf

hdfs dfs -cat /user/myname/email_log.txt

leaf

hdfs dfs -tail /user/myname/email_log.txt

hide

删除文件或目录

leaf

hdfs dfs -rm 文件

leaf

hdfs dfs -rmdir 目录

hide

hide

hdfs dfs -ls 目录

leaf

hdfs dfs -ls /user/myname

hide

hdfs dfs -ls -R 目录

leaf

hdfs dfs -ls -R /user/myname

hide

HDFS基本操作练习

leaf

说明:以下内容中myname都要替换为本人姓名全拼

hide

在Hdfs中创建私人目录

leaf

要求:请通过命令行方式在本小组集群的HDFS文件系统中
创建目录： /user/myname
(myname都要替换为本人姓名全拼)

leaf

hdfs dfs -mkdir -p /user/myname

hide

文件上传下载查看操作

leaf

要求:通过命令行方式实现：
1，下载文件email_log.txt（可通过：wget http://10.255.10.50/file/email_log.txt）到本地 /user/hadoop目录下；
2）上传文件email_log.txt到HDFS的本组员私人目录下；
3）上传文件email_log.txt到HDFS的本组员私人目录下并重命名为1.txt；
4）将HDFS上的私人目录下的1.txt下载到本地 /user/hadoop目录下
5) 将本地目录下的1.txt转移到HDFS的本组员私人目录下
6) 使用tail命令查看本组员私人目录下的2.txt文件
7）使用cat命令查看本员私人目录下的2.txt文件，按Ctrl+C中继查看

hide

leaf

cd /root/hadoop
wget http://10.255.10.50/file/email_log.txt

leaf

hdfs dfs -copyFromLocal email_log.txt /user/myname/

leaf

hdfs dfs -put email_log.txt /user/myname/1.txt

leaf

hdfs dfs -get /user/myname/1.txt ./

leaf

hdfs dfs -moveFromLocal ./1.txt /user/myname/2.txt

leaf

hdfs dfs -tail /user/myname/2.txt

leaf

hdfs dfs -cat /user/myname/2.txt

leaf

Ctrl+c 退出cat内容查看

hide

文件或目录删除操作

leaf

要求 :通过命令行方式实现：
1）在HDFS文件系统中本组员的私人目录下创建tmp目录；
2）将本地/user/hadoop目录下的email_log.txt上传到HDFS文件系统中本组员的私人目录下的tmp目录下，并重命名为2.txt；
3）删除DFS文件系统中本组员的私人目录下的tmp目录下的2.txt；
4）删除DFS文件系统中本组员的私人目录下的tmp目录

hide

leaf

hdfs dfs -mkdir -p /user/myname/tmp

leaf

hdfs dfs -put email_log.txt /user/myname/tmp/2.txt

leaf

hdfs dfs -rm /user/myname/tmp/2.txt

leaf

hdfs dfs -rmdir /user/myname/tmp

hide

了解HDFS的高级操作

hide

删除非空目录

hide

hdfs dfs -rm -r 目录

leaf

例:hdfs dfs -rm -r /user/myname/tmp

hide

查目录的空间使用

hide

hdfs dfs -du 目录

leaf

例:hdfs dfs -du /user/myname

hide

合并hdfs文件

hide

leaf

将源目录和目标文件作为输入，并将src中的文件连接到目标本地文件（把两个文件的内容合并起来）
Usage：hdfs dfs -getmerge < src> < localdst> [addnl]
注：合并后的文件位于当前目录，不在hdfs中，是本地文件

hide

hide

leaf

从hdfs上过滤包含某个字符的行内容
Usage：hdfs dfs -cat < srcpath> | grep 过滤字段

leaf

hdfs dfs -cat /user/yuxm/output_music_data2/part-r-00000 |grep 俞老师

hide

hide

设置允许快照:

leaf

hdfs dfsadmin -allowSnapshot /user/myname

hide

leaf

hdfs dfs -createSnapshot /user/myname myname_bak1

hide

hide

先删除测试文件

leaf

hdfs dfs -rm /user/myname/2.txt

hide

再快照恢复

leaf

hdfs dfs -cp /user/myname/.snapshot/myname_bak1/2.txt /user/myname/

hide

任务3.3运行首个MapReduce任务

hide

leaf

要求对/usr/root/email_log.txt文件进行计算处理，统计出用户登录次数

leaf

使用Hadoop官方提供的示例包中的词频统计模块

hide

了解Hadoop官方示例程序包

hide

hadoop-mapreduce-examples

leaf

wordcount:词频统计

leaf

pi:估算圆周率

leaf

wordmean:单词平均长度

leaf

wordmedian:单词长度中位数

hide

MapReduce任务相关配置

hide

vi /etc/profile，添加环境变量:export HADOOP_CLASS=$(hadoop classpath)

leaf

改后/etc/profile内容如:http://i.hddly.cn/media/SecureCRT_B5EuOcjJXc.png

User Link

leaf

生效环境变量: source /etc/profile

hide

messagebox_warning

vi /usr/local/hadoop-3.3.1/etc/hadoop/mapred-site.xml
更改三处:
HADOOP_MAPRED_HOME=$HADOOP_CLASS
添加一处
<property>
<name>yarn.application.classpath</name>
<value>$HADOOP_CLASS</value>
</property>

leaf

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>master:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>master:19888</value>
</property>
<property>
<name>yarn.app.mapreduce.am.env</name>
<value>HADOOP_MAPRED_HOME=$HADOOP_CLASS</value>
</property>
<property>
<name>mapreduce.map.env</name>
<value>HADOOP_MAPRED_HOME=$HADOOP_CLASS</value>
</property>
<property>
<name>mapreduce.reduce.env</name>
<value>HADOOP_MAPRED_HOME=$HADOOP_CLASS</value>
</property>
<property>
<name>yarn.app.mapreduce.am.resource.mb</name>
<value>256</value>
</property>
<property>
<name>mapreduce.map.memory.mb</name>
<value>512</value>
</property>
<property>
<name>mapreduce.reduce.memory.mb</name>
<value>256</value>
</property>
<property>
<name>yarn.application.classpath</name>
<value>$HADOOP_CLASS</value>
</property>
</configuration>

hide

提交MapReduce任务给集群运行

leaf

cd /usr/local/hadoop-3.3.1/share/hadoop/mapreduce

leaf

hadoop jar ./hadoop-mapreduce-examples-3.3.1.jar wordcount /user/myname/email_log.txt /user/myname/output_email_log

hide

任务3.4管理多个MapReduce任务

hide

leaf

查询多个任务的进展

leaf

可以中断当前的作业和查询指定的日志文件

hide

执行MapReduce任务

hide

执行估算PI值的任务

leaf

hadoop jar ./hadoop-mapreduce-examples-3.3.1.jar pi 10 100

leaf

或 hadoop jar ./hadoop-mapreduce-examples-2.10.1.jar pi 10 100

hide

leaf

hadoop jar ./hadoop-mapreduce-examples-3.3.1.jar wordcount /user/root/email_log.txt /user/root/output4

hide

计算单词平均长度

leaf

hadoop jar ./hadoop-mapreduce-examples-3.3.1.jar wordmean /user/root/email_log.txt /user/root/output5

leaf

result:
count 8000000
length 210379675

hide

计算单词长度中位数

leaf

一般地，n个数据按大小顺序排列，处于最中间位置的一个数据（或最中间位置的两个数据的平均数）叫这组数据的中位数。

leaf

hadoop jar ./hadoop-mapreduce-examples-3.3.1.jar wordmedian /user/root/email_log.txt /user/root/output6

hide

计算单词长度标准差

leaf

hadoop jar ./hadoop-mapreduce-examples-3.3.1.jar wordstandarddeviation /user/root/email_log.txt /user/root/output7

leaf

result:
count 8000000
length 210379675
square 1481473227

hide

hide

在笔记本上操作Hadoop3.x集群

hide

hide

hide

leaf

192.168.137.100

hide

leaf

192.168.137.101

leaf

192.168.137.102

leaf

192.168.137.103

hide

leaf

hide

HDFS基本操作练习

leaf

说明:以下内容中myname都要替换为本人姓名全拼

hide

在Hdfs中创建私人目录

leaf

要求:请通过命令行方式在本小组集群的HDFS文件系统中
创建目录： /user/myname
(myname都要替换为本人姓名全拼)

leaf

hdfs dfs -mkdir -p /user/myname

hide

文件上传下载查看操作

leaf

要求:通过命令行方式实现：
1，下载并解压文件email_log.txt:
2）上传文件email_log.txt到HDFS的本组员私人目录下；
3）上传文件email_log.txt到HDFS的本组员私人目录下并重命名为1.txt；
4）将HDFS上的私人目录下的1.txt下载到本地 /user/hadoop目录下
5) 将本地目录下的1.txt转移到HDFS的本组员私人目录下
6) 使用tail命令查看本组员私人目录下的2.txt文件
7）使用cat命令查看本员私人目录下的2.txt文件，按Ctrl+C中继查看

hide

leaf

cd /root/hadooop
wget https://hddly.oss-cn-hangzhou.aliyuncs.com/down/file/email_log.tar.gz
tar -zxvf ./email_log.tar.gz

leaf

hdfs dfs -copyFromLocal email_log.txt /user/myname/

leaf

hdfs dfs -put email_log.txt /user/myname/1.txt

leaf

hdfs dfs -get /user/myname/1.txt ./

leaf

hdfs dfs -moveFromLocal ./1.txt /user/myname/2.txt

leaf

hdfs dfs -tail /user/myname/2.txt

leaf

hdfs dfs -cat /user/myname/2.txt

leaf

Ctrl+c 退出cat内容查看

hide

文件或目录删除操作

leaf

要求 :通过命令行方式实现：
1）在HDFS文件系统中本组员的私人目录下创建tmp目录；
2）将本地/user/hadoop目录下的email_log.txt上传到HDFS文件系统中本组员的私人目录下的tmp目录下，并重命名为2.txt；
3）删除DFS文件系统中本组员的私人目录下的tmp目录下的2.txt；
4）删除DFS文件系统中本组员的私人目录下的tmp目录

hide

leaf

hdfs dfs -mkdir -p /user/myname/tmp

leaf

hdfs dfs -put email_log.txt /user/myname/tmp/2.txt

leaf

hdfs dfs -rm /user/myname/tmp/2.txt

leaf

hdfs dfs -rmdir /user/myname/tmp

hide

执行MapReduce任务

leaf

说明:以下内容中myname都要替换为本人姓名全拼

leaf

cd /usr/local/hadoop-3.3.1/share/hadoop/mapreduce

hide

leaf

hadoop jar ./hadoop-mapreduce-examples-3.3.1.jar wordcount /user/myname/email_log.txt /user/myname/output_wordcount

hide

执行估算PI值的任务

leaf

hadoop jar ./hadoop-mapreduce-examples-3.3.1.jar pi 10 100

hide

计算单词平均长度

leaf

hadoop jar ./hadoop-mapreduce-examples-3.3.1.jar wordmean /user/myname/email_log.txt /user/myname/output_wordmean

hide

计算单词长度中位数

leaf

一般地，n个数据按大小顺序排列，处于最中间位置的一个数据（或最中间位置的两个数据的平均数）叫这组数据的中位数。

leaf

hadoop jar ./hadoop-mapreduce-examples-3.3.1.jar wordmedian /user/myname/email_log.txt /user/myname/output_wordmedian

hide

计算单词长度标准差

leaf

hadoop jar ./hadoop-mapreduce-examples-3.3.1.jar wordstandarddeviation /user/myname/email_log.txt /user/myname/output_wordstandard

hide

查看任务运行情况

leaf

http://master:8088

hide

管理任务,中断任务

leaf

在 http://master:8088 ->job任务中 ->kill Application

leaf

Hdoop2.XMapRedue

hide

hide

WARN hdfs.DataStreamer: Exception in createBlockOutputStream...

hide

leaf

2022-02-09 08:06:22,360 WARN hdfs.DataStreamer: Exception in createBlockOutputStream blk_1073741958_1134
java.net.NoRouteToHostException: No route to host
at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method)
at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:716)
at org.apache.hadoop.net.SocketIOWithTimeout.connect(SocketIOWithTimeout.java:206)
at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:586)
at org.apache.hadoop.hdfs.DataStreamer.createSocketForPipeline(DataStreamer.java:253)
at org.apache.hadoop.hdfs.DataStreamer.createBlockOutputStream(DataStreamer.java:1757)
at org.apache.hadoop.hdfs.DataStreamer.nextBlockOutputStream(DataStreamer.java:1711)
at org.apache.hadoop.hdfs.DataStreamer.run(DataStreamer.java:707)

hide

messagebox_warning

解决:关闭防火墙

leaf

systemctl disable firewalld

leaf

service stop firewalld

hide

WARN hdfs.DataStreamer: Exception in createBlockOutputStream

hide

leaf

2022-02-09 08:06:22,540 WARN hdfs.DataStreamer: Exception in createBlockOutputStream blk_1073741960_1136
java.io.IOException: Got error, status=ERROR, status message , ack with firstBadLink as 192.168.137.136:9866
atorg.apache.hadoop.hdfs.protocol.datatransfer.DataTransferProtoUtil.checkBlockOpStatus(DataTransferProtoUtil.java:134)
atorg.apache.hadoop.hdfs.protocol.datatransfer.DataTransferProtoUtil.checkBlockOpStatus(DataTransferProtoUtil.java:110)
atorg.apache.hadoop.hdfs.DataStreamer.createBlockOutputStream(DataStreamer.java:1810)
atorg.apache.hadoop.hdfs.DataStreamer.nextBlockOutputStream(DataStreamer.java:1711)
atorg.apache.hadoop.hdfs.DataStreamer.run(DataStreamer.java:707)

leaf

messagebox_warning

解决:关闭防火墙

hide

Cannot allocate containers as requested resource is greater than maximum allowed allocation

leaf

vi yarn-site.xml

leaf

<name>yarn.nodemanager.resource.memory-mb</name>
<value>2048</value>
</property>
<property>
<name>yarn.scheduler.minimum-allocation-mb</name>
<value>128</value>
</property>
<property>
<name>yarn.scheduler.maximum-allocation-mb</name>
<value>2048</value>
</property>
<property>
<name>mapreduce.map.memory.mb</name>
<value>512</value>
</property>
<property>
<name>mapreduce.reduce.memory.mb</name>
<value>1024</value>
</property>
<property>
<name>yarn.nodemanager.resource.cpu-vcores</name>
<value>2</value>
</property>

leaf

conf.Configuration: resource-types.xml not found

hide

Disabling Erasure Coding for path: /tmp/hadoop-yarn/staging/root/.staging/job_1644346006781_0002

leaf

解决:添加内存到3G,CPU增加到2*2

hide

报hadoop路径配置问题

hide

<property>
<name>yarn.app.mapreduce.am.env</name>
<value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
</property>
<property>
<name>mapreduce.map.env</name>
<value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
</property>
<property>
<name>mapreduce.reduce.env</name>
<value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
</property>

leaf

vi /usr/local/hadoop-3.3.1/etc/hadoop/mapred-site.xml
更改三处:
HADOOP_MAPRED_HOME=$HADOOP_CLASS
添加一处
<property>
<name>yarn.application.classpath</name>
<value>$HADOOP_CLASS</value>
</property>

hide

output目录已存在异常

leaf

INFO client.DefaultNoHARMFailoverProxyProvider: Connecting to ResourceManager at master/192.168.137.133:8032
org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://master:9864/user/root/output already exists

hide

删除文件时报异常
Cannot delete /user/root/mongo.
Name node is in safe mode

leaf

在分布式文件系统启动的时候，开始的时候会有安全模式，当分布式文件系统处于安全模式的情况下，文件系统中的内容不允许修改也不允许删除，直到安全模式结束

leaf

安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性，同时根据策略必要的复制或者删除部分数据块

hide

messagebox_warning

关闭Hadoop的安全模式

leaf

bin/hadoop dfsadmin -safemode leave

hide

进入安全模式

hide

namenode日志报异常

leaf

INFO org.apache.hadoop.ipc.Server: IPC Server handler 6 on default port 9864, call Call#159 Retry#0 org.apache.hadoop.hdfs.server.protocol.NamenodeProtocol.rollEditLog from 10.255.10.100:39090: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Log not rolled. Name node is in safe mode.

hide

进入安全模式原因

leaf

The minimum number of live datanodes is not required. Safe mode will be turned off automatically once the thresholds have been reached. NamenodeHostName:c100

leaf

因磁盘空间不足，内存不足，系统掉电等其他原因导致dataNode datablock丢失

hide

messagebox_warning

关闭Hadoop的安全模式

hide

bin/hadoop dfsadmin -safemode leave

leaf

[root@c100 hadoop-3.3.1]# bin/hadoop dfsadmin -safemode leave
WARNING: Use of this script to execute dfsadmin is deprecated.
WARNING: Attempting to execute replacement "hdfs dfsadmin" instead.

Safe mode is OFF
[root@c100 hadoop-3.3.1]# cd sbin/
[root@c100 sbin]# ./stop-all.sh
Stopping namenodes on [c100]
Last login: Thu Apr 28 02:17:38 EDT 2022 from 10.255.10.31 on pts/0
Stopping datanodes
Last login: Thu Apr 28 02:21:02 EDT 2022 on pts/0
Stopping secondary namenodes [c100]
Last login: Thu Apr 28 02:21:04 EDT 2022 on pts/0
Stopping nodemanagers
Last login: Thu Apr 28 02:21:07 EDT 2022 on pts/0
Stopping resourcemanager
Last login: Thu Apr 28 02:21:11 EDT 2022 on pts/0
[root@c100 sbin]# ./start-all.sh
Starting namenodes on [c100]
Last login: Thu Apr 28 02:21:13 EDT 2022 on pts/0
Starting datanodes
Last login: Thu Apr 28 02:21:23 EDT 2022 on pts/0
Starting secondary namenodes [c100]
Last login: Thu Apr 28 02:21:26 EDT 2022 on pts/0
Starting resourcemanager
Last login: Thu Apr 28 02:21:30 EDT 2022 on pts/0
Starting nodemanagers
Last login: Thu Apr 28 02:21:36 EDT 2022 on pts/0
[root@c100 sbin]#

hide

步骤 1 执行命令退出安全模式： hdfs dfsadmin -safemode leave
步骤 2 执行健康检查，删除损坏掉的block。 hdfs fsck / -delete

leaf

[root@c100 logs]# hdfs dfsadmin -safemode leave
Safe mode is OFF
[root@c100 logs]# hdfs fsck / -delete
Connecting to namenode via http://c100:9870/fsck?ugi=root&delete=1&path=%2F
FSCK started by root (auth:SIMPLE) from /10.255.10.100 for path / at Thu Apr 28 02:54:52 EDT 2022

/user/chenyanfang/1.txt: MISSING 2 blocks of total size 218379675 B.
/user/chenyanfang/2.txt: MISSING 2 blocks of total size 218379675 B.
/user/chenyanfang/email_log.txt: MISSING 2 blocks of total size 218379675 B.
/user/liuchenling/1.txt: MISSING 2 blocks of total size 218379675 B.
/user/liuchenling/email_log.txt: MISSING 2 blocks of total size 218379675 B.
/user/root/1.txt: MISSING 2 blocks of total size 218379675 B.
/user/yeying/1.txt: MISSING 2 blocks of total size 218379675 B.
/user/yeying/email_log.txt: MISSING 2 blocks of total size 218379675 B.
Status: CORRUPT
Number of data-nodes: 0
Number of racks: 0
Total dirs: 15
Total symlinks: 0

Replicated Blocks:
Total size: 1747037400 B
Total files: 8
Total blocks (validated): 16 (avg. block size 109189837 B)
********************************
UNDER MIN REPL'D BLOCKS: 16 (100.0 %)
MINIMAL BLOCK REPLICATION: 1
CORRUPT FILES: 8
MISSING BLOCKS: 16
MISSING SIZE: 1747037400 B
********************************
Minimally replicated blocks: 0 (0.0 %)
Over-replicated blocks: 0 (0.0 %)
Under-replicated blocks: 0 (0.0 %)
Mis-replicated blocks: 0 (0.0 %)
Default replication factor: 3
Average block replication: 0.0
Missing blocks: 16
Corrupt blocks: 0
Missing replicas: 0
Blocks queued for replication: 0

Erasure Coded Block Groups:
Total size: 0 B
Total files: 0
Total block groups (validated): 0
Minimally erasure-coded block groups: 0
Over-erasure-coded block groups: 0
Under-erasure-coded block groups: 0
Unsatisfactory placement block groups: 0
Average block group size: 0.0
Missing block groups: 0
Corrupt block groups: 0
Missing internal blocks: 0
Blocks queued for replication: 0
FSCK ended at Thu Apr 28 02:54:53 EDT 2022 in 396 milliseconds

The filesystem under path '/' is CORRUPT
[root@c100 logs]#

hide

突然断电导致数据存储文件丢失

leaf

Directory /data/hadoop/hdfs/name is in an inconsistent state: storage directory does not exist or is not accessible.

hide

处理, vi ./core-site.xml

leaf

<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop-3.3.1/tmp/hadoop-${user.name}</value>
</property>

leaf

使用Eclipse脚本执行上传大文件异常：
DataStreamer: DataStreamer Exception

hide

Failed to execute 'send' on 'XMLHttpRequest'

leaf

在查阅wordcount的运行结果时,出现此错误

hide

解决1:hdfs-site.xml

leaf

<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>

leaf

解决2:在C:\Windows\System32\drivers\etc\hosts中添加本集群所有IP和Hostname

leaf

cat: Unable to write to output stream.

leaf

cat: Unable to write to output stream.

hide

Invalid resource request! Cannot allocate containers as requested resource

leaf

在集群linux下运行任务： hadoop jar ./hadoop-mapreduce-examples-3.3.1.jar pi 10 100

hide

任务报错信息:

leaf

http://i.hddly.cn/media/SecureCRT_jDbUrgNaBh.png

User Link

leaf

java.io.IOException: org.apache.hadoop.yarn.exceptions.InvalidResourceRequestException: Invalid resource request! Cannot allocate containers as requested resource is greater than maximum allowed allocation. Requested resource type=[memory-mb], Requested resource=<memory:1536, vCores:1>, maximum allowed allocation=<memory:1024, vCores:2>, please note that maximum allowed allocation is calculated by scheduler based on maximum resource of registered NodeManagers, which might be less than configured maximum allocation=<memory:1024, vCores:4>

hide

leaf

Yarn部署到小内存主机上，默认的配置会由于资源不足导致简单的任务也无法执行成功

hide

messagebox_warning

leaf

配置在2G的内存的主机

hide

messagebox_warning

mapred-site.xml

leaf

<property>
<name>yarn.app.mapreduce.am.resource.mb</name>
<value>256</value>
</property>
<property>
<name>mapreduce.map.memory.mb</name>
<value>256</value>
</property>
<property>
<name>mapreduce.reduce.memory.mb</name>
<value>256</value>
</property>

hide

messagebox_warning

leaf

<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>1024</value>
</property>
<property>
<name>yarn.scheduler.minimum-allocation-mb</name>
<value>128</value>
</property>
<property>
<name>yarn.scheduler.maximum-allocation-mb</name>
<value>1024</value>
</property>

leaf

<property>
<name>mapreduce.map.memory.mb</name>
<value>512</value>
</property>
<property>
<name>mapreduce.reduce.memory.mb</name>
<value>1024</value>
</property>
<property>
<name>yarn.nodemanager.resource.cpu-vcores</name>
<value>2</value>
</property>

hide

运行mapreduce程序，网页监控不到任务

leaf

有linux上执行mr任务有，在eclipse上执行mr任务没有

hide

hide

leaf

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

hide

leaf

检查内网，外网是否有相同的域名，如 home.hddly.cn是否在内网也存在

hide

已知暂无解问题

hide

跨有线和无线的网络共同搭建Hadoop集群
存在的问题:
主机Master在有线端,则无线端datanode显示为网关地址
主机Master在无线端,则有线端datanode显示为网关地址

leaf

在WEB端datanode页的node处

hide

hdfs dfsadmin -printTopology

leaf

结果如下：
[root@master sbin]# hdfs dfsadmin -printTopology
Rack: /default-rack
192.168.31.1:9866 (XiaoQiang)

Rack: /rack01
192.168.31.22:9866 (c22)
192.168.31.23:9866 (c23)

Rack: /rack02
192.168.31.11:9866 (server1)

hide

hide

实训1统计文件中所有单词的平均长度

hide

leaf

掌握HDFS的基本操作

leaf

掌握提交MapReduce 任务

leaf

掌握对MapReduce任务的查询与中断

hide

leaf

在集群服务器的本地目录hadoop-root-nodemanager-*.log，要求对文件中的单词进行统计，求单词的平均长度

hide

实现思路及步骤

leaf

上传文件hadoop-root-nodemanager-*.log到 hdfs的:/user/myname 目录下

leaf

使用官方的/hadoop-mapreduce-examples-3.3.1.jar提交MR任务，将结果输出到hdfs: /user/myname/output_nodemanager_wordmean 目录下

leaf

查看输出结果:查看hdfs:/user/myname/output_nodemanager_wordmean目录下结果

hide

leaf

1，环境说明:本小组主机:,本小组成员机:,本成员机:

leaf

2，在http://master:9870上拍照截取本小组集群中本成员目录下/user/myname中上传的文件

leaf

3，在linux本组员的虚拟机上，截图运行 mr任务的命令行，以及运行结果截图，至少两张截图

leaf

4，在http://master:8088上拍照截取本组员运行的任务记录行，和任务详细信息界面，至少两张截图

leaf

5，查看http://master:9870的文件/user/myname/output_nodemanager_wordmean目录的结果文件内容，并截图

hide

实训2查询与中断MapReduce任务

hide

leaf

掌握查询 MapReduce任务信息

leaf

掌握查询集群的计算资源信息

leaf

掌握中断执行中的MapReduce任务

hide

leaf

在集群服务器的目录:本地目录/usr/local/hadoop-3.3.1/logs/下，将.log的文件上传集群hdfs的 /user/myname/logs目录下
依次提交词频统计任务(wordcount)、计算平均长度任务(wordmean)、计算单词长度中位数任务(wordmedian)，查看当前集群的计算资源使用情况，以及任务列表信息，中断第2个任务(wordmean),观察后续任务的执行情况

hide

实现思路及步骤

hide

上传日志文件hadoop-root-*.log到 hdfs的:/user/myname/logs 目录下

leaf

hdfs dfs -put /usr/local/hadoop-3.3.1/logs/* /user/myname/logs/

leaf

使用CRT分3次打开本组员服务器，这样有3个Tab页同时连接到同个服务器

hide

使用官方的/hadoop-mapreduce-examples-3.3.1.jar分别提交MR
任务(wordcount、wordmean、wordmedian)，将结果输出到hdfs:
/user/myname/output_logs_wordcount,
/user/myname/output_logs_wordmean,
/user/myname/output_logs_wordmedian
目录下

leaf

cd /usr/local/hadoop-3.3.1/share/hadoop/mapreduce/

leaf

hadoop jar ./hadoop-mapreduce-examples-3.3.1.jar wordcount /user/myname/logs/* /user/myname/output_logs_wordcount
观察任务号

leaf

hadoop jar ./hadoop-mapreduce-examples-3.3.1.jar wordmean /user/myname/logs/* /user/myname/output_logs_wordmean
观察任务

leaf

hadoop jar ./hadoop-mapreduce-examples-3.3.1.jar wordmedian /user/myname/logs/* /user/myname/output_logs_wordmedian
观察任务号

leaf

进入http://master:8088站点，打开MapReduce任务列表

leaf

观察任务(wordcount、wordmean、wordmedian)任务运行情况，查看任务分别是由哪些节点来完成的

leaf

找到第2个任务wordmean的任务，进入该任务详细信息，然后中断它

hide

leaf

1，环境说明:本小组主机:,本小组成员机:,本成员机:

leaf

2，在linux本组员的虚拟机上，截图运行 mr任务(wordcount、wordmean、wordmedian)的包含任务号的截图( 至少3张)
任务号如：job: http://master:8088/proxy/application_1651126254203_0008/

leaf

3，在http://master:8088上拍照截取本组员运行的3个任务记录详细信息，其中wordcount(FINISHED)、wordmean(Killed)、wordmedian(FINISHED)