200字范文,内容丰富有趣,生活中的好帮手!
200字范文 > 大数据Hadoop教程-学习笔记02【Apache Hadoop HDFS】

大数据Hadoop教程-学习笔记02【Apache Hadoop HDFS】

时间:2019-07-20 05:35:26

相关推荐

大数据Hadoop教程-学习笔记02【Apache Hadoop HDFS】

视频教程:哔哩哔哩网站:黑马大数据Hadoop入门视频教程教程资源:/s/1WYgyI3KgbzKzFD639lA-_g 提取码: 6666 【P001-P017】大数据Hadoop教程-学习笔记01【大数据导论与Linux基础】【P018-P037】大数据Hadoop教程-学习笔记02【Apache Hadoop、HDFS】【P038-P050】大数据Hadoop教程-学习笔记03【Hadoop MapReduce与Hadoop YARN】【P051-P068】大数据Hadoop教程-学习笔记04【数据仓库基础与Apache Hive入门】【P069-P083】大数据Hadoop教程-学习笔记05【Apache Hive DML语句与函数使用】【P084-P096】大数据Hadoop教程-学习笔记06【Hadoop生态综合案例:陌陌聊天数据分析】

目录

01【Apache Hadoop概述】

P018【01-课程内容大纲-学习目标】

P019【02-Apache Hadoop介绍、发展简史、现状】

P020【03-Apache Hadoop特性优点、国内外应用】

P021【04-Apache Hadoop发行版本、架构变迁】

02【Apache Hadoop集群搭建】

P022【05-Apache Hadoop安装部署--集群组成介绍】

P023【06-Apache Hadoop安装部署--服务器基础环境设置】jdk环境安装

P024【07-Apache Hadoop安装部署--安装包结构】

P025【08-Apache Hadoop安装部署--修改配置文件、同步安装包与环境变量】

P026【09-Apache Hadoop安装部署--format初始化操作】

P027【10-Apache Hadoop安装部署--集群启停命令、Web UI页面】

P028【11-Apache Hadoop安装部署--初体验】

03【DFS分布式文件系统基础】

P029【12-传统文件系统在大数据时代面临的挑战】

P030【13-场景互动:分布式存储系统的核心属性及功能作用】

P031【14-HDFS简介、设计目标与应用场景】

P032【15-HDFS重要特性解读】

04【HDFS shell操作】

P033【16-HDFS shell命令行解释说明】

P034【17-HDFS shell命令行常用操作】

05【HDFS工作流程与机制】

P035【18-HDFS工作流程与机制--各角色职责介绍与梳理】

P036【19-HDFS工作流程与机制--写数据流程--pipeline、ack、副本策略】

P037【20-HDFS工作流程与机制--写数据流程--梳理】

01【Apache Hadoop概述】

P018【01-课程内容大纲-学习目标】

目录

Apache Hadoop概述Apache Hadoop集群搭建HDFS分布式文件系统基础HDFS Shell操作HDFS读写文件基本流程

学习目标

了解Hadoop发展历史、现状掌握Hadoop集群架构、角色掌握Hadoop集群分布式安装部署理解分布式存储的概念与实现掌握HDFS分块存储、副本机制等特性学会shell操作HDFS掌握HDFS读写文件基本流程

P019【02-Apache Hadoop介绍、发展简史、现状】

Hadoop官网:/

P020【03-Apache Hadoop特性优点、国内外应用】

Hadoop成功的魅力——通用性、简单性

P021【04-Apache Hadoop发行版本、架构变迁】

Hadoop发行版本

Apache开源社区版本 /商业发行版本 Cloudera:/products/open-source/apache-hadoop.htmlHortonworks:/products/hdp.html本课程中使用的是Apache版的Hadoop,版本号为:3.3.0 H

02【Apache Hadoop集群搭建】

P022【05-Apache Hadoop安装部署--集群组成介绍】

P023【06-Apache Hadoop安装部署--服务器基础环境设置】jdk环境安装

Hadoop由Java语言编写,其运行需要Java语言提供支撑。

安装配置jdk1.8#解压安装包tar zxvf jdk-8u65-linux-x64.tar.gz#配置环境变量vim /etc/profileexport JAVA_HOME=/export/server/jdk1.8.0_241export PATH=$PATH:$JAVA_HOME/binexport CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarsource /etc/profile#验证是否安装成功java -versionjava version "1.8.0_241"Java(TM) SE Runtime Environment (build 1.8.0_241-b07)Java HotSpot(TM) 64-Bit Server VM (build 25.241-b07, mixed mode)#别忘了scp给其他两台机器哦scp -r /export/server/jdk1.8.0_241/ root@node2:/export/server/scp -r /export/server/jdk1.8.0_241/ root@node3:/export/server/#环境变量也需要拷贝一份scp /etc/profile root@node2:/etc/scp /etc/profile root@node3:/etc/#让三台机器加载环境变量source /etc/profile

P024【07-Apache Hadoop安装部署--安装包结构】

P025【08-Apache Hadoop安装部署--修改配置文件、同步安装包与环境变量】

配置文件概述

官网文档:/docs/r3.3.0/第一类1个:hadoop-env.sh第二类4个:xxxx-site.xml,site表示的是用户定义的配置,会覆盖default中的默认配置。 core-site.xml:核心模块配置hdfs-site.xml:hdfs文件系统模块配置mapred-site.xml:MapReduce模块配置yarn-site.xml:yarn模块配置第三类1个:workers所有的配置文件目录:/export/server/hadoop-3.3.0/etc/hadoop

scp /etc/profile node2:/etc/

P026【09-Apache Hadoop安装部署--format初始化操作】

P027【10-Apache Hadoop安装部署--集群启停命令、Web UI页面】

直接使用快照,恢复到第二个快照状态。

启动完毕之后可以使用jps命令查看进程是否启动成功。

HDFS集群

http://node1:9870/dfshealth.html#tab-overview HDFS页面

浏览文件系统:Browse the file system。

YARN集群

http://node1:8088/cluster

P028【11-Apache Hadoop安装部署--初体验】

上传文件

计算圆周率pi

cd /export/server/hadoop-3.3.0/

cd share/hadoop/

cd mapreduce/

hadoop jar hadoop-mapreduce-examples-3.3.0.jar pi 2 2

单词统计

hello hadoop hadoop

hadoop hello

vim hello.txt

cat hello.txt

hadoop fs -mkdir -p /wordcount/input

hadoop fs -put hello.txt /wordcount/input

cd /export/server/hadoop-3.3.0/share/hadoop/mapreduce/

hadoop jar hadoop-mapreduce-examples-3.3.0.jar wordcount /wordcount/input /wordcount/output

03【DFS分布式文件系统基础】

P029【12-传统文件系统在大数据时代面临的挑战】

大数据要考虑的问题:吞吐量、性能、安全性、效率。

P030【13-场景互动:分布式存储系统的核心属性及功能作用】

分布式存储系统核心属性

分布式存储元数据记录分块存储副本机制

P031【14-HDFS简介、设计目标与应用场景】

HDFS简介

HDFS(Hadoop Distributed File System ),意为:Hadoop分布式文件系统。HDFS是Apache Hadoop核心组件之一,作为大数据生态圈最底层的分布式存储服务而存在。也可以说大数据首先要解决的问题就是海量数据的存储问题。HDFS使用多台计算机存储文件,并且提供统一的访问接口,像是访问一个普通文件系统一样使用分布式文件系统。

P032【15-HDFS重要特性解读】

HDFS特性整体概括

主从架构分块存储副本机制元数据记录抽象统一的目录树结构(namespace)

04【HDFS shell操作】

P033【16-HDFS shell命令行解释说明】

hadoop fs -ls file:/// 查看本地文件系统。

start-all.sh

hadoop fs -ls hdfs://node1:8020/

cat /export/server/hadoop-3.3.0/etc/hadoop/core-site.xml 查看core-site.xml文件内容。

P034【17-HDFS shell命令行常用操作】

hadoop fs -put anaconda-ks.cfg

hadoop fs -put 2.txt /

hadoop fs -put file:///root/2.txt hdfs://node1:8020/itheima

[root@node1 ~]# hadoop fs -put anaconda-ks.cfg 您在 /var/spool/mail/root 中有新邮件[root@node1 ~]# hadoop fs -put anaconda-ks.cfg /[root@node1 ~]# hadoop fs -ls /Found 7 items-rw-r--r-- 3 root supergroup2 -02-21 21:15 /1.txt-rw-r--r-- 3 root supergroup 1340 -02-22 10:49 /anaconda-ks.cfgdrwxr-xr-x - root supergroup0 -10-26 15:04 /itcastdrwxr-xr-x - root supergroup0 -02-21 21:17 /itheimadrwx------ - root supergroup0 -10-26 15:04 /tmpdrwxr-xr-x - root supergroup0 -10-26 15:04 /userdrwxr-xr-x - root supergroup0 -02-21 21:46 /wordcount您在 /var/spool/mail/root 中有新邮件[root@node1 ~]# hadoop fs -ls -h /Found 7 items-rw-r--r-- 3 root supergroup2 -02-21 21:15 /1.txt-rw-r--r-- 3 root supergroup1.3 K -02-22 10:49 /anaconda-ks.cfgdrwxr-xr-x - root supergroup0 -10-26 15:04 /itcastdrwxr-xr-x - root supergroup0 -02-21 21:17 /itheimadrwx------ - root supergroup0 -10-26 15:04 /tmpdrwxr-xr-x - root supergroup0 -10-26 15:04 /userdrwxr-xr-x - root supergroup0 -02-21 21:46 /wordcount[root@node1 ~]# ll总用量 12-rw-r--r-- 1 root root 2 2月 21 21:14 1.txt-rw-------. 1 root root 1340 9月 11 anaconda-ks.cfg-rw-r--r-- 1 root root 34 2月 21 21:36 hello.txt您在 /var/spool/mail/root 中有新邮件[root@node1 ~]# hadoop fs -get hdfs://node1:8020/itheima/2.txt file://root/您在 /var/spool/mail/root 中有新邮件[root@node1 ~]# hadoop fs -get /itheima/2.txt ./666.txt[root@node1 ~]# ll总用量 16-rw-r--r-- 1 root root 2 2月 21 21:14 1.txt-rw-r--r-- 1 root root 4 2月 22 11:03 666.txt-rw-------. 1 root root 1340 9月 11 anaconda-ks.cfg-rw-r--r-- 1 root root 34 2月 21 21:36 hello.txt[root@node1 ~]#

连接成功Last login: Tue Feb 21 20:24:03 from 192.168.88.1[root@node2 ~]# hadoop fs -ls /Found 7 items-rw-r--r-- 3 root supergroup2 -02-21 21:15 /1.txt-rw-r--r-- 3 root supergroup 1340 -02-22 10:49 /anaconda-ks.cfgdrwxr-xr-x - root supergroup0 -10-26 15:04 /itcastdrwxr-xr-x - root supergroup0 -02-21 21:17 /itheimadrwx------ - root supergroup0 -10-26 15:04 /tmpdrwxr-xr-x - root supergroup0 -10-26 15:04 /userdrwxr-xr-x - root supergroup0 -02-21 21:46 /wordcount您在 /var/spool/mail/root 中有新邮件[root@node2 ~]# ll总用量 4-rw-------. 1 root root 1340 9月 11 anaconda-ks.cfg您在 /var/spool/mail/root 中有新邮件[root@node2 ~]# echo 222 > 2.txt[root@node2 ~]# hadoop fs -put 2.txt /[root@node2 ~]# hadoop fs -put file:///root/2.txt hdfs://node1:8020/itheima您在 /var/spool/mail/root 中有新邮件[root@node2 ~]# ^C[root@node2 ~]# hadoop fs -cat /itheima/2.txt222您在 /var/spool/mail/root 中有新邮件[root@node2 ~]# hadoop fs -tail /itheima/2.txt222[root@node2 ~]# ll总用量 8-rw-r--r-- 1 root root 4 2月 22 10:53 2.txt-rw-------. 1 root root 1340 9月 11 anaconda-ks.cfg您在 /var/spool/mail/root 中有新邮件[root@node2 ~]# echo 1 > 1.txt[root@node2 ~]# echo 2 > 2.txt[root@node2 ~]# echo 3 > 3.txt[root@node2 ~]# cat 1.txt1[root@node2 ~]# hadoop fs -put 1.txt /put: `/1.txt': File exists您在 /var/spool/mail/root 中有新邮件[root@node2 ~]# echo 111 > 111.txt[root@node2 ~]# hadoop fs -put 111.txt /[root@node2 ~]# hadoop fs -cat /111.txt111您在 /var/spool/mail/root 中有新邮件[root@node2 ~]# hadoop fs -cat /111.txt[root@node2 ~]hadoop fs -cat /1.txt1[root@node2 ~]# hadoop fs -appendToFile 2.txt 11.txt /1.txtappendToFile: /root/11.txt[root@node2 ~]# hadoop fs -cat /1.txt12[root@node2 ~]#

hadoop fs -appendToFile 2.txt 11.txt /1.txt

追加命令:用于小文件合并。

HDFS shell其他命令,命令官方指导文档:

/docs/r3.3.0/hadoop-project-dist/hadoop-common/FileSystemShell.html

05【HDFS工作流程与机制】

P035【18-HDFS工作流程与机制--各角色职责介绍与梳理】

主角色:namenode,需要大内存。 NameNode是Hadoop分布式文件系统的核心,架构中的主角色。NameNode维护和管理文件系统元数据,包括名称空间目录树结构、文件和块的位置信息、访问权限等信息。从角色:datanode,需要大磁盘。 DataNode是Hadoop HDFS中的从角色,负责具体的数据块存储。DataNode的数量决定了HDFS集群的整体数据存储能力。通过和NameNode配合维护着数据块。主角色辅助角色: secondarynamenode SecondaryNameNode充当NameNode的辅助节点,但不能替代NameNode。主要是帮助主角色进行元数据文件的合并动作,可以通俗的理解为主角色的“秘书”。记住了:SNN是用来辅助合并数据的。

P036【19-HDFS工作流程与机制--写数据流程--pipeline、ack、副本策略】

核心概念--Pipeline管道

Pipeline,中文翻译为管道。这是HDFS在上传文件写数据过程中采用的一种数据传输方式。客户端将数据块写入第一个数据节点,第一个数据节点保存数据之后再将块复制到第二个数据节点,后者保存后将其复制到第三个数据节点。

核心概念--ACK应答响应

ACK (Acknowledge character)即是确认字符,在数据通信中,接收方发给发送方的一种传输类控制字符。表示发来的数据已确认接收无误。在HDFS pipeline管道传输数据的过程中,传输的反方向会进行ACK校验,确保数据传输安全。

核心概念--默认3副本存储策略

默认副本存储策略是由BlockPlacementPolicyDefault指定。

P037【20-HDFS工作流程与机制--写数据流程--梳理】

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。