电子书:《Hadoop集群程序设计与开发》_王宏志等_2018-08-01

[复制链接]
查看211 | 回复1 | 2019-12-7 20:01:47 | 显示全部楼层 |阅读模式

《Hadoop集群程序设计与开发》_王宏志等_2018-08-01_1

《Hadoop集群程序设计与开发》_王宏志等_2018-08-01_1

《Hadoop集群程序设计与开发》_王宏志等_2018-08-01_2

《Hadoop集群程序设计与开发》_王宏志等_2018-08-01_2

《Hadoop集群程序设计与开发》_王宏志等_2018-08-01_3

《Hadoop集群程序设计与开发》_王宏志等_2018-08-01_3


内容简介:

Hadoop集群程序设计与开发
2.8容错机制
4.1.1HDFS读数据的过程
29.安.全.性
4.1.2HDFS写数据的过程
2.10小结
4.1.3HDFS删除与恢复数据的
第3章 Hadoop开发环境配置与
4.2HDFS常用命令行操作概述
搭建
21HDFS命令行
98
4.2.2HDFS常用命令行操作
3.1.1安装包版本的选择
4.3通过Web浏览HDFs文件……105
3.1.2 Hadoop安装先决条件
4. 4 HDFS API
3.1.3 Hadoop安装模式
44.1使用 FileSystem AP读取数据
3.2本地/独立模式搭建
命令行
21JDK安装与配置
44.2使用 File System API写入数据
32.2SsH无密码登.录
命令行
44.3 Filets文件处理
3.23 Hadoop本地环境参数配置…74
3.2.4 Hadoop本地模式验证
3.3伪分布模式搭建
74第5章 Hadoop的o操作…118
3.31配置过程
5.1压缩
119
3.32格式化HDFS
5.1.1 Hadoop压缩类型
3.33 Hadoop_进.程_启停与验证
5.1.2 Compression Codec接口
4.1 Hadoop网络配置
5.1.4压缩池…
3.42 Hadoop集群SSH配置
5.1.5 Hadoop中使用压缩…
34.3时间同步
2O序列化类型
3.44IP与机器名映射
52.1 Writable接口……129
34.5 Hadoop环境配置
522Java基本类型的 Writable封
3.4.6 Hadoop集群启停与验证
3.5基于 Hadoop平台的 Eclipse开发环境
52.3 Int writable与 Int Writable类
的搭建
adop eclipse插件配置
52.5 Bytes Writable类
3.5.2编写第一个 MapReduce程序…88
Writable类……
5.3编译打包及运行程序
527 Object Writable类
52.8自定义 Writable接口…
第4章 Hadoop分布式文件
5.3基于文件的数据结构
5.3.1 SequenceFile
141
5.3.2 MapFile
144
4.1HDFS工作原理
5.4小结

第6章 MapReduce编程
7.11内置计数器
146
7.1.2自定义计数器
188
7.1.3计数器结果查看
190
6.1剖析 MapReduce编程过程
147
7.2最值
62由 WordCount理解 MapReduce
7.2.1单一最值
编程过程
6.21准备工作
7.3全排序
62.2 Mapper工作过程
3.1全排序业务需求
6.2.3 Reducer工作过程
7.3.2实验数据准备
199
624Job工作过程
7.3.3自定义分区实现全排序过程…200
6.3 MapReduce类型
7.3.4通过抽样实现全排序过程
64 Mapper输入
7.4二次排序
6.4.1默认输入格式
7.4.1解决方案
iNput输入
7.4.2例子
210
64.3多路径输入
7.5连接
644自定义输入分片
educe端连
6.5 Shuffle
75.2Map端连接……
5.1 Shuffle运行原理…
7.6小结…
65.2分区
第8章初识 HBase
221
65.3排序
170
654分组
8.1 HBase基础知识
6.6 Combiner
661由 WordCount案例讲解
8.1.2 HBase数据模型
81.3 HBase体系结构………
662由SVG案例进一步讲解
82 HBase开发环境配置与安装………231
combiner…
8.2.1 HBase环境配置基本准备
7 OutputFormat输出
178
6.8编程模型的扩展— Flume Java
8.22 HBase配置文件…………233
云计算高级编程模型
8.23 HBase独立安装……
6.8.1 Flumejava结构
8.24 HBase伪分布式安装
6.8.2 Flumejava优化
Base完全分布式安装
69小结
8.26 HBase启动、停止、监控……236
8.3 HBase基本She操作
第7章 MapReduce高级
编程
184
8.32 HBase shell通用命令
7.1计数器
8.3.3 HBase Shell表管理命令

Hadoop集群程序设计与开发
8.34 HBase shel表操作命令…23893 HiveQL基本语法
8.35 HBase Shel应用举例
9.31Hive中的数据库
84基于 HBase AP|程序设计
3.2创建表的基本语法
8.4.1管理表结构
3.3表中数据的加载
8.4.2管理表信息
934 HiveQL的数据类型
93.5数据类型转换
84.5协处理器
2479.37分区和桶
84.6计数器………
9.3.8表维护
8.4.7 MapReduce与 HBase互操作…2479.4 HiveQL基本查询
94.1 SELECT…FROM语句
8.5.1 HBase值的存储与读取的
42 WHERE语句
94.3嵌套 SELECT语句
8.52 HBase值存储特点引发的
9.4.4Hive函数
9.4.5 GROUP BY语句
8.5.3 Row Key设计遵循的原则
N语句
8.6 HBase的高性能设计:使用
94.7 UNION ALL语句
310
infinIband的RDMA
94.8 ORDER BY和 SORT BY
8.6.1设计
语句
310
86.2优势
949含有 SORT BY的 DISTRIBUTE
8.7小结
语句
第9章初识Hive
256
9.4.10 CLUSTER BY语句
9.5视图和索引
313
9.1Hive基础知识
9.1.1Hive的存储结构
9.5.2索引
1.2Hive与传统数据库的比较……25
96Hive与 HBase集成
…315
92Hive环境安装
318
9.21Hive内嵌模式安装
.22Hive独立模式安装
附录《 Hadoop集群程序设计与
9.23Hive.远.程.模式安装……
开发》配套实验课程方案
4初识 Hive shel
简介
319
9.25Java通过JDBC对Hive操作…266

非卖品,仅供非商业用途或交流学习使用
01
第1章初识 Hadoop
【内容概述】
角本图包活式计图大数计0天
【知识要点】
解 Hadoop产生过程、应用场景
理解云计算、大数据概念及 Hadoop与它们的关系
了解 Hadoop学习过程及目前 Hadoop人才需求情况

非卖品,仅供非商业用途或交流学习使用
Hadoop集群程序设计与开发
1.1为什么要学习 Hadoop
继工业ge命之后,信息化再次掀起了新的ge命浪潮,数据信息量成指数幂增长,大量数据蕴含
的价值成为人们关注的焦点。然而,庞大的数据量存储及计算问题,已成为一种具有挑战性的问题
分布式系统解决了大数据时代的数据爆发所带来的高并发的吞吐和大规模数据管理与计算问
题。分布式系统是一个其组件分布在联网的计算机上,组件之间通过传递消息进行通信和动作协调
的系统,有以下3个主要特征
1.并发性
对于计算机网络中的数据等共享资源来说,程序执行时并发访问是常见的行为。分布式系统中
的多个节点可能会并发地操作一些共享的资源。协调分布式并发操作也成为分布式系统架构与设计
中最大的挑战之一
副本
它是分布式系统提供的一种容错机制,分为数据副本和服务副本。数据副本指在不同节点上持
有同一份数据,当某一个节点上存储的数据丢失时,可以从其他节点的副本上读取该数据,这是解
决分布式系统数据丢失问题的有效手段。服务副本指多个节点提供同样的服务,每个节点都有能力
接受来自外部的请求并进行相应的处理。
3.可扩展性
分布式系统的核心理念是让多台服.务.器协同工作,完成单台服.务.器无法处理的任务,尤其是高
并发或者大数据量的任务。分布式系统由独立的服.务.器通过网络松散耦合组成。提升分布式系统的
整体性能是要通过横向扩展(增加更多的服.务.器),而不是纵向扩展(提升每个节点的服.务.器性能)。
Hadoop是 Apache公司旗下的一个开源项目,是一个高效的分布式计算平台,由于其可靠性
高效性,以及可以在大量普通计算机集群上部署,被越来越多的企业应用。 Hadoop的兴起,简化了
数据海量存储及计算这个难题的研究过程
1.1.1信息化项目衍生过程
自20世纪50年代中期开始,社会形态由工业社会发展到信息社会。信息化(\" informatization
或“ Informatisation”)项目应运而生,初期阶段项目主要以计算机为载体,以信息内容
主体,信息量不大,只要在个人计算机中记录应用即可。随着网络的发展,信息内容的增加,人们
的需求也不断地增加,系统集成( System Integration,SI)成为信息化项目的主体。它通过结构化的
综合布线系统和计算机网络技术,将各个分离的设备(如个人计算机)、功能和信息等集成到相互关
的、统一和协调的系统之中,使资源达到充分共享,实现集中、高效、便利的管理。随着数据量
的进一步激增,以及互联网的飞速发展,大数据处理与计算成为人们要面临的课题,云应用同时
为主要研究热点。这一衍生过程宏观上可以从项目应用单位规模演进过程及数据规模演进过程来看
1.项目应用单位规模演进过程的特征
项目应用单位规模演进过程如图1-1所示,完成了从个人应用→办公楼内数据信息共享→城市间
数据信息共享→互联网内相关人员数据信息共享的演进过程。


#############################################


回复

使用道具 举报

厮守一季斑 | 2019-12-21 20:03:55 | 显示全部楼层
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则