电子书:《Spark零基础实战》

[复制链接]
查看146 | 回复1 | 2019-12-17 06:33:23 | 显示全部楼层 |阅读模式

《Spark零基础实战》_1

《Spark零基础实战》_1

《Spark零基础实战》_2

《Spark零基础实战》_2

《Spark零基础实战》_3

《Spark零基础实战》_3


内容简介:

DT大数据梦工厂创始人和首席专家
Spark和 Android中guo区布道师,多家著名公
司的技术顾问,业界知名资深技术培训专家。
大数据技术公益推广和在线教育世界知名
技术专家,Spak大数据中guo区最具知名度的
培训专家之ー。彻底研究了 Spark从0.5.0
1.6.1中共22个版本的Spak源码,目前致力
于开发全球最优化的 Spark中guo版本。尤其
长 Spark在生产环境下各种类型和场景故的
除和解决,痴迷于 Spark生产环境下任意类
型(例如 Shuffle和各种_内.存_问题)的 Spark
程序的深度性能优化
从2014年6月24日起,已开启免费的
Spark公开课《决胜大数据时代 Spark100期
公益大讲堂》。在2015年6月27日成立
大数据梦工厂,开启IMF( Impossible
Mission Force)行动,率先在全球开展以
Spark为核心的,免费为社会培养100万企
级实战高级大数据人才行动计划,截至目前已
有数干人参与到这个行动之中
微 信:18610086859
微博:htp/ weibo. com/ilovepains
邮箱:18610086859@vip.126.com
Spark
零基础实战
王家林孔
等编著
?业曲版社
认的近几年发展最快、最受关注度的一体化多元化的大数据计算技术,可以同时满
足不同业务场景和不同数据规模的大数据计算的需要
本书首先通过代码实战的方式对学习 Spark前必须掌握的 Scala内容进行讲解并合 Spark源码的
阅读来帮助读者快速学习 Scala函数式编程与面向对象完美结合的编程艺术,接着对 Hadoop和 Spark
集群安装部署以及 Spark在不同集成开发环境的开发实战作出了详细的讲解,然后基于大量的实战案例
来讲解 Spark核心RD编程并深度解密RDD的密码,并且通过实战的方式详解了TopN在 Spark RDD
中的实现,为了让读者彻底了解 Spark,本书用了大量的篇幅细解密了 Spark的高可用性、内核架构
运行机制等内容
Spark零基础实战这本书定位于零基础的学员,也可以作为有一定大数据 Hadoop经验的从业者以
及对大数据非常感兴趣的学生的第一本 Spark入门书籍
图书在版编目(CIP)数据
Spark零基础实战/王家林等編著,一北京:化学工业出版
社,2016.10
ISBN978-7-122-28017-6
1.①S….①王…田.①数据处理软件N.①TP274
中guo版本图书馆CIP数据核字(2016)第215244号
责任编辑:王淑燕宋湘玲
装帧设计:关飞
责任校对:宋玮
出版发行:化学工业出版社(北京市东城区青年湖南街13号邮政编码1000
印装:大厂聚鑫印刷有限责任公司
87m×1092mm1/16印张20字数503千字2016年11月北京第1版第1次印刷尉
购书咨询:0106451888(传真:010-64519686)售后服务:010-64518899
网址:htp:∥www.Cip.com.cn
凡购买本书,如有缺损质量问题,本社销售中心负责调换
版权所有违者必究
前言
大数据已经成为公众流行词多年,不管在业界还是在其他領域都紧随时代发展的潮流
人类社会的发展已经进入到大数据时代。我们生活的今天大到互联网公司,小到每一个个体
或者每一台移动设备其每天都会产生海量的新数据,那么对于这些海量数据的处理就面临着
巨大的考验,而在此过程中为了满足业务需要,各类技术如雨后春笋般出现并得到1T企业
的实践应用和发展,就应对海量数据的处理框架而言,于2006年诞生的Hade
使业界掀
起一股热潮
它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成
了自己的极其火爆的技术生态圈,并受到非常广泛的应用。而 Spark在200年最初来源于
伯克利大学的研究性项目,于美guo加州大学伯克利分校的 AMPLAB实验室诞生,2010年实
现开源并在2013年成为 Apache的基金孵化器项目并在不到一年的时间成为其的顶级项目
在短短几年的时间内获得极速发展并被各大互联网公司应用于实际项目中以实现海量数据的
处理,可以毫不夸张地讲 Spark是大数据时代发展的必然产物,势必会成为最好的大数据处
理框架之一
根据 Stackoverflow调查显示 Spark是2016年IT从业者获得薪水最高的技术之ー,从
事 Spark开发的IT人员年新达到125000美元,从事 Scala开发的1T人员年薪同从事 Spark
的IT人员保持一致的水平,可见 Spark已经成为开发人员在大数据領域收人最好的技术之
了解 Spark或者读过 Spark源码的人都知道 Spark主要是 Scala语言开发的,而Sca
语言是一门面向对象与函数式编程完美结合的语言。因此本书主要以零基础实战掌握 Spark
运行机制为导向详细对Scla的语法和重要知识点进行实战讲解,通过源码对 Spark的内核
架构进行剖析并赋予实战案例来引导读者能够在掌握 Scala的同时快速进行 Spark的深
。pmk基于RD(弹性分布式数据集)实现了一体化、多元化的大数据处理体系,是
最热门最高效的大数据领域的计算平台, Spark框架完美融合了 Spark SQI、 Spark
treaming、MLib、 Graphx子框架,使得各子框架之间实现数据共享和操作,强大的计算
能力和集成化使得 Spark在大数据计算领域具有得天独厚的优势,因此guo际上很多大型互联
叫公司均使用 Spark实现海量数据的处理,如guo内的BAT等,有超过千台节点组成的集群
高效快速地处理每日生成的海量数据
色、でpaは在大数据处理领域的迅猛发展,给了很多互联网公司高效处理海量数据的方案,
但是 Spark人オ的稀缺使得很多公司心有余而力不足,以至于不能将企业的生产力量化提高
了很多企业面临的主要问题,大数据 Spark工程师的缺少直接制约了很多公司的转型和发
展,在此情况下本书以零基础实战为主导,由基础部分细致地带领初学者从零基础入门直到
深入学习 Spark.。本书主要面向的对象是预从事大数据领域的初学者、高校学生以及有一定
大数据从事经验的工作人员等
本书以零基础实战 Spark为主导,首先实战讲解 Scala基甜语法与定义、 Scala面向对象
偏程、 Scala函数式编程、 Scala类型系统模式匹配、 Scala因式转换以及 Scala并发编程等
基本包含了 Scala所有重要内容并且每一部分在实战的同时配合 Scala在 Spark源码中的应
用带领读者彻底理解 Scala语言的艺术。其次对 Spark源码在不同方式下的编译进行演示
对 Hadoop不同模式的集群搭建、 Spark集群的搭建以及 Spark在IDE、 Intelli IDEA不同
工具下的实战和源码导入均作了细致讲解,相信通过源码的学习和不同工具下对 Spark程序
的开发实战可以帮助读者对 Spark有一个全面的理解和认识,并能快速投入到实际开发中
然后对 Spark中最为重要的核心组件之一RDD(弹性分布式数据集)进行了详细地解析
并介绍 Spark Master HA的4种策路,解密如何通过 LOOKEEPER这种企业经常使用的策
略来保证 Spark Master HA。本书最后一部分综合讲解了 Spark内核架构以及实战解析
Spark在不同模式下的运行原理。希望本书可以引领读者细致高效地学习 Spark框架,并成
为企业渴求的 Spark高端人才
参与本书编写的有王家林、孔祥瑞等。本书能顺利出版,离不开化学工业出版社的大力
支持与帮助,包括进度把控、技术服务、排版等各个方面,在此表示诚挚地感谢
302306504)提出讨论,会有专人帮忙答疑。同时,该群中也会提供本书所N
在本书阅读过程中,如发现任何问题或有任何疑问,可以加入本书的阅读群
如果读者想要了解或者学习更多大数据的相关技术,可以关注DT大数据梦工厂微 信公
众号DT_ Spark及.Q.Q.群.437123764,或者扫描下方二维码咨询,也可以通过YY客.户.端登
录68917580水久频道直接体验。王家林老师的新 浪微博是http://weibo.com/ilovepains/
欢迎大家在微博上进行互动
由于时间仓促,书中难免存在不妥之处,请读者谅解,并提出宝贵意见
王家林2016.8.13于北京

#############################################


回复

使用道具 举报

小Y | 2019-12-21 19:49:13 | 显示全部楼层
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则