电子书 《ApacheSpark源码剖析》

[复制链接]
查看185 | 回复1 | 2019-11-30 10:36:58 | 显示全部楼层 |阅读模式

《ApacheSpark源码剖析》_1

《ApacheSpark源码剖析》_1

《ApacheSpark源码剖析》_2

《ApacheSpark源码剖析》_2

《ApacheSpark源码剖析》_3

《ApacheSpark源码剖析》_3


内容简介:

Apache Spark
源码剖析
许鹏」著
電子エ掌出版社
blishing House of Electronics Industry
北京· BEJING
内容简介
本书以 Spark1.02版本源码为切入点,着力于探寻 Spark所要解决的主要问题及其解决办法
通过一系列精心设计的小实验来分析每一步背后的处理逻辑
本书第3~5章详细介绍了 Spark Corel中作业的提交与执行,对容错处理也进行了详细分析
有助读者深刻把握 Spark实现机理。第6~9章对 Spark Lib库进行了初步的探素。在对源码有了
定的分析之后,读者可尽快掌握 Spark技术
本书对于 Spark应用开发人员及 Spark集群管理人员都有极好的学习价值:对于那些想从源
码学习而又不知如何入手的读者,也不失为一种借鉴
未经许可,不得以任何方式复制或抄袭本书之部分或全部内容
版权所有,侵权必究
图书在版编目(CIP)数据
Apache Spark源码剖析/许著.一北京:电子工业出版社,2015
ISBN978-7-121-25420-8
L.A….①许…IL①互联网络一网络服.务.器②数据处理软件IV.①TP3685②TP274
中guo版本图书馆CP数据核字(2015)第010897号
策划编辑:付睿
责任编辑:李云静
刷:北京天来印务有限公司
装订:北京天来印务有限公司
出版发行:电子工业出版社
京市海淀区万寿路173信箱邮编:100036
开本:787×980116印张:18.5字数:432千字
版次:2015年3月第1版
印次:2015年3月第1次印刷
定价:68.00元
凡所购买电子工业出版社图书有缺损问题,请向购买书店调换。若书店售缺,请与本社发
行部联系,联系及部购电话010)88254888
质量投诉请发郎件至Is@phei.com.cn,盗版侵权举报请发邮件至dbqg@phei.com.cn
服务热线010)825888
笔者接触 Spark时间不算很长,而本书之所以能够出版,凭借的是浓厚的兴趣和执着之心
这一切还要从 Storm说起。笔者一直在做互联网相关工作,但接触大数据的时间并不长
当时 Hadoop和Sorm等非常红火,引起了笔者的“窥视”之心。从2013年开始,笔者打算看
看 Hadoop的源码实现,观察其代码规模,发觉所花时间可能会很长。恰好其时 Storm风头正劲
于是转向 Storm源码,0.8版的 Storm代码规模不过20000行左右,感觉还是比较好入手的
Storm源码分析期,笔者还学习了 Clojure、 Zeromq、 Thrift、 Zookeeper、 LMAX Disruptor.等新
技术,对于实时流数据处理算是有了一个大概的了解。由于听说在实时流数据处理领域 Spark技
术也很强悍,而且在容错性方面具有天生的优势,更引发了笔者的兴趣,为了弄清楚究竟,于
是开始了 Spark的源码走读过程
笔者是以读 Spark论文开始的,说老实话觉得晦涩难懂,因为无法将其映射到_内.存_使用、进
程启动、线程运行、消息传递等基本问题上。或许换个方法会更好,故笔者选择直接从源码入
手,如此一来事情反而变简单了。在源码分析的过程中,笔者始终抓住资源分配、消息传递
容错处理等基本问題设问,然后一步步努力寻找答案,所有的问題渐渐迎刃而解
笔者关于源码分析有一个心得,就是要紧紧把握住计算的基本模型,然后结合新分析问题
的业务领域,将业务上的新问题转换到计算处理的老套路上来,然后就可以以不变应万变,而
不被一些新技术名词晃花了眼。这里所说的老套路是指从操作系统的角度来看,如果能事先深
度了解操作系统,将对分析一些新应用程序大有裨益
Sparki源码采用 Scalar语言编写,那么阅读 Spark源码之前,是否一定要先学 Scala呢?笔者个
人以为不必,只要你有一些Java或C++编程语言的基础,就可以开始看 Spark源码,遇到不懂的
地方再去学习,效率反而会大大提高,做到有的放矢。将学习中遇到的知识点,从函数式编程
泛型编程、面向对象、并行编程等几个方面去整理归纳,这样能够快速将 Scalar语言的框架勾勒
本书第1章和第2章简要介绍了大数据分析技术的产生背景和演进过程:第3~5章详细分析
了 Spark Core中的作业规划、提交及任务执行等内容,对于要深刻把握 Spark实现机理的读者来
说,这几章值得反复阅读:第6~9章就 Spark提供的高级Lb库进行了简要的分析,分析的思路是
解决的主要问题是什么、解决的方案是如何产生的,以及方案是如何通过代码来具体实现的
在对源码有了一定的分析和掌握之后,再回过头来看一下 Spark相关的论文,这时候对论文
的理解可能会更顺畅
Sparki的整体框架非常庞大,涵盖的范围也很广,随着笔者在工作中使用得越来越具体,这
样的感受也越来越深。另外,必须要说对于 Spark来说,笔者所做的分析实在有限,个中错误在
难免,读者诸君还请多多谅解
在本书成稿期间,电子工业出版社的付编辑和李云静编辑给出了极为详细的改进意见
在这里表示衷心的感谢。最后感谢家人的支持和鼓励,亲爱的老婆和懂事的儿子给了笔者坚持
的理由和勇气
目录
第一部分 Sparkt概述
第1章初识 Spark
1.1大数据和 Spark
1.1.1大数据的由来
1.2大数据的分析
1. 1. 3 Hadoop
12与 Sparki的第一次兼密接触
1.2.1环境准备
1.22下载安装 Spark
1.23 Spark下的 Wordcount
第二部分 Spark核心概念
第2章 Spark整体框架
2.1编程模型
2.1,1RDD
2.2.2集群的节点构成
2.2.3容错处理
2.2.4为什么是 Scala

#############################################


回复

使用道具 举报

wutiwl | 2020-1-30 00:31:43 | 显示全部楼层
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则