电子书:《SparkSQL内核剖析》_朱锋等

[复制链接]
查看181 | 回复1 | 2019-12-16 12:16:58 | 显示全部楼层 |阅读模式

《SparkSQL内核剖析》_朱锋等_1

《SparkSQL内核剖析》_朱锋等_1

《SparkSQL内核剖析》_朱锋等_2

《SparkSQL内核剖析》_朱锋等_2

《SparkSQL内核剖析》_朱锋等_3

《SparkSQL内核剖析》_朱锋等_3


内容简介:

朱锋,博士毕业于中科院软件所,研究方向为分
布式计算与软件工程。长期关注数据分析、数据库
技木和大数据相关系统,并积极参与开源社区贡献
2017年加入腾 讯,负责 Spark SQL相关平台的开
发、优化和维护工作,在SQL-on- Hadoop方面
积累了丰富的经验。
韶全,香港中文大学博士,博士期间的研究方
为系统最优分布式算法。曾任香港应用研究院研
究员、联想香港研发中心高级研究员。现任腾 讯大
数据平台高级研发工程师,负责腾 讯大数据SQL平
台的建设与研发,平台规模达到上万台服.务.器,百
万级别业务量,PB級日数据计算量,支撑着腾 讯
全公司的数据分析业务。拥有多年互联网公司一线
数据平台设计与研发经验,冒在传播大数据技术
和实践经验,使其在不同行业落地生根
黄明,腾 讯T4专家, Spark中guo区早期研究者和
布道者之

Spork SQL
内核剖析
锋张韶全黄明著
電子工業出版
Publishing House of Electronics Industry
北京· BELJING

内容简介
Spark SQL是 Spark技术体系中较有影响力的应用( Killer application),也是 SQL-on-Hadoop解决方案
中举足轻重的产品。本书由11章构成,从源码层面深入介绍 Spark SQL内部实现机制,以及在实际业务场
景中的开发实践,其中包括SQL编译实现、逻辑计划的生成与优化、物理计划的生成与优化、 Aggregation
优化技术、生产环境中的一些改造优化经验等
本书不属于入门级教程,需要读者对基本概念有一定的了解。在企业中任职的系统架构师和软件开
发人员,以及对大数据、分布式计算和数据库系统实现感兴趣的研究人员,均适合阅读本书
未经许可,不得以任何方式复制或抄袭本书之部分或全部内容
版权所有,侵权必究
图书在版编目(CP)数据
Spark SQL内核剖析/朱锋张韶全,黄明著.一北京:电子工业出版社,20187
SBN978-7-121-34314-8
L.①s…Ⅱ.①朱…②张…③黄…Ⅲ.①数据处理软件Iv①TP27
中guo版本图书馆CP数据核字(2018)第1110号
策划编辑:张春雨
责任编辑:牛勇
印刷:三河市君旺印务有限公司
装订:三河市君旺印务有限公司
出版发行:电子工业出版社
北京市海淀区万寿路173信箱邮编:100036
开本:787×9801/16印张:18字数:390千字
版次:2018年7月第1版
印次:2018年7月第1次印刷
凡所购买电子工业出版社图书有缺损问题,请向购买书店调換。若书店售缺,请与本社发行部联系
联系及邮购电话010)882548,8825888
质量投诉请发邮件至ts@phei.com.cn,盗版侵权举报请发邮件至dbq@phei.com.cn
本书咨询联系方式010)51260888819,faq@ophei.com.cn

推荐序
互联网技术经过几十年的发展已经_渗.透_到人们生活的方方面面,从云计算、大数据到如今
如火如茶的人工智能和区块链,相信无论是圈内人还是圈外人,对这些名词都耳熟能详了。仔
细一算,“大数据”这个概念的出现已经有十多年了,背后催生的技术可以说是百花齐放、百家
2009年年初,腾 讯从传统的数据仓库转向基于 Hadoop架构的大数据平台,至今将近10年
历经了3代跨越式的发展:2092011年是以 Hadoop为基础的离线计算时代,2012-2014年
k和 Storm为引擎的实时计算时代,2015年至今是以腾 讯自研的高性能机器学习平台
为核心的智能学习时代。从最简单的统计报表的计算,到万亿特征维度的算法训练,从结
据到图片、语音、文本等非结构化数据,腾 讯一直用前沿技术来挖掘大数据背后的价值

今,腾 讯大数据集群规模达到几万台服.务.器,存储数据量有几百PB,每天有几十PB的
撑着腾 讯包括微 信、QQ、游戏、广告、支付、视频、音乐等关键业务,助力腾 讯业
务发展,服务着十亿级别的用户。正是历经了腾 讯数以亿计的海量数据的锤炼,让腾 讯大数据
平台得到快速的发展,其技术在业内处于领先水平。
腾 讯大数据起源于网络社区,并一直积极参与网络社区的建设。2014年,腾 讯大数据平
台(TDw)的核心组件进行开源,我们在 Hadoop、 Spark、 Docker.、ceph、 HBase、 Kubernetes
Kaka、 Storm、Fink、 PostgreSQL等众多社区项目上积极“反哺”社区。2017年6月,我们在
Git Hub上把腾 讯大数据第三代的高性能分布式机器学习平台Angl进行了开源,吸引了海内外
众多知名企业用户,并于2018年3月贡献给 Linux深度学习基金会( LF Deep Learning)
除代码层而的开源外,近年来,腾 讯也把大数据能力开放给传统企业,我们服务了政务民
生、金融、交通、零售、教育、工业等各行各业的用户,旨在让没有大数据人才的企业也能具
备使用大数据的能力。我们乐于把腾 讯积累了十年的大数据技术和运维经验对外分享、对外输
出,本书也可以看作是腾 讯大数据技术开放的一部分
本书的内容最初是腾 讯内部为进行 Spark SQL开发而整理的技术文档,最后剥离出通用的
部分集结成册。从数据的维度来看,无论是单机还是分布式环境,SOL对用户来说都是非常重
要的。 Spark SQL作为腾 讯大数据平台中最基础的部分,支撑全公司的数据分析业务。因此,书

Spark SQL内核剖析
中的内容并非是针对 Spark SQL技术的空谈,而是立足于腾 讯大数据平台的大量实践经验
本书的几位作者正是工作在腾 讯大数据一线的工程师和技术专家,在日均百万级别的SQL
业务处理和优化中积累了丰富的经验。综观全书,条理非常清晰,读者既能在高度上知晓来龙
去脉和他山之石,又能在深度上体会源码级别的技术点剖析。同时,书中结合实践展示了一些
于我个人而言,大学毕业后在传统的银行工作。后来,在数据爆发的时代,我有幸在guo内
数据最多的两家公司工作,我在_阿.里_巴巴负责支付宝BI数据平台基础架构和应用架构,来到腾
讯后一直负责腾 讯的大数据业务。十多年的职业生涯,转换了公司,也转换了工作和生活的城
市,但一直不变的是我的工作始终围绕着“数据”展开,无论是在传统TT行业,还是在互联网
行业,“数据”始终是我工作的核心内容,而我自己最大的职业追求也离不开“数据
未来,在人们的生活中,数据将无时无刻无处不在,数据与商业的真正结合将爆发出强大
的生命力和价值。作为服务于上层业务的基础支撑平台,最重要的地方在于技术的沉淀和积累
不断打磨优化。从技术研发人员的角度来讲,最重要的是修炼好自己的“内功”,不忘初心。最
后,希望每一位读者都能够从本书中有所收获,练好数据的“内功”,与数据结缘。
蒋杰博
腾 讯首席数据官、腾 讯数据平台部总经理
CCF大数据专家委员会委员
2018年7月


#############################################


回复

使用道具 举报

夏天蓝了海 | 2019-12-21 19:49:38 | 显示全部楼层
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则