电子书:《SparkGraphX实战》

[复制链接]
查看137 | 回复1 | 2019-12-16 11:54:09 | 显示全部楼层 |阅读模式

《SparkGraphX实战》_1

《SparkGraphX实战》_1

《SparkGraphX实战》_2

《SparkGraphX实战》_2

《SparkGraphX实战》_3

《SparkGraphX实战》_3


内容简介:

Spak6 raphA实战
Michael S. Malak
Robin East 4i
时金魁黄光远译
Spark GraphX
Action
電子工業出版社
Publishing House of Electronics Industry
北京 BEJJING

内容简介
本书是一本 Spark GraphX入门书籍。前5章为基础内容,即使读者对 Spark、 GraphX、 Scala不
悉,也能快速上手:后5章为图计算进阶,主要是图算法和机器学习算法的相关内容。专门讲
图计算的书很少,本书在第2、3、4章介绍了图的基础知识、 Graphx基础知识、 Graphx内置的图
算法。第6章到第10章,主要介绍了 GraphX之外的图算法、机器学习、图工具、 Graphx监控和优
化、 raphE的能力增强等实用技能。第9章和第10章主要介绍性能调优和监控,主要面向生产环
境,有不少可以借鉴的技巧
本书面向对图计算感兴趣的读者,旨在帮助读者掌握 Spark Graphx的相关知识及其应用
Original English Language edition published by Manning Publications, USA. Copyright o 2016 by
Manning Publications. Simplified Chinese-language edition copyright c 2017 by Publishing House of
Electronics Industry. All rights reserved.
本书简体中文版专有出版权由 Manning Publication予电子工业出版社。未经许可,不得以
任何方式复制或抄袭本书的任何部分。专有出版权受法律保护。
版权贸易合同登记号图字:01-20167235
图书在版编目(CP)数据
Spark GraphX实战/(美)迈克尔·S.马拉克( Michael s, Malak),(美)罗宾·伊斯特( Robin
East)著;时金魁,黄光远译一北京:电子工业出版社,20174
书名原文: Spark GraphX in Action
ISBN978-7-121-31043-0
I.①s…Ⅱ.①迈…②罗…③时…④黄…Ⅲ.①数据处理软件Ⅳ.①TP274
中guo版本图书馆CIP数据核字(2017)第044549号
衡任
编辑:张春雨
编辑:刘舫
印刷:三河市良远印务有限公司
装订:三河市良远印务有限公司
出版发行:电子工业出版社
北京市海淀区万寿路173信箱邮编:100036
开本:787×9801/16
印张:18.5字数:355千字
版次:2017年4月第1版
印次:2017年4月第1次印刷
凡所购买电子工业出版社图书有缺损问题,请向购买书店调换。若书店售缺,请与本社发行
部联系,联系及邮购电话010)882548888825888
质量投诉请发邮件至t@phei.com.cn,盗版侵权举报请发邮件至dbqaphei.com.c
本书咨询联系方式:010-5126088819faq@phei

译者序
016年夏天,明风把我推荐给了电子工业出版社计算机出版分社的张春雨(@永
恒的侠少)编辑翻译这本书。当我拿到序言和第6章时,看了一下内容,觉得不是
那么复杂难懂。虽然我的英语水平一般,但也可以强迫一下自己,可以查_字_典_,可
以找人请教嘛。关键是 Spark发展得红红火火,使用 Graphx的人还不那么多,图
算法的小宇宙被忽略。做一点努力,希望对大家有点用
以前读过的很多书,几乎每本书的作者都要先感谢自己的老婆和孩子,觉得真
情。真摊到自己身上,发现没有家人的支持,是不会有时间写书和进行翻译的
所以,我在这里由衷地说一句:感谢老婆。另外,半路拉了黄光远(花名刀剑)壮
丁来帮忙翻译第7、8、10章,刀剑对机器学习这部分内容比较熟悉,非常感谢!
这本书在图方面,详细讲解了 GraphX的方方面面,还附带介绍了 Scala和
Spark的各个知识点,算是比较完整。本书涉及 Spark的基础知识、 Scala的基础知识
图基础知识、 GraphX的内置图算法、 Graphx之外的常用图算法、基于图的机器学
习算法、性能和调优,附录中还列举了 GraphX入门的各种工具。总体来讲,这是
本 GraphX入门书籍,深入浅出,适合广大对 GraphX感兴趣的朋友。读完这本
书,要想进一步学习,那就要多看关于图基础、图算法和图论的相关书籍,以及把
GraphX的源代码仔细研读几遍

译者序
另外,即使我们把 GraphX搞得通透,没有实际应用场景也是不行的。 Graphx
于迭代计算的图算法和关系数据场景,比如,社区发现可用于发现团伙欺诈
PageRank发现了关系图中有影响力的对象, k-core用于筛出关键顶点集……其实图
算法除适合社交网络外,个人觉得,在互联网金融领域会比较有价值,毕竟反欺诈
仅靠离线计算和规则很难及时发现团伙欺诈行为以及个体之间的关系,而互联网金
融最核心的事情就是降低风险、提升货款等业务的审核通过率,以及使通过率和风
险接近一个最佳收益平衡点,即当下最赚 钱的状态,这是一个技术活
Spark转眼已经发展到2.0了,发展的速度让我们穿上飞鞋也跟不上。相对于
SQL/Streaming等模块的快速发展, GraphX和 Spark Streaming的发展速度显得有些
慢。但是,得益于 Spark2.0在性能方面显著的提升, GraphX还是能沾些雨露的
性能也得到了相应提升。
2015年年初在淘宝技术部,我曾反复研读 GraphX的源码,后来社区加了
aggregateMessagesO函数,使性能提升了15?右,再看其整体设计,相当精
妙。我觉得 GraphX是 Spark中设计最出色的部分,我写了几篇分析文章,网址为
https://github.com/shijinkui/sparkstudy。在Spark的大旗下,相比其他图处理框架,
GraphX有着天然的平台优势, GraphX在关系数据场景中会有所作为
我近期在研究Fink,也看好 Flink里的Gely和 FlinkML,即实时场景下的图
计算和机器学习,我觉得这是一项有前途的技术。
由于本人英语水平有限,也是第一次翻译图书,为方便大家吐槽,在 GitHub
上建立了一个页面:htps/ github. com/pusuo/graphx in action,欢迎大家在这里对本
书的翻译吐槽、纠错,发现问题请一定提出来,千万别手软
时金魁
2016/10/29于杭州

目录
关于本书
关于封面插图
第1部分Spak和图
1两项重要的技术: Spark和图
11 Spark:超越 Hadoop MapReduce
模糊的大数据定义
1.1.2Hado: Spark之前的世界
13 Spark:_内.存_中的 MapReduce处理
1.2图:挖掘关系中的含义
12.1图的应用
2图数据的类型
12.3普通的关系型数据库在图方面的不足


#############################################


回复

使用道具 举报

摇摆的三水 | 2019-12-21 19:49:41 | 显示全部楼层
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则