电子书:《深入理解大数据:大数据处理与编程实践》

[复制链接]
查看284 | 回复1 | 2019-12-30 06:32:51 | 显示全部楼层 |阅读模式

《深入理解大数据:大数据处理与编程实践》_1

《深入理解大数据:大数据处理与编程实践》_1

《深入理解大数据:大数据处理与编程实践》_2

《深入理解大数据:大数据处理与编程实践》_2

《深入理解大数据:大数据处理与编程实践》_3

《深入理解大数据:大数据处理与编程实践》_3


内容简介:

主编介绍
黄宜华博士,南京大学计算机
科学与技术系教授、PASA大
数据实验室学术带头人。中guo
计算机学会大数据专家委员会
委员、副秘书长,江苏省计
算机学会大数据专家委员会
主任。于1983、1986和1997
年获得南京大学计算机专业学士、硕士和博士学
位。主要研究方向为大数据并行处理、云计算以
及Web信息挖掘等,发表学术研究论文60多篇。
2010年在Goge公司资助下在本校创建并开设了
MapReduce大数据并行处理技术”课程,成为
guo最早开设该课程的院校之一。因在该课程教学
和人才培养方面的出色成绩获得2012年Goog奖
教金。目前正在开展系统化的大数据并行处理技术
研究工作,主持guo家和省部级科研项目以及与美guo
ne公司等业界的合作研究项目多项。
苗凯翔(Kaix.Mao)博士
英特尔中guo大数据首席技术
官,中guo计算机学会大数据专
家委员会委员。曾担任英特尔
中guo区系统集成部总监、信息
技术研究部门亚洲地区总监
英特尔北美地区解决方案首
席架构师。于2009荣获英特尔公司首席工程师
职称。在加入英特尔以前,曾在美guo Rutgers与
Dey大学任教。获得北方交通大学(北京)通
信学士学位、美guo辛辛那提大学电机工程硕士和
博士学位。发表期刊和会议研究论文多篇,并拥
有21项美guo专利,在各种会议上发表过上百次主
题演讲,曾参与正TF、「U和 MIT CFP等工业标
准的制定,并于2006年担任EE通信杂志的联
合编辑

深入理解大数据
大数据处理与编程实践
UNDERSTANDING BIG DATA
BIG DATA PROCESSING AND PROGRAMMING
主编:黄宜华(南京大学)副主编:苗凯翔(英特尔公司)
Q想撼曲盐

图书在版编目(CIP)数据
深入理解大数据:大数据处理与编程实践/黄宜华主编.一北京:机械工业出版社,2014.7
(计算机类专业系统能力培养系列教材)
SBN978-7-111-47325-1
L.①深…Ⅱ.①黄…Ⅲ.①数据管理一高等学校-教材ⅣV.①TP274
中guo版本图书馆CP数据核字(2014)第145263号
本书从 Hadoop MapReduce并行计算技术与系统的基本原理析着手,在系统介绍基本工作原理、编程模型
程框架和接口的基础上,着重系统化地介绍 MapReduce井行算法设计与编程技术,较为全面地介解了基本 MapReduce
算法设计、高极 MapReduce编程技术以及一系列较为复杂的机器学习和数据挖掘并行化算法,并引人来自 Intel
Hadoop系统的一系列增强功能以及深度技术剖析;最后,为了提高读者的算法设计与编程实战能力,本书较为详地
介绍了一系列综合性和实战性大数据处理和算法设计问题,这些问题来自课程同学参加的全guo性大数据大赛中的获奖
算法、课程中的优秀课程设计以及来自本团队的科研课题及业界实际的大数据应用实战案例。书中第8意和第10章的
所有算法均有完整实现代码可供下载学习
本书是guo内第一本基于多年课堂教学实践总结和撰写而成的大数据处理和并行编程技术书籍,因此,本书非常适
合高等院校作为 MapReduce大数据并行处理技术课程教材使用,同时也很适合于高等院校学生作为自学 MapReduce
井行处理技术的参考书。与此同时,由于本书包含了很多来自业界实际产品的深度技术内容、井包括了丰富的算法
计和编程实战案例,因此,本书也很适合作为I和其他应用行业专
深入理解大数据:大数据处理与编程实践
主编:黄宜华(南京大学)副主编:苗凯翔(英特尔公司
出版发行:机械工业出版社《北京市西城区百万庄大22号部政编码:1000)
责任编辑:姚蕾
贵任校对:董纪丽
印刷:中guo电影出版社印刷厂
版次:2016年1月第1版第4次印刷
开本:186mm×240mm1/16
书号:ISBN978-7-11147325-1
凡购本书,如有缺页、倒页、脱页,由本社发行部调换
客服热线010)8837899188361066
投稿热线010)88379604
购书热线010)683262948837964968995259
读者信箱: hzjsjo@ ebook. c
版权所有·侵权必究
封底无防伪标均为盗版
本书法律顾问:北京大成律师事务所韩光/邹晓东

本书
主编:黄宜华南京大学教授
副主编:苗凯翔英特尔中guo大数据首席技术官
编委:南京大学
顾荣赵博金磊
仇红剑赵頔沈仪
韦永壮唐云笪庆
陈虎李相臣彭岳
王肇康
英特尔公司
姜伟华杜竟成陈建忠
陈新江王星宇王毅
周珊 Manoj shanmugasundaram
北京神州立诚科技有限公司
萧少聪韩小姣
intel
南京大学
英特尔公司

推荐序一
(中guo工程院院士、中guo计算机学会大数据专家委员会主任李guo杰°)
数据是与自然资源、人力资源一样重要的战略资源,掌控数据资源的能力是guo家数字主权
的体现。大数据研究和应用已成为产业升级与新产业崛起的重要推动力量,如果落后就意味着
失守战略性新兴产业的制高点。近年来,大数据浪潮席卷全球,引起世界各guo的高度关注,美
guo等发达guo家出台了发展大数据的guo家计划,全世界著名T企业都在积极推动大数据技术的
研发和应用,guo内外很多高校和研究机构都在从事大数据技术和数据科学的研究。
学术界已总结了大数据的许多特点,包括体量巨大、速度极快、模态多样、潜在价值大等
对于处理大数据的技术人员,首先面对的困难是过去熟悉的处理系统和软件对付不了大数据,需要
学会使用大数据处理和分析平台,进一步的需求是掌握大数据并行处理的算法和程序设计的方法。
Gog公司是大数据处理的先驱,其三大核心技术 MapReduce、GFS和 Big Table奠定了
大数据分布式处理的基础。 MapReduce是一种分布式运算技术,也是简化的分布式编程模式
在ooge公司三大核心技术基础上, Apache社区开发的开源软件Hado是实现 MapReduce
计算模型的分布式并行编程框架。 Hadoop还提供一个分布式文件系统(HDFs)及分布式数据库
( HBase),将数据部署到各个计算节点上。 Hadoop的独特之处在于它的编程模型简单,用户可
以很快地编写和测试分布式系统。2008年以来, Hadoop逐渐被互联网企业广泛接纳,这一开
源的生态环境已成为大数据处理的主流和事实标准。
般而言,大数据处理有三种模式:离线计算、在线处理和流计算。 Hadoop是目前使用
较广泛的离线计算应用框架,在线处理与流计算尚未形成广泛使用的开源生态环境。大数据处
理平台还在不断发展之中,2013年出现的Spak在全面兼容 Hadoop的基础上,通过更多的利
e李guo杰院士,中guo计算机学会大数据专家委员会主任,是我guo计算机界的老一辈科学家,在并行处理、计算
机体系结构、人工智能、组合优化等方面成果卓著,荣获过多项guo家级奖励,领导中科院计算所和光公司
为发展我guo高性能计算机产业、研制龙芯高性能通用CPU芯片做出了重要贡献,对guo内计算机科技、教育
和产业的发展也提出过有影响的政策建议



回复

使用道具 举报

那年夏天的歌 | 2019-12-30 06:32:55 | 显示全部楼层
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则