电子书:《Hadoop + Spark 大数据巨量分析与机器学习整合开发实战》

[复制链接]
查看178 | 回复1 | 2019-12-7 14:36:18 | 显示全部楼层 |阅读模式

《Hadoop + Spark 大数据巨量分析与机器学习整合开发实战》_1

《Hadoop + Spark 大数据巨量分析与机器学习整合开发实战》_1

《Hadoop + Spark 大数据巨量分析与机器学习整合开发实战》_2

《Hadoop + Spark 大数据巨量分析与机器学习整合开发实战》_2

《Hadoop + Spark 大数据巨量分析与机器学习整合开发实战》_3

《Hadoop + Spark 大数据巨量分析与机器学习整合开发实战》_3


内容简介:

Hadoop+Spark
大数据巨量分析●机器学习
林大贵著
整合开发实战
大学出版社

内容简介
本书从浅显易懂的“大数据和机器学习”原理介绍和说明入手,讲述大数据和机器学习的基本概念,如
分类、分析、训练、建模、预测、机器学习(推荐引擎)、机器学习(二元分类)、机器学习(多元分类)、机
器学习(回归分析)和数据可视化应用,为降低读者学习大数据技术的门槛,书中提供了丰富的上机实践操作
和范例程序详解,展示了如何在单台 Windows系统上通过 Virtual Box虚拟机安装多台 Linux虚拟机,如何建
立 Hadoop集群,再建立 Spark开发环境。书中介绍搭建的上机实践平台井不限制于单台实体计算机,对于有
条件的公司和学校,参照书中介绍的搭建过程,同样可以将实践平台搭建在多台实体计算机上,以便更加接近
于大数据和机器学习真实的运行环境
本书非常适合于学习大数据基础知识的初学者阅读,更适合正在学习大数据理论和技术的人员作为上机实
践用的教材
本书为博硕文化股份有限公司授权出版发行的中文简体字版本
比京市版权局著作权合同登记号:图字01-20167640
本书封面贴有清华大学出版社防伪标签,无标签者不得销售
版权所有,侵权必究,侵权举报电话:010-6278298913701121933
图书在版编目(c|P)数据
adop+ Spark大数据巨量分析与机器学习整合开发实战/林大贵著.一北京:清华大学出版社,2017
ISBN978-7-302-45375-8
L.①H…Ⅱ.①林…Ⅲl①数据处理软件IV①TP274
中guo版本图书馆CIP数据核字(2016)第260890号
责任编辑:夏毓彦
封面设计:王翔
责任校对:闫秀华
贵任印制:沈露
出版发行:清华大学出版社
p.comcn,http://
地址:北京清华大学学研大厦A座
邮編:100084
社总机:010-62770175
邮购:010-62786544
投稿与读者服务:01062776969, C-service@tup. tsinghua.edu.
质量反馈:01062772015,zhiliang@tup.tsinghua.edu.cn
印装者:北京鑫丰华彩印有限公司
经销:全guo新华书店
190mm×260mm
印张:27.75
字数:730千字
版次:2017年1月第1版
印次:2017年1月第1次印刷
印数:1~3000
定价:79.00元
品编号:0695350


大数据的影响力正深入到各个领域和行业中。特别在商业、经济以及其他领域,将大
量数据进行分析后,便可得到许多数据的关联性。这些关联性可用于预测商业趋势、营销
研究、金融财务、疾病研究、打击犯罪等。大数据对每一个企业的决策方式将发生变革
决策方式将基于数据和分析的结果,而不是依靠经验和直觉
信息科技( Information Technology,T)浪潮的第一波是大型计算机,第二波是个人
计算机(PC机),第三波是网络,第四波是社交媒体,第五波则是“大数据”。每一波的
信息科技浪潮都会带来工作与生活方式的改变,创造大量商机、新的产业、大量的工作机
会。例如,在网络时代,创造了淘宝、百度、 Google(谷歌)、 Amazon(亚马逊)等大公
司,以及无数com公司
每一波浪潮开始时,相关人才的需求激增,从而造成相关人才的紧缺。因此对个人而
言,如果能在浪潮兴起时就投入,往往成果很丰硕,并且有机会占有重要职位。例如,网
络刚兴起时,每个公司都需要建立网站,但是这方面的人才当时相对不够,能掌握编写网
页相关应用程序设计语言的工程师就能够获得高薪。之后,投入的人越来越多,这方面的
工程师就没有当初那么吃香了
之前的科技浪潮,也许你没有机会躬逢其盛,或是没有机会在浪潮初期进入。而目前
大数据的浪潮方兴未艾,正是进入的好时机。根据IBM公司调查预估,大数据在2014年
的市场规模为71亿美元,2015年则达到了180亿美元,并将以每年增长20c?速度持续
成长。机会是给有准备的人的,学会了大数据分析的相关技能,让你有机会获得更好的薪
资与职业发展前景。根据美guo调查机构 Robert Half Technology2016年趋势报告,在美guo,
大数据工程师的薪水年增长8.9ι?薪大约13万至18万美金(约合人民币85万元-120
万元)。因为人才短缺,企业不惜重金挖角。(搜索 Robert Half Technology2016就可以下
载此调查报告。)
本书的主题是 Hadoop+ Spark大数据分析与机器学习。众所周知, Hadoop是运用最多
的大数据平台,然而 Spark异军突起,与 Hadoop兼容而且运行速度更快,各大公司也开
始加入 Spark的开发。例如,IBM公司加入 Apache Spark社区,打算培育百万名数据科学
家,谷歌( Google)公司与微软公司也分别应用了 Spark的功能来构建服务、发展大数据
分析云与机器学习平台,这些大公司的加入,也意味着未来更多公司会采用 Hado+park

Hadoop+spak大数据巨量分析与机器学习整合开发实战
进行大数据的数据分析。
然而,目前市面上虽然很多大数据的书,但是多半偏向理论或应用层面的介绍,网络
上的信息虽然很多,但是也很杂乱。本书希望能够用浅显易懂的原理介绍和说明,再加上
上机实践操作、范例程序,来降低大数据技术的学习门槛,带领读者进入大数据与机器学
习的领域。当然整个大数据的生态系非常庞大,需要学习的东西太多。希望读者通过本书
的学习,有了基本的概念后,能比较容易踏入这个领域,以便继续深入与研究其他大数据
的相关技术
林大贵

推荐序
如同本书作者所说的,信息技术已经来到了第五波浪潮——“大数据”,
社交媒体、电子商务等交叉发展和呼应下,“网络”这个巨人已经拥有了难以计数的海量
数据,有传统结构化的数据、半结构化的数据,但更多的是非结构化的数据。这些貌似杂
乱无章、毫无意义的海量数据,却是一座等待发掘的巨大“金矿”
这些海量数据中蕴含着极为丰富的人类知识库,它是一笔巨大的信息资产。这些原本
很难收集整理的大数据,随着云计算时代的来临,对它们进行及时甚至是实时分析和处理
并加以有效利用,就不再是“海市蜃楼”了
与大数据相关的内容中,不外乎三个方面:大数据理论,大数据分析和处理的技术
大数据的实践应用。目前与大数据有关的出版物中,偏重于理论教学和技术介绍一类的比
较多,而偏重于上机实践和自我学习的书却比较少见。因此,本书非常适合大数据学习的
初学者和正在学习大数据理论和技术的人员作为上机实践用的教材。
本书从浅显易懂的“大数据和机器学习”原理介绍和说明开始,介绍大数据和机器学
习——分类、分析、训练、建模、预测——机器学习(推荐引擎)、机器学习(二元分类)
机器学习(多元分类)、机器学习(回归分析)和数据可视化应用
在本书中,不是对这些原理进行纯理论的阐述,而是提供了丰富的上机实践操作和范
例程序,这样极大地降低了读者学习大数据技术的门槛,对于需要直接上机实践的学习者
而言,本书更像是一本大数据学习的实践上机手册。书中首先展示了如何在单台 Windows
系统上通过 Virtual Box虚拟机安装多台 Linux虚拟机,而后建立 Hadoop集群,再建立
Spark开发环境。搭建这个上机实践的平台并不限制于单台实体计算机,主要是考虑个人
读者上机实践的实际条件和环境。对于有条件的公司和学校,参照这个搭建过程,同样可
以将实践平台搭建在多台实体计算机上。
在搭建好大数据上机实践的软硬件环境之后,就可以在各个章节的学习中结合本书提
供的范例程序逐一设置、修改、调试和运行,从中学到大数据实践应用中核心技术的真谛
对大数据进行高效的“加工”,萃取大数据中蕴含的“智能和知识”,实现数据的“增
值”,并最终将其应用于实际工作或者商业中


#############################################


回复

使用道具 举报

哈哈大笑 | 2019-12-21 20:04:30 | 显示全部楼层
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则