电子书:《Python+Spark 2.0+Hadoop机器学习与大数据实战》

[复制链接]
查看262 | 回复1 | 2019-12-14 09:26:00 | 显示全部楼层 |阅读模式

《Python+Spark 2.0+Hadoop机器学习与大数据实战》_1

《Python+Spark 2.0+Hadoop机器学习与大数据实战》_1

《Python+Spark 2.0+Hadoop机器学习与大数据实战》_2

《Python+Spark 2.0+Hadoop机器学习与大数据实战》_2

《Python+Spark 2.0+Hadoop机器学习与大数据实战》_3

《Python+Spark 2.0+Hadoop机器学习与大数据实战》_3


内容简介:

内容简介
本书从浅显易懂的\"大数据和机器学习\"原理
绍和说明入手,讲述大数据和机器学习的
基本概念,如分类、分析、训练、建模、预
测、机器学习(推荐引擎)、机器学习(二
类)、机器学习(多元分类)、机器学
习(回归分析)和数据可视化应用。为降低
读者学习大数据技术的门槛,书中提供了丰
的上机实践操作和范例程序详解,展示了
如何在单台 Windows系统上通过 rtual Box虚
拟机安装多台 Linux虚拟机,如何建立 Hadoop
集群,再建立 Spark开发环境。书中介绍搭
建的上机实践平台并不限制于单台实体计算
机。对于有条件的公司和学校,参照书中介
绍的搭建过程,同样可以将实践平台搭建在
多台实体计算机上,以便更加接近于大数据
和机器学习真实的运行环境。
本书非常适合于学习大数据基础知识的初学
者阅读,更适合正在学习大数据理论和技术
的人员作为上机实践用的教材

Python+
Spark 2.0+Hadoop
机器学习与大数据实占龙林大著
苯大出版社
北京

内容简介
本书从浅显易懂的“大数据和机器学习”原理说明入手,讲述大数据和机器学习的基本概念,如分类、分析、
训练、建模、预测、机器学习(推荐引擎)、机器学习(二元分类)、机器学习(多元分类)、机器学习(回归分
和数据可视化应用等。书中不仅加入了新近的大数据技术,还丰富了“机器学习”内容
为降低读者学习大数据技术的门槛,书中提供了丰富的上机实践操作和范例程序详解,展示了如何在单机
Windows系统上通过 Virtual Box虚拟机安装多机Lmux虚拟机,如何建立 Hadoop集群,再建立 Spark开发环境
书中介绍搭建的上机实践平台并不限制于单台实体计算机,对于有条件的公司和学校,参照书中介绍的搭建过程,
同样可以实现将自己的平台搭建在多台实体计算机上,以便更加接近于大数据和机器学习真实的运行环境
本书非常适合于学习大数据基础知识的初学者阅读,更适合正在学习大数据理论和技术的人员作为上机实践用
的教材
本书为博硕文化股份有限公司授权出版发行的中文简体字版本
北京市版权局著作权合同登记号:图字01-20172317
本书封面貼有清华大学出版社防伪标签,无标签者不得销售
版权所有,侵权必究。侵权举报电话:0106278298913701121933
图书在版编目(CP)数据
Python+ Spark20 Hadoop机器学习与大数据实战/林大贵著,一北京:清华大学出版社,2018(20184重印)
ISBN 978-
1.①P…Ⅱ.①林…Ⅲ.①软件工具一程序设计②数据处理软件Ⅳ.①TP311561②TP274
中guo版本图书馆CP数据核字(2017)第296017号
a: obs+0S s02
李红英
出版发行:清华大学出版社
网址:htp:/wtp.com.cn,http://www.wqbook.com
地址:北京清华大学学研大厦A座
邮编:100084
社总机:010-62770175
邮购:01062786544
与读者服务:010-6276969,C-service@tuptsinghua.edu.cn
量反馈:01062772015, zhiliang@ tup tsinghua.ed
印装者:清华大学印剧厂
经销:全guo新华书店
开本:190mm×260mm
印张:33.75
字数:864千字
版次:2018年1月第1版
印次:2018年4月第2次印刷
印数:3001~5000
定价:99.00元
产品编号:073908-01


本书将方兴未艾的“机器学习”和热门的“大数据分析”技术与应用在一本书中融会贯通
地娓娓道来,体现了作者深厚的技术功底和丰富的经验。和已经出版的《 Hadoop+prk大数
据巨量分析与机器学习整合开发实战》一书相比,本书不是简单的更新和升级,而是在原有的
基础上增加了大数据技术,还丰富了其中略显薄弱的“机器学习”内容,增加了4章都和机器
程序,并添加了“机器学习”+“大数据”章节的范例程序,所以将书名改为“ Python+ Spark
2.0+ Hadoop机器学习与大数据实战”,更加突出“机器学习”,并且强调范例程序是运用更加
在因特网、社交媒体、电子商务等交叉发展和呼应下,“网络”这个巨人已经拥有了难以
计数的海量数据,虽有传统结构化的数据、半结构化的数据,但更多的是非结构化的数据。这
些貌似杂乱无章、毫无意义的海量数据是一座等待发掘的巨大“金矿”。这些海量数据中蕴含
着极为丰富的人类知识库,是一笔巨大的信息资产。随着云计算时代的来临,对这些原本很难
收集整理的大数据进行及时甚至是实时分析和处理并加以有效利用就不再是“海市蜃楼”了
与大数据相关的内容不外乎三方面:大数据理论,大数据分析和处理的技术(机器学习为
核心技术),大数据的实践应用。在与大数据有关的出版物中,偏重于理论教学和技术介绍
类的比较多,而偏重于上机实践和自学的书比较少见。因此,本书非常适合“机器学习和大数
据分析”的初学者和正在学习这个领域技术的人员作为学习和上机实践用的教材
本书不是对原理进行纯理论的阐述,而是提供了丰富的上机实践操作和范例程序,从而降
低了读者学习“机器学习和大数据分析”的门槛。对于需要直接上机实践的学习者而言,本书
更像是一本学习实践和实战开发的上机手册。书中首先展示了如何在单台 Windows系统上通
过 Virtual Box虚拟机安装多台 Linux虚拟机,而后建立 Hadoop集群,再建立spak开发
环境。搭建这个上机实践的平台并不限制于单台实体计算机,主要是考虑个人读者上机实践的
实际条件和环境。对于有条件的公司和学校,参照这个搭建过程,同样可以将实践平台搭建在
多台实体计算机上。另外,现在很多大专院校都开设了 Python程序设计语言的课程,所以本
书的所有范例程序都用 Python语言重新改写了,非常接“地气”
在搭建好“机器学习和大数据分析”上机实践的软硬件环境之后,就可以在各章节的学习
中结合本书提供的范例程序逐一设置、修改、调试和运行,从中学到“机器学习和大数据分析”

Python+Spak20+ Hadoop机器学习与大数据实战
实践应用中核心技术的真谛对大数据进行高效的“智能加工”,萃取大数据中蕴含的“智
慧和知识”,实现数据的“增值”,并最终将其应用于实际工作或者商业中
对于企业在商业应用中的“机器学习和大数据分析”核心系统,需要运用商业公司的解决
方案作为引擎。在中guo市场活跃的guo际和guo内著名公司也提供了相当好的解决方案,比如
Cloudera对 Spark m提供完整的支持、星环科技基于 Spark自主研发了机器学习产品 Discover
大数据与云计算的关系密不可分,涉及众多关键技术,比如分布式处理、分布式数据库和
储、虚拟化技术等,但是它们不是本书的重点,所以这里并未深入讲解。建议需要深入学
习这方面内容的读者去寻找相关出版物,结合本书的实践来丰富和完善自己的大数据知识体
资深架构师赵军
2017年11月


#############################################


回复

使用道具 举报

有点呆的瓜 | 2019-12-21 19:53:57 | 显示全部楼层
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则