电子书:《虫术Python绝技》_梁睿坤

[复制链接]
查看248 | 回复1 | 2020-1-2 11:34:41 | 显示全部楼层 |阅读模式

《虫术Python绝技》_梁睿坤_1

《虫术Python绝技》_梁睿坤_1

《虫术Python绝技》_梁睿坤_2

《虫术Python绝技》_梁睿坤_2

《虫术Python绝技》_梁睿坤_3

《虫术Python绝技》_梁睿坤_3


内容简介:

梁客坤p
近二十年软件开发、项目管理、团队建设和
管理经验。致力于互联网技术应用与大数据
应用方面的研究与开发工作。曾任多家软件
司的高级软件工程师、项目经理
现任广州市增增智能科技有限公司CEO
从事视觉智能、语音智能及|oT等技术的产
品研发与企业经营方面的工作

Python绝技
梁睿坤◎著
電子工業出版补
Publishing House of Electronics Industry
北京· BELJIN

内容简介
本书以大数据应用方面常用的语言 Python为基础,从网络爬虫的实现原理入手,逐步引领读者
进入网络爬虫的世界。在各类爬虫框架中,将 Scraps作为轴心,从多个维度揭开爬虫技术的面纱
例如,爬取规则的制定技巧,设计高速爬虫,如何让爬虫更“聪明”地获取数据,将海量数据进行
分布式存储的技术,设计具有高隐匿性的爬虫,大规模、高并发的分布式爬虫技术
本书基于 Python这门灵活且简洁的语言,结合作者在网络数据爬取和大数据方面的实际工程
经验,使得本书更具实用性。本书旨在让更多数据工作者或编程爱好者在大数据时代从海量的信息
中通过掌握“虫术”来获取对自己或企业有价值的信息
未经许可,不得以任何方式复制或抄袭本书之部分或全部内容
版权所有,侵权必究
图书在版编目(C|P)数据
技/梁睿坤著.一北京:电子工业出
社,
ISBN978-7-121-34456-5
①梁…Ⅲ①软件工具一程序设计Ⅳ.①TP311.561
中guo版本图书馆CIP数据核字(2018)第125215号
责仼编辑:陈晓猛
装订:三河市双峰印刷装订有限公司
出版发行:电子工业出版社
北京市海淀区万寿路173信箱
邮编:100036
开本:787×980116
印张:26.75
字数:513.6千字
版次:2018年7月第1版
印次:2018年7月第1次印刷
凡所购买电子工业出版社图书
问题,请向购买书店调换。若书店售缺,请与本社发行部
联系,联系及邮购电话010)88254888,8825888
版侵权举报请发邮件至dbq@phei.com.cn
本书咨询联系方式:010

前言
很久以前我就接触了网络爬虫这门技术,从当时接触的范畴来说,称之为“小玩意”或者
小助手”可能更为贴切。我使用爬虫只是为了收集一些样本数据做测试,或者对上线的项
进行高强度的并发性压力测试,又或者获取感兴趣的图片、新闻
爬虫涉及的技术比较多,用各种语言都可以快速地写出一个爬虫,所以一直以来并没有被
看作一门综合性的技术,直到2015年我负责的开发部门接到公司安排的三项重点开发任务
(1)从微 信和微博上搜集哪些言论正变得热门,哪些公众号或者微博账号的关注度正在持
续地上升
(2)要与一家技术很落后的电商公司的业务系统在没有提供数据接口的情况下进行大规模
的数据同步
3)开发一个数据可视化平台,并导入公司内部多年来的销售数据(都是一些 Excel和
CSV文件),然后将当前每月在京东、淘宝等电商平台上的统计数据合并起来进行统一的查询
与统计
在接到这三个任务时,可以说是没有任何头绪的,这些任务简单看都是一些数据整合的工
作。在深入分析与研究之后发现,要完成这三大任务都必须依赖爬虫技术
这是一个坑坑洼洼,而且充满挑战的过程。例如,如何能从号称封闭独立的微 信中挖出数
据,又不被屏蔽;如何能将每天过亿条的数据存储下来而不会“塞爆”服.务.器:如何能将每天
大堆的CSⅤ或者 Excel文件下载到服.务.器,然后自动整理入库而不会出现数据错误,等等
在完成这三个项目之后,我和我的团队都对爬虫有了非常深刻的理解与认识,很多方面的知识
与经验都得到了极大的提高。在综合过往的开发经验和这几年的实际入坑经验之后,我决定将
其编撰成书,将这些看似零散的技术融合起来

IV|虫术hon绝技
内容介绍
虫术”是一门综合性的技术,涉及的知识面很广,为了不让你在一大堆的技术面前感到
茫然,我将这门“术”分成了三个运用阶段,一步步由浅入深地进行叙述
本书共5章,前3章为初阶部分,第4章为中阶部分,第5章为高阶部分
本章首先介绍爬虫在目前大数据生态下的地位,还提供了一份关于学习虫术的详尽的技术
图,最后讲述爬虫基本的实现方法与实际运用示例,目的在于让读者对虫术建立一个基本
能从示例中引起对这门技术的兴趣
第2章 Scrap基础
虫术以 Scrap架构为核心基础,本章对 Scrap的架构和各个模块的作用进行了详细的介绍
第3章 Scrap工程管理与部署
本章介绍如何在 Scrap工程中运用 Scraped将本地工程部署到实际运行环境中,详细地讲
述 Scraped安装配置及其附带的 scrapy-client和 scrap- deploy工具的使用方法。
第4章中阶虫术
本章包含的内容非常丰富,是针对将虫术运用于实际项目展开的。从 Scrap的蜘蛛内部实
入HTTP底层,实现对Scrap中间件的支持,运用Seleniun或Splash处理棘手的
JavaScript网 页,最后详细讲述如何处理采集到的数据
第5章高阶虫术
本章是对中阶虫术的深化,聚焦于爬虫系统的性能,讲解如何让爬虫变得更加隐蔽,如何
爬虫看懂图片,如何训练它们使之变得更加聪明,最后讲解如何掌握虫术的大招“分布式爬
虫”来应对大规模的数据集采工作与数据存储任务
勘误
本书如有勘误,会在hps/ github. com/ DotNetAge/上发布。由于笔者能力有限,时间仓促
书中难免有错漏,欢迎读者批评指正


#############################################


回复

使用道具 举报

℡淺笑如夏 | 2020-1-2 11:34:45 | 显示全部楼层
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则