电子书:《自制搜索引擎》

[复制链接]
查看231 | 回复1 | 2020-1-1 16:43:29 | 显示全部楼层 |阅读模式

《自制搜索引擎》_1

《自制搜索引擎》_1

《自制搜索引擎》_2

《自制搜索引擎》_2

《自制搜索引擎》_3

《自制搜索引擎》_3


内容简介:

山B浩之
信息工程学博士。先后于日本IBM、推虎
从事分布式搜索引擎的研发工作。目前在
东京大学生产技术研究所从事高性能并行
数据库的研发工作
未水?
开源搜索引擎Sena/ Groongal的开发者。
每天都在奋斗,梦想着能创建一个更加自
由、更加无拘无束的,而不是一家独大的
应用程序平台
胡屹
多年从事Web开发工作。热爱编程,关注
设计模式,致力于提升软件开发的质量
曾获得SCJP和 PHP ZCE证书。译有《计算
机是怎样跑起来的》
「在书装设计
计丛书
自制
搜素引擎
How to Develop a Search Engine
日]山田浩之末永匡/著胡吃/译
人民邮电出版社
图书在版编目(CIP)数据
自制搜索引擎/(日)山田浩之,(日)末永匡著
胡屹译.-北京:人民邮电出版社,2016,1(2017.1車印)
(图灵程序设计从书)
ISBN978-7-115-411709
1.①自….①山…②末…③胡…II,①互联网
络一情报检素IⅣ.①G354.
中guo版本图书馆CIP数据核字(2015)第282984号
内容提要
本书聚焦于 Google i和Yaho等Wcb搜素服务幕后的搜案引系统,首先讲解了
搜素引的基础知识和原理,接着以现实中的开源搜案引 Senna/Groonga为示例
用该引築的源代码引导读者亲自体验搜素引擎的开发过程。这部分讲解涉及了倒
排素引的制作和压缩、检索的处理流程以及搜素引擘的优化等内容,最后又简单介细
了一些更加专业的搜索引的知识和要点,为读者今后进一步学习打下了基础。本书
适合所有对搜索引感兴趣的技术人员阅读
日]山田浩之末水
胡屹
责任编辑乐馨
执行编辑高宇涵
责任印制杨林杰
◆人民郎电出版社出版发行北京市事台区成寿寺路11号
编100164电子件315 ppress com
hthttp://www.ptpress.com.cn
北京隆昌伟业印刷有限公司印刷
印张:6
字数:187千字
2017年1月北京第4次印
著作权合同登记号图字:01-2015-1264号
定价:39.00元
读者服务热线01051095186转600印装质量热线01081055316
反盗版热线01081055315
广告经营许可证:京东工商广字第8052号
译者序
自制搜索引》一书终于和读者们见面了,“自制”系列图书的家族
中又多了一名新成员。近几年,图灵先后出版了几本“自制”系列图书
如《(30天自制操作系统》《自制编程语言》《两周自制脚本语言》等。在这
我们不用去读枯燥乏味的原理和晦涩难懂的算法,只需跟随作者
即可从零开始,一步步地创造出操作系统或编程语言的锥形
《自制搜索引擘》一书也不例外。在这本不到200页的书中,作者
先用简明扼要,通俗易懂的语言为我们讲解了搜索引擘的结构及核心概
念,紧接着又带领我们剖析了一个名为 wiser的原创搜索引攣的源代码
理论与大量源代码的结合帮助我们迈入了搜索引的大门,只要用心阅
读并实际操作,就能作出一个可以在计算机上运行的简易搜索
然而与其他计算机技术一样,虽然搜索引的入门很简单,但要成为这
个领域的技术专家却并不容易,离不开大量的知识积累和实践。所以在
分析完源代码以后,作者又带领我们优化了现有的 wiser搜索引擎,并
简单地介绍了一些更加专业的知识,以启发我们深入思考,为进一步
习铺平了道路
阅读本书几乎不需要任何有关搜索引築的知识储备,但由于 wiser
是用C语言编写的,所以您最好还是能有些C语言的编程经验。“
用C写的啊?”也许您也和我当初一样、一听是C语言就泄气了。的确
C语言不是那么好用。指针是个难点不说,有些语句的写法也显得很诡
异,而且还缺乏丰富的内置函数和数据结构。但如果您坚信某某语言才
是世界上最好的语言,并要因此放弃本书的话,那么我建议您先下截
wiser的源代码读一读再做决定。 wiser的源代码仅有大约2600行。即使
只管一眼,也应该能够发现这些源代码不但具有详细的注释、清晰的结
构、而且遵循了良好的命名规范。仔细地阅读后,甚至还能看到有些
地方应用了回调函数、设计模式等所谓的“现代”编程技巧。不仅如
此,作者还通过引入了名为 uthash的代码库简化了对字符串、列表和
哈希表的操作。例如要向列表中添加元素时,只需使用形如“LL
APPEND(+list, element):"的一行代码,这就大大增加了代码的可读性
相信您读到最后也会由衷地感叹:原来C语言也能这么好用啊
对于想要开发搜索引擎的读者来说,本书的作用自不必说。而对于
专注于其他领域的开发者,甚至对于那些只是想学门新技术来娱乐一下
的程序员来说,读读本书也是大有裨益的。例如,我们可以从中学到如
何高效地求得多个大集合的交集,如何压缩存储大量的整数,如何运用
sar命令查看并分析系统的性能等。即使我们不从事搜索引擎的开发
作,这些算法和技术也会对日常的工作有所启发和帮助。所以,读过了
本书,就算您并不打算做一个搜索引撃出来,也能得到一些收获
值得一提的是,在本书中很多叙述得较为简练甚至一笔带过的段落
中,其实隐藏着大量的知识。在掌握了搜索引的核心技术后,不妨查
查资料、写写代码,试着去掌握这些更高级的知识,搞清楚里面专业术
语的含义。例如,书中提到了_字_典_树(Trie)、 Suffix Array等guo内教材
中罕见的数据结构,那么我们能不能用自己熟悉的编程语言实现它们
作者开发的开源搜索引擎 Groonga采用了_内.存_映射文件技术,那么_内.存_
映射文件的机制是什
在不断探索这些问题的过程中,我们不但能
把这本不算厚的书读得越来越厚,也能使自己的知识量不断增长
最后,在这里衷心感谢在翻译过程中给予我支持与鼓励的各位。欢
迎诸位读者批评指正,提出宝贵的建议。希望所有对搜索引擘感兴趣的
读者都能从本书中获益
2015年10月于北京


回复

使用道具 举报

活在当下 | 2020-1-1 16:43:33 | 显示全部楼层
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则