互联网
类型
7.9
豆瓣评分
可以朗读
语音朗读
123千字
字数
2016-01-01
发行日期
展开全部
主编推荐语
2600行代码,真实体验搜索引擎的开发过程!
内容简介
《自制搜索引擎》聚焦于Google和Yahoo!等Web搜索服务幕后的搜索引擎系统,首先讲解了搜索引擎的基础知识和原理,接着以现实中的开源搜索引擎Senna/Groonga为示例,使用该引擎的源代码引导读者亲自体验搜索引擎的开发过程。这部分讲解涉及了倒排索引的制作和压缩、检索的处理流程以及搜索引擎的优化等内容。又简单介绍了一些更加专业的搜索引擎的知识和要点,为读者今后进一步学习打下了基础。
目录
- 版权信息
- 版权声明
- 声明
- 译者序
- 前言
- 第1章 搜索引擎是如何工作的
- 1-1 理解搜索引擎的构成
- 1-2 实现了快速全文搜索的索引结构
- 1-3 深入理解倒排索引
- 1-4 制作中文文档的倒排索引
- 1-5 实现倒排索引
- 1-6 使用倒排索引进行检索
- 1-7 构建倒排索引
- 1-8 准备要检索的文档
- 第2章 准备全文搜索引擎的检索样本
- 2-1 全文搜索引擎 wiser
- 2-2 安装 wiser
- 2-3 运行 wiser
- 第3章 构建倒排索引
- 3-1 复习有关倒排索引的知识
- 3-2 构建倒排索引
- 第4章 开始检索吧
- 4-1 检索处理的大致流程
- 4-2 使用倒排索引进行检索
- 第5章 压缩倒排索引
- 5-1 压缩的基础知识
- 5-2 实现wiser 中的压缩功能
- 第6章 挑战wiser的优化及参数的调整
- 6-1 提高检索处理的效率
- 6-2 禁用短语检索
- 6-3 改变检索结果的输出顺序
- 6-4 让1 个字符的查询也能检索出结果
- 6-5 调整控制倒排索引更新的缓冲区容量
- 6-6 调整只有英文字母的词元的分割方法
- 6-7 确认压缩的效果
- 第7章 为今后更加深入的学习做准备
- 7-1 wiser 没能实现的功能
- 7-2 全文搜索引擎 Groonga 的特点
- 7-3 实现出考虑到用户意图的搜索引擎
- 7-4 收集、提取文档时的要点
- 附录
- A-1 深度话题
- A-2 wiser 中的文本提取和存储
- 后记
展开全部
出版方
人民邮电出版社·图灵出品
图灵社区成立于2005年6月,由人民邮电出版社投资控股,以策划出版高质量的科技书籍为核心业务,主要出版领域包括计算机、电子电气、数学统计、科普等,通过引进国际高水平的教材、专著,以及发掘国内优秀原创作品等途径,为目标读者提供一流的内容。