展开全部

主编推荐语

Java搜索引擎开发: 爬虫、分词、Solr、Spring Boot

内容简介

本书主要介绍如何使用Java语言开发搜索引擎,包括搜索引擎技术入门,使用Java开发网络爬虫,实现从文档中提取索引内容,中文分词的原理与实现,在Linux服务器端开发Solr应用,Spring Boot微服务框架实现的后端,以及React框架实现的前端等内容。第1章主要介绍各种类型的搜索引擎和开发搜索引擎可以借助的软件工具;第2章主要介绍网络爬虫开发和数据存储;第3章主要介绍从HTML文件中提取文本,以及从PDF、Word等非HTML文件中提取文本;第4章主要介绍Lucene中的中文分析器的原理与实现;第5章主要介绍Solr索引库的创建与维护,以及Solr的查询解析器;第6章主要介绍Web方式搜索结果界面的实现;第7章主要介绍如何使用SolrCloud实现分布式搜索。

目录

  • 封面
  • 版权信息
  • 内容简介
  • 前言
  • 第1章 遍历搜索引擎技术
  • 1.1 快速上手搜索引擎
  • 1.1.1 准备工作环境
  • 1.1.2 生成索引
  • 1.1.3 关键词查询
  • 1.1.4 实现搜索界面
  • 1.2 搜索语法
  • 1.3 你也可以做搜索引擎
  • 1.4 搜索引擎的基本技术
  • 1.4.1 网络爬虫
  • 1.4.2 全文索引结构
  • 1.4.3 Solr全文检索引擎
  • 1.4.4 Nutch网络搜索软件
  • 1.4.5 用户界面
  • 1.5 商业搜索引擎技术概述
  • 1.5.1 通用搜索
  • 1.5.2 垂直搜索
  • 1.5.3 站内搜索
  • 1.6 本章小结
  • 第2章 获得海量数据
  • 2.1 自己的网络爬虫
  • 2.1.1 使用URL访问网络资源
  • 2.1.2 重试
  • 2.1.3 网络爬虫的遍历与实现
  • 2.1.4 多线程爬虫
  • 2.1.5 Log4j2日志
  • 2.1.6 存储URL地址
  • 2.1.7 定向采集
  • 2.1.8 暗网抓取
  • 2.1.9 Selenium抓取动态页面
  • 2.1.10 图片抓取
  • 2.2 数据存储
  • 2.2.1 写入文件
  • 2.2.2 Jdbi写入数据库
  • 2.3 本地部署
  • 2.4 本章小结
  • 第3章 提取文档中的文本内容
  • 3.1 从HTML文件中提取文本
  • 3.1.1 使用HTMLParser实现定向抓取
  • 3.1.2 结构化信息提取
  • 3.1.3 网页的DOM结构
  • 3.1.4 网页去噪
  • 3.1.5 正文提取
  • 3.2 从非HTML文件中提取文本
  • 3.2.1 PDF文件
  • 3.2.2 Word文件
  • 3.2.3 Rtf文件
  • 3.2.4 Excel文件
  • 3.2.5 PowerPoint文件
  • 3.2.6 从图片中提取文本
  • 3.3 流媒体内容提取
  • 3.3.1 音频流内容提取
  • 3.3.2 视频流内容提取
  • 3.4 本章小结
  • 第4章 中文分词
  • 4.1 Lucene中的中文分词
  • 4.2 中文分词的原理
  • 4.3 查找词典算法
  • 4.4 句子切分
  • 4.5 有限状态机识别未登录串
  • 4.6 最大概率分词方法
  • 4.7 N元分词方法
  • 4.7.1 二元词典
  • 4.7.2 二元分词
  • 4.7.3 开发中文分析器
  • 4.8 新词发现
  • 4.9 命名实体识别
  • 4.9.1 人名识别
  • 4.9.2 组织机构名称识别
  • 4.9.3 化学物质识别
  • 4.10 词性标注
  • 4.11 平滑算法
  • 4.12 地名切分
  • 4.13 本章小结
  • 第5章 Solr服务器端开发
  • 5.1 在Linux操作系统中安装Solr
  • 5.2 创建和维护索引库
  • 5.3 索引本地硬盘上的文件
  • 5.4 使用Bean索引文档
  • 5.5 更新索引库中的索引文档
  • 5.6 删除数据
  • 5.7 检测索引
  • 5.8 查询解析器
  • 5.9 本章小结
  • 第6章 用户界面的设计与实现
  • 6.1 Solr搜索接口(search代码)
  • 6.2 搜索页面设计
  • 6.2.1 用于显示搜索结果的模板
  • 6.2.2 搜索结果分页
  • 6.2.3 测试搜索结果页
  • 6.2.4 界面国际化
  • 6.2.5 用于Solr的Spring Data
  • 6.2.6 Spring-HATEOAS实现REST架构
  • 6.3 实现搜索接口
  • 6.3.1 基本查询
  • 6.3.2 布尔搜索
  • 6.3.3 指定范围搜索
  • 6.3.4 搜索结果排序
  • 6.4 实现聚合
  • 6.5 实现相似文档搜索
  • 6.6 实现自动完成
  • 6.6.1 总体结构
  • 6.6.2 服务器端处理
  • 6.6.3 自动完成客户端
  • 6.7 搜索日志
  • 6.8 React框架
  • 6.9 本章小结
  • 第7章 Solr分布式搜索
  • 7.1 使用Solr实现分布式搜索
  • 7.1.1 使用SolrCloud
  • 7.1.2 分片
  • 7.1.3 管理集群
  • 7.1.4 SolrCloud工作原理
  • 7.1.5 ZooKeeper分布式协调器
  • 7.2 Jenkins持续集成
  • 7.3 本章小结
  • 参考文献
  • 封底
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

电子工业出版社

电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。