主编推荐语
社交网站数据如同深埋地下的“金矿”,如何利用这些数据来发现哪些人正通过社交媒介进行联系?他们正在谈论什么?或者他们在哪儿?
内容简介
《社交网站的数据挖掘与分析(原书第2版)》第2版对上一版内容进行了全面更新和修订,它将揭示回答这些问题的方法与技巧。你将学到如何获取、分析和汇总散落于社交网站(包括Facebook、Twitter、LinkedIn、Google+、 GitHub、邮件、网站和博客等)的数据,以及如何通过可视化找到你一直在社交世界中寻找的内容和你闻所未闻的有用信息。
·借助IPython Notebook、自然语言工具包、NetworkX和其他科学计算工具挖掘主流社交网站
·使用高级文本挖掘技术(如聚类和TF-IDF)来提取人类语言数据中有价值的知识
·通过发现GitHub上人、编程语言和代码工程间的亲密性,构建兴趣图谱
·利用D3.js进行交互式可视化,充分发挥HTML5和JavaScript工具包的灵活特性
·以“问题-解决方案-讨论”的方式详细讲解深入挖掘Twitter数据的实用技术,并提供代码示例
《社交网站的数据挖掘与分析(原书第2版)》的配套代码在公开的GitHub代码库中进行维护,可以通过一站式虚拟机来访问,你只需要使用方便易用的IPython Notebook,即可进入愉快的交互式学习情景。
目录
- 版权信息
- O’Reilly Media,Inc.介绍
- 译者序
- 译者简介
- 前言
- 第一部分 社交网络导引
- 序幕
- 第1章 挖掘Twitter:探索热门话题、发现人们的谈论内容等
- 1.1 概述
- 1.2 Twitter风靡一时的原因
- 1.3 探索Twitter API
- 1.4 分析140字的推文
- 1.5 本章小结
- 1.6 推荐练习
- 1.7 在线资源
- 第2章 挖掘Facebook:分析粉丝页面、查看好友关系等
- 2.1 概述
- 2.2 探索Facebook的社交图谱API
- 2.3 分析社交图谱联系
- 2.4 本章小结
- 2.5 推荐练习
- 2.6 在线资源
- 第3章 挖掘LinkedIn:分组职位、聚类同行等
- 3.1 概述
- 3.2 探索LinkedIn API
- 3.3 数据聚类速成
- 3.4 本章小结
- 3.5 推荐练习
- 3.6 在线资源
- 第4章 挖掘Google+:计算文档相似度、提取搭配等
- 4.1 概述
- 4.2 探索Google+API
- 4.3 TF-IDF简介
- 4.4 用TF-IDF查询人类语言数据
- 4.5 本章小结
- 4.6 推荐练习
- 4.7 在线资源
- 第5章 挖掘网页:使用自然语言处理理解人类语言、总结博客内容等
- 5.1 概述
- 5.2 抓取、解析、爬取网页
- 5.3 通过解码语法来探索语义
- 5.4 以实体为中心的分析:范式转换
- 5.5 人类语言数据处理分析的质量
- 5.6 本章小结
- 5.7 推荐练习
- 5.8 在线资源
- 第6章 挖掘邮箱:分析谁和谁说什么以及说的频率等
- 6.1 概述
- 6.2 获取和处理邮件语料库
- 6.3 分析Enron语料库
- 6.4 探索和可视化时序趋势
- 6.5 分析你自己的邮件数据
- 6.6 本章小结
- 6.7 推荐练习
- 6.8 在线资源
- 第7章 挖掘GitHub:检查软件协同习惯、构建兴趣图谱等
- 7.1 概述
- 7.2 探索GitHub的API
- 7.3 使用属性图为数据建模
- 7.4 分析GitHub兴趣图谱
- 7.5 本章小结
- 7.6 推荐练习
- 7.7 在线资源
- 第8章 挖掘带标记语义网:提取微格式、推断资源描述框架等
- 8.1 概述
- 8.2 微格式:易于实现的元数据
- 8.3 从语义标记过渡到语义网:一个小插曲
- 8.4 语义网:发展中的变革
- 8.5 本章小结
- 8.6 推荐的练习
- 8.7 在线资源
- 第二部分 Twitter实用指南
- 第9章 Twitter实用指南
- 9.1 访问Twitter的API(开发目的)
- 9.2 使用OAuth访问Twitter的API(产品目的)
- 9.3 探索流行话题
- 9.4 查找推文
- 9.5 构造方便的函数调用
- 9.6 使用文本文件存储JSON数据
- 9.7 使用MongoDB存储和访问JSON数据
- 9.8 使用信息流API对Twitter数据管道抽样
- 9.9 采集时序数据
- 9.10 提取推文实体
- 9.11 特定的推文范围内查找最流行的推文
- 9.12 特定的推文范围内查找最流行的推文实体
- 9.13 对频率分析制表
- 9.14 查找转推了状态的用户
- 9.15 提取转推的属性
- 9.16 创建健壮的Twitter请求
- 9.17 获取用户个人资料信息
- 9.18 从任意的文本中提取推文实体
- 9.19 获得用户所有的好友和关注者
- 9.20 分析用户的好友和关注者
- 9.21 获取用户的推文
- 9.22 爬取好友关系图
- 9.23 分析推文内容
- 9.24 提取链接目标摘要
- 9.25 分析用户收藏的推文
- 9.26 本章小结
- 9.27 推荐练习
- 9.28 在线资源
- 第三部分 附录
- 附录A 关于本书虚拟机体验的信息
- 附录B OAuth入门
- 附录C Python和IPython Notebook的使用技巧
- 作者简介
- 封面介绍
出版方
机械工业出版社有限公司
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。