展开全部

主编推荐语

解码数据科学的奥秘,驱动业务决策和创新。

内容简介

从数据分析方法到数据科学基础知识,你需要了解的知识全部在本书中。

当下,利用数据为自己的业务和服务提供支持是大势所趋。但是,分析数据需要广泛的知识,自己很难成体系地学习。

本书介绍了数据科学的基础知识及周边知识,包括数据、图表的类型以及统计学、人工智能的基本知识等,网罗信息社会中数据活用的问题点,结合生动插图,让初学者也能迅速理解。

除了按顺序阅读,获取系统的知识,读者还可以从目录中挑选感兴趣的主题和关键词,按照自己的需求阅读,是一本实用性满分的数据科学学习指南。

目录

  • 版权信息
  • 前言
  • 第1章 数据科学的支撑技术
  • 1-1 21世纪的石油
  • 数据、信息
  • 1-2 数据为何越来越多
  • 信息化社会、物联网、信息社会、传感器
  • 1-3 综合各种知识进行分析
  • 数据科学、数据挖掘
  • 1-4 从数据中发现价值的职业
  • 数据科学家、数据工程师、数据分析师
  • 1-5 数据不能直接拿来使用
  • 结构化数据、非结构化数据
  • 1-6 大量的数据是宝藏
  • 大数据、3个V
  • 1-7 人与计算机易于处理的数据不同
  • 杂乱数据、整齐数据
  • 1-8 把握供数据使用的数据
  • 主数据、元数据
  • 1-9 将数据整理到一处
  • 数据基础设施、商业智能仪表盘、数据管道
  • 1-10 对高效处理流程进行思考
  • 算法、数据结构
  • 1-11 导出规则的实用化
  • 模型、建模
  • 1-12 用于处理数据的编程语言
  • R语言、Python语言、Julia语言
  • 1-13 任何人都可以免费使用的数据
  • 开放数据、e-Stat、WebAPI
  • 1-14 一边娱乐,一边学习分析方法
  • Kaggle、编程比赛、CTF
  • 1-15 围绕IT进行思考
  • 数字化转型、数码化、数字化
  • 1-16 已经分析的数据的运用事例
  • 聊天机器人、推荐
  • 1-17 购买了这款商品的顾客还同时购买了这样的商品
  • 购物篮分析、关联分析、RFM分析
  • 1-18 根据数据进行不同的定价
  • 动态定价、金融科技
  • 1-19 从小规模出发进行尝试
  • 概念验证、小规模启动
  • 1-20 持续不断地谋求改善
  • PDCA循环、OODA循环、反馈循环
  • 1-21 先行确定目标,之后有策略地实施
  • KPI、KGI、KSF
  • 1-22 把握与数据相关的人
  • 用例、利益相关者
  • 试一试 尝试一下对使用数据的事例进行调查吧
  • 第2章 数据的基础
  • 2-1 数据的分类
  • 名义尺度、定序尺度、定距尺度、比例尺度、定性变量、定量变量
  • 2-2 从范围的角度对数据加以区分
  • 频数分布表、组、频数、组距、直方图
  • 2-3 区别使用各种图形
  • 柱形图、折线图
  • 2-4 表示比例的图形
  • 饼状图、条形图
  • 2-5 将各种数据展示于一张图中
  • 雷达图、箱形图
  • 2-6 构成数据基准的数值
  • 代表性数值、平均值、中位数、鲁棒性、众数
  • 2-7 掌握数据离散程度
  • 方差、标准偏差
  • 2-8 用一个标准判断
  • 变异系数、标准化、偏差值
  • 2-9 处理不恰当的数据
  • 异常值、缺失值
  • 2-10 为什么销售额的八成来自两成的商品
  • 帕累托定律、帕累托分析、帕累托图、长尾效应
  • 2-11 对数量实施视觉展示
  • 数据可视化、热图、文字云图
  • 2-12 任何人都可以使用的便捷的数据分析工具
  • BI工具、OLAP
  • 2-13 集中管理数据
  • 数据仓库、数据湖、数据集市
  • 2-14 对数据协作进行思考
  • ETL、EAI、ESB
  • 2-15 对数据结构进行可视化
  • ER图、DFD图、CRUD表、CRUD图
  • 2-16 设计数据库
  • 正规化、非正规化
  • 2-17 对纸上打印的数据进行提取处理
  • OCR、OMR
  • 2-18 高精度、高速度地导入数据
  • 条形码、二维码、NFC
  • 试一试 选择一下合适的图表吧
  • 第3章 数据处理与充分利用
  • 3-1 根据获取时间而变化的数据
  • 时间序列数据、趋势、噪声、周期
  • 3-2 程序自动输出的数据
  • 日志、转储文件
  • 3-3 捕捉长期变化
  • 移动平均法、移动平均线、加权移动平均法
  • 3-4 掌握两个数轴之间的关系
  • 散点图、协方差、相关系数
  • 3-5 不被表面的关系所欺骗
  • 相关关系、因果关系、伪相关
  • 3-6 立足于多个数轴进行汇总
  • 交叉汇总、联合分析、直交表
  • 3-7 通过减少数轴的数量来把握特征
  • 维度、主成分分析
  • 3-8 了解人们对两点之间距离的看法
  • 欧几里得距离、曼哈顿距离
  • 3-9 调查相似的角度
  • 余弦相似度、Word2Vec
  • 3-10 数据分析不只有帅气的一面
  • 预处理、数据准备、数据清洗、数据分析识别
  • 3-11 明确多个数轴之间的关系
  • 回归分析、最小二乘法
  • 3-12 了解高级回归分析
  • 多重回归分析、逻辑回归分析
  • 3-13 对分类进行预测
  • 判别分析、马哈拉诺比斯距离
  • 3-14 基于已掌握的知识进行数值推算
  • 费米估算
  • 3-15 实现对掷骰子结果的操控
  • 随机数、伪随机数、随机种子、蒙特卡罗法
  • 3-16 通过反复预测提高精度
  • 德尔菲法、指数平滑法
  • 3-17 了解各种分析方法
  • 多变量分析、数量化一类、数量化二类、数量化三类
  • 试一试 尝试一下统计问卷调查的结果吧
  • 第4章 需要了解的统计学知识
  • 4-1 统计学的分类
  • 描述统计学、推断统计学
  • 4-2 抽取数据
  • 总体、样本、随机抽样
  • 4-3 用数值表示易发性
  • 统计概率、数学概率、概率、期望值
  • 4-4 针对几个独立事件同时发生的概率进行思考
  • 同时概率、独立性、互斥性、条件概率、概率的乘法定理
  • 4-5 基于结果对原因进行思考
  • 先验概率、后验概率、贝叶斯定理、似然
  • 4-6 把握数据的分布
  • 概率分布、均匀分布、二项分布、正态分布、标准正态分布
  • 4-7 如果收集众多数据,就能接近真实值
  • 中心极限定理、大数定律
  • 4-8 用函数来表示分布
  • 概率密度函数、累积分布函数
  • 4-9 根据抽取的数据推测原始的总体
  • 无偏估计量、点估计、区间估计、置信区间
  • 4-10 在不知道方差的情况下进行推算
  • 标准误差、无偏方差、自由度、t分布
  • 4-11 从统计学的角度进行验证
  • 检验、原假设、备择假设、拒绝
  • 4-12 确定做出正确判断的基准
  • 检验统计量、拒绝域、显著性水平、双侧检验、单侧检验
  • 4-13 对检验结果做出判断
  • p值、显著性差异、错误、第一类错误、第二类错误
  • 4-14 检验平均值
  • Z检验、t检验
  • 4-15 检验方差
  • χ2分布、χ2检验、F检验
  • 试一试 尝试检验一下身边的食品吧
  • 第5章 需要了解的有关人工智能的知识
  • 5-1 打造与人类具有同等智慧的计算机
  • 人工智能、图灵测试
  • 5-2 实现人工智能的手法
  • 机器学习、监督学习、无监督学习、强化学习
  • 5-3 用于评价人工智能的指标
  • 混淆矩阵、准确率、精确率、召回率、F值、交叉验证
  • 5-4 掌握学习的进度
  • 过拟合、欠拟合
  • 5-5 模仿大脑的学习方法
  • 神经网络、损失函数、误差反向传播法
  • 5-6 逐渐接近最优解
  • 梯度下降法、局部解、学习率
  • 5-7 深入各分层,利用大量数据进行学习
  • 深度学习、CNN、RNN、LSTM
  • 5-8 对误差进行量化
  • 偏差-方差分解、折中
  • 5-9 提升精度
  • 正则化、拉索回归、岭回归
  • 5-10 分成多个组
  • 聚类、k均值算法
  • 5-11 划分为任意个簇
  • 分层次聚类、Ward法、最短距离法、最长距离法
  • 5-12 在树结构中学习
  • 决策树、不纯度、信息增益
  • 5-13 使用多个人工智能进行多数表决
  • 随机森林、集成学习、引导聚集算法、提升方法
  • 5-14 评价规则的指标
  • 支持度、置信度、提升度
  • 5-15 边界余量的最大化
  • 支持向量机、超平面、硬余量、软余量
  • 5-16 进行自动的机器学习
  • 自动化机器学习、可解释性人工智能
  • 5-17 结合各种方法寻找解决方法
  • 运筹学、数理优化、数理设计法、概率设计法
  • 试一试 查找一下最新的论文吧
  • 第6章 有关安全与隐私的问题
  • 6-1 处理数据时必须遵守道德
  • 信息伦理、数据伦理
  • 6-2 数据可靠性堪忧
  • 统计造假、技术人员伦理
  • 6-3 错误认识导致精度下降
  • 数据偏差、算法偏差
  • 6-4 在日本对于个人信息的处理
  • 个人信息保护法、P认证
  • 6-5 在海外对于个人信息的处理
  • GDPR、CCPA
  • 6-6 对个人信息的充分利用进行思考
  • 假名化、匿名化、k-匿名化
  • 6-7 对数据的流通、一般使用与充分利用进行思考
  • 数据驱动型社会、超智能社会、信息银行
  • 6-8 制定处理数据时的规则
  • 信息安全政策、隐私政策
  • 6-9 公示收集数据的目的
  • 使用目的、选择加入、选择退出
  • 6-10 了解保有数据的权利
  • 知识产权、著作权
  • 6-11 自动获得外部数据
  • 抓取、爬取
  • 6-12 对保有数据的读取进行管理
  • 访问控制、备份
  • 6-13 防止从内部带出数据
  • 审计、数据泄露防护
  • 6-14 每次都能得到相同结果
  • 幂等性
展开全部

评分及书评

4.8
6个评分

出版方

中国科学技术出版社

中国科学技术出版社有限公司是中国科协直属的出版单位。 中国科学技术出版社有限公司以编辑出版各学科不同层次的科普图书、科技专著和科普期刊为主要任务,是中国出版科普图书历史最长 、品种最多、规模大的出版社。旨在向读者弘扬科学精神,普及科学知识,传播科学思想和科学方法,为科技工作者服务,为国家经济社会建设服务,为提高全民科学素质服务。