互联网
类型
可以朗读
语音朗读
429千字
字数
2021-06-01
发行日期
展开全部
主编推荐语
本书主要介绍了在SAS、R语言、Stata和Python四个软件中常用的、效的命令及编程方法。
内容简介
面对日渐复杂的大数据,科技工作者很难用单一的统计软件高效、完美地完成从数据挖掘、数据清洗、统计分析到结果呈现的全部工作,因此需要熟悉和掌握多种统计工具,各取所长、整合使用。本书立足于大数据研究的现状,基于实际医疗案例,介绍数学基础知识和统计学基础知识,SAS、R语言、Stata和Python这4款大数据常用分析工具的基础编程知识及实践操作。
目录
- 版权信息
- 内容简介
- 前言
- 第1章 数学基础
- 1.1 常用的数学符号
- 1.2 常见概念
- 1.2.1 集合
- 1.2.2 极限
- 1.3 微积分
- 1.3.1 导数与微分
- 1.3.2 基本初等函数的导函数和微分公式
- 1.3.3 导数与微分的运算法则
- 1.3.4 定积分与不定积分
- 1.3.5 基本的不定积分公式
- 1.3.6 定积分与不定积分的性质
- 1.4 线性代数
- 1.4.1 标量与向量
- 1.4.2 矩阵与线性方程组
- 1.4.3 行列式的定义与运算
- 1.4.4 矩阵的运算法则
- 1.4.5 特殊的矩阵
- 1.4.6 矩阵的秩
- 1.4.7 矩阵的转置与矩阵的逆
- 1.4.8 特征向量与特征值
- 第2章 统计学基础
- 2.1 概率论的基本概念
- 2.2 随机变量与分布
- 2.2.1 随机变量
- 2.2.2 累积分布函数
- 2.2.3 概率函数
- 2.3 随机变量的数学特征
- 2.3.1 数学期望
- 2.3.2 期望值的规律
- 2.3.3 条件期望
- 2.3.4 协方差与相关系数
- 2.3.5 样本均值和方差
- 2.4 常见的随机变量分布
- 2.4.1 离散变量分布
- 2.4.2 连续变量分布
- 2.5 统计学基本概念
- 2.5.1 总体与样本
- 2.5.2 参数和统计量
- 2.5.3 中心极限定理
- 2.6 统计描述
- 2.6.1 定量资料的统计描述
- 2.6.2 分类资料的统计描述
- 2.7 统计推断
- 2.7.1 参数估计
- 2.7.2 假设检验
- 2.8 多因素回归模型
- 2.8.1 多因素线性回归模型
- 2.8.2 多因素Logistic回归模型
- 2.8.3 多因素Cox回归模型
- 第3章 软件基础总论
- 3.1 软件初识
- 3.1.1 SAS
- 3.1.2 R语言
- 3.1.3 Stata
- 3.1.4 Python
- 3.2 4个软件的比较
- 第4章 SAS基础
- 4.1 SAS介绍与资源
- 4.1.1 SAS语言及程序结构
- 4.1.2 SAS工作界面
- 4.1.3 获得帮助
- 4.2 数据的导入与导出
- 4.2.1 导入数据
- 4.2.2 导出数据
- 4.3 SAS中常用的函数
- 4.3.1 字符型函数
- 4.3.2 数值型函数
- 4.3.3 日期型函数
- 4.3.4 特殊函数
- 4.3.5 其他函数
- 4.4 SAS变量
- 4.4.1 变量属性
- 4.4.2 自动变量
- 4.4.3 变量列表的缩写规则
- 4.4.4 创建变量
- 4.4.5 改变变量属性
- 4.4.6 改变变量类型
- 4.5 SAS数据处理
- 4.5.1 选取变量
- 4.5.2 创建变量
- 4.5.3 对观测求和
- 4.5.4 选取并操作部分观测
- 4.5.5 循环和数组
- 4.5.6 数据集的横向合并和纵向合并
- 4.5.7 增加数据集处理灵活性的SAS选项
- 4.6 SAS中常见的proc步
- 4.6.1 proc contents
- 4.6.2 proc datasets
- 4.6.3 proc freq
- 4.6.4 proc means
- 4.6.5 proc sort
- 4.6.6 proc transpose
- 4.6.7 proc univariate
- 4.6.8 proc corr
- 4.6.9 proc reg
- 4.6.10 proc logistic
- 4.6.11 proc lifetest
- 4.6.12 proc phreg
- 4.7 PROC SQL
- 4.7.1 检索数据
- 4.7.2 合并数据集
- 4.7.3 使用PROC SQL管理表
- 4.8 SAS宏介绍
- 4.8.1 宏变量
- 4.8.2 宏函数
- 4.8.3 宏程序
- 4.8.4 宏参数
- 4.8.5 宏语言与data步
- 4.8.6 宏语言与PROC SQL
- 4.8.7 条件语句和循环语句在宏语言中的使用
- 第5章 R语言基础
- 5.1 R语言介绍
- 5.1.1 R语言的特点与资源
- 5.1.2 RStudio使用简介
- 5.2 R语言的基本规则
- 5.2.1 对象
- 5.2.2 函数使用基础
- 5.2.3 扩展包
- 5.2.4 帮助
- 5.3 数据类型
- 5.3.1 vector
- 5.3.2 factor
- 5.3.3 date
- 5.3.4 matrix
- 5.3.5 list
- 5.3.6 data.frame
- 5.3.7 formula
- 5.4 常用函数介绍
- 5.4.1 数据的读入和导出
- 5.4.2 条件判断
- 5.4.3 循环
- 5.4.4 文本处理
- 5.4.5 基本作图
- 5.4.6 自定义函数
- 5.5 常用数据处理与统计分析函数
- 5.5.1 单变量分析
- 5.5.2 双变量、多变量分析
- 5.5.3 线性回归模型
- 5.5.4 Logistic回归模型
- 5.5.5 生存分析模型
- 5.6 dplyr包简介
- 5.6.1 安装dplyr包
- 5.6.2 dplyr包中最常用的5个函数
- 5.6.3 用%>%运算符连接多个函数
- 5.6.4 dplyr包中其他实用的函数
- 5.7 ggplot2包简介
- 5.7.1 安装ggplot2包
- 5.7.2 使用ggplot2画图的基本思路
- 5.7.3 使用geom_histogram函数绘制直方图
- 5.7.4 使用geom_bar函数绘制柱状图
- 5.7.5 使用geom_boxplot函数绘制箱形图
- 5.7.6 使用geom_point函数绘制散点图
- 5.7.7 使用geom_smooth函数在散点图上添加线性回归结果
- 5.7.8 对图中细节进行微调
- 5.7.9 将多个图合并为一个图
- 5.7.10 保存图
- 第6章 Stata基础
- 6.1 Stata简介
- 6.1.1 界面介绍
- 6.1.2 在菜单栏中选择命令
- 6.1.3 输入命令代码
- 6.2 获得帮助
- 6.2.1 检索关键词
- 6.2.2 查看帮助
- 6.2.3 帮助建议
- 6.3 语法结构
- 6.3.1 变量集
- 6.3.2 by前缀
- 6.3.3 命令
- 6.3.4 =表达式
- 6.3.5 if表达式
- 6.3.6 in范围
- 6.3.7 权重
- 6.3.8 命令选项
- 6.3.9 数值集合
- 6.3.10 文件名
- 6.4 数据转换与分析
- 6.4.1 导入数据
- 6.4.2 浏览数据与基本描述
- 6.4.3 数值变量
- 6.4.4 文本变量
- 6.4.5 日期变量
- 6.4.6 缺失值
- 6.4.7 注释变量
- 6.4.8 调整数据结构
- 6.4.9 基本描述
- 6.4.10 统计检验
- 6.4.11 相关分析
- 6.4.12 回归分析
- 6.4.13 导出数据
- 6.5 输出结果调用
- 6.5.1 一般统计命令结果调用
- 6.5.2 估计命令结果调用
- 6.6 重复命令
- 6.6.1 by前缀
- 6.6.2 foreach循环
- 6.6.3 forvalues循环
- 6.7 编程工具
- 6.7.1 do文件
- 6.7.2 标量变量
- 6.7.3 宏变量
- 6.7.4 矩阵
- 6.7.5 程序
- 第7章 Python基础
- 7.1 Python的安装
- 7.1.1 使用Python安装包安装Python 3
- 7.1.2 通过Anaconda安装Python 3
- 7.2 常用交互式语言开发环境
- 7.2.1 编辑器
- 7.2.2 控制台
- 7.2.3 变量管理器
- 7.3 常用数据类型、数据结构与基本语句
- 7.3.1 Python中的变量命名规则
- 7.3.2 常见的数据类型及运算
- 7.3.3 常见的数据结构及运算
- 7.3.4 第一个程序
- 7.3.5 函数
- 7.3.6 常用逻辑语句
- 7.4 数据的导入与导出
- 7.4.1 数据的读取
- 7.4.2 数据存储
- 7.5 基础运算常用包——NumPy
- 7.5.1 基本性质
- 7.5.2 矢量化运算
- 7.5.3 NumPy中的函数
- 7.5.4 ndarray的轴、索引与切片
- 7.5.5 实战举例:用NumPy进行图像处理
- 7.6 数据处理常用包——Pandas
- 7.6.1 主要数据类型
- 7.6.2 对DataFrame的描述
- 7.6.3 缺失值的检测与处理
- 7.6.4 DataFrame的索引
- 7.6.5 常见操作
- 7.6.6 字符处理专题
- 7.6.7 apply专题
- 7.6.8 groupby专题
- 7.7 统计分析常用包
- 7.7.1 单样本t检验
- 7.7.2 独立样本t检验
- 7.7.3 两个连续型变量的相关性
- 7.7.4 两个分类变量的频数统计
- 7.7.5 线性回归模型
- 7.7.6 Logistic回归模型
- 7.7.7 生存分析
- 7.8 绘图常用包
- 7.8.1 Pandas
- 7.8.2 Matplotlib
- 7.8.3 Seaborn
- 第8章 软件实践总论
- 8.1 本书使用的数据集
- 8.1.1 病人基本信息数据集
- 8.1.2 诊断信息数据集
- 8.1.3 实验室检测结果数据集(一)
- 8.1.4 实验室检测结果数据集(二)
- 8.1.5 用药信息数据集
- 8.1.6 急性心肌梗死数据集
- 8.2 软件实践步骤
- 8.2.1 数据清洗
- 8.2.2 数据准备
- 8.2.3 数据分析
- 8.2.4 结果整理
- 8.2.5 代码的重复使用
- 8.3 实例:拟研究的课题
- 第9章 SAS实践部分
- 9.1 数据的清洗与管理
- 9.1.1 病人基本信息数据集
- 9.1.2 诊断信息数据集
- 9.1.3 实验室检测结果数据集(一)
- 9.1.4 实验室检测结果数据集(二)
- 9.1.5 用药信息数据集
- 9.2 数据分析与结果整理
- 9.2.1 定量数据的统计描述
- 9.2.2 分类数据的统计描述
- 9.2.3 相关分析
- 9.2.4 线性回归分析
- 9.2.5 Logistic回归分析
- 9.2.6 Cox回归分析
- 第10章 R语言实践部分
- 10.1 数据的清洗与管理
- 10.1.1 病人基本信息数据集
- 10.1.2 诊断信息数据集
- 10.1.3 实验室检测结果数据集(一)
- 10.1.4 实验室检测结果数据集(二)
- 10.1.5 用药信息数据集
- 10.2 数据分析与结果整理
- 10.2.1 定量数据的统计描述
- 10.2.2 分类数据的统计描述
- 10.2.3 相关分析
- 10.2.4 线性回归分析
- 10.2.5 Logistic回归分析
- 10.2.6 Cox回归分析
- 第11章 Stata实践部分
- 11.1 数据的清洗与管理
- 11.1.1 病人基本信息数据集
- 11.1.2 诊断信息数据集
- 11.1.3 实验室检测结果数据集(一)
- 11.1.4 实验室检测结果数据集(二)
- 11.1.5 用药信息数据集
- 11.2 数据分析与结果整理
- 11.2.1 定量数据的统计描述
- 11.2.2 分类数据的统计描述
- 11.2.3 相关分析
- 11.2.4 一般线性回归分析
- 11.2.5 Logistic回归分析
- 11.2.6 Cox回归分析
- 11.3 Stata在Meta分析中的应用
- 11.3.1 Meta分析简介
- 11.3.2 二分类变量的Meta分析
- 11.3.3 连续性变量的Meta分析
- 11.3.4 发表偏倚分析
- 第12章 Python实践部分
- 12.1 数据的清洗与管理
- 12.1.1 病人基本信息数据集
- 12.1.2 诊断信息数据集
- 12.1.3 实验室检测结果数据集(一)
- 12.1.4 实验室检测结果数据集(二)
- 12.1.5 用药信息数据集
- 12.2 数据准备和数据分析
- 12.2.1 定量数据的统计描述
- 12.2.2 分类数据的统计描述
- 12.2.3 相关分析
- 12.2.4 线性回归分析
- 12.2.5 Logistic回归分析
- 12.2.6 Cox回归分析
- 参考文献
- 附录A 常用假设检验方法
- 附录B 正则表达式
- 附录C 系统综述与Meta分析技术路线图
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。