互联网
类型
6.7
豆瓣评分
可以朗读
语音朗读
236千字
字数
2021-08-01
发行日期
展开全部
主编推荐语
10多年的互联网发展,让国内的运维经历了快速的变革,开始慢慢地和国外接轨,甚至在部分场景有单独的演化。
内容简介
DevOps和SRE作为运维领域的两个演化方向,在最近几年获得了很多关注,也有很多公司进行了相关的实践。与DevOps遍地开花的情况相比,SRE在国内的发展稍显低调。
本书作者作为一直工作在一线的运维工程师,理所当然地对SRE相关理念进行了实践,本书可以说是对SRE领域阶段性的实践总结。
本书主要对传统运维和SRE进行不同对比,让大家了解运维工程师在实践SRE理念时,关注的点和具体的实践经验。
本书的前半部分更多地注重SRE在实际工作中对融入开发团队、监控建设、变更管理、容量管理、异常响应、稳定性治理、事故复盘、用户体验管理等方面的实践和落地。
在对SRE的工作有了一定了解后,本书会针对重要业务保障场景进行实战讲解。本书最后部分对SRE工作中涉及的一些技术进行了概述,以便有兴趣的同学了解SRE相关的技术点。
目录
- 版权信息
- 内容简介
- 前言
- 第1章 关于SRE
- 1.1 为什么会引入SRE
- 1.2 DevOps和SRE对比
- 1.2.1 DevOps的发展
- 1.2.2 SRE的发展
- 1.3 选择SRE
- 1.4 SRE的未来
- 第2章 SRE在组织内部的定位
- 2.1 如何介入组织
- 2.2 SRE工作着力点
- 2.3 如何衡量工作
- 2.4 贡献价值
- 第3章 监控建设
- 3.1 什么是好的监控服务
- 3.1.1 稳定
- 3.1.2 准确
- 3.1.3 易用
- 3.2 监控系统的设计逻辑分析
- 3.2.1 数据生产
- 3.2.2 数据上报
- 3.2.3 数据处理
- 3.2.4 数据存储
- 3.2.5 数据使用
- 3.3 典型监控应用场景
- 3.3.1 系统监控
- 3.3.2 应用监控
- 3.3.3 终端监控
- 3.3.4 秒级监控
- 3.3.5 监控大盘
- 3.3.6 链路监控
- 3.4 报警治理
- 3.5 容器监控
- 3.6 监控智能化
- 第4章 变更管理
- 4.1 变更管理机制
- 4.1.1 传统运维的变更管理
- 4.1.2 DevOps的变更管理
- 4.1.3 SRE的变更管理
- 4.1.4 变更管理实践总结
- 4.2 变更控制
- 4.2.1 如何建设好的变更控制
- 4.2.2 制定符合业务需求的变更控制机制
- 4.3 稳定性和迭代速度的权衡
- 4.4 变更风险控制
- 4.5 总结
- 第5章 异常响应
- 5.1 异常的定义
- 5.2 事故/事件定义
- 5.2.1 区分事件和事故
- 5.2.2 事故等级制度
- 5.3 异常响应流程
- 5.4 如何处理值班过程中的异常响应
- 5.5 应急沟通机制
- 5.6 关于线上问题的ROC
- 第6章 服务稳定性治理
- 6.1 SLI/SLO/SLA的制定和落地
- 6.1.1 SLI的制定和应用
- 6.1.2 SLO的计算和应用
- 6.1.3 SLA的计算和应用
- 6.2 故障预防
- 6.3 抑制不可控因素
- 6.4 故障演练
- 6.4.1 故障梳理
- 6.4.2 故障预案
- 6.4.3 混浊工程
- 6.5 故障自愈
- 6.6 业务MTTR
- 6.6.1 关于故障修复MTTR
- 6.6.2 关于故障解决MTTR
- 6.7 灾备建设
- 6.8 总结
- 第7章 事故复盘
- 7.1 关于事故复盘
- 7.1.1 事故复盘初级阶段
- 7.1.2 事故复盘中级阶段
- 7.1.3 事故复盘成熟阶段
- 7.2 如何提升事故复盘质量
- 7.2.1 事故复盘深度
- 7.2.2 事故复盘报告
- 7.3 事故分析的逻辑和原则
- 7.4 事故责任的划分逻辑
- 7.5 事后跟进
- 7.6 基于事故/事件的学习
- 第8章 容量管理
- 8.1 容量管理的目标
- 8.2 容量管理的方法和策略
- 8.2.1 传统评估方法
- 8.2.2 IT资源成本的构成
- 8.2.3 容量水位的定义
- 8.2.4 容量管理策略
- 8.3 容量分析系统建设
- 8.3.1 业务负载平台
- 8.3.2 巡检管理平台
- 8.3.3 监控系统和CMDB系统
- 8.4 容量优化方式
- 8.4.1 业务容量优化
- 8.4.2 资源容量优化
- 8.4.3 架构容量优化
- 8.5 容量预案
- 8.6 总结
- 第9章 用户体验
- 9.1 外部用户体验和内部用户体验
- 9.1.1 外部用户体验
- 9.1.2 内部用户体验
- 9.2 影响用户体验的要素
- 9.3 外部用户体验的改进策略
- 9.4 内部用户体验的改进策略
- 9.4.1 数据兼容性
- 9.4.2 工作流程
- 9.4.3 执行效率
- 第10章 重要业务活动保障
- 10.1 重要业务活动的资源准备
- 10.1.1 容量规划
- 10.1.2 资源交付规划
- 10.1.3 技术优化
- 10.2 参与运营活动评估
- 10.3 重要业务活动稳定性预案
- 10.4 重要业务活动准备阶段的工作重点
- 10.5 重要业务活动的变更执行要求
- 10.6 重要业务活动的运维人力
- 10.7 重要业务活动的收尾
- 第11章 运维操作基础
- 11.1 网络基础
- 11.1.1 ARP
- 11.1.2 路由
- 11.2 4/7层协议
- 11.2.1 4层协议
- 11.2.2 7层协议
- 11.3 内核参数调优
- 11.3.1 TCP网络堆栈内存
- 11.3.2 TCP连接数优化
- 11.3.3 TCP高并发优化
- 11.3.4 网络参数额外调整项
- 11.3.5 TCP拥堵算法
- 11.4 常见命令行
- 11.4.1 查看数据指标
- 11.4.2 网络数据包分析
- 11.5 配置管理工具
- 11.5.1 Ansible
- 11.5.2 CFEngine
- 11.5.3 Chef
- 11.5.4 Puppet
- 11.5.5 Salt
- 11.5.6 配置管理工具的汇总说明
- 11.5.7 云环境下的配置管理工具演化
- 11.6 基础设施即代码
- 11.7 关于运维操作的未来
- 第12章 基础组件运维
- 12.1 负载均衡中间件
- 12.1.1 算法逻辑的影响
- 12.1.2 附加特性的作用
- 12.1.3 负载均衡方案
- 12.1.4 负载均衡总结
- 12.2 消息队列中间件
- 12.2.1 消息队列方案的技术决策
- 12.2.2 消息队列的技术演化
- 12.3 缓存中间件
- 12.3.1 缓存中间件的技术关注点
- 12.3.2 缓存中间件的选型策略
- 12.3.3 缓存中间件的技术演化
- 12.4 数据库
- 12.4.1 SQL数据库技术的选择
- 12.4.2 SQL数据库的配置注意事项
- 12.4.3 NoSQL数据库技术的选择
- 12.4.4 时序数据库技术
- 12.5 组件运维
- 第13章 云计算和容器
- 13.1 云计算基础
- 13.1.1 云计算平台运维
- 13.1.2 云计算平台上的产品运维
- 13.2 虚拟化
- 13.3 容器
- 13.4 云存储
- 13.5 云网络
- 13.6 混合云
- 13.7 云原生
- 13.7.1 云原生的需求情况
- 13.7.2 云原生的发展
- 13.7.3 云原生的展望
展开全部
出版方
电子工业出版社
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。