沃新书屋 - 高性能之道: SRE视角下的运维架构实践 - word 网盘 高速 下载地址大全 免费
本书资料更新时间:2025-05-01 00:31:31

高性能之道: SRE视角下的运维架构实践 word 网盘 高速 下载地址大全 免费

高性能之道: SRE视角下的运维架构实践精美图片

高性能之道: SRE视角下的运维架构实践书籍详细信息


内容简介:

《高性能之道: SRE视角下的运维架构实践》从实践出发,包括了作者参与并主导的3家电商互联网公司架构从0到1的构建经历,从多个角度讲解稳定、性能、效率、成本四大职责落地经验,并结合Mikey金字塔进行了部分创新,很多内容都可以直接复用于实际工作。本书分为7篇,分别是开端篇、监控篇、故障篇、容量篇、全局视角篇、性能篇和扩展篇。 《高性能之道: SRE视角下的运维架构实践》适合互联网行业内的运维人员、SRE和DevOps工程师、架构师、技术团队负责人及关注用户体验的相关开发者阅读,也适合掌握了一定的SRE方法论但在实践中无从下手的读者阅读。

书籍目录:

开端篇 弱化边界感 第1章 引言 1.1 运维架构和SRE 1.2 理解业务,技术为业务服务 1.3 不设边界 1.4 SRE金字塔 1.5 总结 第2章 重视测试环境和预发布环境 2.1 提效和维稳的第一道门槛——测试环境 2.1.1 低级错误 2.1.2 提效分析 2.2 “守门员”——预发布环境 2.2.1 低级错误 2.2.2 提效分析 2.3 两大环境问题根本原因溯源 2.4 微拍堂测试环境治理思路介绍 2.5 总结 监控篇 底层逻辑的艺术 第3章 浅谈监控系统设计 3.1 梳理监控体系 3.2 梳理监控指标 3.3 变更监控 3.4 准实时系统监控 3.5 短时进程追踪工具 3.6 全链路监控 3.7 商业监控平台的选用建议 3.8 监控方式:白盒监控与黑盒监控 3.9 从监控数据中总结规律 3.10 黄金指标 3.11 总结 第4章 云原生可观测性开源工具——Kindling 4.1 行业现状 4.2 Kindling解决方案——关联内核可观测性数据的Trace 4.3 Kindling探针的架构设计理念 4.4 Kindling探针架构 4.4.1 内核态程序:drivers 4.4.2 用户态C/C++程序:kindling-probe 4.4.3 用户态Go程序:kindling-collector 4.4.4 程序间通信方式 4.5 在线Demo介绍 4.6 案例分享 4.6.1 安装 4.6.2 功能介绍 4.6.3 稳定性价值 4.7 总结 第5章 高阶实战——打造可持续维护的闭环流程 5.1 案例:动态观测SQL质量流程设计 5.1.1 分析规范难以落地的原因 5.1.2 监督与管控流程设计 5.1.3 通知和统计 5.2 案例:WebP格式图片的规范和落地实践 5.2.1 规范无法持续推广 5.2.2 成本和用户体验上的双赢 5.2.3 计划实施 5.2.4 管控机制 5.2.5 采集数据信息和数据加工处理 5.2.6 巡检平台之规范化监督 5.3 案例:管道通信规范化实践 5.3.1 我们每天都在使用管道 5.3.2 管道示例场景及性能说明 5.3.3 如何规范管道使用场景 5.4 标准和规范治理平台 5.4.1 现状 5.4.2 设计思路 5.5 总结 第6章 挖掘Nginx的监控价值 6.1 URI指纹服务设计 6.2 Nginx日志分析指南 6.2.1 参数白名单 6.2.2 URI的响应时间和HTTP状态监控 6.2.3 URI响应字节数波动分析 6.2.4 查询URL请求的项目 6.2.5 注意HTTPS的透传 6.2.6 利用Nginx完成动态全链路比例调整 6.3 总结 故障篇 故障的生命周期 第7章 事前治理的方法论 7.1 从故障中总结经验 7.2 从系统资源层面和日志中巡检异常 7.3 从标准和规范中寻找闭环之路 7.4 从业务中挖掘基础服务的使用问题 7.5 技术风险防控运营成本 7.6 总结 第8章 变更管控设计思路 8.1 变更管控 8.1.1 变更对象 8.1.2 变更发布 8.1.3 变更可灰度 8.1.4 变更可回滚 8.1.5 变更可监控 8.1.6 配置项变更 8.1.7 变更管控思路 8.2 JumpServer使用的艺术及工单交互 8.3 变更三板斧:运维团队的可监控、可灰度、可回滚实践 8.3.1 案例:云服务器资源伸缩稳定性 8.3.2 案例:CDN OpenResty的变更策略 8.4 总结 第9章 轮值的设计思路 9.1 值班模式探究 9.1.1 让开发人员参与其中 9.1.2 制定KPI 9.1.3 值班人员的边界探讨 9.2 值班机器人 9.3 提升值班价值——SRE需求池设计 9.3.1 结合日常巡检与非值班时间 9.3.2 在烦琐的工作中收集需求 9.4 总结 第10章 故障演练与应急预案 10.1 故障演练缘由 10.1.1 更好地面对系统规模增长带来的复杂性 10.1.2 提升故障的排查速度 10.1.3 验证应急预案的正确性 10.1.4 验证基础设施的稳定性 10.1.5 验证监控感知能力 10.1.6 验证应急流程的顺畅度 10.2 故障演练流程 10.2.1 故障演练场景关键要素 10.2.2 故障演练预期 10.3 应急预案 10.3.1 应急场景标准化 10.3.2 梳理应急预案清单 10.4 总结 第11章 应急响应流程实践 11.1 收拢故障上报来源 11.1.1 从技术体系内部发现 11.1.2 从技术体系外部发现 11.2 建立应急小组 11.2.1 人多力量弱 11.2.2 稳定性接口人和岗位权限 11.2.3 完善客诉标准化术语 11.3 故障噪点治理 11.3.1 报警治理 11.3.2 设计外部反馈阈值 11.3.3 收集第三方抖动事件 11.4 控制应急节奏 11.4.1 舍小保大 11.4.2 “优先止血”,后续定位根本原因 11.4.3 及时同步信息,减少信息差 11.5 应急“止血”的常见操作 11.5.1 代码回滚 11.5.2 重启 11.5.3 时序监控下的限流、熔断、扩容 11.5.4 业务降级 11.5.5 阻断慢查询 11.5.6 网络与运营商 11.5.7 重识监控 11.6 总结 第12章 静态容灾降级系统 12.1 荆棘之路 12.2 设计之路 12.3 架构流程图 12.3.1 反向代理系统 12.3.2 日志分析系统 12.3.3 后台系统——利用URI指纹服务 12.3.4 爬虫系统 12.3.5 容灾的缓存系统 12.3.6 基于时间的版本用途 12.3.7 异地容灾 12.4 核心代码解说 12.4.1 Ngx_Lua应用 12.4.2 爬虫和日志分析系统的关系 12.4.3 完全容灾和部分容灾功能 12.5 静态容灾的智能关闭方案 12.5.1 从日志分析系统复制请求 12.5.2 利用GoReplay复制流量 12.5.3 利用Nginx的mirror镜像功能 12.5.4 灰度验证容灾系统缓存——闭环设计 12.6 替换爬虫的新思路 12.7 总结 第13章 基于OpenResty的动态限流设计思路 13.1 常见反向代理限流方案缺点分析 13.2 动态限流设计思路 13.3 多维度限流 13.4 智能感知响应能力动态控速设计方案 13.5 屏蔽慢请求带来的服务阻塞 13.6 总结 第14章 故障复盘 14.1 复盘前 14.2 复盘中 14.3 复盘后 14.4 自省 14.5 跨部门分享 14.6 故障库 14.7 总结 容量篇 性能与成本间的平衡 第15章 成本优化 15.1 成本优化事前准备 15.1.1 目标的制定和价值体现 15.1.2 IT成本与人力成本的权衡 15.1.3 提升对系统的理解 15.1.4 评估优化前后的数据统计及业务影响 15.1.5 从用户体验看待成本优化 15.1.6 梳理业务和资源的关系 15.2 公有云基础资源优化实践 15.2.1 成本管理白皮书 15.2.2 合理化资源使用率 15.2.3 自建产品和云产品的使用场景优化 15.2.4 基于业务场景的成本控制 15.3 总结 第16章 智能伸缩平台 16.1 弹性伸缩平台关键路径盘点 16.2 基础设施建设 16.2.1 基于Pod的HPA传统模式 16.2.2 基于Cluster-Autoscaler的Node伸缩 16.3 基于业务场景的实战 16.3.1 定时伸缩 16.3.2 基于预测的弹性伸缩 16.4 风险控制体系 16.4.1 动态限流触发规则 16.4.2 扩容节点失败和业务降级 16.5 总结 第17章 容量规划 17.1 容量规划现状 17.2 容量规划建设思路 17.2.1 建设核心 17.2.2 建设思路 17.3 应用系统容量规划说明 17.4 基于巡检模式的容量评估流程 17.4.1 对流量来源的梳理 17.4.2 对容量对象的梳理 17.4.3 收集日常关键性数据 17.5 对容量规划关注点的梳理 17.5.1 压力测试 17.5.2 业务放量 17.5.3 大促活动 17.5.4 秒杀业务 17.5.5 关注运营活动计划 17.5.6 尖刺限流 17.6 总结 第18章 编程能力 18.1 养成写伪代码的习惯 18.2 养成管理代码的习惯 18.3 编程能力分级 18.4 编程能力更深层的价值探讨 18.4.1 如何看待PHP短连接问题 18.4.2 理解Redis和Memcached在业务场景上的区别 18.4.3 进程、线程、协程在Linux系统中的表现 18.4.4 探究阻塞和非阻塞、异步和同步在系统中的表现 18.4.5 共享内存 18.4.6 尝试一些导致进程崩溃的操作 18.4.7 学习秒杀系统的业务架构 18.4.8 给自己的代码做闭环实践 18.4.9 参与业务开发日常 18.5 熟悉编程语言特性 18.6 通过系统分析倒推应用配置问题 18.6.1 通过access函数发现PHP性能问题 18.6.2 Java连接池失效 18.7 总结 全局视角篇 运维破圈 第19章 开启测试视角 19.1 测试人员的职责边界 19.2 压力测试 19.2.1 压测黑名单思维 19.2.2 压测利器Wrk 19.2.3 流量镜像工具GoReplay 19.3 自动化测试监控平台设计 19.3.1 “牵一发而动全身”的迭代 19.3.2 OpenDiffy介绍 19.3.3 变更管控的支撑系统OpenDiffy+GoReplay 19.4 破坏性测试探究 19.5 从前端的体验“找碴儿” 19.5.1 基于浏览器特性的服务优化 19.5.2 从图片加载中寻找优化方法 19.5.3 数据埋点的发送频率 19.5.4 域名的使用限制 19.5.5 请求重复性 19.5.6 PageSpeed Insights分析页面的加载 19.5.7 定期的内耗分析 19.6 总结 第20章 开启用户视角 20.1 内外兼顾 20.1.1 内部用户 20.1.2 外部用户 20.2 建立反馈机制 20.2.1 优化客服反馈机制 20.2.2 与客服合作的案例分享 20.2.3 奖励机制 20.2.4 关注舆情 20.3 产品体验——谷歌SRE的高阶思维 20.3.1 不仅仅是体验 20.3.2 交互烦琐 20.3.3 无人问津 20.3.4 ROI 20.4 防御体系的“误伤”指南 20.4.1 WAF“误伤” 20.4.2 内部风控“误伤” 20.5 关注客户端环境 20.5.1 客户端机型配置 20.5.2 网络 20.6 总结 第21章 开启前端和App开发人员视角 21.1 概述 21.2 为什么要解决性能问题 21.3 缓存 21.3.1 强缓存 21.3.2 协商缓存 21.4 网络请求 21.4.1 HTTP/2.0 21.4.2 DNS预解析 21.4.3 预先建立连接 21.4.4 服务器应该避免过多重定向 21.5 客户端计算 21.6 预加载 21.7 梳理技术风险 21.7.1 请求阻塞式串行加载 21.7.2 埋点发送过于频繁 21.7.3 弱网下的资源加载降级 21.7.4 拨测 21.8 总结 第22章 DNS应用场景实践 22.1 利用DNS完成故障转移 22.2 使用HTTPDNS提升访问稳定性 22.3 提升测试、A/B测试等环境的切换效率 22.4 域名反向解析用途实践 22.5 内部DNS系统高可用实践 22.5.1 两次DNS故障 22.5.2 问题和思考 22.5.3 改进措施 22.5.4 配置及验证 22.5.5 监控 22.6 总结 性能篇 SRE进阶之路 第23章 高并发网关价值探究 23.1 通用功能介绍 23.2 网关中的聚合模式 23.2.1 Lura启示录 23.2.2 APISIX中的batch-requests插件 23.2.3 从GraphQL发现的技术实践思路 23.3 兼顾缓存的网关设计思路 23.3.1 APISIX的proxy-cache插件 23.3.2 利用聚合拼接缓存资源 23.3.3 鉴权和缓存剥离 23.4 总结 第24章 高性能Varnish缓存系统 24.1 HTTP缓存对后端服务的价值分析 24.2 CDN缓存和Varnish缓存的共存模式 24.3 安装Varnish和所需模块 24.4 配置文件概览 24.5 稳定性建设所依赖的功能 24.5.1 神圣模式 24.5.2 宽限模式——异步缓存更新 24.5.3 更安稳的软清除 24.6 最佳实践 24.6.1 动态缓存时间配置 24.6.2 热Key及秒杀系统的缓存实践 24.6.3 后端服务故障转移 24.6.4 高并发下Varnish启动参数优化 24.6.5 Varnish配置模板优化实践 24.6.6 测试环境缓存系统的干扰事件 24.7 总结 第25章 SRE漏斗优化法则 25.1 SRE性能优化之漏斗优化法则 25.2 漏斗优化法则的技术栈梳理 25.2.1 减少访问量 25.2.2 减少返回的数据 25.2.3 减少交互次数 25.2.4 降低CPU、内存使用率 25.2.5 提升资源利用率 25.3 总结 第26章 awesome性能分析工具 26.1 站在巨人的肩膀上工作 26.1.1 系统性能分析常见清单 26.1.2 bcc-tools工具清单 26.1.3 火焰图 26.2 Netdata 26.3 总结 第27章 性能优化实践锦集 27.1 TIME_WAIT优化方案扩展 27.2 利用Ngx_Lua缩短请求链路 27.3 eBPF在Kubernetes上的应用 27.3.1 kubectl-trace 27.3.2 使用前提 27.3.3 使用优点 27.3.4 使用场景 27.3.5 安装 27.4 善用CDN 27.4.1 静态加速 27.4.2 动态加速 27.4.3 缓存过期保护策略 27.5 记一次中台服务优化实战 27.5.1 寻找优化目标 27.5.2 抽丝剥茧——尝试优化方案 27.5.3 使用go pprof火焰图发现端倪 27.5.4 回顾复盘 27.6 总结 扩展篇 在团队间搭建桥梁 第28章 业务开发人员视角下的技术风险 28.1 了解业务开发人员 28.1.1 工作内容 28.1.2 废弃十年如一日 28.1.3 重构并非易事 28.1.4 发布前的检查清单 28.1.5 站在巨人的肩膀上编程 28.1.6 拒绝伪需求 28.2 大淘客之旅 28.2.1 对话高层,达成共识 28.2.2 对话业务线负责人 28.2.3 重识目标,各个击破 28.2.4 技术氛围和激励政策 28.2.5 “曲线救国”的技术路线 28.3 总结 第29章 SRE视角全篇总结 29.1 齐心协力 29.1.1 关键要素 29.1.2 华山论剑 29.2 竞品分析——最后1公里 29.3 故障降级系统——来自监控的沟通艺术 29.3.1 抽象业务形态 29.3.2 抽象监控触发条件 29.3.3 收拢零散性的自愈任务 29.4 重识CMDB价值 29.5 总结

作者简介:

王力,资深技术老兵,《Nginx实战:基于Lua语言的配置、开发与架构详解》和《高性能之道:SRE视角下的运维架构实践》作者。15年互联网从业经验,其中有9年电商互联网开发和运维经验,这期间担任过微拍堂运维专家、阿里技术专家、折800运维架构师等,并有5年主导电商大促活动保障的落地经验,推进过折800、微拍堂两家电商平台运维架构从0到1的建设,精通服务的稳定性建设,精通高并发场景下的性能优化和中间件开发,擅长通过架构设计来优化系统复杂度、降本增效。本书提供了一些补充内容(比如对软件安装、配置的讲解等),大家可以搜微信公众号“SRE基础架构”进行查阅。

其它内容:

暂无其它内容!


下载点评

  • 珍藏(910+)
  • 自学(1300+)
  • 兴趣(563+)
  • 水印(215+)
  • 错乱(819+)
  • 经典(657+)
  • 考研(431+)
  • 惊喜(357+)
  • 速度慢(296+)
  • 带书签(593+)
  • 带目录(345+)
  • 无损(626+)
  • 缺章(797+)
  • 自动(795+)
  • 力荐(249+)
  • 低清(993+)
  • 感谢(475+)
  • 可复制(399+)
  • MOBI(517+)

下载评论

  • 用户1723553100: ( 2024-08-13 20:45:00 )

    精校的报告资源,图文设计提升阅读体验,推荐下载。

  • 用户1730942641: ( 2024-11-07 09:24:01 )

    多格式功能搭配MOBI/TXT格式,完整数字阅读体验,值得收藏。

  • 用户1727077863: ( 2024-09-23 15:51:03 )

    高清版本报告资源,PDF/TXT格式适配各种阅读设备,操作便捷。

  • 用户1726464863: ( 2024-09-16 13:34:23 )

    精校版本学术资源,MOBI/AZW3格式适配各种阅读设备,值得收藏。

  • 用户1742427622: ( 2025-03-20 07:40:22 )

    秒传下载PDF/TXT文件,无损学术推荐收藏,推荐下载。


相关书评