課程簡介
在數(shù)字化轉(zhuǎn)型加速的背景下,企業(yè)面臨技術(shù)架構(gòu)復(fù)雜化與業(yè)務(wù)高頻迭代的雙重挑戰(zhàn)。站點可靠性工程(SRE)通過工程化思維和自動化實踐,構(gòu)建高擴展性、高可用性的系統(tǒng)架構(gòu),從被動運維轉(zhuǎn)向主動韌性保障。本課程深度解析SRE體系方法論,結(jié)合頭部企業(yè)實戰(zhàn)案例,并融入大模型技術(shù)的前沿應(yīng)用,助力團隊實現(xiàn)運維效率與業(yè)務(wù)穩(wěn)定性的雙重突破。
目標(biāo)收益
1. SRE體系構(gòu)建:掌握SRE核心框架與Google實踐(錯誤預(yù)算、50%研發(fā)時間原則),推動團隊工程化轉(zhuǎn)型。
2. 自動化與穩(wěn)定性:實現(xiàn)運維標(biāo)準(zhǔn)化;通過SLO管理及混沌工程提升系統(tǒng)容錯性。
3. 數(shù)據(jù)驅(qū)動運維:構(gòu)建可觀測性體系,結(jié)合LLM實現(xiàn)智能診斷與自愈,故障恢復(fù)時間縮短80%。
4. 組織與文化落地:建立無責(zé)難復(fù)盤機制,推動開發(fā)運維融合(如開發(fā)參與On-Call),設(shè)計SRE團隊模型。
5. 混沌工程:主動注入故障(如網(wǎng)絡(luò)隔離),驗證系統(tǒng)韌性。
6. 容量規(guī)劃:基于負載預(yù)測的動態(tài)資源伸縮,資源利用率提升30%。
7. 團隊模型:基礎(chǔ)架構(gòu)/工具/業(yè)務(wù)SRE分層協(xié)作,業(yè)務(wù)方參與SLO制定。
培訓(xùn)對象
* 企業(yè)類型:主要面向互聯(lián)網(wǎng)企業(yè),以及有意引入 SRE 團隊模式,實現(xiàn)運維體系轉(zhuǎn)型升級的傳統(tǒng)企業(yè)。
* 技術(shù)崗位:適合運維工程師、運維研發(fā)人員、SRE 工程師、軟件研發(fā)人員、技術(shù)經(jīng)理、架構(gòu)師等技術(shù)崗位人員參與學(xué)習(xí)。
課程大綱
引子 | 從相關(guān)概念講起,將業(yè)務(wù)的分析與現(xiàn)狀相結(jié)合,參考成功的案例靈活運用。 |
概念拉齊(0.5h) SRE 原則與實踐 |
詳細闡釋 SRE 的定義、內(nèi)涵,深入探究其發(fā)展起源,全面介紹 SRE 在國內(nèi)的落地實踐情況,讓學(xué)員對 SRE 形成系統(tǒng)認(rèn)知,解讀 SRE 的核心原則,結(jié)合實際場景介紹 SRE 工程師的日常工作內(nèi)容與職責(zé),幫助學(xué)員了解 SRE 的工作模式。 1.什么是站點可靠性工程? 2.SRE的發(fā)展歷史介紹 3.SRE 和 DevOps:有什么區(qū)別? 4.SRE 原則與慣例 5.SRE的目標(biāo)是什么? |
SRE 協(xié)同(1h) SRE 協(xié)同、拉通、保障、推動 |
講解 SRE 在團隊中的關(guān)鍵作用,如何了解業(yè)務(wù),根據(jù)業(yè)務(wù)來做全流程的拉通,在這過程中會面臨的挑戰(zhàn)與解決方案。 1.SRE的核心是如何拉通開發(fā)、測試協(xié)同工作,有哪些方法論及技巧 2.SRE如何跟不同產(chǎn)品線業(yè)務(wù)溝通制定slo,并提供不同的sla? 3.混沌、容災(zāi)、全鏈路監(jiān)控、故障處理根據(jù)業(yè)務(wù)形態(tài)的調(diào)整 4.SRE 如何推動產(chǎn)品不斷完善產(chǎn)品架構(gòu),提升SLO 5.SRE與運維的思維模式差異在哪里? |
組織架構(gòu)(1h) 組織如何采用 SRE |
分析國內(nèi)企業(yè)的SRE現(xiàn)狀,以及向SRE模式轉(zhuǎn)型過程中可能面臨的挑戰(zhàn),如文化沖突、技術(shù)難題等,并提供切實可行的應(yīng)對策略與取舍建議。 1.不同企業(yè)的 SRE架構(gòu)長什么樣? 2.SRE 如何根據(jù)業(yè)務(wù)及人員情況構(gòu)建組織架構(gòu)及人員規(guī)模 3.不同崗位人員能力如何配備 4.組織如何做出架構(gòu)的調(diào)整與人員心態(tài)的調(diào)整 5.如何解決并處理相關(guān)的沖突 |
架構(gòu)體系(1.5h) SRE之:架構(gòu)設(shè)計及研發(fā)保障 |
整體介紹 SRE 穩(wěn)定性保障的核心前提:了解運維體系,參加技術(shù)架構(gòu)設(shè)計、為穩(wěn)定性目標(biāo)做好重要的前置保障,讓學(xué)員對該體系有宏觀的認(rèn)識。 1.企業(yè)的運維體系簡介 2.運維架構(gòu)簡介 3.SRE與業(yè)務(wù)整體研發(fā)架構(gòu)設(shè)計 4.架構(gòu)設(shè)計保障 a.架構(gòu)的韌性 b.架構(gòu)的高可用性 c.架構(gòu)的可運維性 5.研發(fā)流程保障 a.代碼規(guī)范 b.倉庫的可靠性 c.構(gòu)建的效率及成功率 d.部署的成功率 |
案例介紹(1h) SRE企業(yè)應(yīng)用落地 案例(金融) |
從案例中吸引經(jīng)驗 1.背景 2.SRE 團隊規(guī)模及職責(zé) 3.SRE 處理工作流程 4.整體運維工具支撐介紹 5.能力構(gòu)建路徑、串講 |
監(jiān)控系統(tǒng)(1.5h) 核心工具:可觀測監(jiān)控系統(tǒng) |
全鏈路監(jiān)控在SRE的工作中起到核心作用,如何快速構(gòu)建業(yè)務(wù)監(jiān)控體系,化“被動”為“主動”。 1.監(jiān)控源:物理、平臺、虛擬機、業(yè)務(wù)、鏈路 2.監(jiān)控的核心指標(biāo)定義 3.網(wǎng)絡(luò)鏈接監(jiān)控的定義與方法 4.監(jiān)控數(shù)據(jù)的消費 5.如何分析業(yè)務(wù)模型,建立起監(jiān)控體系 6.監(jiān)控與其它系統(tǒng)的自動化建設(shè) |
企業(yè)案例(1.5h) 企業(yè)運維案例(證券/銀行/金融等) |
1.企業(yè)針對工具的靈活運用 2.如何將工具打造成平臺,一步步建設(shè)的思路 3.流程與 SRE 結(jié)合情況(審批場景下如何做到效率與流程最優(yōu)?) 4.如何高效利用工具解決場景化問題 |
流程與規(guī)范(1h) 問題處理流程、變更流程與規(guī)范(itsm在sre里的運用) |
區(qū)分不同的問題處理流程,將SRE從繁瑣的中斷工作中解放出來,聚集于核心事件的處理,同時變更感知,變更防御等角度出發(fā)學(xué)會挖掘變更的潛在價值,并通過可視化手段展示變更效果,為決策提供支持。 1.問題處理流程 a. ITSM的設(shè)計 2.變更流程 a.變更的管控環(huán)節(jié) b.變更的控制 c.門禁 3.變更的工程設(shè)計 4.變更與其它工具的串聯(lián) |
SRE應(yīng)急與故障處理(1h) ONCALL |
發(fā)現(xiàn)問題,如何快速解決問題,是SRE的核心技能,之前學(xué)習(xí)的各種方法論與技巧,將在這里進行完整的總結(jié)與升華。 1.故障體系介紹 a.故障的定義 b.故障與業(yè)務(wù)的關(guān)聯(lián) 2.SRE 故障處理思路 a.預(yù)防思路 b.故障協(xié)同 c.復(fù)盤方法 3.重大技術(shù)保障設(shè)計 a.整體設(shè)計 b.流程與方法 |
持續(xù)優(yōu)化與運營(1h) 線上業(yè)務(wù)的長期工作 |
1.用戶體驗優(yōu)化 2.業(yè)務(wù)全生命周期管理 a.業(yè)務(wù)全流程 b.業(yè)務(wù)的串聯(lián)講解 3.運營成本優(yōu)化 a.成本監(jiān)控 b.成本分析 c.成本優(yōu)化 4.運維日常管理 a.中斷工程管理 |
大模型時代(0.5h) 穩(wěn)定性領(lǐng)域的大模型探索 |
1.技術(shù)基礎(chǔ)與趨勢:大模型概念、發(fā)展歷程、核心技術(shù)原理;穩(wěn)定性領(lǐng)域挑戰(zhàn)及大模型的價值;行業(yè)應(yīng)用現(xiàn)狀與未來趨勢。 2.故障預(yù)測與智能運維:基于大模型的故障預(yù)測方法;智能運維決策支持機制;實際案例分析。 3.講講運維知識庫的構(gòu)建(RAG) |
討論(1h) 客戶場景分組討論 |
解決學(xué)員的疑問 學(xué)員分組,根據(jù)公司現(xiàn)狀結(jié)果課程內(nèi)容討論出解決方案,現(xiàn)場點評 |
引子 從相關(guān)概念講起,將業(yè)務(wù)的分析與現(xiàn)狀相結(jié)合,參考成功的案例靈活運用。 |
概念拉齊(0.5h) SRE 原則與實踐 詳細闡釋 SRE 的定義、內(nèi)涵,深入探究其發(fā)展起源,全面介紹 SRE 在國內(nèi)的落地實踐情況,讓學(xué)員對 SRE 形成系統(tǒng)認(rèn)知,解讀 SRE 的核心原則,結(jié)合實際場景介紹 SRE 工程師的日常工作內(nèi)容與職責(zé),幫助學(xué)員了解 SRE 的工作模式。 1.什么是站點可靠性工程? 2.SRE的發(fā)展歷史介紹 3.SRE 和 DevOps:有什么區(qū)別? 4.SRE 原則與慣例 5.SRE的目標(biāo)是什么? |
SRE 協(xié)同(1h) SRE 協(xié)同、拉通、保障、推動 講解 SRE 在團隊中的關(guān)鍵作用,如何了解業(yè)務(wù),根據(jù)業(yè)務(wù)來做全流程的拉通,在這過程中會面臨的挑戰(zhàn)與解決方案。 1.SRE的核心是如何拉通開發(fā)、測試協(xié)同工作,有哪些方法論及技巧 2.SRE如何跟不同產(chǎn)品線業(yè)務(wù)溝通制定slo,并提供不同的sla? 3.混沌、容災(zāi)、全鏈路監(jiān)控、故障處理根據(jù)業(yè)務(wù)形態(tài)的調(diào)整 4.SRE 如何推動產(chǎn)品不斷完善產(chǎn)品架構(gòu),提升SLO 5.SRE與運維的思維模式差異在哪里? |
組織架構(gòu)(1h) 組織如何采用 SRE 分析國內(nèi)企業(yè)的SRE現(xiàn)狀,以及向SRE模式轉(zhuǎn)型過程中可能面臨的挑戰(zhàn),如文化沖突、技術(shù)難題等,并提供切實可行的應(yīng)對策略與取舍建議。 1.不同企業(yè)的 SRE架構(gòu)長什么樣? 2.SRE 如何根據(jù)業(yè)務(wù)及人員情況構(gòu)建組織架構(gòu)及人員規(guī)模 3.不同崗位人員能力如何配備 4.組織如何做出架構(gòu)的調(diào)整與人員心態(tài)的調(diào)整 5.如何解決并處理相關(guān)的沖突 |
架構(gòu)體系(1.5h) SRE之:架構(gòu)設(shè)計及研發(fā)保障 整體介紹 SRE 穩(wěn)定性保障的核心前提:了解運維體系,參加技術(shù)架構(gòu)設(shè)計、為穩(wěn)定性目標(biāo)做好重要的前置保障,讓學(xué)員對該體系有宏觀的認(rèn)識。 1.企業(yè)的運維體系簡介 2.運維架構(gòu)簡介 3.SRE與業(yè)務(wù)整體研發(fā)架構(gòu)設(shè)計 4.架構(gòu)設(shè)計保障 a.架構(gòu)的韌性 b.架構(gòu)的高可用性 c.架構(gòu)的可運維性 5.研發(fā)流程保障 a.代碼規(guī)范 b.倉庫的可靠性 c.構(gòu)建的效率及成功率 d.部署的成功率 |
案例介紹(1h) SRE企業(yè)應(yīng)用落地 案例(金融) 從案例中吸引經(jīng)驗 1.背景 2.SRE 團隊規(guī)模及職責(zé) 3.SRE 處理工作流程 4.整體運維工具支撐介紹 5.能力構(gòu)建路徑、串講 |
監(jiān)控系統(tǒng)(1.5h) 核心工具:可觀測監(jiān)控系統(tǒng) 全鏈路監(jiān)控在SRE的工作中起到核心作用,如何快速構(gòu)建業(yè)務(wù)監(jiān)控體系,化“被動”為“主動”。 1.監(jiān)控源:物理、平臺、虛擬機、業(yè)務(wù)、鏈路 2.監(jiān)控的核心指標(biāo)定義 3.網(wǎng)絡(luò)鏈接監(jiān)控的定義與方法 4.監(jiān)控數(shù)據(jù)的消費 5.如何分析業(yè)務(wù)模型,建立起監(jiān)控體系 6.監(jiān)控與其它系統(tǒng)的自動化建設(shè) |
企業(yè)案例(1.5h) 企業(yè)運維案例(證券/銀行/金融等) 1.企業(yè)針對工具的靈活運用 2.如何將工具打造成平臺,一步步建設(shè)的思路 3.流程與 SRE 結(jié)合情況(審批場景下如何做到效率與流程最優(yōu)?) 4.如何高效利用工具解決場景化問題 |
流程與規(guī)范(1h) 問題處理流程、變更流程與規(guī)范(itsm在sre里的運用) 區(qū)分不同的問題處理流程,將SRE從繁瑣的中斷工作中解放出來,聚集于核心事件的處理,同時變更感知,變更防御等角度出發(fā)學(xué)會挖掘變更的潛在價值,并通過可視化手段展示變更效果,為決策提供支持。 1.問題處理流程 a. ITSM的設(shè)計 2.變更流程 a.變更的管控環(huán)節(jié) b.變更的控制 c.門禁 3.變更的工程設(shè)計 4.變更與其它工具的串聯(lián) |
SRE應(yīng)急與故障處理(1h) ONCALL 發(fā)現(xiàn)問題,如何快速解決問題,是SRE的核心技能,之前學(xué)習(xí)的各種方法論與技巧,將在這里進行完整的總結(jié)與升華。 1.故障體系介紹 a.故障的定義 b.故障與業(yè)務(wù)的關(guān)聯(lián) 2.SRE 故障處理思路 a.預(yù)防思路 b.故障協(xié)同 c.復(fù)盤方法 3.重大技術(shù)保障設(shè)計 a.整體設(shè)計 b.流程與方法 |
持續(xù)優(yōu)化與運營(1h) 線上業(yè)務(wù)的長期工作 1.用戶體驗優(yōu)化 2.業(yè)務(wù)全生命周期管理 a.業(yè)務(wù)全流程 b.業(yè)務(wù)的串聯(lián)講解 3.運營成本優(yōu)化 a.成本監(jiān)控 b.成本分析 c.成本優(yōu)化 4.運維日常管理 a.中斷工程管理 |
大模型時代(0.5h) 穩(wěn)定性領(lǐng)域的大模型探索 1.技術(shù)基礎(chǔ)與趨勢:大模型概念、發(fā)展歷程、核心技術(shù)原理;穩(wěn)定性領(lǐng)域挑戰(zhàn)及大模型的價值;行業(yè)應(yīng)用現(xiàn)狀與未來趨勢。 2.故障預(yù)測與智能運維:基于大模型的故障預(yù)測方法;智能運維決策支持機制;實際案例分析。 3.講講運維知識庫的構(gòu)建(RAG) |
討論(1h) 客戶場景分組討論 解決學(xué)員的疑問 學(xué)員分組,根據(jù)公司現(xiàn)狀結(jié)果課程內(nèi)容討論出解決方案,現(xiàn)場點評 |