架構(gòu)師
互聯(lián)網(wǎng)
運維
轉(zhuǎn)型
工程化
數(shù)字化轉(zhuǎn)型
大模型
推薦課程
average > 0 ? $model->average . '分' : '10.0分' ?>

SRE運維最佳實踐

劉雨航

一線互聯(lián)網(wǎng)公司 運維架構(gòu)師

擅長實戰(zhàn),長期在一線作戰(zhàn),具有超過10年以上自動化運維經(jīng)驗和技術(shù)管理經(jīng)驗,豐富的自動化架構(gòu)設(shè)計,DevOps,AIOps落地方案。曾負責(zé)主導(dǎo)微服務(wù)整體自動化架構(gòu)、分布式系統(tǒng)自動化管理平臺、融合云平臺自動化管理、分布式監(jiān)控平臺、運營數(shù)據(jù)分析平臺等。實踐超過萬臺服務(wù)器規(guī)模的管理和運維,從0至1打造到傳統(tǒng)自動化運維平臺。曾受邀在國內(nèi)頂級技術(shù)大會擔(dān)任講師,出品人,并發(fā)表自動化運維,DevOps相關(guān)的技術(shù)演講。

擅長實戰(zhàn),長期在一線作戰(zhàn),具有超過10年以上自動化運維經(jīng)驗和技術(shù)管理經(jīng)驗,豐富的自動化架構(gòu)設(shè)計,DevOps,AIOps落地方案。曾負責(zé)主導(dǎo)微服務(wù)整體自動化架構(gòu)、分布式系統(tǒng)自動化管理平臺、融合云平臺自動化管理、分布式監(jiān)控平臺、運營數(shù)據(jù)分析平臺等。實踐超過萬臺服務(wù)器規(guī)模的管理和運維,從0至1打造到傳統(tǒng)自動化運維平臺。曾受邀在國內(nèi)頂級技術(shù)大會擔(dān)任講師,出品人,并發(fā)表自動化運維,DevOps相關(guān)的技術(shù)演講。

課程費用

6800.00 /人

課程時長

2

成為教練

課程簡介

在數(shù)字化轉(zhuǎn)型加速的背景下,企業(yè)面臨技術(shù)架構(gòu)復(fù)雜化與業(yè)務(wù)高頻迭代的雙重挑戰(zhàn)。站點可靠性工程(SRE)通過工程化思維和自動化實踐,構(gòu)建高擴展性、高可用性的系統(tǒng)架構(gòu),從被動運維轉(zhuǎn)向主動韌性保障。本課程深度解析SRE體系方法論,結(jié)合頭部企業(yè)實戰(zhàn)案例,并融入大模型技術(shù)的前沿應(yīng)用,助力團隊實現(xiàn)運維效率與業(yè)務(wù)穩(wěn)定性的雙重突破。

目標(biāo)收益

1. SRE體系構(gòu)建:掌握SRE核心框架與Google實踐(錯誤預(yù)算、50%研發(fā)時間原則),推動團隊工程化轉(zhuǎn)型。
2. 自動化與穩(wěn)定性:實現(xiàn)運維標(biāo)準(zhǔn)化;通過SLO管理及混沌工程提升系統(tǒng)容錯性。
3. 數(shù)據(jù)驅(qū)動運維:構(gòu)建可觀測性體系,結(jié)合LLM實現(xiàn)智能診斷與自愈,故障恢復(fù)時間縮短80%。
4. 組織與文化落地:建立無責(zé)難復(fù)盤機制,推動開發(fā)運維融合(如開發(fā)參與On-Call),設(shè)計SRE團隊模型。
5. 混沌工程:主動注入故障(如網(wǎng)絡(luò)隔離),驗證系統(tǒng)韌性。
6. 容量規(guī)劃:基于負載預(yù)測的動態(tài)資源伸縮,資源利用率提升30%。
7. 團隊模型:基礎(chǔ)架構(gòu)/工具/業(yè)務(wù)SRE分層協(xié)作,業(yè)務(wù)方參與SLO制定。

培訓(xùn)對象

* 企業(yè)類型:主要面向互聯(lián)網(wǎng)企業(yè),以及有意引入 SRE 團隊模式,實現(xiàn)運維體系轉(zhuǎn)型升級的傳統(tǒng)企業(yè)。
* 技術(shù)崗位:適合運維工程師、運維研發(fā)人員、SRE 工程師、軟件研發(fā)人員、技術(shù)經(jīng)理、架構(gòu)師等技術(shù)崗位人員參與學(xué)習(xí)。

課程大綱

引子 從相關(guān)概念講起,將業(yè)務(wù)的分析與現(xiàn)狀相結(jié)合,參考成功的案例靈活運用。
概念拉齊(0.5h)
SRE 原則與實踐
詳細闡釋 SRE 的定義、內(nèi)涵,深入探究其發(fā)展起源,全面介紹 SRE 在國內(nèi)的落地實踐情況,讓學(xué)員對 SRE 形成系統(tǒng)認(rèn)知,解讀 SRE 的核心原則,結(jié)合實際場景介紹 SRE 工程師的日常工作內(nèi)容與職責(zé),幫助學(xué)員了解 SRE 的工作模式。
1.什么是站點可靠性工程?
2.SRE的發(fā)展歷史介紹
3.SRE 和 DevOps:有什么區(qū)別?
4.SRE 原則與慣例
5.SRE的目標(biāo)是什么?
SRE 協(xié)同(1h)
SRE 協(xié)同、拉通、保障、推動
講解 SRE 在團隊中的關(guān)鍵作用,如何了解業(yè)務(wù),根據(jù)業(yè)務(wù)來做全流程的拉通,在這過程中會面臨的挑戰(zhàn)與解決方案。
1.SRE的核心是如何拉通開發(fā)、測試協(xié)同工作,有哪些方法論及技巧
2.SRE如何跟不同產(chǎn)品線業(yè)務(wù)溝通制定slo,并提供不同的sla?
3.混沌、容災(zāi)、全鏈路監(jiān)控、故障處理根據(jù)業(yè)務(wù)形態(tài)的調(diào)整
4.SRE 如何推動產(chǎn)品不斷完善產(chǎn)品架構(gòu),提升SLO
5.SRE與運維的思維模式差異在哪里?
組織架構(gòu)(1h)
組織如何采用 SRE
分析國內(nèi)企業(yè)的SRE現(xiàn)狀,以及向SRE模式轉(zhuǎn)型過程中可能面臨的挑戰(zhàn),如文化沖突、技術(shù)難題等,并提供切實可行的應(yīng)對策略與取舍建議。
1.不同企業(yè)的 SRE架構(gòu)長什么樣?
2.SRE 如何根據(jù)業(yè)務(wù)及人員情況構(gòu)建組織架構(gòu)及人員規(guī)模
3.不同崗位人員能力如何配備
4.組織如何做出架構(gòu)的調(diào)整與人員心態(tài)的調(diào)整
5.如何解決并處理相關(guān)的沖突
架構(gòu)體系(1.5h)
SRE之:架構(gòu)設(shè)計及研發(fā)保障
整體介紹 SRE 穩(wěn)定性保障的核心前提:了解運維體系,參加技術(shù)架構(gòu)設(shè)計、為穩(wěn)定性目標(biāo)做好重要的前置保障,讓學(xué)員對該體系有宏觀的認(rèn)識。
1.企業(yè)的運維體系簡介
2.運維架構(gòu)簡介
3.SRE與業(yè)務(wù)整體研發(fā)架構(gòu)設(shè)計
4.架構(gòu)設(shè)計保障
a.架構(gòu)的韌性
b.架構(gòu)的高可用性
c.架構(gòu)的可運維性
5.研發(fā)流程保障
a.代碼規(guī)范
b.倉庫的可靠性
c.構(gòu)建的效率及成功率
d.部署的成功率
案例介紹(1h)
SRE企業(yè)應(yīng)用落地 案例(金融)
從案例中吸引經(jīng)驗
1.背景
2.SRE 團隊規(guī)模及職責(zé)
3.SRE 處理工作流程
4.整體運維工具支撐介紹
5.能力構(gòu)建路徑、串講
監(jiān)控系統(tǒng)(1.5h)
核心工具:可觀測監(jiān)控系統(tǒng)
全鏈路監(jiān)控在SRE的工作中起到核心作用,如何快速構(gòu)建業(yè)務(wù)監(jiān)控體系,化“被動”為“主動”。
1.監(jiān)控源:物理、平臺、虛擬機、業(yè)務(wù)、鏈路
2.監(jiān)控的核心指標(biāo)定義
3.網(wǎng)絡(luò)鏈接監(jiān)控的定義與方法
4.監(jiān)控數(shù)據(jù)的消費
5.如何分析業(yè)務(wù)模型,建立起監(jiān)控體系
6.監(jiān)控與其它系統(tǒng)的自動化建設(shè)
企業(yè)案例(1.5h)
企業(yè)運維案例(證券/銀行/金融等)
1.企業(yè)針對工具的靈活運用
2.如何將工具打造成平臺,一步步建設(shè)的思路
3.流程與 SRE 結(jié)合情況(審批場景下如何做到效率與流程最優(yōu)?)
4.如何高效利用工具解決場景化問題
流程與規(guī)范(1h)

問題處理流程、變更流程與規(guī)范(itsm在sre里的運用)
區(qū)分不同的問題處理流程,將SRE從繁瑣的中斷工作中解放出來,聚集于核心事件的處理,同時變更感知,變更防御等角度出發(fā)學(xué)會挖掘變更的潛在價值,并通過可視化手段展示變更效果,為決策提供支持。
1.問題處理流程
a. ITSM的設(shè)計
2.變更流程
a.變更的管控環(huán)節(jié)
b.變更的控制
c.門禁
3.變更的工程設(shè)計
4.變更與其它工具的串聯(lián)
SRE應(yīng)急與故障處理(1h)
ONCALL
發(fā)現(xiàn)問題,如何快速解決問題,是SRE的核心技能,之前學(xué)習(xí)的各種方法論與技巧,將在這里進行完整的總結(jié)與升華。
1.故障體系介紹
a.故障的定義
b.故障與業(yè)務(wù)的關(guān)聯(lián)
2.SRE 故障處理思路
a.預(yù)防思路
b.故障協(xié)同
c.復(fù)盤方法
3.重大技術(shù)保障設(shè)計
a.整體設(shè)計
b.流程與方法
持續(xù)優(yōu)化與運營(1h)
線上業(yè)務(wù)的長期工作
1.用戶體驗優(yōu)化
2.業(yè)務(wù)全生命周期管理
a.業(yè)務(wù)全流程
b.業(yè)務(wù)的串聯(lián)講解
3.運營成本優(yōu)化
a.成本監(jiān)控
b.成本分析
c.成本優(yōu)化
4.運維日常管理
a.中斷工程管理
大模型時代(0.5h)
穩(wěn)定性領(lǐng)域的大模型探索
1.技術(shù)基礎(chǔ)與趨勢:大模型概念、發(fā)展歷程、核心技術(shù)原理;穩(wěn)定性領(lǐng)域挑戰(zhàn)及大模型的價值;行業(yè)應(yīng)用現(xiàn)狀與未來趨勢。
2.故障預(yù)測與智能運維:基于大模型的故障預(yù)測方法;智能運維決策支持機制;實際案例分析。
3.講講運維知識庫的構(gòu)建(RAG)
討論(1h)
客戶場景分組討論
解決學(xué)員的疑問
學(xué)員分組,根據(jù)公司現(xiàn)狀結(jié)果課程內(nèi)容討論出解決方案,現(xiàn)場點評
引子
從相關(guān)概念講起,將業(yè)務(wù)的分析與現(xiàn)狀相結(jié)合,參考成功的案例靈活運用。
概念拉齊(0.5h)
SRE 原則與實踐
詳細闡釋 SRE 的定義、內(nèi)涵,深入探究其發(fā)展起源,全面介紹 SRE 在國內(nèi)的落地實踐情況,讓學(xué)員對 SRE 形成系統(tǒng)認(rèn)知,解讀 SRE 的核心原則,結(jié)合實際場景介紹 SRE 工程師的日常工作內(nèi)容與職責(zé),幫助學(xué)員了解 SRE 的工作模式。
1.什么是站點可靠性工程?
2.SRE的發(fā)展歷史介紹
3.SRE 和 DevOps:有什么區(qū)別?
4.SRE 原則與慣例
5.SRE的目標(biāo)是什么?
SRE 協(xié)同(1h)
SRE 協(xié)同、拉通、保障、推動
講解 SRE 在團隊中的關(guān)鍵作用,如何了解業(yè)務(wù),根據(jù)業(yè)務(wù)來做全流程的拉通,在這過程中會面臨的挑戰(zhàn)與解決方案。
1.SRE的核心是如何拉通開發(fā)、測試協(xié)同工作,有哪些方法論及技巧
2.SRE如何跟不同產(chǎn)品線業(yè)務(wù)溝通制定slo,并提供不同的sla?
3.混沌、容災(zāi)、全鏈路監(jiān)控、故障處理根據(jù)業(yè)務(wù)形態(tài)的調(diào)整
4.SRE 如何推動產(chǎn)品不斷完善產(chǎn)品架構(gòu),提升SLO
5.SRE與運維的思維模式差異在哪里?
組織架構(gòu)(1h)
組織如何采用 SRE
分析國內(nèi)企業(yè)的SRE現(xiàn)狀,以及向SRE模式轉(zhuǎn)型過程中可能面臨的挑戰(zhàn),如文化沖突、技術(shù)難題等,并提供切實可行的應(yīng)對策略與取舍建議。
1.不同企業(yè)的 SRE架構(gòu)長什么樣?
2.SRE 如何根據(jù)業(yè)務(wù)及人員情況構(gòu)建組織架構(gòu)及人員規(guī)模
3.不同崗位人員能力如何配備
4.組織如何做出架構(gòu)的調(diào)整與人員心態(tài)的調(diào)整
5.如何解決并處理相關(guān)的沖突
架構(gòu)體系(1.5h)
SRE之:架構(gòu)設(shè)計及研發(fā)保障
整體介紹 SRE 穩(wěn)定性保障的核心前提:了解運維體系,參加技術(shù)架構(gòu)設(shè)計、為穩(wěn)定性目標(biāo)做好重要的前置保障,讓學(xué)員對該體系有宏觀的認(rèn)識。
1.企業(yè)的運維體系簡介
2.運維架構(gòu)簡介
3.SRE與業(yè)務(wù)整體研發(fā)架構(gòu)設(shè)計
4.架構(gòu)設(shè)計保障
a.架構(gòu)的韌性
b.架構(gòu)的高可用性
c.架構(gòu)的可運維性
5.研發(fā)流程保障
a.代碼規(guī)范
b.倉庫的可靠性
c.構(gòu)建的效率及成功率
d.部署的成功率
案例介紹(1h)
SRE企業(yè)應(yīng)用落地 案例(金融)
從案例中吸引經(jīng)驗
1.背景
2.SRE 團隊規(guī)模及職責(zé)
3.SRE 處理工作流程
4.整體運維工具支撐介紹
5.能力構(gòu)建路徑、串講
監(jiān)控系統(tǒng)(1.5h)
核心工具:可觀測監(jiān)控系統(tǒng)
全鏈路監(jiān)控在SRE的工作中起到核心作用,如何快速構(gòu)建業(yè)務(wù)監(jiān)控體系,化“被動”為“主動”。
1.監(jiān)控源:物理、平臺、虛擬機、業(yè)務(wù)、鏈路
2.監(jiān)控的核心指標(biāo)定義
3.網(wǎng)絡(luò)鏈接監(jiān)控的定義與方法
4.監(jiān)控數(shù)據(jù)的消費
5.如何分析業(yè)務(wù)模型,建立起監(jiān)控體系
6.監(jiān)控與其它系統(tǒng)的自動化建設(shè)
企業(yè)案例(1.5h)
企業(yè)運維案例(證券/銀行/金融等)
1.企業(yè)針對工具的靈活運用
2.如何將工具打造成平臺,一步步建設(shè)的思路
3.流程與 SRE 結(jié)合情況(審批場景下如何做到效率與流程最優(yōu)?)
4.如何高效利用工具解決場景化問題
流程與規(guī)范(1h)

問題處理流程、變更流程與規(guī)范(itsm在sre里的運用)
區(qū)分不同的問題處理流程,將SRE從繁瑣的中斷工作中解放出來,聚集于核心事件的處理,同時變更感知,變更防御等角度出發(fā)學(xué)會挖掘變更的潛在價值,并通過可視化手段展示變更效果,為決策提供支持。
1.問題處理流程
a. ITSM的設(shè)計
2.變更流程
a.變更的管控環(huán)節(jié)
b.變更的控制
c.門禁
3.變更的工程設(shè)計
4.變更與其它工具的串聯(lián)
SRE應(yīng)急與故障處理(1h)
ONCALL
發(fā)現(xiàn)問題,如何快速解決問題,是SRE的核心技能,之前學(xué)習(xí)的各種方法論與技巧,將在這里進行完整的總結(jié)與升華。
1.故障體系介紹
a.故障的定義
b.故障與業(yè)務(wù)的關(guān)聯(lián)
2.SRE 故障處理思路
a.預(yù)防思路
b.故障協(xié)同
c.復(fù)盤方法
3.重大技術(shù)保障設(shè)計
a.整體設(shè)計
b.流程與方法
持續(xù)優(yōu)化與運營(1h)
線上業(yè)務(wù)的長期工作
1.用戶體驗優(yōu)化
2.業(yè)務(wù)全生命周期管理
a.業(yè)務(wù)全流程
b.業(yè)務(wù)的串聯(lián)講解
3.運營成本優(yōu)化
a.成本監(jiān)控
b.成本分析
c.成本優(yōu)化
4.運維日常管理
a.中斷工程管理
大模型時代(0.5h)
穩(wěn)定性領(lǐng)域的大模型探索
1.技術(shù)基礎(chǔ)與趨勢:大模型概念、發(fā)展歷程、核心技術(shù)原理;穩(wěn)定性領(lǐng)域挑戰(zhàn)及大模型的價值;行業(yè)應(yīng)用現(xiàn)狀與未來趨勢。
2.故障預(yù)測與智能運維:基于大模型的故障預(yù)測方法;智能運維決策支持機制;實際案例分析。
3.講講運維知識庫的構(gòu)建(RAG)
討論(1h)
客戶場景分組討論
解決學(xué)員的疑問
學(xué)員分組,根據(jù)公司現(xiàn)狀結(jié)果課程內(nèi)容討論出解決方案,現(xiàn)場點評

課程費用

6800.00 /人

課程時長

2

預(yù)約體驗票 我要分享

近期公開課推薦

近期公開課推薦

活動詳情

提交需求