構築成功之橋:從組織文化到 SRE 實施

2023-07-02     InfoQ

原標題:構築成功之橋:從組織文化到 SRE 實施

作者 | Vladyslav Ukis

譯者 | 張衛濱

策劃 | 丁曉昀

引 言

西門子健康集團的 teamplay 數字健康平台和應用是一個大型的分布式組織,由 25 個團隊組成,擁有醫療領域不同的眾多數字服務。

該組織經歷了一次 SRE 轉型,這是一次深刻的社會性技術變革,改變了生產經營的技術、流程和文化。在本文中,我們將重點討論:

  • 在 SRE 轉型之初,如何在生產經營方面評估組織文化?
  • 如何創建一個隨著時間推移不斷累積小規模文化變革的路線圖?
  • 領導層如何推動必要的文化變革?

評估組織文化的必要性

在引入 SRE 時,很容易直接跳到變革的技術部分,並開始著手實施新的工具、基礎設施和儀錶盤。

毋庸置疑的是,這些製品本身不足以動搖一個組織的生產運營方式。SRE 轉型在很大程度上是一個社會性技術(sociotechnical)變革。

變革的「社會(socio)」部分需要從 SRE 轉型的一開始就發揮同樣的作用。

在這種情況下,從生產運營的角度評估組織目前的文化是很用的。這會帶來如下的好處:

  • 它能夠讓推動轉型的 SRE 教練了解當前組織中對生產運營的態度。
  • 它能夠揭示組織在信息共享、決策制定、協作、學習和其他方面有可能加速或阻礙 SRE 轉型的運營方式,這些方式可能是非常微妙且難以察覺的。
  • 它能夠激發組織轉向 SRE 的熱情,並且能夠首次預測演進的速度。

既然存在這些收益,那麼該如何從生產運營的角度來評估組織文化呢?這就是下一節的主題。

如何評估組織文化?

有種流行的組織文化拓撲學是由 Ron Westrum 提出的 Westrum 模型。該模型根據組織處理信息的方式,將文化分為病態型、官僚型和生機型:

  • 病態型文化是以權力為導向的
  • 官僚型文化是以規則為導向的
  • 生機型文化則是以績效為導向的

基於 Westrum 模型,谷歌的 DevOps 研究和評估(DORA)項目通過嚴格的研究發現,生機型文化會促成高效的軟體交付。根據 Westrum 模型,生機型高效文化包含如下六個方面:

這六個方面可以用來評估一個組織的運營文化。要做到這一點,需要將這六個方面映射到 SRE 中,以了解文化的目標狀態。基於我的圖書「Establishing SRE Foundations」,下表提供了如下的映射。

有了上表中定義的目標狀態,SRE 教練就可以分析他們的組織目前距離目標文化狀態還有多遠。

隨著時間推移積累小規模的文化變革

SRE 教練了解現狀之後,就可以開始 SRE 轉型的活動了。這些活動將會包括技術、流程和行為的改變。為了推進這項運動,SRE 教練需要尋找小的行為變化、對此進行慶祝,並按照這樣的方式緩步前行,隨時間推移進行積累。

例如,如下所列的小變化可以逐步促成更大的行為變化,隨著時間的推移,將組織的文化逐步推向上一節中所描述的目標狀態。

上表中的文化變革是通過正式領導和非正式領導的相互作用來推動的。我們將會在下一節描述這種推動力。

正式領導和非正式領導的相互作用

在每一個層級化的組織中,都會有一些領導者,他們因為在組織結構圖中的位置而獲取相應的權力。如果這些領導者在更廣闊的組織內得到信任,那麼他們努力的成果就會成倍增加,因為在組織內,他們有大量的追隨者。

同時,在很多層級化的組織中,都存在非正式的領導者,他們並沒有正式的權力,因為在組織結構圖中他們沒有正式的位置。但是,他們已經贏得了整個組織的信任。這種信任也能使他們努力的成果得到成倍增加,因為組織中有大量的人自願跟隨他們。

在下表中,我們總結了正式領導和非正式領導類型。

最左邊和最右邊的列描述了一個關於領導力的良好組合,它能夠提供必要的環境,有利於在組織內自上而下和自下而上地推動 SRE。在 SRE 轉型的動態環境中,它能夠保持一致性、穩定性並堅定信心。團隊會認為正式的領導者支持 SRE,而非正式的領導者則能夠幫助推動整個組織必要的心態、技術和流程變革。這能夠最大化 SRE 轉型成功的可能性。

來自一線的經驗

上述的文化評估方法幫助西門子健康集團的數字健康平台組織成功地推動業務向 SRE 方向發展。在本節中,我們將會介紹一些從 SRE 轉型一線獲取的真正經驗。

經驗 1:從一開始就讓產品所有者參與進來

我們得到的最深刻的經驗之一就是讓產品所有者從一開始就參與到 SRE 轉型中。對於產品所有者來說,SRE 的價值在於減少客戶因為數字服務沒有達到預期效果而導致的問題升級。這些問題升級是令人討厭的、耗時的,並且會導致管理層不必要的關注。這為產品所有者參加 SRE 會議提供了動力,在這種會議上會定義 SLO 並討論相關的流程。

在 SRE 會議上,產品所有者需要:

  • 從業務角度提供關於客戶最重要流程的背景知識
  • 根據會議中討論的成本,評估更高的可靠性所帶來的商業價值
  • 通過從一開始就參與 SRE 討論,進一步了解生產運營
  • 了解如何以數據驅動的方式考慮對可靠性和新特性進行投資的優先級

經驗 2:讓開發人員的注意力首先放到生產環境上

對於剛接觸軟體即服務的組織來說,主要的問題在於,開發人員不習慣關注生產環境。相反,在傳統方式中,他們的世界以特性描述為始,以特性實現為終。在生產環境中運行特性並不在他們的關注範圍之內。這就是我們的組織在 SRE 轉型之初的情況。

在這種情況下,SRE 轉型之初最具影響力的里程碑事件就是讓開發人員將注意力轉移到生產環境上。這是一個 80/20 類型的里程碑,20% 的努力帶來了 80% 的改善。

對於開發人員來說,定義完美的 SLO 和錯誤預算策略並沒有那麼重要。相反,重要的是為開發人員提供基本的工具和初始的動力,讓他們將注意力轉移到生產環境中。在獲取運維軟體的新習慣時,定期花費時間對生產環境進行分析就成功一半了。

做到這些之後,應用 SRE 方法的準確性就可以逐步實現了。

經驗 3:不要害怕讓團隊一開始就快速失敗

按照我們的經驗,在定義最初的 SLO 時,團隊一開始會傾向於高估其服務的可靠性。他們傾向於設置比服務的平均水平更高的 SLO。同樣的,他們傾向於設置比服務可以達到更嚴格的延遲 SLO。

在這個初始階段,試圖說服團隊放鬆最初的 SLO 是徒勞的,即便是歷史數據有時候也無法說服團隊。我們發現,快速失敗的方式實際上是最有效的。

我們按照團隊的建議設置了 SLO,沒有進行過多的爭論。毫不意外,團隊被大量的 SLO 告警淹沒了。下一次 SRE 會議的主題不可避免地變成了團隊無法處理大量的告警。

這使團隊充分理解了他們的 SLO 決定的後果。於是,重新定義 SLO 的過程開始了。這正是我們需要的:一個來自生產環境是否滿足 SLO 的強大反饋循環,這促成了對 SLO 的重新評估。

經驗 4:構建正式領導者和非正式領導者的聯盟

我們發現,由正式領導者和非正式領導者組成的聯盟在組織中倡導 SRE 是非常有用的。非正式的領導自學了 SRE,對將它引入到組織中充滿了熱情。為了實現這一點,他們需要正式領導的支持,以便於團隊投入 SRE 相關的工作。

非正式領導者需要向正式領導推銷 SRE 方案,承諾減少因為服務中斷所導致的客戶問題升級。這些對話一般會發生在研發主管和運營主管身上。反過來,這些領導者需要向整個領導團隊推銷 SRE 方案,以便於將該主題列入組織的重大行動清單中。

這樣做之後,就會形成一個強大的組合,即有足夠多的正式領導者支持 SRE,SRE 列入到了組織的重大行動清單中,還有一群充滿活力的非正式領導準備在整個組織內推動 SRE。

這種組織狀態有利於使用 SRE 實現成功的生產運營!

總 結

對於剛剛接觸數字化服務運營的軟體交付組織來說,SRE 轉型是一個巨大的社會性技術變革。變化的速度在很大程度上取決於目前的組織文化。人們對生產環境運營的態度和看法才是需要搬掉的最大絆腳石,而不是人們日常使用的工具和儀錶盤。

因此,在開始 SRE 轉型之前評估組織文化是一項非常有用的工作。它能夠讓推動轉型的 SRE 教練了解組織目前在運營文化方面的情況。它進一步點燃了一個有價值的思考過程,也就是如何將文化發展到 SRE。

作者簡介:

Vladyslav Ukis 博士畢業於德國 Erlangen-Nuremberg 大學的計算機科學專業,後來又畢業於英國曼徹斯特大學。他在每次畢業後都加入了西門子健康集團,並一直從事軟體架構、企業級架構、創新管理、私有雲和公共雲、團隊管理、工程管理、產品套件管理、合作夥伴管理以及數字化轉型等方面的工作。他目前擔任西門子健康集團 teamplay 數字健康平台的研發主管。2022 年,他在 Addison-Wesley 出版的「Establishing SRE Foundations」一書中分享了他的 DevOps 知識。

原文連結:

Assessing Organizational Culture to Drive SRE Adoption (https://www.infoq.com/articles/assess-culture-sre-adoption/)

聲明:本文為 InfoQ 翻譯,未經許可禁止轉載。

點擊底部閱讀原文訪問 InfoQ 官網,獲取更多精彩內容!

今日好文推薦

對話用友王文京,探尋企業數智化的「密鑰」

Electron末日來了?又一應用將其拋棄!WhatsApp強制推行原生應用:速度更快、內存占用更少

獨家對話金蝶李帆:企業級PaaS平台將如何引領企業的科技創新?

紅帽對 RHEL 下游造成毀滅性打擊!停止公開企業版原始碼,要擠占開源份額實現盈利?

文章來源: https://twgreatdaily.com/zh-sg/e2713adb765e21d722baa7241f3ebca6.html