淺友們大家好~我是史中,我的日常生活是開撩五湖四海的科技大牛,我會嘗試各種姿勢,把他們的無邊腦洞和溫情故事講給你聽。如果你特別想聽到誰的故事,不妨加微信(微信號:shizhongmini)告訴我。
阿里造物
文 | 史中
人類對於計算的夢想,像一條河。涓涓細流,奔騰入海。
計算的載體,從樓船一般的大型機,到快艇似的小型機,到如今萬噸巨輪的雲計算,我們的武器如史詩般演化,但背後卻有同一個技術的身影,那就是「虛擬化」。
簡單理解,虛擬化技術就像變形金剛,把無數台計算機「組合」成一台超級計算機,或者把一台整計算機「切割」成無數小計算機。
1962 年誕生的人類第一台超級計算機 Atlas,就用了名為 Supervisor 的虛擬化組件來管理物理主機資源。如今最先進的生產力——雲計算,底層的重要技術也是「虛擬化」。
按照正常的故事劇情發展下去,未來雲計算會成為人類應用的底座,就像我們熟悉的水電一樣。但是,事情並不那麼簡單。
雲計算帶有一道「傷痕」——經過虛擬化技術提供的計算力是「打折」的。
世界因此徘徊不前:
上汽集團曾希望用雲計算來解決汽車仿真的大算力場景需求,但實測結果讓公司大跌眼鏡,虛擬化性能損失高達60%,最終不得不忍痛放棄計劃。
類似的例子比比皆是,而且越是密集計算的場景,虛擬化帶來的損耗問題越明顯,無數企業因此被擋在雲計算的大門之外,眼看著新時代的浪潮奔流走遠。
這個巨大的傷痕,成為了雲計算「房間裡的大象」,人人都能看到它,卻沒人有能力除掉它。以至於到後來, 晶片廠商、虛擬化廠商、雲廠商,整個產業鏈對此諱莫如深,從來沒有人捅破這層窗戶紙。
今天的故事,就從這裡開始。
(一)
2016年底,阿里巴巴幾十位技術「長老」圍坐在會議室里。
這是每年一度阿里巴巴的豐收儀式——「雙11」復盤會。這一年,雙11當天成交額創下了1682億的紀錄,淘寶天貓的後台像一部碩大而精密的數字機器,沒有一個零件掉鏈子。阿里雲費了九牛二虎之力,將虛擬化性能損耗降到了當時業界的最低值,大家臉上自然洋溢著輕鬆和笑意。
輪到行癲發言。
所有人都把目光投向他。在大家心裡,這個阿里巴巴集團首席技術官(CTO)有兩個特色:「善於拿捏理想和現實的技術信徒」+「愛曝金句的耿直 Boy」。
行癲
行癲的套路是這樣的:
每年雙11,他一邊波瀾不驚,一邊啟發大家構想出一些宏大的技術方向,足夠整個阿里巴巴集團接下來奮鬥一整年,今年也不例外。
我們要定義哪些是核心問題,然後根本性地解決它。比如,虛擬化損耗問題就是之一。我們的目標很簡單,必須想辦法把損耗降到「0」。
行癲對滿屋子人說。
會議室里的這些技術宅聽完差點一口老血噴出來。阿里巴巴過去二十年雖然逆天,但我們已經膨脹到想要挑戰幾十年來的行業潛規則了麼??
故事講到這裡,需要先按一下暫停鍵。中哥強勢插入給你科普一下:雲計算的性能損耗究竟是怎麼來的?
你肯定熟悉你自己的電腦。如果你把你家的計算機想像成一塊蛋糕。那麼,雲計算就是一塊「雙層蛋糕」。雙層蛋糕的下面一層是無數台和你家電腦一樣的物理機,上面一層是無數虛擬機。
你去購買雲計算,買的可不是下面的物理機,而是上面的虛擬機。
這樣對你來說其實更舒爽:
比如你今天需要一台阿里雲的4核8G的伺服器,明天需要一台8核16G的伺服器,不用重新攢電腦,只要輕輕點一個按鍵,你的虛擬機就自動變大了。至於下面的物理機怎麼調度,那不是你的事兒,是阿里雲的事兒。
而把物理機變成虛擬機的這個技術,就是「虛擬化」。
好,重點來了:「虛擬化」的舒爽不是白白得來的,它的代價就是性能損耗。
舉個例子:假設你是廠長,工廠流水線上有104個工人,你一個人管不過來104人,他們經常上班摸魚。於是你從中選出8個小組長,每個小組長管12名工人。這樣一來,生產秩序加強了,但是有8個本來能幹活的人做了管理工作——原來絕對生產力是104分,現在只剩下96分了。
在這個例子裡,我們就說「虛擬化的性能損耗大概是8%」。
同樣,在2017年,雲計算的性能損耗也差不多在這個量級。粗略地說:104個CPU放在一起,要有8個CPU做「管理」,剩下96個才是幹活的。你算算,這個損耗也是8%。
用初中物理知識想想也知道,虛擬化性能損耗這件事兒,是天經地義的。最多只能無限降低,不能消失。
好,科普完畢,我們回到雙11復盤會上。
行癲提的目標很美好,讓CPU全部用於真正的計算。如果成功把虛擬化損耗降下來,絕對是雲計算歷史上的大功一件,那些企業上雲最後的顧慮也將煙消雲散。但這個技術難度,似乎不亞於證明「哥德巴赫猜想」。。。
圍坐的人里,有一個人心裡「咯噔」一下——因為這是他的職責範圍。
此人名叫旭卿,阿里雲彈性計算的技術負責人,聽到行癲「點將」,按捺不住內心的激動。因為這也是他團隊一直想做的事情,只是如何實現,還拿捏不准。
旭卿
當然,過去幾年,世界主流的雲計算玩家都在試圖通過各種「補丁方案」降低資源損耗,阿里雲也沒閒著。
2015年,阿里雲的底層虛擬化技術架構被更換掉(從 Xen 到 KVM),虛擬化的開銷從極端場景的超過一半,降低到了平均10%的水平。
2016年,阿里雲越來越穩定,用戶也開始迅速超過百萬。但在當時的虛擬化架構路線上,這10%的「硬核開銷」基本上屬於奧特曼消滅不了的小怪獸。
那次會議結束後,阿里雲副總裁李津就拉著旭卿團隊促膝長談,他們追蹤到了一個行業真相:
過去晶片商、硬體商、虛擬化軟體廠商等幾乎所有的角色一如既往地扮演好自己的角色,按照各自的進化邏輯和速度演進,他們之間的配合就成了「三不管地帶」——虛擬化損耗被視作必然。
在計算力規模較小的時候這不會被當做是個大問題,然而放在數百萬台規模的雲計算時代,這個損耗才異常可觀。
李津和旭卿一致認為,事到如今,再研究「補丁方案」肯定沒戲,必須在計算體系結構上做創新:
以往的解決路線都是讓虛擬化軟體去遷就CPU的特性,好比是讓管理學符合流水線工人,明擺著強扭的瓜不甜。
而阿里雲的新計劃則是讓「上帝的歸上帝,凱撒的歸凱撒」:新造出一個帶有智能晶片的專用板卡負責虛擬化調度,從而把那些CPU解救出來。
也就是說不從原來的工人里選拔小組長,而是阿里巴巴自己研製一個「專業組長」,直接空降管理104個工人,這樣104個工人不就都可以全力幹活了麼?
大概就像醬
看完方案之後,大家眼珠一轉,技術構想很NB,沒意見。但問題有兩個:
第一、做晶片,做板卡,這可都是門檻極高的硬體設計。。。
第二、舉頭望去,就連世界公認的雲計算領頭羊,亞馬遜 AWS,也沒聽說有這麼激進的「硬體計劃」。
看這意思,整套事情玩下來,難度不亞於兩萬五千里長征,未來一年團隊可要生死未卜咯。
(二)
平心而論,這是一條很激進的路線。
這相當於要首次實現雲、虛擬化和晶片的技術大融合。旭卿掰著手指頭數,要想召喚神龍,至少需要四顆龍珠:
龍珠一、虛擬化軟體開發;
龍珠二、軟硬體銜接的中間層;
龍珠三、核心晶片設計;
龍珠四、硬體(板卡、伺服器)設計。
虛擬化軟體開發就是團隊的原班人馬,勝任這次技術改革不在話下。當時的虛擬化技術負責人叫子團,他是個玩賽車的技術宅,對新技術總是保持著賽車般激情,子團聽後異常興奮,主動請纓帶著團隊開干。
而硬體、晶片方面,阿里也做過一些技術積累,曾經自研了快閃記憶體 AliFlash、全快閃記憶體存儲伺服器泰山、光模塊、以及大容量存儲伺服器貔貅、液冷伺服器、自研數據中心等等。
只不過,現在還必須要有一支專門為這一項目服務的技術團隊。
阿里的液冷伺服器集群
軟硬體中間層,旭卿腦海里冒出一個人選,此人花名行憲,當時供職於某著名外國晶片公司北京分公司。
那天下午,旭卿電話突然響起,一個好朋友告訴他一個驚天秘密——行憲所在的部門要被那家外企整體裁撤。。。
旭卿兩隻眼睛噴出了火,就直接打車去機場。從首都機場再打車到西二旗時,已經夜裡十點多了。旭卿給行憲打電話,明天早晨找你談談。
第二天早晨咖啡館剛開門,行憲就到了。沒想到旭卿更早,已經在門口蹲了半天。。。
行憲順利加盟。
「當時我就知道,這事兒成了一半兒!」旭卿回憶。
行憲外向又暖男的性格,加上精湛的技術,使得他團隊的兄弟們一直很信任他。結果,聽說他加盟了阿里雲,兄弟們紛紛給他打電話,想繼續跟著他做研究。
確認過眼神,行憲張開懷抱,加上兄弟團隊的人馬,這部分研發陣容妥妥齊備。
行憲
現在龍珠只剩下最後一顆——晶片研發的負責人。說實話,中國好的晶片人才屈指可數,短時間要找到合適的人選堪比登天。。。
但眼看還有一個多月就要過春節了,旭卿下令,硬著頭皮先開始干!行憲團隊算是半個晶片團隊,先兼職晶片設計,如果有些功能不會用晶片搞定,就只能「繞個路」,用軟體替代。
團隊第一次跑通驗證程序,已經是來年早春三月了。
那天是個周六,大夥都堆在項目室,誰都不想休息,因為驗證結果馬上就要出來了。
然而,最終在螢幕上跑出的數據給大伙兒潑了一盆冷水——「延遲」指標遠高於預期。
仔細分析之後,大家基本定位出了原因:有些坑繞是繞不過去的。這顆晶片是造也得造,不造也得造。
當務之急是找到一位晶片大牛。
那兩天,行憲魂不守舍,第二天周日本來他要開車去燕郊參加同學聚會,結果滿腦子都在想這事兒,連著開錯了兩個高速口。他怕出事故,只好把車停在路邊讓自己冷靜一下。
就在這時,收到一條老友的信息,聽說行憲在找晶片人才,給他推薦了一個厲害的人選,漸名。
旭卿得知自己苦苦尋找的晶片人才終於要有著落,像當年「追」行憲一樣,又開始三顧茅廬對漸名發起愛的攻擊,終於感動了漸名。
漸名
和行憲外向的性格形成鮮明反差,漸名是個技術宅,不看廣告看療效的那種。
多說一句,這裡漸名做的晶片不是從頭自研一款晶片,而是用的行業內比較成熟的「可編程晶片」,在現成的晶片上設計邏輯。由於時間和能力所限,這算是個最客觀的妥協方案。(當然,這也成為了另一個故事的序章,我們後面還會說。)
行憲記得很清楚,漸名是帶著行軍床進辦公室的。兩個月時間,他就沒回家幾次。那天他找到行憲,淡淡地說了句:「晶片這邊設計得差不多了,你再測測。」
大家圍攏過來,看到各項測試結果都「超常發揮」。大伙兒輪番抱著顯示器上的參數合影留念,看起來就像一群傻子。
此時旭卿手裡已經基本集齊了龍珠,接下來只待召喚「神龍」。
大家開了個會,討論新研製的這套伺服器到底要叫個什麼名字。有一位工程師說:「既然是召喚神龍,那我們就叫「神龍雲伺服器」如何!」
同學們一聽,紛紛露出「哎呦不錯哦」的表情,能飛天的不就是「神龍」嘛!
接下來的幾個月里,產品經理霽榮在各研發團隊奔走呼號,跟進團隊內部和外部所有相關大牛們的研究進度,保證大家在承諾的時間裡完成各自的技術準備。
(三)
就在行憲他們死去活來折騰核心技術的時候,旭卿一刻都沒閒著。他心心念念惦記著做硬體設計的兄弟團隊。
2017年初,旭卿和硬體團隊的芳志一起去台灣出差。
大巴車裡,旭卿往芳志旁邊一坐,開始了唐僧般的念叨,從盤古開天地,到神龍伺服器,說了個遍。
很多人還不知道,為什麼阿里巴巴會有一個硬體設計團隊,這裡多聊幾句八卦。
從2014年開始,阿里雲就遇到一個重大的問題:買來的標準伺服器,「七國八制」,總是出現各種「么蛾子」,今天這裡不穩定,明天那裡不適配。每天芳志的團隊都四處滅火,生無可戀。
從那時開始,阿里巴巴就走上了定製伺服器的道路。功能規格、接口標準都由自己規定好,伺服器廠商按照這個規格研發生產,問題就少多了。
到了2016年,阿里巴巴更進一步,已經開始完全自己設計伺服器。CPU和內存選型、存儲、主板設計、電源、甚至散熱元件都在設計圖里清晰地設計好,伺服器廠商只管去生產交付就好了。
所以,有關伺服器底層硬體設計,經過這麼多年錘鍊,伺服器研發團隊是門兒清的。
阿里巴巴的定製伺服器
初一聽到旭卿的構想,芳志的反應和其他同事差不多。「總感覺有點離經叛道,但又覺得值得試一試。。。」他後來回憶。
於是,晶片設計和軟體架構基本確定下來後,伺服器硬體團隊馬上開始和他們一起做關鍵器件選型。
漸名的晶片方案驗證差不多後,接下來芳志團隊就要開始設計搭載這塊晶片的板卡了。大家給這塊卡起了個名字,叫「MOC卡」。
大家想像了一下 「MOC卡」的樣子,應該看上去有點像一個顯卡。
但是真到具體設計的時候,童鞋們開始頭大了。
「說實話,好歹我在這個行業里也摸爬滾打十五年了,這是我見過最複雜的板卡,沒有之一。」芳志說。
芳志
由於複雜度太高,在寫電路設計的時候,哪怕只有一根線路設計出現錯誤,都會導致板卡點不亮。這種情況一旦發生,只能推倒重來,返廠大吉。
返廠不僅會造成巨大的成本浪費,還會直接讓2017年雲棲大會發布神龍雲伺服器的夢想泡湯。
就在設計圖交給工廠之前,團隊的童鞋通宵一周,你給我檢查,我給你檢查,一個點一個點看,一個電路一個電路查。送走設計圖的時候,就像老父親目送進京趕考的兒子一般。。。
2017年夏天,第一版MOC卡實物終於從工廠運了過來。
MOC卡
硬體的同學們摩挲著自己的作品,沉甸甸地,像塊磚頭,愛不釋手。他們忐忑地把板卡插進機箱。。。。「點亮啦!」屋子裡一片沸騰。在如此高壓高強度的工作狀態下,如此複雜的電路設計沒有出現一處錯誤,這群阿里人用事實證明了自己在硬體領域的專業性。
MOC卡的照片通過釘釘群傳輸到北京,所有人一片歡呼。
為了測試板卡工程結構上的可靠性,他們把MOC卡泡在裝滿紅墨水的容器里,撈出來晾乾,然後直接用鉗子把晶片一個個拽下來,查看裡面是否曾有液體滲入,結果非常滿意,裡面完全沒有墨水痕跡,說明晶片引腳的焊接也是天衣無縫。
到8月中旬整個產品軟硬體全部驗證完成,但留給中國隊的時間不多了。帶有MOC卡的神龍雲伺服器火速放量生產,像螞蟻搬家一樣進入阿里雲的「蛋糕底層」,成為無數台物理機的一部分。
2017年10月12日。雲棲大會。
李津在沒有任何高能預警的情況下,在台上突然發布「神龍雲伺服器」,並且宣布神龍是「現貨」——從當天開始,客戶就可以購買神龍雲伺服器做為硬體底層的阿里雲計算資源。
雲棲大會上 李津發布神龍雲伺服器
業界爆燃。
當天下午,在只能容納100人的神龍的技術論壇上,生生擠進去了300人。後來保安人肉堵住門口,才算作罷。
更神奇的事情發生了。
就在那次雲棲大會之後的一個月,大洋彼岸的雲計算全球老大亞馬遜 AWS,在他們的「雲棲大會」 ——Reinvent 大會上同樣發布了類似的硬體虛擬化技術。他們的虛擬化架構叫做 Nitro。
AWS 發布 Nitro
聽到這個消息,旭卿全明白了,原來 AWS 也早就秘密開始研究和神龍一樣的技術,不同的是 AWS 的晶片來自他們2015年初收購的以色列晶片初創公司 Annapurna Labs。兩家公司出於最高級別的保密,相互一點風聲都沒走漏。
大洋兩岸的兩家公司通過這種方式隔空致意,英雄相惜。這像是雲計算的一場「生物大進化」,雲計算朝著「IT行業的水電煤」又邁進了一步。
「那一刻我終於知道,我們不再孤單了。」旭卿感慨。
旭卿的慨嘆,其實每一個阿里雲人都感同身受。
亞馬遜是世界上第一家雲計算巨頭,用「開創了雲計算時代」來形容它絲毫不過分。中哥曾在另一篇文章《阿里雲的這群瘋子》里詳細寫過阿里雲的創業故事。2009年王堅帶領阿里雲的兄弟們篳路藍縷地長征,很大程度上也是將亞馬遜AWS視作自己的鏡像。
那時候,阿里雲雖然艱難,但前路終歸有一盞燈。而開發神龍的時候,研發團隊是兩眼一抹黑的。所以,當他終於知道阿里雲的創新和AWS居然是同一個方向,而這一次阿里雲居然還領先AWS一個月時,心中的驕傲如火山噴涌。
神龍天降,馬上投入戰鬥。
截止2019年10月,世界各大廠商自研軟硬體一體架構的進度
(四)
購買神龍雲伺服器的網頁快被擠爆了。
第一時間購買神龍的客戶大概分三類:
1、好奇的用戶——他們來嘗鮮;
2、雲計算的同行——他們來看看阿里雲有沒有吹牛;
3、傳統企業——他們早就迫不及待地想上雲,但之前傳統的雲計算架構並不適合他們,神龍架構卻是他們的菜。
之前提到的上汽是第一個吃螃蟹的人。他們透露,相比過去使用傳統超算服務,使用神龍超算集群汽車仿真計算效率提升25%;吉利集團也將全部仿真業務在神龍超級計算集群,過去平均排隊2個月的任務,現在平均2周搞定。
為什麼用傳統雲架構不行,換成了神龍雲架構就行了呢?
這裡中哥多解釋一句。
很多傳統企業,例如製造業,從90年代就採用了物理機架構,那時候還沒有雲計算,所以他們自己構建了一套虛擬化架構(很可能選用的是VMware)。
現在傳統企業要向上雲,就面臨兩難了:
1、把這套虛擬化架構原封不動地裝在雲計算本身的虛擬化架構里,就會出現「嵌套虛擬化」的問題,大概就像《盜夢空間》里描述的那樣,在一個夢境里又做了一個夢,這樣會讓虛擬化性能開銷飆升,跑起來比拖拉機還慢,完全不能忍。。。
2、就算企業為了上雲,下決心重新構建一套適應雲計算架構的軟體,又會發現上下游供應商他們用的體系還是傳統架構,又出現了豬隊友接口不兼容的問題。。。
這就叫嵌套虛擬化
由於神龍雲伺服器自身的虛擬化動作都被「藏」到了MOC卡里,對於傳統企業來說,神龍機和物理機沒區別。所以把原來的系統原封搬上來,既不會造成性能損失,又不用面臨和上下游接口不符的問題。
神龍雲伺服器上 MOC卡已經把虛擬化的活兒給乾了
雲的好處全都有了,過去的不方便又全沒了,世界上還有這樣的好事兒。很多傳統企業紛紛開始大量選購阿里雲。
為此,2018年,行癲將阿里巴巴集團唯一一個企業端產品創新突破獎頒給了神龍。
但在阿里雲眼中,此時的神龍還未強大到能支撐起所有計算需求。這是為啥呢?
之前我們提到,虛擬化其實分成兩個方向:
一個方向是虛擬化組合:把一堆物理機粘成一個大的虛擬機;
一個方向是虛擬化切分:把一個物理機切成一堆小的虛擬機。
剛才為了不打擾你聽故事,中哥沒有說得很細:作為第一代產品,神龍雲伺服器用MOC卡實現的硬體虛擬化,其實只能滿足第一個方向。
每一個神龍雲伺服器,就像一塊樂高積木,很多樂高積木拼起來組成更大的積木,這沒問題,但一個樂高積木本身沒辦法再切分。
神龍架構的虛擬化組合,大概就是這個樣子
結論很明確:第一代神龍架構其實是缺一條腿的——它只能支撐一半的雲計算場景。
如果神龍架構不僅能做到虛擬化組合,還能夠做到虛擬化切分,那麼它就可以替換掉阿里雲現有的所有伺服器,實現全部升級了。
這就是神龍2.0的任務。
當時的神龍,已經不是當初一個小團隊「自娛自樂」了,它是要支撐阿里雲很多業務的。但凡拖延,後果不堪設想。說白了,這次技術升級是干也得干,不幹也得干。
神龍2.0交付日期臨近,團隊手忙腳亂,人手嚴重不足。
這時,有一個人能緊急調動所有人的資源,那就是阿里雲智能基礎產品事業部總經理小邪。實際上,在神龍研發早期,小邪就對這個技術寄予厚望。
小邪在阿里巴巴的技術體系里「摸爬滾打」十年,他曾參與集團首次大規模技術改造項目——「五彩石戰役」,非常清楚神龍對阿里雲乃至整個行業的價值。如果說五彩石打通的是淘寶、天貓的架構和數據,那麼神龍統一的則是阿里雲的底層基礎設施。
小邪
神龍不只是顛覆計算服務這麼簡單,它還會推動雲平台上存儲、網絡、資料庫等等基礎技術的躍進!
小邪在飛天2.0啟動會上如是說。
那段時間,小邪在各團隊奔走呼號,在他的感召下,無數兄弟部門加入戰鬥序列,為新一代神龍貢獻力量。
正如那句話,如果你知道要去哪裡,全世界都會為你讓路。
2018年8月份,阿里雲終於如約把新一代神龍架構的這套代碼完成了——虛擬化層被做薄,損耗率被大幅降低。
第二代神龍架構 大概是這樣
這下旭卿「手裡有糧,心中不慌」了——凡是能用傳統雲計算架構實現的,神龍架構都能實現!而這也意味著,雲伺服器首次實現了整顆CPU用於計算任務,在算力資源緊缺的時代,這一突破極具意義。
在第二代產品成型後,神龍這幫人就奔走呼號,邀請阿里巴巴內部的各個業務團隊「吃狗糧」——不僅要多用阿里雲,還要認準神龍雲伺服器作為底層的阿里雲。
阿里巴巴內部使用神龍雲伺服器的雲計算,和外部客戶買阿里雲的流程是一樣的,特別簡單,只要在網頁上點幾下,就相當於過去採購了幾千台機器搬到機房。
時間來到2018年雙11,投入戰鬥的神龍雲伺服器已經初具規模,團隊再次嚴陣以待。
雖然對自己的技術有信心,但這畢竟是神龍第一次抵禦這麼大的流量洪峰,大家心裡還是很緊張。
所有人都圍在「作戰室」,盯著神龍的後台數據。結果,神龍雲伺服器的CPU占用率非常平穩,幾乎是一根直線,像假的一樣。據估算,2018年雙11當天,大部分雲部分峰值流量都是神龍雲伺服器扛下來的。
不僅如此,在有些業務中,用神龍的虛擬化架構,比直接用物理機還快。雖然這看起來不科學,但其實也在團隊的意料之中。
因為阿里雲的很多業務是跑在時下正流行的「容器」中,而容器技術有個顯著特點:它本身是基於雲架構設計的。
所以,本來容器技術跑在雲架構里就比物理機里更如魚得水,加上神龍機本身的計算性能和物理機一樣快,整體的性能就超越了物理機。
這一仗打得漂亮。
(五)
2019年春節回來,行癲又組織技術長老們開了一次重磅會議。
這次會上,他又提出了一個非常激進的計劃——「從此刻開始,全集團不再購進一台物理機,所有新增計算力全部上阿里雲」。
就在2019年4月。集團又發布了一條新的決定:
集團上雲,全部採用神龍雲伺服器架構。
從2009年創業,到現在已經10年,阿里雲服務了上百萬家客戶,但多數企業出於嘗鮮的目的——把驗證性的工作放在雲上,生產任務仍舊在自己的環境里,換句話說,還不夠相信雲足夠靠譜。如今,阿里巴巴宣布所有業務上雲,是對阿里雲技術實力的最高認可,也給了全行業做出了信心表率。從王堅以來,一代代技術人,終於守得雲開見月明。
在這之後,神龍一路狂奔,在2019的杭州雲棲大會上,第三代神龍發布。經過實測,第三代神龍作為底層架構的雲計算,絕大多數指標都優於傳統架構的雲計算。所有人都意識到,這是一個可怕的「新物種」。
馬不停蹄,時間又沖向了2019年的11月11日——「雙11」。
這一年雙11,總成交額定格在了2684億,比上一年暴增四分之一。就在24點的最後衝刺之前,從舞台暗區走上來一個神秘人,他就是行癲。作為阿里巴巴技術帶頭人,他居然是第一次從雙11的幕後來到聚光燈下。
他開心到連自我介紹都有些語塞,但這是我所見過他最暢快淋漓的演講。
峰值每秒544000筆訂單,沒有任何抖動,阿里雲承載阿里巴巴自己100%的核心系統,這個是我們全球第一個做到的!從此以後,所有用戶都可以更放心地把自己的核心系統放在阿里雲上!
那一刻,他仿佛代表身後無數技術人,暫時忘記代碼的嚴謹和硬體的低調,只是享受聚光燈的溫暖。
行癲
事實也正是如此,基於神龍架構的雲服務不僅大規模應用於淘寶、天貓、菜鳥等業務,還吸引了一大批擁躉客戶:上汽、吉利、曠視科技,不一而足。
而這次技術變革帶來的影響正在迅速蔓延,全球雲廠商都在跟進採用類似的技術路線,中國創造的「神龍」正在成為伺服器的世界標準。未來一旦全世界雲計算廠商疊代結束,節省的計算資源會是一個天文數字。
三年歷程,神龍雛形初現,凡此劫難,九死一生。
哪怕倒退五年,可能也絕不會有人想到,阿里巴巴這家電商基因的公司,會有勇氣跳入泥潭,花費數億投入去研發網際網路底層的單元——伺服器。而且一出手就不是世界上的「又一台」伺服器,而是「另一種」伺服器。
但站在歷史的岸邊,完整目睹變遷的過來人也許能體會,阿里造物,真正的幕後推手是「時代」二字。
我在《阿里雲的這群瘋子》里寫到,當年阿里雲的創建,就是因為阿里巴巴面臨越來越重的伺服器和存儲負擔。時任阿里巴巴首席架構師王堅給馬雲算了一筆帳,如果不上雲,單單購買IBM的小型機和Oracle的資料庫,就能讓阿里巴巴破產。
而一代技術總會遇到規模瓶頸。技術競爭正如升級打怪,你跑得比別人靠前,就比別人更早遇到這一關的大BOSS。
當年那代阿里雲人,從第一行代碼開始,寫出了阿里雲底層調度系統「飛天」,成功幹掉了那個年代的大 BOSS。旭卿這代人登上舞台時,阿里雲服務的人越來越多,場景越來越複雜,新的 BOSS 就在眼前。
真正的技術人,其實從來沒有退路。
前路總會荊棘坎坷。坐在原地,可能一生至死都不會遇到驚濤駭浪。但那些遠處的峻峭風景,也隨之在你生命的可能性里永久消失。
正如《約翰·克利斯朵夫》所寫:人生是一場不停的,無情的戰鬥。向前,向前,永遠不要停。
在之前的故事裡,我曾經埋下一個伏筆,那就是神龍伺服器的那塊核心晶片。我說那片 FPGA 是現成的可編程晶片,是個「妥協方案」。
於是你可能想起,2018年雲棲大會,阿里巴巴宣布了一件大事,那就是成立了自己的晶片公司「平頭哥」。
過去幾個月,平頭哥連續發布玄鐵、無劍、含光。
於是,中哥有了一個大膽的猜想。經過從阿里雲內部多方打聽,我確信了一點:平頭哥正在研製的晶片中,至少有一款將要用在神龍雲伺服器中,替代之前旭卿一直在使用的妥協方案「FPGA」。
也就是說,下一代神龍雲伺服器將會搭載一顆阿里巴巴自研的晶片。
粗略算來,僅僅阿里巴巴一家公司,利用阿里雲提供的服務就可以觸達十億人,而在阿里雲上,還有幾百萬其他客戶,他們同樣可以觸達數億人。加總起來,神龍伺服器中平頭哥晶片所能影響到的人次,將突破十幾億。
那將是中國晶片的里程碑。
那也將是下一個故事。
飛鳥掠過這片古老的大地,此時此刻,正有無數中國人自己設計的神龍伺服器,從各條生產線上噴涌而出,構築起我們生存在這個星球上堅如鋼鐵的計算力。
身處時代大潮中,人們往往不會注目那些英雄們的身影。只有當世界終於被改變,你我才會在餘暉的岸邊回首舊日,恍然想起那一個個閃亮的瞬間。
再自我介紹一下吧。我叫史中,是一個傾心故事的科技記者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmini
或者關注微博:@史中方槍槍 @淺黑科技
你還可以搜索我們的知識星球:淺黑科技
不想走丟的話,你也可以關注我的公眾號「淺黑科技」。(記得給淺黑加星標哦)
生死看淡
不服就干