聯想超算的三張面孔

2019-11-06     淺黑科技



淺友們大家好~我是史中,我的日常生活是開撩五湖四海的科技大牛,我會嘗試各種姿勢,把他們的無邊腦洞和溫情故事講給你聽。如果你特別想聽到誰的故事,不妨加微信(微信號:shizhongmini)告訴我。


聯想超算的三張面孔

文 | 史中


1984年,河北涿州,暖風和煦。

陽光從鑄鐵平推的窗子射進來,屋裡不明不暗。

只是這碩大的房間有點怪異。在四周白牆之中,竟然還套著一個玻璃房子。在玻璃房中間,豎立著一台碩大的機櫃。

這是一台超級計算機,簡稱超算。玻璃房的大門上掛著一把鎖。鎖頭的鑰匙揣在一個大鼻子藍眼睛的人口袋裡。在玻璃房子旁邊,有他單獨的一間辦公室。

超算的開機密碼就在這個美國人腦袋裡,但他不會對任何一個黃皮膚的人說。每次中國人想要計算石油勘探數據時,都要請這個美國人打開超算,我們給計算機輸入的每一個位元組都在他的監督之下。

沒錯。這台超算是中國輾轉從美國進口來的。而由於冷戰時期「巴統」的禁運限制,超算絕對不能讓中國人用於石油勘探以外的用途,尤其是武器研發。

那一年,中國的人口達到了1044000000人。遺憾無數科學家日夜奮戰,卻尚未打磨出一台能與國際頂尖水平匹敵的探礦、氣象、海洋預測亟需的超算。

計算力,是一個民族生存在這個星球上的鋼鐵武器。

而我們,也曾手無寸鐵。


邱吉爾、羅斯福、史達林雅爾達,1945


(一)


仿佛一個巨人從睡夢中醒來,一團雲霧頂天立地。巨大的呼嘯追隨爆燃的光閃,渴望把戈壁灘上的一切過往都掃蕩殆盡。

衝擊波把時間永遠釘在了1964年10月16日。原子彈如同塔里木盆地最深處的新生嬰兒,那些為它的降生付出半生韶華的科學家們雙手揮舞向天,告慰共和國的艱辛歲月。

鏡頭輕輕搖動,就在「橫空出世」之前一個月,一個尚未脫盡稚氣的小伙子,眉眼帶刀,走進了北大物理系的教室。

他就是祝明發。

彼時的北大物理系,可謂群星閃耀,用祝明發的話說就是「當時全清華都沒有北大物理系培養的院士多」。一位年輕的北大學者隱姓埋名沖在前沿武器研究的隊伍里。他就是後來人們熟知的氫彈之父,于敏。

于敏和夫人孫玉芹


由於美歐的技術封鎖,全中國960萬平方公里上,性能最好的只有一台在蘇聯幫助下研製的「每秒萬次」的電子管計算機(104機)。而且,95%的時間都要分配給原子彈的計算。最初,于敏就是靠這5%的計算力,帶著團隊人手一把計算尺,廢寢忘食地用肉身做計算。

之後他們才慢慢等來了每秒5萬次的J501機和119機,最終在原子彈爆炸後的第三年成功試爆了氫彈。

站在兩彈先驅們身側,祝明發用血肉穿行了這段歷史。「計算力」這三個字的沉重,他比別人更刻骨銘心,只恨自己還是個本科生,知識羽翼尚不豐滿,只好發奮學習。

而國家命途多舛,1966年文化大革命爆發,祝明發的學業被延緩,直到1970年才正式畢業。

延遲畢業絲毫沒有澆滅他胸中的報國火焰。祝明發被分配到北大附屬的北京電子儀器廠,他負責研究的方向,正是晶片、電晶體和大規模集成電路。

故事由此開始。


祝明發


從上個世紀開始,石油勘探能力就一直是各個國家爭奪的技術高峰。而石油勘探需要高強度的計算。為了我們的能源命脈,1970年,國家交給北京大學一個光榮而艱巨的任務,研製一台每秒百萬次的計算機——代號「北大150機」。

北京大學、738廠(北京有線電廠)、石油部,三家單位總共好幾百位工程師,湊在一起干。文化大革命時講究自力更生,完全不能進口,每個元器件都是中國人自己造出來的。當時世界頂尖水平是每秒千萬次,我們的超算能達到百萬次,和世界的差距並不如後來的八九十年代大。

祝明發回憶。

他清楚地記得,1973年,警車開道,十幾輛卡車拉著「150機」幾十個兩米高的機櫃,浩浩蕩蕩駛出北京,前往石油部徐水機房。

「當時的道路不夠好,汽車開得很慢,就怕顛簸對計算機造成損傷。到了之後,我們花了整整三個月的時間把計算機重新拼好測試完畢。」祝明發說。

150機


搖搖晃晃的卡車開進了歷史的深處,直到那場改變中國的春天降臨。


(二)


1978年,在停滯了多年以後,國家恢復了高考和研究生考試。

那一年,全中國錄取了大概一萬零五百位研究生,祝明發位列其中。他成為了中科院計算所的一名研究生。兩年後,他被國家公派出國留學,在美國密西根州立(韋恩)大學拿到了碩士和博士學位,並且進行了兩年人工智慧的超前沿研究。

七載春秋。1987年,祝明發回到祖國。

實際上,力邀祝明發這個洋博士回到計算所的,是中國計算機史上傳奇的人物——被譽為中國計算機之母的夏培肅。之所以她要找祝明發,也是有原因的。


夏培肅


剛才我不經意提到了祝明發在美國研究的方向——「人工智慧」。沒錯,在歷史長河裡,人工智慧迄今已經歷了三起兩落,而我們故事行進至此的1980-1987年,正是人工智慧第二次高潮席捲的時代。

那時的人工智慧比現在的人工智慧更配得上「智能」二字,因為當時科學家的主要思路比較激進——想要用人工智慧實現「超越人」,而不是今天通過數據統計「模仿人」。(當然事實證明那條路尚未走通,此乃後話。)

那個年代霸占報紙頭條的新聞,不是三十年後的阿法狗大戰李世石,而是日本搞出了「第五代向量機」,除了超強計算力外,還擁有模仿人類神經運作的能力。於此,全世界各個國家展開了計算機方面的「軍備競賽」,那種瘋狂並不輸如今的人工智慧第三次浪潮。

而面對全世界一浪高過一浪的科技競賽,被冷戰遏制多年的中國顯得被動。一邊工業爆炸式發展,在短時間內極度渴求計算力;另一邊自主技術卻沒辦法滿足。正是在這種情況下,進口計算機成為了被迫的選擇,於是才出現了我在開頭描述的一幕,計算機被玻璃房子罩起來。

但這是赤裸裸的屈辱。

四位科學家聯合向中央建議實施國家級高科技戰略,這就是大名鼎鼎的「863計劃」。


863計劃四位倡導者:陳芳允、王淦昌、楊嘉墀、王大珩(這四位的名字如果你不查字典都能念對,還是挺厲害


863計劃覆蓋各大科技領域,而具體到計算機方面,就是「智能計算機項目」,祝明發在這個領域是屈指可數的技術專家,所以他順理成章地成為核心成員。

夏培肅發現一個重大的問題。如果按照日本的路線走,會成為越來越專用的計算機架構,而她卻認為另一條路更有希望,那就是通用架構下的「並行計算」。

如果把專用架構比作一隻鷹,那麼通用架構並行計算就像一大群麻雀。二者真打起來,孰優孰劣很難判斷。

兩種技術路線著實進行了一番兇狠的纏鬥,結局是:從90年代開始,全球所有高性能計算機幾乎全部轉向了並行計算。站在後來回望,當時用來決斷的機會窗口其實非常短,一步走錯,就可能損失十年。

歷史獎賞了夏培肅先生的堅定。

1990年,擁有「並行計算」能力的 BJ-01 計算系統研發成功,黑暗的鐵門被中國科學家撞出一道裂縫,金色的曙光灑進來。


1992年 研究成果論文發表


歷史的舞台安靜非常,一束追光正等來人。

那就是曙光1000。

這是「863計劃」寄予厚望的一個項目。一句話說,它的使命就是打碎那個「玻璃房子」。這個明星項目由李國傑院士牽頭,祝明發任技術負責人。

當時的科學家們面臨一個困境:

中央處理器,也就是 CPU,和國際差距過大,在短時間內中國很難自主研發。這是一個殘酷的現實。面前有兩個選擇:1、等待我國 CPU 技術發展成熟,再來研製中國自己的計算機;2、先購買 intel CPU,把計算機整機技術磨練成熟。


愛國情懷讓他們想選擇第一條路。但科學家必須尊重理性,他們知道,技術如同一輛飛馳的列車,晚一秒上車,都可能被對手拉開巨大的差距。如果此刻賭氣等待,很可能未來將一無所有。

科學家們一致同意,先用 intel CPU。

並行計算,要求把幾百顆 CPU 像廣場舞一樣整齊劃一地調度起來,這就需要很多舉著「小黃旗」的調度員。在機箱裡,這個調度員就是「通信晶片」。


通信晶片示意圖(你中哥畫了一個小時)


為了研發這個通信晶片,祝明髮帶著幾十位科學家、研究員、博士生夜以繼日。

然而,最擔心的情況還是發生了。通信晶片研究完成,放到主板上與CPU連接,在這麼小的方寸世界裡,仍然像有一堵看不見的玻璃牆——信號就是無法傳輸到 CPU。

「不用說,intel 的晶片肯定沒有問題,問題肯定出在中國人的晶片上。」他們想。但所有的人反反覆復檢查了三個月,就是找不到問題所在。

最焦灼的時候,祝明發親自上陣,想了幾天,他把同事們都叫在一起,說:根據我的經驗,問題不在我們,在於 intel,在這個 CPU 的附屬連接晶片上。

大家都張大了嘴。

祝明發讓大家試著繞開這個附屬連接晶片,敲擊回車,奇蹟發生了,系統跑通了!


曙光1000


(三)


榮獲國家科技進步一等獎,曙光1000名聲大噪。

中國科大陳國良院士找到祝明發,你這個機器能不能賣給我們做教研用?祝明發說,可以啊,我再給你做一台。機器入駐後,在中國科大機房門口掛了個牌牌:國家高性能計算中心(合肥)。

一發不可收拾,西南交大,復旦大學,華中科技大學紛紛購買這台超算,成為了國家高性能計算中心(成都)(上海)(武漢)。。。

連國際友人都看上了這台機器,在澳門的聯合國軟體所,喀麥隆雅溫得第二大學也強烈要求中國援助他們一台。。。

祝明發考慮到友邦山高水長,這機器全是特製硬體,壞了也不好修啊。於是他思考良久,決定用一套更通用的國際晶片,做成了曙光1000A送給了他們。

當時我的同事們跟去喀麥隆調試機器,培訓他們的人員,連機房的桌椅板凳都是一起援助過去的。同事回來跟我說,那邊的蚊子個個有大拇指那麼大。。。


祝明發回憶崢嶸歲月,笑了。


雅溫得第二大學


沒想到,為非洲兄弟做的這個無心插柳的改進,卻大大提高了工程化程度,成本大幅降低、生產更加容易、使用起來也非常方便。

1997年9月,遼河油田負責採購的同事找到計算所,有意向購買一台和非洲兄弟一樣的超算。

祝明發聽到這個消息,心中波濤翻湧。他仿佛看到時代在宣布,中國人用玻璃房子裡的外國計算機尋找石油的日子,終於走到了終點。站在此刻,已經沒人能阻擋中國計算機技術的前進浪潮。

歷史證明,這一幕還有更深遠的意義:中科院自主研發的超算終於走出了自己的科研圈子,在殘酷的市場競爭中拚命紮下根。

遼河油田


三年時間,技術持續改進,在祝明發手上陸續賣出四十台超算,進入了氣象、海洋、地質等各個領域,逐漸替代進口超算,支撐起了國計民生的各個領域。在同等的性能下,我國自主研發的超算價格是進口的一半,秒殺敵手,風光一時無兩。

2001年,中國入世。市場經濟成為了每個人呼吸的空氣。

祝明發手握下一代計算機的技術路線,心裡卻在艱難抉擇:如果繼續做大商業化,一定會涉及到工程化、標準化的生產,在中科院計算所的體系內繼續耕耘,恐怕不如在一家企業更適合。

但是,把這麼精密龐大的超算技術工程化,可不是哪家企業都能接得住的。他舉目四顧,有一家公司再合適不過了。不是外人,正是同樣生長於中科院計算所這片熱土的聯想。

彼時的聯想,剛剛從對抗八國聯軍的「微機之戰」的屍山血海里爬出來,坐上個人計算機民族品牌第一把交椅。1998年,聯想拍拍身上的灰塵,進軍伺服器領域。

祝明發找到時任計算所所長兼聯想董事長,曾經給20萬讓柳傳志創業的曾茂朝:「我想帶隊到聯想繼續做超算,你看如何?」曾茂朝很爽快:「我歡迎你!」他找到楊元慶布置此事,很快,祝明發團隊正式進入聯想,組件高性能伺服器事業部


祝明發



(四)


跟隨祝明發加入聯想的十人隊伍中,有一個沉默寡言卻神情堅定的技術悍將,他就是肖利民。

肖利民出生在江西贛州。直到考上大學之前,他只見過電腦一面。那是在中學興趣班的窗口,他向里張望:

敲一下鍵盤,就跳出來很多圖表和曲線,非常神奇。而且那時候覺得,做計算機多好啊,每天都能坐在空調屋裡!


他說。

就憑著這一秒鐘的記憶,高考填志願時,他寫下了清華大學計算機系。

1993年,他大學畢業。恨不得上百家單位爭著邀請肖利民加入,他自己反倒迷茫了。最後他決定:以靜制動,繼續深造。當時他可以選擇被保送到兩個地方,中科院軟體所和中科院計算所。

「要是搞了軟體,那硬體怎麼辦?所以我選了自己當時認為軟硬體都有的計算所。」肖利民笑。


肖利民


到了計算所,需要選一位導師。看著這幾位導師的名字,肖利民又犯愁了——都不認識啊。於是,他像擲骰子一樣隨便選了一位。你可能猜到了,這位導師就是祝明發。

那時候,祝明發正帶領技術團隊攻關曙光1000,最後整機成型時,通信軟體已經有些落後,改進通信軟體的任務,就落在了研究生小肖身上。沒想到他完成得非常出色。

雖然很年輕,但肖利民展現出了耀眼的技術光芒。跟隨著後幾代超算的研發,他逐漸成為技術核心骨幹。而加入聯想之後,肖利民更是直接扛起了聯想高性能計算研發團隊負責人的職責。

從科研院所到企業,肖利民發現眼前的世界簡直「換了人間」。

原來在計算所,做項目只需要滿足一個指標:技術的創新性。現在在聯想,做項目至少要滿足三個目標:1、技術的創新;2、合理的工業設計;3、賣得出去(性價比)。




先說技術。

簡單理解,當時超級計算機在國際上有兩條路線:MPP 和 Beowulf。(後者俗稱自攢機群)

打個有趣的比方:

MPP 就像是一窩蜜蜂。每個蜜蜂都有各自分工,連生理結構都不同,如果離開集體就沒辦法生存。MPP 架構的超算,每台伺服器單獨拿出來都沒辦法工作。Beowulf 就像是一群人。每個人都是一個完整的單元,離開集體也能生活。Beowulf 架構的超算,每台伺服器單獨拿出來,都是一台小超算。


估計你也能猜到,「蜜蜂型」的 MPP 超算,資源利用效率會比「人型」的 Beowulf 高出一大截。況且當時 Beowulf 架構的論文剛出來,穩定性、軟體兼容性都很弱雞。

於是國內外很多專家都在懷疑:Beowulf 做超算,可能是一條死路。

但祝明發不信邪。「未來對計算的需求越來越大,計算的技術一定是越來越通用,不可能越來越專用。」他咬定。

肖利民和他的老師看法出奇一致。於是,那一年整個團隊100人幾乎全部鋪在新生的 Beowulf 集群架構上。


Beowulf 集群


再說工程設計。

當時的大規模超算系統,光伺服器節點就有1000個。僅僅通電這一個簡單動作,都要仔細設計。因為如果一拉閘,1000台伺服器同時上電,瞬間電流非常大,總閘一定會被燒毀。

過去在計算所,肖利民他們的解決方式是——手動給一台台機櫃分批上電。現在你做的可是產品,你再讓客戶也雇個人,每天專門負責拉閘,這就很可笑了。萬一他不懂這背後的原理,再把電拉錯了。。。

這事兒必須要在聯想的產品里解決。肖利民專門招來了供電專業的博士專家,帶隊研究電路控制系統。

這還不算,1000台伺服器節點,上面的系統難道要人手動去安裝1000次嗎?把工程師累吐血不說,關鍵是人手動安裝,配置總會有些許的不同,這導致每台機器「千機千面」,調度起來容易玩脫。。。

所以,肖利民又專門安排團隊,開發了為所有伺服器自動安裝系統的軟體工具。

像這樣的工程細節數不勝數。所幸,聯想工程化部門做PC的時候之前已經踩過十幾年的坑,這些豐富的經驗都可以給肖利民參考,此事不在話下。


這是2018年聯想在合肥的聯寶工廠,當時應該還沒這麼先進


再說「有誰買」。

2002年春節之後。祝明發打聽到中科院數學院數學所需要買一台大機器。他趕緊跑去和負責人也是老朋友張林波教授說,我們聯想也參與投標,行不行?

張林波教授知道聯想公司以前沒做過超算,但是眼前這個人,可是多年的老朋友了,他的團隊在中科院計算所做出的東西是什麼水平,張教授心裡非常清楚。

於是聯想順利入圍招標。

數學所的經費有限,對於機器的要求是128個節點,峰值性能每秒2000億次。

面對這第一個大單,彼時的聯想內部發生了一個有趣的事情:

本來,新業務成立,按照慣例,公司是要撥一筆廣告費的。但是祝明發在一次討論會上提出,高性能計算,做廣告怕是效果有限,不如我們把廣告費的錢給貼到產品里。他要128節點的,我們給他256節點,他要2000億次,咱們給他弄個一萬億次,搞個大新聞!

改變資金用途,還是個挺嚴肅的事情。當時這一紙請示已經到了楊元慶。楊元慶聽完團隊的計劃,說:「就這麼干!」

那次招標,各大頂尖中國公司都來了,國外的頂尖公司 IBM、SUN、SGI 也都來了。

各家公司講標書的過程很逗。

有的公司方案「中規中矩」:按照你的預算,我給你做128節點2000億次的機器;有的外企方案「高高在上」:128節點,2000億次這都沒問題,但價錢得漲50%;結果聯想上台一講就「跪了」:我給你256節點,一萬億次的性能!加量不加價!


旁邊幾位投標的都驚了,像看瘋子一樣盯著聯想的人。

「你們這麼干,不賠錢嗎?」對手問。「我們願意!」聯想的人回答。

拿下標之後,壓力瞬間到了肖利民的研發團隊身上,他們開始沒日沒夜挑燈夜戰。

掰掰手指頭也能知道,節點數量翻一倍,性能最多翻到將近5000億次,達不到萬億次啊。。。於是團隊又換成了當時 intel 剛出的新一代的 CPU,性能到了9000億次。最後差一點,只能從軟體上優化。

團隊甚至把 intel 的優化專家都從美國請來指導,結果他只把性能往上拱了一點。肖利民見狀,趕緊把專家送回美國,還是拉著隊伍自己上。就這樣拼了命優化,終於把這台機器的穩定在了實際性能1萬億次,峰值性能2萬億次。

這就是聯想第一代超級計算機——深騰 1800。


當時一位研發工程師小姐姐站在深騰1800前留影


中國人第一次做出每秒1萬億次的超級計算機,史冊留名。(當年全球最快超算是NEC的地球模擬器,每秒35.86萬億次運算。)

中科院數學所,稀里糊塗地撿了個大便宜。。。

說得這麼熱鬧,其實從2002年4月中標,到7月交貨,聯想高性能計算團隊乾了這麼多活只用了3個月時間。8月,聯想在總部東側大樓召開新聞發布會,宣布自己剛剛造出了中國第一台萬億次計算機,所有記者都熱血沸騰,但業界同行卻冷眼相對。

「一個做微機的,能做這麼高科技的東西?是不是假的啊!」有人嘀咕。

好在有人說公道話。不久,全國專家對項目進行了成果鑑定。無論怎麼測,萬億次性能都是實打實。又有業內對手詆毀說,深騰 1800 是外國人幫忙造的。

祝明發氣得大發雷霆,指著自己團隊的一張張面孔質問對方:你說,我們這裡哪一個像外國人!

2002年11月,在全球最權威的超算Top500排名中,深騰1800 代表中國人,歷史上第一次殺進排行榜,並且占據了第43名的高位。關鍵在於,深騰1800 是用集群架構做到的這個性能,而其他排名更前的,99%都是採用 MPP 那種傳統專有架構做的。(只有排名24位的海德堡大學超算是採用集群架構,但它是一個研究型計算機,不是商品機。)

那一年,高性能計算並行環境的發明人,超級計算機界公認的泰斗 Bill Crops 來北京參加世界數學大會,祝明發特意拉他過來參觀深騰1800,他看得眼裡放光,走之前在留言簿上寫下一句話:

We see the future of cluster computing!(我們看到了集群計算的未來!)




當年,深騰1800 入選新華社中國十大新聞,被兩院院士評為中國十大科技進展。中科院還專門發了一套郵票,來紀念深騰1800。次年,深騰1800獲得了國家科技進步二等獎。

經此一役,國內外其他研究超算的學術機構和公司都紛紛調轉船頭,開始研製集群架構的超算。但其他人這麼一折騰,聯想在這個賽道就成了領跑者。


自拍達人肖利民



(五)


你注意到了沒,剛才中哥提到了一個不明覺厲的詞:「超算 Top 500 排名」。

這個排名可是大大的有名。它有點像全球超級計算機的奧運會,由美國和德國的計算科學專家在1993年首次創立,每年夏天和冬天兩次揭曉榜單。

中國人在這個榜單上有光榮的記憶:著名的天河一號曾在2010年奪得榜首,更著名的天河二號曾在2013-2016年蟬聯六冠,之後逆天的神威太湖之光接棒,在2016-2018年奪冠。

不過那些光榮都是後來發生的。很多人不知道,中國人第一次入圍,是聯想用深騰1800 殺進去的。

其實私下裡,肖利民對於深騰1800 不滿意。因為他知道,這台超算只有在處理純計算任務的時候,才能發揮到極致,而進行一般事務性計算的時候,性能就會下降,這會大大影響計算機的適用範圍。

於是在深騰1800 一炮而紅之後各種登上領獎台時,他卻堵起兩隻耳朵,帶著團隊馬不停蹄地開始了改進工作。

就在肖利民馬不停蹄時,還有兩個背景:

第一件,科技部通過深騰1800 發現了聯想這塊寶,以前重點的863計劃都只交給中科院計算所,2002年底改變了策略,專門「臨幸」了一下聯想,配發了一個新的863項目。第二件,聯想又中標了中科院計算機網絡信息中心的超算項目。


對於技術團隊來說,正好把研究項目和商業項目合二為一,一起搞定。肖利民他們開始研發下一代超算——深騰6800。

歷史的浪花向前,彼時一個強悍的技術出現在這個世界上。

這就是 infiniband。

聽聽這個名字,infinity+band,無盡的帶寬,你就大概能猜到一些:infiniband 大大提升了集群內部計算機之間的通信效率。關鍵的是,它是個開放的標準。


用 infiniband 標準做出的板卡


這讓聯想高性能計算團隊眼前一亮。因為在此之前,只有少數幾家公司掌握著頂尖的集群通信技術,而他們卻對技術守口如瓶,只出售整個的小型機。

在 infiniband 和其他很多技術的加持下,深騰 6800 的計算速度達到了每秒4萬億次。而且整機系統效率從1800的50%,直接躍升到了78%。除了科學計算,還有通用的事務處理能力,例如科學資料庫。


深騰6800


2003年,世界超算 Top500 排名中,中國邁著鋼鐵步履,有四台計算機進入榜單,分別是:1、中科院那台深騰1800;2、中科院大氣物理所的深騰1800;3、大慶油田的深騰1800;4、中科院計算機網絡信息中心的深騰6800。

而排名最靠前的這台深騰6800,衝到了榜單的第14位。沒記錯的話,這也是聯想超算達到了歷史最高排名。從這個時間點開始,超算越來越演變成為了國家戰略,所以前十名的榜單也成為國家展示力量的舞台。

雖然聯想的超算一般是企業或者研究機構訂購,受限於經費,很難拿下 Top500 的第一位,但是,從那時開始,Top500榜單里聯想超算的數量卻一直在恐怖地攀升。

2004年,聯想收購 IBM 個人電腦業務後,變得更加國際化,聯想超算也走出國門。2008年,F1 威廉士車隊訂購了一台深騰7000,用來計算賽車的空氣動力學設計。在聯想諸多的客戶中,祝明發尤其對這個印象深刻。

畢竟銷售給外國人,利潤有保證。


他笑。


帶有聯想塗裝的威廉士賽車


我看著坐在對面這個年過古稀的科學家,開始懷疑歷史是否真的可以有那麼清晰的解。

他走過文革時期的自立自強,走過改革開放的市場為王,見證了中科院計算所最艱難的時候柳傳志帶著工程師們含淚自謀生路。作為後輩人我雖不應妄然評論,但是我猜他和那些聯想元老一樣,在某一時刻意識到這個世界和以前徹底不同。

歲月的退潮在祝明發身上留下一種敬畏商業的科學家氣質,雖然我打賭如今能讀懂他的年輕人如鳳毛麟角。雖然我猜他也並不在意。

說回我們的故事,雖然深騰6800再次獲得國家科技進步二等獎,拿獎拿到手軟,但70後技術宅肖利民對自己的作品仍然不滿意:

我很清楚,自己在做的是「商業超算」,商業超算如果想保持強大的市場競爭力,至少要在兩個方向上做到極致。第一、系統能效比;第二、滿足各種應用場景需求。


肖利民說。

於是,那段時間肖利民每天苦思冥想,想在下一代超算深騰7000中做出逆天的新架構。

他想到的方法就是:「異構體系架構」:

這就好比在一家醫院裡,需要有多種不同專業方向的醫生,才能更好地滿足病人不同的需求。異構體系結構,就是把不同類型的處理器,如 CPU、GPU、FPGA 等聯合在一起工作。這樣優勢互補,在各方面的能力都很強,可以滿足不同類型的應用需求。


為了做到這一點,前一代的編程模型、框架、平台、軟體統統要進行重大升級。而且,把這麼多元件重新整合,還要對工程設計、板卡上的空間調配等等硬體做一次重構,甚至連電源和散熱都要重新設計。

2008年,深騰7000終於橫空出世。


肖利民和深騰7000


這台異構的深騰 7000 最終的實際計算性能達到了每秒100萬億次,成為我國首台投入實際使用的百萬億次超算產品,高效支持了上千種不同類型的應用。

此刻,時間已經迫近了那個節點——2010年,國防科大研製的天河一號登上世界超算榜首,計算性能達到了每秒2570萬億次。中國超算技術,已經可以驕傲地屹立於世界頂尖擂台。


天河一號


此時反觀聯想,卻非常明確地走了一條計算速度和通用性相平衡的超算之路。如果把之前的超算比作一台跑車,那麼肖利民的最新力作深騰7000 就朝著變形金剛的意思去了。企業級的各種計算,攬月捉鱉,吹拉彈唱,什麼姿勢都能給。

站在今天,「異構」這個詞已經充滿耳膜,幾乎所有的人工智慧計算,都在利用大規模的 GPU+CPU 集群進行。而深騰7000利用這個異構架構,遠人工智慧大潮來臨之前,比後來經典的機器學習算法 AlexNet 首次成功運行在兩片GPU卡上至少早了五年。

(六)


講到這裡,我們故事的第三位主人公才姍姍來遲。

2014年,聯想收購 IBM X86伺服器業務。

郝常傑作為技術團隊的一員,從 IBM 所在的盤古大廈搬到了西二旗。

如果說中國超算有一個「科研共同體」的話,這個共同體的人數,在2008年以前都不會超過百人。所以,郝常傑和祝明發、肖利民雖然不在同一個部門,但他們相互都非常熟悉。

作為一個60後,他也同樣經歷了中國計算力貧瘠的「玻璃房子」年代。

但他的人生路線和肖利民不太相同,他在90年代就進入了外企。從交換機公司 TopSpin 和 Voltaire 到 IBM,他一直在做高性能計算的核心技術,也為祝明發團隊提供過軟硬體技術支持。

作為中國人,卻幫助外國的公司賣技術,郝常傑也曾經糾結,但他很快得出了結論:

當時的技術,國內確實不具備。但石油不能不勘探,海洋氣象不能不預報。我們要發展,我們要理性。


郝常傑說。

好在到了2014年,聯想和其他廠商的高性能計算技術已經日趨成熟,以上所說的對於計算力極致需求的場景全部可以滿足。從某種程度上說,中國人把國家命脈又搶回了了自己手裡。


IBM X86伺服器


那時,聯想雖然代表了國內最高水平,但是從客觀上來講,在一些伺服器的技術點,特別是可靠性和穩定性上,距離國際最頂尖產品還有差距。

提高自己的技術有三種方式:

一種就是靠自己研究,慢慢追趕;一種是和技術優秀的公司建立合資公司,引進他們的技術。一種就是靠把最優秀的公司完全買進來。


祝明發在這件事情上看得很明白:

如果成立合資公司,對方絕對不會把最新一代技術給你。合資公司永遠無法和母公司競爭。但是把優秀的技術、人員連同業務都買進來,就不存在競爭了。以後乾得好不好,那是你自己的問題!


他說。

這也是2014年,聯想收購IBM X86伺服器團隊的根本邏輯。這家企業過去幾十年積累的X86伺服器技術,一夜之間改換門庭,全部進入聯想,成為自己的技術。

郝常傑加入聯想後的第一個項目,就是深騰X8800。你可能注意到了這裡面多了一個X,那正是因為這套超算中的伺服器沿用了 IBM 的X系列技術方案。

深騰X8800的客戶是北大。

說來,在北大負責信息建設的樊春老師從2001年就和郝常傑相識,那時候郝常傑在 Topspin 供職,研究生還沒畢業的樊春還曾經仔細研究郝常傑帶去的 Topspin 交換機。

不過,這次樊老師給老朋友郝常傑出了個難題,他要郝常傑「帶著鐐銬跳舞」。

第一、機房空間非常狹窄第二、機房電力非常有限


郝常傑看著樊老師期待的眼神,和聯想團隊反覆論證,做出了一個大膽的決定——用水冷!

熟悉電子設備和機房的童鞋一定會想到一個問題:水怎麼能進機房?萬一泄露怎麼辦?

其實在郝常傑看來,這個問題早已經被業內專家挑戰過好多年,而且業內已經出現了成熟的解決方案。這個方案就來自被收購之前的 IBM,來自今天的聯想。

早在2016年春天,聯想就舉辦過一次業內研討會,當著行業400多位專家的面,郝常傑把聯想伺服器推到台前。他笑吟吟地抓住機櫃里的水冷管,猛地一把扯開,大家都驚出一身汗。沒想到,本來激烈流淌的冷卻水卻像訓練有素的軍隊一樣,猛然停止行軍,一滴都沒有泄露出來。


水冷內部研討會


「其實這後面有一套快速閥門,一旦泄露,能夠瞬間產生負壓,水就被收回去了。」郝常傑解釋。

於是,一套水冷設備,穿行在深騰X8800體內,被安裝到了北大機房。出乎很多人意料,這台超算的效率竟然達到了94.89%,遠遠超越了一般使用風冷超算的85%。這約等於在有限的空間裡,計算力提升了十個百分點。於是,空間有限的問題也被解決了。


北大機房裡的深騰X8800


最早的水冷伺服器,聯想用到的冷卻水是35度的冷凍水,不過聯想對這個溫度並不滿意。

如果用冷凍水做水冷,需要用壓縮機為水降溫,比較耗能。另外從物理學上說,兩個物體溫差越大,溫度交換越慢。所以溫水水冷是一個值得追求的技術方向。


郝常傑說。


郝常傑


說干就干,在接下來的幾年裡,聯想的工程師們把冷卻水的溫度從35度提高到了40度、45度,在2018年達到了50度,2019年正在向更高的溫度進軍。

說到這些技術上的閃光點,郝常傑如數家珍。

普通的伺服器兩個 CPU 的散熱片是一樣高的,這其實有問題,因為前面的散熱片會擋住後面散熱片的風道。但是如果你打開聯想的伺服器,就會發現我們把整個機箱都重新設計,兩個 CPU,前面的散熱片薄一些,但使用的材質散熱性更好,後面是一個正常的高的散熱片,這樣就保證了風道筆直,大大提升了散熱效果。連散熱風扇這樣的標準件,聯想都花了很多小心思,裡面是正反一對葉片疊加在一起,風吹出來,兩個葉片向相反的方向轉動,非常平穩。


「你站在兩個不同品牌伺服器面前,都不用摸,甚至不用看,只要聽聲音就知道了哪個是聯想的伺服器!」郝常傑挑挑眉毛,像是在形容一輛華麗的跑車。

細節裡面有魔鬼。這麼多年聯想對於工程化的細緻追求,把超算打磨成一塊烏黑的水晶,在穩定性、耐用性、計算性能上都成為業內的高端標杆。

2019年6月,當年的超算全球 Top500 公布。500台里,有173台來自聯想。

就在人們關心誰是世界上跑得最快的超算時,聯想已經默默地把自己變成了「沉默的大多數」。



(七)

伴隨著這些數據,是聯想超算進入國計民生的各個行業。

海洋氣象預報,離不開超算技術。

郝常傑記得很清楚,聯想為國家海洋局搭建了一套高效的海洋環境監測預警高性能平台,用於颱風、洋流等等海事氣象的預測。

在珠港澳大橋建設的最關鍵時刻,颱風來襲。這台超算就必須在颱風到來三天內精確計算出它的位置、強度、持續時間,對大橋施工的影響等等。

從後台的使用數據來看,每當颱風來臨的時候,氣象預報中心超算的計算強度就會突然增加,我們也會加強保障,確保這台超算不會出事故。


郝常傑回憶。

我們之前提到最多的石油勘探,當然更離不開超算。

之前中哥一直在講故事,沒機會科普一下「超算找油」的原理:

尋找石油,通常的辦法是地震波計算。在可能有石油的地塊安裝炸藥,炸藥爆炸,會向四面八方傳遞地震波,而地震波遇到不同的介質,展現出來的性質會有微小的差異。而超算的作用就是通過地震波的細微差別,來推測石油的具體位置。

地震波計算


而這個坐標下面究竟有沒有石油,只有鑽探一口井才能驗證。一口井打下去就是8000w。如果測算失誤,8000w瞬間就打了水漂。

我們當時為什麼寧可同意用玻璃房子罩著,也要購買國外先進的超算,正是出於這個原因:賠不起。

生命科學,一樣離不開超算。

每個人的 DNA 大概有30億個鹼基對。而上帝造人的時候,並沒有給我們的基因配發響應的說明書。為了治癒某些疾病,我們需要自己找到兩個或者多個基因之間的隱秘聯繫。這個難度大概相當於在一片無垠的海灘上尋找兩片花紋完全一樣的貝殼。

只有超算能夠幫助我們。而且現在人類已經發明的最快超算,對於基因檢測來說還是不夠的。於是,很多癌症對於我們來說仍然是不治之症,患者每天在等待科學家和死神賽跑。

中國最領先的基因測序公司華大基因使用了很多聯想超算,機器轟鳴,他們正在追趕時間。


基因計算


中國載人航天,同樣離不開超算技術。

從2012年神舟九號起,聯想超算就服務於中國航天,提供軌道模擬的核心計算力。而在神舟飛船不斷發射的幾年裡,郝常傑從一家美國公司的技術專家,成為了中國公司的技術專家,進而成為了聯想高性能計算的新一代技術的代表。

這種感覺很特殊。

2017年,神舟11號飛船和天宮一號在太空實現無人對接。由於是無人駕駛,對飛船和太空飛行器的模擬精準度要求比以前高很多。聯想為中國載人航天工程總體仿真實驗室,提供了一套以聯想高性能計算系統和 ThinkStation 圖形工作站為核心的仿真系統,作為引擎支撐著潮水一般的軌道計算數據。

對接那天,那天郝常傑和同事們放了半天假,一起在中關村附近找了個飯館兒,一邊吃飯喝酒一邊看著電視上的直播。

北京飛控中心,聯想的超算正在轟鳴,計算著飛船軌道;幾十公里外的西二旗,飯店裡喧譁熱鬧,大家為中國載人航天的成就歡呼,沒人注意這一桌子看上去平淡無奇的人。

說到底,我只是做了一份工作。只不過我做的工作比較特殊,它服務於國家高精尖領域。我為國家做了貢獻,很驕傲。


郝常傑說。


神舟11號


(八)


飛鳥長鳴,記錄歷史的照片從黑白走向彩色。

從聯想高性能計算部門成立算起,今天正好是第20個年頭。

郝常傑告訴我,他最開始填報計算機專業,就是看到家裡做建築設計的父親和哥哥每天拿著計算尺應對各種繁雜的計算,想讓他們別這麼累。而如今,他手裡的超算,已足夠做無比精密的建築建模,只是他的父親早已退休。

肖利民仍在第一線指揮戰鬥,他在為當初那個夢想繼續努力,讓聯想超算使用我們自己的CPU,為更多的領域提供服務。

這一年,祝明發74歲,他依然作為首席科學家出現在聯想的辦公室里。為聯想超算的每一個發展方向把握方向。


2019年聯想發布了深騰X9000


「玻璃房子」已經被我們打碎,扔進歷史的煙塵里許久,但戰士們遠未退場。日光之下,在看不見的更細微處,何嘗沒有更多的玻璃房子,等待著勇者用肉身擊碎呢?

從PC到超算,聯想一直小心翼翼緊貼商業,因為它曾經穿越周期,所以它不僅知道如何面對百花齊放,更知道總有一天你要面臨風雪如刀。

正如柳傳志所說:

到河岸是我們的目標,這是人人看清的事情。難的是如何搭橋,如何造船,或者學會游泳。在根本不會游泳的情況下奮不顧身地跳入水中,除了泛起一陣泡沫和帶來滑稽的悲壯以外,什麼結果也沒有。


柳傳志


計算力,是我們生存在這個星球上的鋼鐵武器。

南方蒸騰的工廠,北方肅穆的醫院,海岸邊熱鬧的商店,沙漠裡清冷的油田,路上穿梭的汽車,你手裡閃亮的螢幕,送到門口的每一單外賣,床頭的溫暖檯燈亮起的瞬間,都與計算有關。

計算力不僅可以兌換成國境線的槍炮,同樣可以兌換成每個人後院的玫瑰。

而那些利用商業的力量讓超算變得平民化,變成人人都可採摘的玫瑰的人,值得被人們駐足凝望,思考片刻。

歷史畢竟太深邃。

我們很難真正回到黑白照片里,站在祝明發、肖利民和郝常傑身邊去體會他們的時代,他們的奮鬥,他們的徹夜難眠和輾轉反側。但我仍然相信,如果我們對歷史多一些好奇,試著去體會這個民族是如何走來的,試著去想像他們有怎樣的不甘和不得已的取捨,或許能對這些在時間長河裡跋涉而來的父輩多一些悲憫,也能對我們將面臨的兇猛未來,多一些敬畏。



再自我介紹一下吧。我叫史中,是一個傾心故事的科技記者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmini

或者關注微博:@史中方槍槍 @淺黑科技

你還可以搜索我們的知識星球:淺黑科技

不想走丟的話,你也可以關注我的公眾號「淺黑科技」。(記得給淺黑加星標哦)

文章來源: https://twgreatdaily.com/I2SyQm4BMH2_cNUgsK9V.html




白海豚大逃殺

2021-05-24