平凡人的野望:我們為賽博世界保管記憶

2020-11-18     淺黑科技

原標題:平凡人的野望:我們為賽博世界保管記憶

平凡人的野望:我們為賽博世界保管記憶

今天的主角,是一個其貌不揚的大盒子。

一萬個人中,恐怕有九千九百九十九個半都不知道它是幹什麼的。

但是,成千上萬這樣的大盒子,卻鑲嵌在我們這個國度的時光長河中。他們是筆記,心懷敬畏記錄著每一筆帳目的來往;他們是日記,眼含忠誠記錄著企業蹣跚長大的悲歡。

它們就是「企業級存儲」。

區區萬言,只夠講一家公司一群人一個「盒子」,但請相信我,這些身影后面藏著每一個人都感同身受的追逐。

(一)怪人們

2008年,溫州。

大街上陽光刺眼,人們穿行奔忙。路邊的茶樓里有人穿著老汗衫,有人趿拉著拖鞋,舉著電話快言快語。

這一切,被鄰座的一個小伙子收進眼裡。

他叫張強,此時新生活剛剛開始——他加入了一家深圳公司,被派駐到溫州開拓新市場。對於一個25歲的年輕人來說,眼前的一切恰如廣闊藍天徐徐展開,讓一隻鳥心潮澎湃。

溫州

他供職的這家公司不大,只有兩百人,賣一些聽上去奇奇怪怪的企業級網絡產品:VPN、上網行為管理、防火牆。這家公司的名字更怪,叫深信服。

要說最怪的,是公司的同事們。在那個搞銷售必然喝大酒盤關係講回扣的年代,深信服的銷售小哥卻天天只跟客戶死摳產品有什麼功能,能解決哪樣問題。

但張強喜歡和這些怪人待在一起,如醜小鴨找到了同類。

在溫州待了半個月,張強還發現一個驚人的事實:這裡簡直就是「怪人」的天堂——前兩天在茶館那位穿汗衫的,居然是一位麾下千人的工廠老闆;旁邊穿拖鞋的,竟也是身家上億的大客商。

在這座城市,人們並不在意用外表來證明自己是誰。

穿越到今天回望,這些拖鞋大佬其實也沒那麼怪,他們只是中國經濟變革大潮中那群最早相信勤勉和務實的人。

故事就這樣開始了。

張強 (這是2020版的張強,已經滄桑了許多)

「深信服是啥?你們做服裝的?服務外包?做信用貸款?」最開始,每次電話那頭的客戶都要如此「拷問三連」,讓張強他們哭笑不得,啞口無言。

但是經過張強鍥而不捨各種姿勢介紹以後,務實的溫州企業著實給了深信服不少寶貴機會——拿來產品實打實測試。

只要東西真的好,解決問題,那買單是相當爽快。

深信服由此在這座被時代沖刷的城市站穩腳跟。而溫州,只是這群人光輝年代的一場縮影。

那些日子,在深圳,無數不善言辭的程式設計師們靠著對未來的憧憬星夜兼程敲下代碼;在全國,無數像張強一樣的銷售人靠著真誠和理智把品類並不算多的產品送到了真正需要它的人手中。

時光緩緩前行。彼時沒人知道,一個巨大的命題正等在轉角,將會和深信服撞個滿懷。

2008年,神舟七號升空,翟志剛完成了首次太空行走,這在某種程度上是中國科技的一次宣言。

(二)一個沉重的命題

張強的眼睛,記錄下了那個時代。

2012年,他輾轉湖北,成為區域負責人。雖然「升任總經理迎娶白富美」值得慶賀,但卻很長時間都高興不起來。

他發現這個國度的現實比想像中更複雜:

即便奧運會已經開完了四年,內地大多數企業的開放程度之低仍然讓人喟嘆,就連經濟危機傳導到這裡都會變成孱弱的餘波。

很多企業規模不小,卻壓根沒有進入數字化的大門——沒有內網系統,沒有統一管理的辦公電腦,一個 Excel 文件在 QQ 上傳來傳去包打天下。

這樣一看,深信服賣的那些 「外圍」IT產品雖然被企業需要,但絕對不是最迫切的。

就像人們連房都沒買,你卻在向他們推銷家具。

當時就是感覺自己每天在做選擇題,我只有ABCD,但是人家可能需要EFG。他們要的我給不了。。。

沖在一線的張強深有感觸。

當年強哥在湖北的時候,團隊聚餐,有種歃血為盟的感覺。

湖北不是個例,它是我們腳下土地的縮影—— 重重山水之中的萬千企業,像渴望氧氣一樣渴望質量優良、價格親民、可以信賴的「核心」IT產品。

這切中了深信服思考了十幾年的母題:

既然創始人何朝曦和熊武每天都鼓勵大家「要讓世界因我而變得不同」,那現在世界擺在這,深信服這群人就必須不斷地說服自己, 一步一步走到舞台的中央。不僅要做家具,還要造房子;不僅能造「小米步槍」,還要去造「飛機大炮」。

彼時征戰前線的張強尚不清楚,遠在深圳的總部其實早已經火力全開,核心IT產品的研發緊鑼密鼓。

沒多久,銷售隊伍就拿到了期盼已久的新武器:超融合一體機和桌面雲系統。(有關這個故事,推薦你去看看 《深信服,狂奔向五月花號》 。)

不懂的淺友我簡單科普一下:

超融合一體機,就是N台伺服器組成的「心臟」,為企業各個部門提供核心計算力;桌面雲系統,就是辦公室每個人面前的電腦,但這些電腦沒有機箱,所有的算力都統一由機房的超融合主機提供。

超融合一體機組成了企業的計算中心,可以為辦公PC、對外服務、 大數據、人工智慧 等等各種姿勢提供計算力。

這些產品在張強的印象中是 鋒利的重劍。

一方面是 驕傲自豪,深信服終於進入無數企業的心臟地帶,親手把0和1的涓涓細流匯入中國數字化的汪洋大海,家國情懷,得償所願;

一方面是 如履薄冰,企事業單位把核心計算力託付於自己,產品一旦出現故障,小則影響生產收入,大則影響國計民生。

縱如段譽一般的大俠,剛練好六脈神劍時也會有放不出技能的尷尬時刻;最初半年,深信服的超融合和雲桌面確實也並不穩定,時不時會來一次罷工,讓客戶措手不及。

一個區教育局用了我們的桌面雲一體機,當時能拿到這樣級別的客戶,我們可高興壞了。

可是沒兩天,系統突然發生故障,大面積雲終端宕機,導致多媒體教學系統不能正常訪問使用。教育局氣得對我們拍桌子:「撤下去!把你們的東西全拿回去!」當時又羞愧又著急,真的是恨不得找地縫鑽進去。

雖然後來經過排查確定是第三方伺服器固件版本過舊引起多塊硬碟同時離線所致,但是回憶當年,張強還是心有餘悸。

但塞翁失馬焉知非福,深信服這群年輕人早早學到了重要的一課—— 造飛機大炮絕對不能用小米步槍的工藝控制;面對沉重的命題自當付出萬倍的心力。

從那以後,同學們都要把手中的產品磨了又磨,測了又測,不達到百分之百可靠絕不會交付給客戶。

這種敬畏凝成一把鑰匙,最終打開了新故事的大門。

前方戰火轟鳴,總部安然靜謐,另一個絕密的產品早已開始了胎動。而張強恐怕猜不到,就在幾年之後,自己的生命將會和這個重磅產品緊密地聯繫在一起。

這就是深信服的企業級分布式存儲產品,EDS。

(三)來!造一艘航母!

2016年,深圳。

深信服的總部,一個神秘的組織聚在會議室里,所有人都眉頭緊鎖。

神秘組織名叫「研發管理委員會」,這個名兒不太性感,但它其實是深信服內部的「技術長老會」——接下來要研發什麼產品,公司未來的技術布局,都由這十幾個大佬商議。毫不誇張地說,這些人的技術判斷,某種程度上決定著公司的前途和命運。

陳岩,就是當時的「長老」之一。之前張強在前線千呼萬喚苦苦等待的「超融合」和「桌面雲」正是陳岩他們的手筆。

陳岩

那些年,研發管理委員會幾無敗績,敲定的產品研發一個火一個。但是此時此刻,他們卻分成了兩派,為 「要不要做企業級存儲」爭論得面紅耳赤。

大牛吵架,值得觀摩。

要明白他們在吵什麼,中哥得先用一分鐘給你科普下,什麼叫「企業級存儲」。

每一個現代企業,為了完成各種生產協作任務,都要建立一個由各種計算機組成的「賽博空間」,這個空間非常複雜,就像用樂高拼成的摩天大廈。但是無論多複雜,這些樂高積木卻只分成三種類型: 計算存儲網絡

企業級存儲,就是把很多 「存儲」積木拼成一個容量巨大的「存儲之海」。

它可以用來幹什麼呢?金融企業會用企業級存儲來存放客戶信息;公安系統會用企業級存儲產品來存放監控數據,廣電系統會用它來存放視頻素材等等。

你看,都是這種舉足輕重不容有失的場景。這種情況下,企業級存儲就得表現出專業選手應有的樣子:記得牢,記得准,記得快。

好,現在我們回到吵架現場。大牛們爭議的核心問題在於兩個:

1、深信服已經有了「超融合」產品,其實超融合產品就像個盒飯套餐,裡面已經打包了計算、存儲、網絡這三個「菜」(深信服還加了一個特色菜:安全),為啥還要單獨把存儲拎出來成立一個新產品?

2、市面上正在賣的存儲產品,沒有100家也有90家,深信服還有沒有必要蹚這個水?

一聲驚雷,陳岩拍案而起,他的觀點是: 獨立存儲產品不僅要做,還要用繩命去做。

理由如下:

別看現在各個企業已經有了很多數據,但和未來相比簡直就是九牛一毛。眼看十四億人民正在遷徙到雲計算的新國度,十年之後中國各個行業的數據量會非常大,超級大,異乎尋常地大,超越想像地大。

越是大量的數據,越是可以精準地預測這個世界的未來,誰預測的未來更精準,就更有機會掌握這個世界的權柄。數據很可能成為新世界的 「戰鬥機」

既然是戰鬥機,就必須由一艘最廣闊,最平穩,最安全的航空母艦來搭載。

而市面上已有的存儲產品大多是集中式存儲,這種產品的容量存在上限,而且這種架構在設計之初只是用於獨立存放,又很難和其他數據打通。未來隨著數據暴漲,大批中國企業肯定需要容量無上限又方便聯合計算的「分布式存儲」。

此時此刻研究分布式存儲,不正是對時代最好的回答麼?

集中式存儲和分布式存儲的區別大概就是這樣。

這一番論證無懈可擊,大多數技術長老都點頭表示認可。最終,幾乎是全票通過:深信服自研分布式存儲產品,上路!這個產品的名字就定為 EDS(Enterprise Distribute Storage)。

分布式存儲系統有多複雜,真的是難以形容。幸好,皮克斯曾經拍過一個動畫片,講的就是存儲系統。

這就是《頭腦特工隊》(《Inside Out》)

主人公萊莉的腦海,就是一個巨大的存儲系統,每一個球就相當於一份「數據」,無數的存儲櫃、無數的機械臂,傳輸系統、管理系統,都在為這些數據的安放服務。

沒錯,這群技術宅,就要在代碼世界復刻一個這樣精密的而龐大的奇觀。

大伙兒雖然沒明說,但心裡多多少少都有「顧慮」——存儲系統是IT設施的基石,固然會用百倍的小心去研發測試。但萬里有一,哪怕是億里有一出了問題,客戶存儲的珍貴資料都可能。。。他們不敢想下去。

事實是,很難找到一個特別合適的人願意挑梁做存儲產品的研發負責人。。。

危急時刻,陳岩找到老闆:「實在不行,我直接帶隊去干吧!」

陳岩回憶這段故事的時候輕描淡寫。但是誰都知道,前路荊棘,生死關天,這個決定很難輕描淡寫。

待人溫和的陳岩,胸中有大丘壑,接過研發的帥印後,他馬上定了一個「小目標」:企業級分布式存儲產品 EDS 至少要做到 百億小文件的高性能存儲。

如果還用《頭腦特工隊》作比喻,相當於存儲系統里至少能放一百億顆小球。

這是個如同航空母艦一般浩瀚而恐怖的奇觀。

(四)存儲系統就是個「火鍋店」

畢竟過去幾年一直在做存儲模塊,團隊有很深的技術積累,陳岩知道,要完成巨大的存儲系統,最艱難的是兩個核心組件:存儲引擎分布式文件系統

這倆貨又是個啥??

它倆雖然看上去很專業,而且工程上也確實複雜,但是原理卻挺有趣。

你吃過小龍坎或者寬板凳之類的九宮格火鍋嗎?只要吃過,我就能給你講明白。

好,現在假設你和朋友們圍在火鍋前面了。你面前的火鍋就是一個磁碟,而各種菜就是數據。你把菜放到格子裡,就相當於把數據存在了磁碟上,過一會兒你把菜撈出來,就相當於從磁碟上刪除了數據。

存儲引擎是啥呢?

就是你們這幫吃貨唄。

你們七手八腳,有的把菜放到格子裡,有的把菜拿出來。

但是,你們是懂規矩的吃貨,規矩有兩個:

1、一個格里只允許放一種菜。這個格子被吃空之後才能放新的菜。(這很好理解吧,如果一個格子裡啥都涮,那還分成九個格子幹嘛呢?乾脆大鍋涮就行了。)

2、不能同時有兩個人把筷子伸進同一個格子裡。(這也很好理解吧,要是你倆最後都夾到了同一片肉,那給誰呢?)

存儲引擎

於是,雖然鍋里電光火石,筷子翻飛,紅湯浪涌,但無論用多慢的鏡頭回看,你們這些吃貨都完美地遵循了這兩個規則。

其實,存儲引擎就是干這個的,它以迅雷不及掩耳的姿勢讀數據、寫數據,但卻精準地保護每一個格子裡數據的 可靠性一致性,一個比特都不能錯。

分布式文件系統又是啥呢?

是火鍋店的服務員。

假設你們全公司都是吃貨,150個人決定去火鍋店聚餐。這就涉及到一個問題,一個桌子坐不下。你們10個人一桌,總共坐了15桌。這就叫 分布式火鍋

分布式火鍋

但是請注意,飯店裡的菜品太多了,每個桌子上的每一個格子裡都不相同——有人想吃毛肚,但不知道毛肚在哪個桌子的哪個格子裡,有人想吃腦花,也不知道腦花在哪個桌子的哪個格子裡。

這時候,你只需要跟服務員說,我想吃毛肚,服務員就帶你去那個鍋,告訴你毛肚在1號格;你說想吃腦花,服務員就帶你去另一個鍋,告訴你腦花在5號格。

把這些分布在各個地方的文件組織起來的系統,就叫分布式文件系統。

分布式文件系統

科普完畢,我們把時間拉回到2017年。

陳岩拉起大旗,眾將列立。

先來干 存儲引擎

深信服其實是有家底的。剛才說到,當年推出的超融合一體機就像一個盒飯,包含了計算、存儲、網絡、安全四個「菜」。實際上,當時為超融合一體機服務的存儲團隊已經成立了4年,超過100人的規模了,存儲所必備的「存儲引擎」自然也有很深的技術沉澱。

但是,把之前那個存儲引擎直接搬過來用,陳岩是拒絕的。

他的理由很簡單:因為存儲介質正在更新換代的浪潮中。

舉個例子,最早的 HHD(機械硬碟)一次網絡傳輸要10毫秒,後來的 SATA SSD 要100微秒,現在利用 RDMA 傳輸技術的 NVMe SSD 可以做到一次傳輸10微秒。這速度一變,整個存儲引擎的編程邏輯就要發生根本的變化。

陳岩給我科普。

這就是一個NVMe 接口的硬碟。

之前的存儲引擎是針對傳統的 SATA SSD 開發的,而速度更快的 NVMe SSD 正在普及——如果沿用舊的存儲引擎,也許可以頂個三五年,但是瓶頸會越來越明顯;如果開發新的引擎,雖然耗時耗力,但絕對能做出精品,未來十年打遍天下都不怕。

再看 分布式文件系統

實話實說,當時分布式文件系統的理論已經非常成熟,但問題是,理論不等於實踐。航空發動機的理論也非常成熟,光刻機的理論也非常成熟,但是中國至今都沒辦法造出來。這個道理是相同的。

要把一個精密的理論變成眼前真實運轉的系統,還需要解決工程上細碎難纏的千百個具體問題。

懂技術的淺友肯定知道,有一個非常出名的開源分布式文件系統,名叫 CEPH。陳岩他們也確實把 CEPH 拿來做了一下測試,但很多性能指標大概只有他們想要的五分之一。

嘗試了一圈,陳岩已經無比堅定了他的判斷——自己開發。

這下可好, 存儲引擎分布式文件系統都要從零開發,萬丈金字塔,從地基開始挖。等這個產品做出來,少說也得兩年多之後,也就是2019年了。。。

幾百號人,將近一千個日夜,都要鋪在這一個產品上,而且在這段「閉關」的時間內,沒辦法為公司貢獻任何利潤。茲事體大,已經不是陳岩一個人下決心就行了。

於是,他懷揣著好多文檔、數據、PPT,推開了老闆的大門。

本以為要頗費一番口舌的睡服,卻在友好輕鬆的氛圍下結束了。陳岩想十年磨一劍,想在歷史大河的奔涌中為千萬中國企業搞出一艘閃閃發亮永不沉沒的航母,這些其實也正是深信服創始人們最初的夢想。面對歷史,商業理應展現出應有的敬意。

陳岩順利地從領導那拿到了「免死金牌」。

但手握金牌,也意味著壓力瞬間轉移到了他肩上——所有條件都已滿足,幾年後如果不能拿出一個精品,那恐怕要「以死謝罪」了。。。

接下來的每一天,陳岩和團隊同學們都在代碼叢林中艱難前行。

陳岩和他的小夥伴們,這是他們集體去海邊摸魚的照片。

(五)硬骨頭

時光飛逝,所有系統都在有條不紊地推進,不過,團隊還是被一小塊「硬骨頭」卡住了。

這塊硬骨頭就是 分布式文件系統里的核心組件: KV資料庫

又出來一個新名詞,這貨又是幹嘛的??

其實很簡單。剛才說過, 分布式文件系統就像火鍋店的服務員,幫你精確規劃菜品在火鍋里的位置。但是菜品實在太多,服務員也記不住,他手上就得有一個地圖,標記著哪個菜品的在哪個位置等等信息,這種信息用術語說就叫關鍵值(Key-Value,簡稱KV)。

對應到存儲系統里,記錄著每一個存儲對象信息的「地圖」,就是 KV資料庫。(KV資料庫里存儲的數據叫做元數據,因為它是有關數據的數據。)

注意,剛才我說卡住了,不是因為這群技術宅做不出來KV資料庫,而是他們想要達到的性能目標太高。你還記得最早陳岩定下的目標嗎?他要做 至少能支撐一百億個小對象的分布式存儲

對象越多,有關他們的元數據也會越多,這份地圖也就變得非常大,書寫這份地圖的速度變得越來越慢,從地圖裡找到目標的速度也越來越慢。

如果解決不好,它就會成為整個系統的瓶頸。

這時,一位「天降猛男」臨危受命,他就是深信服創新研究院李潤輝。

李潤輝

李潤輝博士畢業於香港中文大學,是存儲領域赫赫有名的大拿。從2018年開始,他的小組就在和陳岩團隊配合開發存儲產品的各個模塊。在2019年,李潤輝逐漸把主要力量投入KV資料庫,進行最後攻堅。

他根據學術界的最新思路,構思了一套在工程上非常精巧的KV資料庫——PhxKV。

這套工程的一個基本思想就是:把元數據分級。

有的元數據標記了文件的屬性,只和這一個文件相關,這就是次要元數據;

但有些卻標註了文件的索引,可以幫助系統快速找到這個文件,這就是關鍵元數據。

分級之後,把關鍵元數據存在性能更好、讀取更快但卻死貴死貴的超快速存儲設備中,把次要元數據存在成本更低的普通SSD中。

這樣一來,無論是讀取還是修改這份數據,都變得比以前快很多,這個模塊將再也不是整個系統的瓶頸了。

除了 PhxKV,李潤輝還和陳岩他們一起合作,開發了很多頂級性能提升技術,最有代表性的就是 「小對象合併」「分布式緩存」

這兩個技術的核心思想一脈相承, 都是「化零為整」。

「小對象合併」就是把要寫入資料庫的小文件合併起來,統一寫入資料庫;「分布式緩存」就是把大量寫入請求先攢在緩存中,然後找合適的機會統一落盤,減少對存儲的衝擊。

這些技術雖然指導思想很清晰,但是在工程實現上,已經涉及到微觀世界裡一個一個比特的精確挪移。就像一個由0和1組成的機械臂,在億萬次的數據沖刷下,每一次騰挪都要保證嚴絲合縫、萬無一失,這對於工程師的經驗和耐力都是巨大的考驗。

終於,積沙成塔,一個個組件在賽博世界被拼裝起來。

每個組件在完成之後,都要經歷一次「渡劫」,那就是測試團隊非人般的「虐待測試」——包括但不限於拔磁碟、斷網、斷電,以及各種發送錯誤的消息包。

PhxKV 作為核心組件,當然不例外。

最初,一切出奇地順利,測試了10天,一個故障都沒發現。李潤輝竊喜:「看咱設計的這玩意多棒!」

不過,測試團隊的同學經過多年曆練,都是久經沙場的老炮兒,可沒那麼好糊弄,他們換了一個又一個新的測試用例,不測出幾個A類問題,不把系統搞死就誓不罷休。。。

遺憾,一些比較深層和偶發的問題還是開始一個個暴露出來了。測試團隊前腳發現問題,李潤輝帶著團隊後腳跟著修。講真,Bug 堪比女朋友:有些 Bug 容易搞定,而有些 Bug 就像幽靈一樣,時而重拳出擊,時而隨風消逝,搞得同學們恨不得要找個嶗山道士來施施法。。。

當然,百因必有果,這些 Bug 的原因還是被他們用科學的方式找到了。

李潤輝記得,最難的一個 Bug 團隊整整修了一個禮拜。那段時間,加班是家常便飯,有一次乾得太投入,一抬頭窗外已經漆黑,晚上連末班地鐵都沒趕上。

但是所有人都清楚,只有這樣慘絕人寰的測試,才能把系統「靈魂最深處」都洗禮一個遍,而在測試階段測出問題,比交付給客戶之後出問題要好一萬倍。

伴隨著一群技術宅的死去活來,賽博世界裡的引擎被一天天打磨得更閃亮,低吼轟鳴。

(六)成為「企業級」

很多人都有個誤解。

他們覺得「企業級產品」應該像美艷無雙的 影后,各個角度都芳華動人無可挑剔,讓人垂涎欲滴。

但真正的「企業級產品」應該像聰穎賢惠的 妻子,甘願陪你在漫長的歲月里前行,永遠不離不棄。

深信服這幫技術宅想做的企業級存儲也是一樣: 好的存儲產品不是用來「過癮」的,而是用來「過日子」的;好的存儲產品不是給你「燒錢」的,而是給你「賺錢」的。

既然是過日子,就逃不開「柴米油鹽」——成本。

對於存儲設備來說,最大的成本就是磁碟。所以一個根本原則就是:在存儲相同內容的情況下,占用的磁碟空間越少越好。

你直覺上可能會覺得:存儲一定的內容所用的磁碟空間應該也是一定的,怎麼還能變少呢?

不僅能,方法還不止一種。

首先,可以使用 「糾刪碼」技術。

糾刪碼是啥?舉個栗子你就明白了。

假設你現在就是那個存儲設備了,你的任務是存儲兩個數字:1024和2020。於是你找來兩張紙,分別寫上1024和2020。但這樣有個問題,如果不小心丟了一張紙,那上面的數字也就沒了。為了保險起見,你必須把數據寫兩份。也就是四張紙:1024、1024、2020、2020。如此一來,丟掉任意一張紙,你都可以保證數據安全。

以上是正常的方式,需要占用四張紙。

你還有一種聰明的方法。先在第一張紙上寫1024,再在第二張紙上寫2020,然後找來第三張紙寫上:「第二個數比第一個數大996」。這就是一個「糾刪碼」。此時,如果不小心第一張紙丟了,你可以用二和三把第一張的數字算出來;第二張丟了也可以用第一張和第三張算出來;第三張丟了,那丟就丟了吧。所以,仍然是丟掉任意一張紙都可以保證數據安全。

以上是糾刪碼的方式,只需要三張紙。

你看,糾刪碼就像變魔術一樣,在介質更少的情況下,保證了同樣的可靠性。這就是數學的魔力。

其次,還可以使用 「重刪」技術。

這個比較好理解:假設老闆給同事們每人發了一個《公司章程》PDF版本。同事們怕丟,ABCD四位同事都分別把這個 PDF 文件存在了公司的企業級存儲里。但是對於存儲系統來說,這四份《公司章程》其實背後是一個 PDF 文件,不需要占用四份空間。它完全可以通過智能識別,只保留一份,把重複的文件刪掉——無論這四個同事誰來查詢,都給這一份。

這又能節省一大票存儲空間。

再次,還可以用 「壓縮」技術。

這個你就更熟悉了。例如我們每天看到的 jpg 文件,就是一種把大文件壓縮之後的格式,壓縮之後的 jpg 往往只有原圖的十分之一大小。

但是,陳岩他們要做的是更兇狠的壓縮,把 jpg 文件再壓縮一次,壓縮之後只有 jpg 的十分之一,原圖的百分之一。。。

你可能會說,壓縮成這樣,那不就損失畫質了嗎?

損失畫質還算什麼漢子?他們要做的是不損失畫質還要壓縮這麼多。要做到這一點,必須用到最新的人工智慧技術來進行壓縮和解壓。

為此,陳岩三顧茅廬找來了行業內一票頂尖的人工智慧博士,專門研究壓縮算法。為了保證壓縮之後沒有質量損失,他們還做了好多實驗——讓專家用肉眼來盲測堅定,面對兩幅圖片,一個是壓縮過的,一個是沒壓縮的,直到專家無論放大多少倍都分辨不出來哪個是壓縮文件才算是成功。

在EDS里,陳岩他們還塞進去無數可以降低成本的前沿技術,每一個都可以拿來頂尖的科研論文講足一萬字,這裡篇幅有限,只能先說這麼多。

總之結果就是:原本200T的內容,放在深信服 EDS 系統里,可能只占用100T的空間。

但是,我想提醒你注意一點:糾刪碼需要配合計算才能恢復丟失的數據,重刪也需要計算力來檢測重複文件,壓縮就更需要計算力來實現了。也就是說,這些技術減少磁碟占用並不是沒有代價的,它的代價恰恰是計算力。

簡單一句話:這些技術都在用計算力換存儲空間。

但系統中的計算力也是有限的啊。所以,在工程實現中,並不是簡單地壓縮得越狠越好,也不是重刪做得越極致越棒,而是綜合考量成本和性能的平衡。

這些精妙的平衡點,不是靠拍腦袋就能想出來的,甚至也不能靠計算得出來的。它像一個神秘迷宮的終點,要在漫長的開發過程中,一點點調試每一個參數,推敲每一種取捨,組合每一種技術才能最終抵達。

在我看來,這才是一個偉大工程最迷人的地方。

你可能還記得,EDS 的設計目標是要承載百億小對象的存儲和調度。這下,終於到了見證奇蹟的時刻。

在最終的壓力測試中,各種測試數據不斷加碼,緩慢而堅定地爬升到了100億量級。大伙兒都屏氣凝神,秒針一格一格地跳動,系統所有「生命體徵」都非常完美,監控曲線像一條戰鬥機的尾跡雲絲滑掠過長空。

陳岩長出一口氣,吹出去的牛逼,總算實現了!

幾百人夜以繼日,一行行代碼的反覆調整,一個個模塊的反覆測試,才在一個「分布式存儲系統」前面加上了 「企業級」三個字,最終成為 「企業級分布式存儲系統」——EDS(Enterprise Distribute Storage)。

我還記得大學剛畢業的時候,那時覺得 EMC、Oracle 這種國際頂尖公司太牛了,一輩子都超不過他們。

但是現在我卻不這麼覺得了。歷史在給我們機遇,我們有機會做最好的前沿研究,做最強的產品化。現在我可以驕傲地說,我們距離國際頂尖大廠已經非常近了。這是我們這一代技術人的幸運。

陳岩對我說。

伴著機箱指示燈的明滅,這些代碼被灌裝進一個個「盒子」,它們成為了一個生命。

那些為存儲技術做了六年積累的同學們,還有為這個產品直接研發了兩年半的技術宅們已經等待了太久,他們迫不及待地向全世界宣布這個嬰兒的誕生。

(七)再上前線

2019年初,EDS發布。

與此同時,深信服進行了一次產品線重大改革,把 EDS 和已有的 SD-WAN、應用交付、桌面雲劃歸到了「新 IT」產品線。而彼時正在前線指揮銷售戰役的張強突然被一道金牌召回深圳,成為了整條產品線四個產品的運營負責人。

知道自己將要回到總部,在外「流浪」了十一年的張強心中像海浪翻湧。

作為銷售隊伍,他一直是做「媒人」,盡職盡責把產品線這個「閨女」嫁出去,但是閨女本身出落成什麼樣他從沒有機會插手。這次他終於要做一把娘家人,親自帶著孩子成長了。

這是一場橫跨十年的成全。

運營負責人不僅要為產品未來的研發方向建言獻策,還要把產品的特性、用途和場景用最透徹的方式講解給銷售隊伍。

EDS 將要成為無數企業的大腦,責任重大。不知怎的,張強突然回憶起很多年前深信服產品曾經掉鏈子的「創傷記憶」。履職新崗位,他第一件事兒就想搞搞清楚「這玩意兒到底質量怎麼樣?」

張強挑挑眉毛,試探性地問陳岩:「研發這個如履薄冰,你睡得著覺麼?」

陳岩歪嘴一笑:「我睡得香著呢,怕是你睡不著吧??」

為了讓張強放心,陳岩把研發團隊里幾位帶頭的博士找來,把我前面那大幾千字講的技術科普用十倍詳細的方式給張強和運營團隊講了一遍,又拉著他去看了無數場測試的數據。

張強被研究團隊的專業精神和匠人精神徹底震撼了,深施一禮:「我們研發兄弟可以啊!士別三日當刮目相看!」

但是,EDS 的牛X之處,只有張強懂了還遠遠不夠,重要的是怎麼讓一線的銷售隊伍和客戶也能懂。。。

看到這裡,你可能也感覺到了,存儲產品是一個科技含量極端密集的產品,但它就像你身邊那個高冷的朋友,雖然內心奔涌,但並不容易讓人接近——即使是深信服的銷售同事也很難一下子100%感受到 EDS 所凝結的那種 科技性感商業潛力

實際上,在 EDS 剛面世的時候,雖然有一些勇敢的前線銷售同學積極推廣,但是更多銷售同學卻踟躕觀望,不知該怎麼使勁兒。

這是個很大的問題。

幾百人的智慧結晶,賽博世界的一艘航母,如果因為銷售團隊對它不夠熟悉而不能及時送到需要的人手裡,那將會多麼遺憾啊。。。

時光流逝,刻不容緩。張強決定,再次肉身衝進煙塵。

從2019年開始,他跑遍了全國每一個大區幾乎每一座城市,每到一地,就組織當地的銷售同事還有合作渠道宣講存儲產品的技術原理和應用場景。

張強像捏包裝紙上泡泡的小孩那樣,非得把所有的泡泡都捏碎才罷休——每到一處就一個問題一個問題地認真解決。

有的渠道商吐槽說產品不被認可,他就揪著他們追問,到底哪不好,說清楚,我們想辦法改進。後來證明,所謂的產品「不好」絕大多數都是因為不夠了解,使用姿勢不正確造成的。

收集了大量的反饋之後,張強還組織同事拍了各種「片子」,有的是場景和部署教學,有的是實測性能的場景,有的是突然拔電測試,有的是拔硬碟測試——讓銷售團隊每一個人都直觀地感受到產品這「該死的實力」——然後就可以理直氣壯有理有據地告訴用戶,深信服的東西到底有多強。

這就是拔硬碟測試的片子

憨豆也表示了同意。

眼看大潮將至,深信服高層也制定了「強推」 EDS 的策略,加之在前線十幾年的老炮兒果然內力深厚,局面被迅速打開。

在2019年推出的當年,EDS 的客戶就突破了100個,其中很多都是金融、廣電、政府這些重磅大佬。要知道,他們運營的都是國家基礎設施,對存儲性能和穩定性的要求之嚴格堪比皇帝選妃,選用之前會進行最苛刻的測試。

某個老牌期貨公司,由於業務屬於金融交易,對數據存儲的安全可靠要求高到變態。這麼多年一直在用老外的存儲系統,國產根本沒有機會。但就在2019年,問題出現了。

期貨每晚要開夜盤。夜盤之前必須把白天大概80萬行的交易數據同步寫入進去。可是,這麼高的吞吐量,原有的系統做不到。不僅如此,查詢的速度也摸到了極限,這家期貨公司提出要求,對方已經做不到了。

深信服這幫人看準機會,為國產存儲系統爭光,拿 EDS 系統去期貨公司測試,在4KB,70%隨機讀,30%隨機寫的情況下,每秒吞吐量可以達到22萬次。另外,查詢時間也比外國友商縮短了50%。這個數據可以用驚艷來形容。

結果順理成章,EDS 順利替換了那家外國高端存儲。

之前說過,EDS 的目標是承載百億小文件,這個性能雖然在內部測試中完全沒問題,但是卻一直沒機會在實戰中驗證。

機會終於來了。

2019年底,南方某市的公安機關,由於治安管理的需要,要進行人臉比對。它背後的存儲系統要承載十億級別的人臉基礎數據,還有更多實時加入的新照片,這些都是典型的小文件。

深信服的這幫技術宅又跑去打單子,自告奮勇要承擔這個任務。結果,EDS 接入系統,數據很快就接近了百億,而且還在上升。在這麼重的負載下,仍然運行順暢,披荊斬浪。

這只是一張示意圖(非實際截圖),你感受一下人臉比對系統的壓力。

金剛鑽實打實地驗證過,才更敢攬瓷器活。

銷售夥伴一起努力,整個2020年,EDS 光速進入了動畫製作、石油地質勘探、衛星雲圖處理、基因編輯等等對數據存儲需求極大,但也對存儲性能要求極高的頂尖行業。

這種兇猛的姿態,超越了很多人的預期。

但最讓張強感慨的並不是暴增的用戶數量,而是他們背後所涌動的生命力。

對數據需求大的,很多都是「用腦」的公司,他們凝結了很多中國的優勢科技,肯定是未來經濟的中堅力量,我們的 EDS 產品幫到他們,就是我們在為這個時代貢獻力量,這個事實讓我們感到驕傲。

他說。

眼前的這群技術宅,恰如當年那些少年。不搞關係,不講回扣。一如既往,這是一場技術的勝利。

這就是在用戶現場準備服役的 EDS,看出「分布式」的感覺了嗎?

(八)平凡之路

歷史的書頁像拉洋片一樣翻動。

2008年,中國是只問耕耘不問收穫的世界工廠;2020年,中國已經是世界第二大經濟體,擁有無數核心科技,GDP 超越一百萬億人民幣。

2008年,深信服是只有200人的創業公司;2020年,深信服已經是一家擁有8000人,市值近千億的上市公司。

那些技術宅的預言也一個個成真。

依靠數據醫生們可以在賽博空間裡復刻出每一個的實時健康狀況,無數病人不再因疾病突發而徘徊在生死邊緣;

依靠數據人們可以在數字世界刻畫出厘米級別的高精地圖,無數司機因為輔助駕駛系統而避免了潛在的事故;

依靠數據相關部門可以掌握精確到每一個鄉鎮的經濟動向,無數貧困人口因此可以得到精準扶助。

時至今日,連最木訥的人都無法對數據的魔力無動於衷。

而站在此刻回望,如果今天的我們沒有這些已經打磨成熟的 國產企業級存儲產品,眾多數據將無處安放,我們的企業和政府也不可能擁有今天如此之高的平均效率。由此,我們在這個時代和惡龍作戰的每一次衝鋒的勝算也會在無形中降低。

數據所眠之地,無外乎一個個「盒子」。但無數個盒子在賽博空間連綴成無邊無際的分布式存儲,就成為了這個時代的奇觀。

包括深信服在內的眾多有夢想的科技企業,正是這個奇觀的設計師。

張強固執地堅持一個原則:「偉大的產品不應該曲高和寡。」

一個事實是:在我們的國度,最珍貴的數據往往產生在那些專業領域的一線企業中。例如特種原料行業,例如工控設備行業,例如房地產行業,例如連鎖零售行業,而很多專業企業至今還沒有完全意識到自己手中擁有金礦,也沒有「儘早把數據積累起來」的意識。此時此刻,有無數珍貴的數據仍然在流失,這讓人感到心痛。

數據流失的一大原因,其實是缺少專門為各個行業深度定製的行業解決方案。就像沒有一支由驅逐艦、護衛艦、艦載機組成的航母編隊,只憑一艘航母也難以單打獨鬥。

和各行各業的解決方案提供商合作一起做出行業解決方案,正是今天張強和陳岩他們全力以赴在做的事情。

每個行業都有不同的特點,對於存儲的需求也不同。例如連鎖零售企業需要把各個渠道的用戶信息匯總起來,進行精準的客戶營銷。醫療行業可能需要存儲各種器械拍下來的片子,由系統和各個科室的病例打通;例如電視台可能需要存儲各種音視頻資料,並且可以讓各個編輯系統都可以調用訪問。

一句話,原來我們只提供毛坯房;未來企業客戶可以拎包入住!

張強滿眼期待。

而到了那時,也許就是另一個新故事的開始,我們不妨心懷憧憬,一期一會。

臨別時我問張強,覺得自己是個啥樣的人。

他想了想,說覺得自己是個平凡的人,他也把陳岩、李潤輝這些深信服的兄弟們都稱作平凡的人,用他的話就是:「背著雙肩包,放在地鐵站馬上就認不出來的那種」。但是他覺得,平凡從來不等於安分,平凡人聚在一起也能做出偉大的事情。

恰如你我,每個人的人生軌跡都是一條平凡的線,而十幾億條平凡的線交織在一起,就是我們這個國度的歷史。

這段歷史強大,堅韌,一往無前。

《有一種溫度叫深信服》

唯凡人

造奇觀

文章來源: https://twgreatdaily.com/zh-cn/cMY32nUBxV5JH8q_6R19.html





白海豚大逃殺

2021-05-24