如果有一天,你獲得超能力,能瞬間移動到任何一個地方,你很快就會發現,這個世界上的大多科技對你而言將變得毫無意義。
你不再需要網購,因為你能去任何一家商店,親手觸摸,親身試穿;你不需要快遞、外賣、打車軟體,甚至汽車、飛機之類的交通工具,連最新的自動駕駛系統也對你失去魅力;什麼在線教育、醫療、視頻聊天,遠程會議……你都不再需要。
可惜沒如果。
所以反過來想就會發現: 我們人類的 許多科技很大程度上是為了解決同一個問題——打破空間限制,或者說「跨越距離」。
人類天然就厭惡空間限制,從不掩飾對「跨越距離」的渴望。
這種渴望常常暴露在藝術作品裡——孫悟空戰鬥力再爆棚,也得配個筋斗雲;哈利波特厲害,還得有個飛行掃帚;哆啦A夢一集掏出一個新道具,任意門的魅力卻經久不衰。
和藝術作品相比,現實世界人類和「空間限制」的對抗更加劇烈。
五千多年前,我們的祖先一次又一次狠狠摔到地上,才馴化野馬;兩千多年前,秦始皇一聲令下,無數人前仆後繼,烽火台延綿萬里,僅僅為了跨越距離傳遞一個戰爭信號;兩百多年前,第一輛火車被馬車追著嘲笑;一百多年前,萊特兄弟經歷無數次失敗終於試飛成功;第一聲電報按響、第一通電話……以及幾十年前,網際網路誕生。
人類科技發展迅猛的背後,始終有一股跨越距離的渴望在推動著。
今天我要聊的聲網的故事就發生在網際網路,也跟「跨越距離」有關。
一
那幾年,中國掀起一股韓流,十台電視有七八台在放韓劇,街邊小店循環播放著一首歌:「烏那拉,烏那拉,阿祖烏拉……」(沒錯我說的就是《大長今》的主題曲,腦子裡有聲音了嗎?
)
一些人開始對韓語感興趣,可大城市還好說,小城市哪有什麼像樣的韓語學校?身邊也逮不著韓國人(不像馬雲小時候可以在西湖邊找老外練口語)。於是, 人們把目光投向網際網路——一個沒有地域限制的世界。
學語言還得靠嘮嗑,一來二去,人們在網上發現一個好東西——YY。
一群又一群韓語愛好者們的亂入,讓時任YY技術負責人的趙斌十分驚訝,在他的設想中,YY並不是用來學語言的,而是給遊戲玩家們設計的。
最早的一批YY用戶是《魔獸世界》玩家,他們需要在遊戲中實時交流配合,打字會耽誤打怪,於是多玩網的創始人李學凌就帶著一伙人為他們做了個語音交流工具,也就是YY。
之後,《傳奇》、《穿越火線》等各類遊戲玩家都聞訊湧入YY,這是在預料之中的。可是,學韓語頻道之後,越來越多和遊戲無關的語音頻道相繼出現,學英語的、學PS的、學樂器的、唱歌的、閒聊吹牛的……這挺出乎意料。
遊戲之餘不少人喜歡在YY吹吹牛、吼兩嗓子
原本只是為了解決一小部分人的需求,卻無意之間觸碰到一個更普遍的需求,就像是原本只想去地里挖幾顆菜,卻一榔頭挖到個金礦。
儘管在加入YY之前,趙斌已經從事音視頻行業很多年,還是美國著名視頻會議公司WebEx的創始工程師之一,可他那時對實時音視頻軟體的理解還停留在「網絡電話」、「語音工具」的層面,YY用戶們徹底顛覆了他的想法。
據趙斌回憶,那時YY上有一位老大爺,每天在頻道里演奏自己發明的一個奇形怪狀的樂器,一群十幾歲的孩子在頻道里圍著老大爺鼓掌、歡笑,用文字、聲音、表情包和打賞投以欽佩的目光。
這些人與人跨越距離實時互動的情景給了趙斌極大的啟發,一些抽象的思考開始鑽進他腦子裡:工具背後人與人的情感交流,人類對跨越距離實時互動的渴望和需求……
後來YY逐漸演化出在線教育,直播,很大程度上都是YY用戶們對「跨越距離」的渴望在推動著的。
當越來越多的人開始用YY學習,連大型教育機構們也開始入場,YY就做起了在線教育;
當玩家們不滿足於「開黑」,還想站到大神身後,看他究竟是怎麼玩的,遊戲直播就出現了;
當人們不滿足於只聽見小姐姐溫柔的聲音,還想一睹芳容,秀場直播就出現了……
一切是那麼地自然,就像生物演化一樣。
當年每個網吧大神背後都站著一群人
2012年YY的母公司歡聚時代上市,招股說明書的概述一欄有一句非常顯眼且靠前的話: 「人類是社會性動物,具有與他人聯繫、互動和交流的基本願望。」
我想在它後面補一句話以便於理解: 「但這種基本願望在現實世界常常被地域限制,被距離阻隔,誰能幫助人們滿足這些願望,誰就能獲得回報。」,當年 YY敏銳地捕捉並很好地滿足人們的願望,因而獲得巨大回報。
二
YY上市的第三年,趙斌離職,財富自由的他,本已有退休之意,卻又出來創辦聲網。他自己的解釋是:「 被身邊朋友們慫恿出來的」,可根本上還是因為 他相信人類對於「跨越距離」的渴望遠遠沒有被滿足。
當年, 李學凌給YY提出 「不卡、不掉、不延遲」的產品需求,可是當YY的用戶規模越來越大,接近百萬日活時,這個需求就變得很難維持,後來趙斌加入,帶著一眾幹將重寫了YY語音的技術底層,才讓YY突破百萬日活並在一年內衝到千萬級別,在一眾語音工具里脫穎而出。
「不卡不掉不延遲」, 這個目標乍一聽並不困難,就好比一家飯店把目標定為「不髒沒毒不難吃」,怎麼就那麼難實現呢?
要怪就怪當年網絡基礎設施,以及底層技術有限。
零幾年時,我家還用的是電話線ADSL撥號上網,再早一些,南北互通都是個問題,玩個遊戲都要分電信區和網通區,技術人員再怎麼優化也就那樣,就好比車多路窄,交警盡力疏導,不堵死已經算好,你還嫌什麼車速慢?做到一定的用戶規模,「不卡不掉不延遲」已經是當時能做到的最好程度,還要啥自行車?
趙斌知道,只要底層技術還在發展,網絡環境還在改善,「幫助人們跨越距離」這件事就還有進步空間。
同樣是為了「跨越距離實時互動」,聲網和YY當年的具體做法不太一樣:
YY是做一款軟體,讓需要的玩家們自己打開來用。聲網沒有選擇做應用,而是做了一套應用背後的「實時互動基礎設施」,把實時互動的能力直接用API接口的形式嵌入到各種應用里。
用一個不太嚴謹的人比喻:當年的YY是小區里的一個公共水龍頭,需要的人自己打水,等越來越多的人聚攏過來,它再在旁邊支個攤子賣瓜子飲料礦泉水,用別的生意來掙錢。聲網則是直接向房地產開發商收錢,幫他們把「自來水系統」接進樓里,業主入住就直接有水用。
開發者出身的趙斌相信科技總是會朝著「普惠」的方向發展,因此他希望能將原本只有巨頭才能擁有的實時互動能力普惠給所有開發者和創業者。
如果把時間拉回到2006年前後,你就會發現,《魔獸世界》遊戲里其實內置了語音聊天功能。這就奇了個怪,樓里明明有自來水系統,看著還挺好,為啥大家還有去樓下YY那兒打水呢?
魔獸世界自帶語音系統設置介面
原因很簡單,因為《魔獸世界》當年自帶的語音服務做得太垃圾,簡直是又卡又掉又延遲,直接把人們勸退(不曉得後來好了一些沒有)。
還接著用剛才的比喻,《魔獸世界》這棟樓里雖然自帶水龍頭,可是水質不行,一會兒流黃的一會兒流白的,還老是停水漏水。
對於一個自來水系統而言,人們能看得到的水龍頭是最容易做的,卻也是不重要的,背後人們看不到的水質保障才是關鍵。同樣,一個語音聊天功能,介面和按鈕是最容易做的,也是最不重要的,背後的音視頻採集,數據傳輸、時間同步,網絡抗抖動、抗丟包、抗延遲才是最重要,也是最難做的。
假如當年每個遊戲都自己把語音功能做好,壓根就不會有YY什麼事兒,但這不可能發生,因為這事兒太難了。當年專業的語音聊天工具那麼多,敢自稱不卡不掉不延遲的都寥寥可數,難度可想而知。
「實時互動不是一個功能,而是一項服務。」聲網的創業路上,趙斌不斷告訴隊友們。後來直到聲網成功上市,趙斌都說:聲網唯一作對了的一件事就是率先意識到實時網際網路是一項服務,而不是功能。
創業第二年,聲網迎來第一個客戶,隨後第二個、第三個……就像下雨一樣,先是零零散散的一滴、兩滴,隨後才是密密麻麻。
聲網的狂風驟雨發生在2020年。這一年,新型肺炎病毒把人們圍困在家中,人類的活動空間被限制到前所未有的狀況,限制激發出強烈的渴望,人們再次把目光投向網際網路,一如當年那些學韓語的人把目光投向網際網路——這個沒有空間、地域限制的世界。
於是整個網際網路世界一下子忙得不可開交,所有涉及音視頻技術的廠商都數據大漲,美國政府甚至下通告讓Netflix、Youtube等網站降低畫質以節省網絡帶寬。視頻會議、在線教育、在線醫療……各種在線廠商們迎來前所未有的春天,聲網的通話分鐘數也成倍成倍地增長。
乘著這陣風,聲網在美股上市。招股說明書里,聲網把自己定義為一個 「實時互動雲服務商」,英文是RTE——Real-Time Engagement,一些人感到詫異,因為在此之前,人們對這個領域的描述更多的 「實時音視頻」或者「實時通訊」,英文是RTC——Real-Time Communication
RTC 這個詞算是谷歌給發揚光大的。2011年,谷歌收購了一家從事音視頻實時互動引擎開發的公司GIPS,將其技術重新組織並開源出來,起名Web RTC,利用它可以很方便地在網頁或應用中嵌入實時音視頻功能。
在隨後的十年里,RTC逐漸成了代表這個領域的詞。 可是到了2020年,聲網覺得RTC已經不足以定義這個行業和它自己。
如果說2010年之前,網際網路主要解決的是「跨越距離實時互動」的可用問題,2010年至2020年的10年時間,主要解決的則是普及問題。2020年疫情過後,幾乎沒有人再對線上實時互動感到陌生,它已經滲透到我們生活中的各種場景,所以是時候梳理一個新的目標。
趙斌告訴我 :「聽見聲音,看見畫面只是實時互動的一個起點,一個基礎。」
言下之意,RTC代表的音視頻技術只是實現手段,而不是最終目的,人與人之間跨越距離,RTE實時互動才是。
實踐當中,RTE和RTC是個什麼關係?舉個簡單的實際例子你就明白。
一位老師給孩子們遠程授課,除了傳輸聲音、畫面之外,老師還得寫板書,在PPT上寫寫畫畫,這時就需要一個 互動白板,實時同步板子上的筆跡給所有人,白板上實時划動的筆跡就超出了音視頻的範疇,它是通過信令來傳輸的。
聲網最近收購的互動白板公司Netless
一位醫生給千里之外的病人遠程手術,他看著那邊實時拍攝的畫面,聽著揚聲器里那邊手術室的聲音,這都屬於實時音視頻,也就是RTC的範疇,但當他操控著千里之外的手術刀輕輕划動,這就是靠信令在傳輸,屬於RTE的範疇。
現今的許多遠程手術有一個很大問題: 沒有觸覺反饋,醫生不知道用了幾分力,為了讓醫生保持手術「手感」,未來遠程手術的醫生也需要獲得觸覺反饋,這些觸覺反饋當然也需要實時傳輸,這也超出了音視頻的範疇。
圖片來自網絡
一言以蔽之,RTC是RTE的子集,RTE是RTC的Plus版本。
三
2021年春節那個特殊的除夕夜,無數遊子響應國家號召留在異地,我也是其中之一,某一刻,我挺慶幸自己生在這樣一個科技時代,隨手拿起手機就能見到千里之外的親人見面,不必學李白舉杯邀明月,對著手機攝像頭就能一起喝兩杯。
那時我就不禁猜想,未來實時互動會朝著怎樣的方向發展?VR、AR和5G網絡普及之後,會不會出現電影《頭號玩家》里的場景,我們每個人戴一個VR眼睛,穿梭到一個虛擬世界裡,在裡頭拜年,聊天,發紅包,打麻將……甚至在裡面工作,完全不必在意現實世界的種種空間約束?
我帶著這個問題去找聲網的朋友聊天,聲網的CFO王靜波告訴我:「在虛擬世界裡工作?不用等未來,現在就已經有了呀~還是聲網的客戶呢……」
我順著他說的找到這個叫 Virbela 的產品,發現它的設定是這樣的:
在一個虛擬的真實場景,你控制著一個角色在裡面行走,就像一個3D遊戲。既可以用電腦來操控,也可以用VR設備進入。
你為自己的角色捏臉,換衣服,可以選擇做成近似你真實的樣子,也可以為它「美顏」。
它是如何用來遠程辦公的呢?
當控制著角色走到公司門口,前台小姐姐會跟你打招呼,你能透過耳機聽到她的聲音,她的背後也有一個真人——你公司的前台,她正坐在現實世界的家裡遠程辦公。
你走進公司,前往自己的工位,路上可以看到同事正在幹活,你們可以相互打招呼。
隨後,你也找到自己的工位,桌上擺著一台電腦,你坐下,然後開始工作——當然是用你現實世界的電腦,真實地工作。
期間,如果你有一個好點子,可以扭頭或起身告訴同事,他們就在你身邊, 系統會根據你們角色的距離和位置來調整音量和環繞效果,模擬真實環境,仿佛你們真的坐在一起。
會議室里,大家開著早會,牆上的投屏是你們真實討論的內容。
工作累了,你可以到茶水間喝杯茶,可以跟同事下樓聊會兒天 ,抽根煙。
如果你願意,還可以跳一支歡快的巴扎嘿。
這個軟體除了能用來遠程辦公,還能用來當遠程VR教室,做一場大型演講。
甚至開一個商業展覽。
儘管畫面看起來並不那麼精細,有些場景甚至有些滑稽,可是在這裡,你擁有最豪華的海景辦公樓,大到能開火車的辦公室,藍天白雲,綠草如茵,不用通勤,你還要啥自行車?
不得不說,歪果仁的腦洞真是大。不過可惜Virbela是一家國外產品,否則我也想在裡頭買一幢寫字樓。
「《頭號玩家》會不會是實時互動的終點?」我問王靜波。
「 不會。」他說,《頭號玩家》的場景很可能會出現,但絕不會是實時互動的全部。聲網對未來的判斷是: 實時互動在未來一定會呈現多元化的特點,各種形式並存,而不會只存在一種形式。
他說,就拿線上鬥地主這個典型的實時互動場景, 有的人就喜歡對著電腦和手機玩,因為裡面有豐富的道具和特效,如果 在一個虛擬世界裡做一個仿真牌桌,未必大家會喜歡。
就目前來看,未來更可能出現的情況是,實時互動像水和電一樣滲透到我們現實生活中的每個角落,也許在人們不經意之間,就以某種方式出現,解決某個需要跨越距離的問題。
也許是視頻辦醫保,不要跑腿就能辦各種業務。
也許是「在線自習室」,三兩網友開著攝像頭直播學習,相互監督。或者幾個程式設計師結對編程。
又或是「虛擬電影院」,幾個朋友一起看一場電影,一邊看一邊聊天吐槽?
也可以是一邊看一場球賽直播,一邊和三五個好友邊聊天邊擼串邊喝啤酒,就像世界盃期間的酒吧一樣。
實時互動+智慧家居?實時互動+智能汽車?實時互動+金融?誰也無法準確預料實時互動下一次會在哪一片土壤里開出怎樣的花。
這也是為什麼聲網為每個客戶提供免費的每月10000分鐘實時音視頻使用時長, 「10000分鐘是一個不小的數字,足夠開發者們嘗試絕大多數想法。」他們希望人們去實踐每一種對實時互動未來的想像。
四
實時網際網路的未來讓人憧憬,卻也讓聲網這樣底層技術服務商感到緊張。
未來是多元的,而多元意味著碎片化,各種情況都可能出現,這要求他們在技術上達到極強的敏捷性,才能應對每一種複雜情況。
聲網的首席科學家鐘聲講過一個最簡單的例子。四個人在線上開會,網絡質量各不一樣,會出現一種情況:
如果實時網絡遷就網絡最差的那個,用低畫質傳輸視頻流,那麼其他三個人明明網絡很好,卻也只能看最差的畫質。
可是如果視頻流按照高畫質來傳輸,網絡不好的那個就會卡頓。
對於這種情況,聲網必須去實現網絡的自適應和可伸縮性,實時探知每個參會者的網絡情況, 做到自適應的視頻流下發,並且能動態變化。
當網絡狀況好,畫質就清晰些,網絡不好,畫面自動變得差一些,但不能卡頓,等網絡變好再讓畫質自動調回來。
乍一聽好像也不是特別複雜,可是每個人的網絡狀況就像馬路上的汽車,每時每刻速度都在變, 要實時探知每一個參會者的網絡情況,並在毫秒之間做出反饋,並不簡單。
機器學習算法的原理咱們就不展開說了,簡單來說,這像你每一次出遠門時,要先掏出導航軟體搜索目的地,讓軟體幫你預估一下路況和預計耗費的時間。所謂「探知帶寬」就是給網際網路世界的網絡流量們導航,以毫秒為單位, 每時每刻進行,幫助它們按時到達目的地。
十年前,「不卡不掉不延遲」是一個很難達到的標準,今天網絡條件不斷變好,可人們的需求也在變高,從普清到高清再到超高清,從PC到手機再到AR、VR和各種智能設備。路在變寬變好,可是車也在變多,想要完全不堵車依然不容易,「不卡不掉不延遲」依然是一個近在咫尺卻又難以企及的目標(100%的不卡不掉不延遲顯然並不存在)。
為了節省帶寬成本,聲網依然不得不「省吃儉用,想盡辦法把每一個Bit的網絡流量用在刀刃上」。
比如:他們研究的「低碼高清」,可以趁你不注意,把你不太關注的地方的解析度降低,在不影響觀看的情況下節省碼率。(這個跟我們之前寫過優酷的「窄帶高清」 有異曲同工之妙,區別是聲網這個是在實時互動中進行的)
再比如:當我們觀看180°或360°全景視頻,或VR時,可以讓視野中心顯示得更清晰,邊緣可以稍稍模糊,這樣一來既可以節省帶寬,確保畫面流暢,也符合人類的真實視野感受(視野邊緣比中心模糊)。
圖片截取自RTE2020 鐘聲的演講
極端情況也依然存在。儘管我們未來有5G網絡,可偶爾也會遇到信號差、受干擾的情況。同樣會導致卡頓、延遲和掉線。
儘管通過自適應的網絡傳輸方案,聲網可以做到在70%的丟包率下視頻依然流暢播放,但這往往需要犧牲畫質和流暢度。
聲網的人告訴我,最近幾年開始在使用一種方法:可以利用人工智慧算法來「插幀」,將低幀率的視頻變成高幀率,利用AI超解析度算法來增加低解析度視頻的解析度和細節。
所謂「插幀」就好比是你在看一個手翻書,AI算法趁你不注意,在毫秒之間在每一頁的後面添了上一頁,讓畫面看起來更流暢;「超解析度」就是AI趁你不注意,在畫面上添一些細節。
由於是實時互動,所以插幀和超解析度必須在幾毫秒之間完成。
除了網絡質量問題,未來他們還可能碰見各種情況:使用者跨運營商、跨國,用的設備螢幕不同,電腦,手機、手錶,VR眼鏡……以及可能出現的各種各樣的實時互動場景,大到成千上萬人的大會,小到一對一的在線輔導,他們都得應對自如,技術挑戰不可謂不大。
五
年前我去找聲網的人聊天時,聲網的股價興許是受伊龍·馬斯克作客知名播客互動平台ClubHouse事件的影響,一路蹦到一百多美元一股,翻了一倍多。我問他們感受如何,王靜波說,對於聲網和Clubhouse的關係不發表評論,但是可以談談股價波動對他們的影響,答案是沒什麼影響。
他說,在他加入聲網的一年,發現這家公司的人有個特點,平時幾乎不聊「數據漲了沒」、「股價漲了沒」之類的短期數據,大家聊的更多的是客戶的問題怎麼解決,如何應對未來。
我聽了還挺羨慕他們,心中能有一件自己篤定的未來,一個清晰的目標,就像《海賊王》里的寶藏OnePiece等待他們去尋找,心無旁騖地向前,真好。
人類終究不會擁有瞬間移動的超能力。
可是作家亞瑟·克拉克說過,任何足夠先進的科技,都與魔法無異。
我想,我們今天能拿起手機和千里之外的人視頻見面,也許在古人看來,就和在空中開了一個魔法傳送門沒什麼區別。
這些「魔法」,不也是一代代人用普通能力累計起來的?所謂超能力,不過就是能力的積累。
因此,興許有一天人類真的能擁有「瞬間移動」的超能力,但那一定是人類始終帶著打破空間限制的渴望,像愚公移山那樣一榔頭一榔頭, 一代一代人創造出來的。
最後再介紹一下我自己吧,我是 謝么,科技科普作者一枚, 日常是把各路技術講得通俗有趣。想跟我做朋友,可以加我的個人 微信:xieyaopro。 不想走丟的話,請關注 【淺黑科技】!(別忘了加星標哦)
在這裡讀懂科技