2020年11月,全球最大的同性交友網站,哦不,應該是「全球最大的軟體代碼託管平台Github上,一個名叫「TencentCloud」的帳號悄悄上傳了一個項目。
圖片截取自Github
TencentCloud的背後帳號主體是騰訊公司,O266Paly是一個視頻播放器,也就是咱們看片兒用的軟體。
如果不說,並不是所有人都能立刻想到,這樣一個「小小的」播放器及其背後的視頻編解碼國際標準,對騰訊公司乃至整個網際網路世界意味著什麼。
一
我們幾乎每天都和視頻打交道,刷朋友圈、遠程開會、直播、短視頻、追劇、看綜藝……但鮮有人意識到,我們用的這些APP、手機、電腦,乃至整個數字世界有多麼依賴視頻編解碼技術。
舉個例子:一部電影,時長為2小時、每秒幀數為24、清晰度為1080P,假如完全不壓縮,會是多大?
讓我們一起用小學數學知識不嚴謹地估算一下(不想算可以直接看結果):
2小時是7200秒,所以這部電影一共是7200×24=172800幀,也就相當於172800張圖片。
一幀1080P的畫面是1080×1920=2073600個像素點,每個像素點大約占據1.5個位元組,所以每幀畫面占據3110400個位元組。
於是,整部電影就是172800×3110400=5.37×10^11個位元組。
換算過來大約是500GB。
也就是說,如果沒有視頻壓縮技術,一部最大容量的iPhone12,也就勉強存下一部電影。
可能有人說:誒?不對啊,我電腦和手機里一部電影也就2、3個GB啊?怎麼比你算出來的小了這麼多倍?
是的,這就是視頻壓縮技術(視頻編碼技術的俗稱)的功勞。它像魔法一樣,愣是能把「信息倉庫(硬碟)」里和「信息高速公路(寬頻)」上的一輛輛大卡車給壓成玩具車的大小。
二
視頻編解碼技術究竟有什麼「魔法」,能讓一個視頻體積縮小几百倍還不影響觀看?
這裡插播一條關於視頻編解碼技術的科普。
一段視頻的編解碼流程有點類似工廠里的一條長長的流水線,原始視頻順著履帶傳送,每個關鍵模塊站著一位「工人」,即編碼工具。
以2013年推出的H.265/HEVC國際編解碼標準為例。
第一位「工人」像是一位「劍客」,負責「圖像塊劃分」—— 把每一幀圖片切成許多細碎的小塊,就像這樣:
第二位「工人」負責「幀內預測」,就是在一幀圖片內找規律。
比如上面這張圖,最右側的「塊」都是同一種藍色,就可以用一種更節省空間,但不影響效果的方式來表達它。
就好比是我們生活中記一串數字:4000000000111,有的人會說:「四零零零零零零零零零么么么」,有的人則會說:「四,九個零,三個一。」意思不變,但後一種更好記。
論:如何把一長串告白壓縮成四個字,還不影響情感表達
第三位工人負責「幀間預測」,即:對比相鄰幾幀的圖片,找到視頻里物體的運動和變化規律,然後用更節省空間,但不影響觀看效果的方式來表達它。
最典型的例子是播報新聞時,主持人身後的背景基本沒變,就可以節省一些不必要的空間。
上面那塊基本沒變,下面那塊變了
之後還有很多道工序,比如「殘差編碼」、「變換量化」、CABAC熵編碼」、「環路濾波」等等……由於過於燒腦,今天限於篇幅就不展開,上文中的比喻也並不嚴謹,只是最最最最簡化的說法,便於大家理解。
真實的流程圖可能是這樣的,大家感受一下就好:
H.265的編碼流程
總之,我們生活中看到的每一個視頻、直播,都經過類似這樣的一道道複雜的工序,背後是大量視頻技術專家、標準制定專家、視頻技術工程人員參與其中。
假如此時此刻,老天爺決定讓視頻編解碼技術一瞬間消失,那麼所有視頻會像汽車的安全氣囊一樣「嘭」地變大,把整個數字世界給「撐爆」。因為目前超過七成的網際網路流量都是視頻流量——數據來自美國思科公司。
三
一旦你明白了視頻編解碼技術影響有多廣,就會知道,在這個領域掌握話語權有多重要。
視頻壓縮的技術很多,但為了讓地球這一頭A公司壓縮的視頻,地球另一頭B公司也能打得開,上個世紀80年代末,聯合國下屬的兩個組織:國際電信聯盟 ITU-T和國際標準化組織ISO/IEC,開始各自組建視頻編解碼技術委員會,制定視頻編解碼技術標準——大家都按照同樣的方法來編碼視頻,就可以互通啦~
目前對業界影響最深的國際視頻標準叫 H.264,又叫MPEG-4 AVC。之所以有兩個名字,是因為剛才說到那兩個國際標準組織發現乾的事情有點重疊,於是決定合作一起干,但各自命名。
就像南方人管姥姥叫外婆,北方人管外婆叫姥姥。
下面這張圖是各代國際標準族譜,虛線框住的就是同一套標準用了兩個名字。
H.264 是第四代標準,2003年推出的,如今依然主導者整個網際網路世界。
你看的視頻網站、直播、刷朋友圈、上網課等等,大機率背後有用的是2003年推出的H.264標準,這背後有一個鮮為人知的殘酷事實:當初沒有一家中國企業參與這個標準的制定,清一色是拿著別人定好的技術標準直接用。
直白點說,就是國際標準格局被國外壟斷了。
第四代是這樣,前幾代更不必說,我們當年用的VCD、DVD、數位電視機頂盒等等,背後用的都是國外公司制定的標準。
別人聚在一起討論遊戲規則,你沒參與,意味著沒有話語權,沒話語權,就意味著容易吃虧。
怎麼個吃虧法呢? 標準里涉及到的技術專利叫「標準必要專利」——但凡你的產品聲稱用了這個標準,人家來告你,說你侵犯了其中的技術專利,都不用去舉證,官司打到最後基本都是對方贏,直接賠錢就行。
不賠錢?禁售。執法機關會把你公司準備運到國外去賣的電視、機頂盒、手機等硬體直接扣住(實際也有不少案例)。
當然,你也可以不用這個視頻壓縮國際標準,但這意味著你的存儲和帶寬費用將成倍地增加,或你壓縮出來的視頻無法和其他廠商互通,這對業務的影響相當大。
如果搜索「H.264 + 被起訴」或「H.265+被起訴」,你也許能看到一些耳熟能詳的中國企業的名字。
這也是為什麼從二零零幾年開始,我國有關部門就批准成立相關組織研發和制定中國自主智慧財產權的AVS視頻編解碼標準。但這又是另一個話題了,一言難盡,總之目前國際上主流的還是H.264。
從2013年推出的H.265開始,中國公司開始積極參與標準制定的過程。一方面是吃一塹長一智,一方面也是越來越多的中國企業真正開始立足於國際市場。
也正是在H.265時期,話語權、專利費等矛盾才進一步激化。
H.264標準只有一個專利池 —— 一群企業簽署協議,統一由一個專利運營機構來幫他們打理相關專利問題——這意味著H.264的專利問題比較簡單。
H.264的價格也不貴,主要收硬體廠商的錢為主,每台設備大約0.2美元,每年封頂2500萬美元,基本不怎麼收視頻網站的錢(主要是零幾年網際網路方興未艾,視頻網站也沒掙到什麼錢)。
十年後,滄海桑田,人們已經習慣捧起手機看視頻。
2013年發布的H.265最初也只有一個專利池,叫MPEG LA。後來也許是收專利模式和數額的問題上沒談攏,2015年,杜比、飛利浦、三菱、通用電氣等公司另起爐灶,組建了一個叫HEVC Advance 的新專利池對外收費,且費用更高,而且對Netflix、騰訊視頻、優酷、愛奇藝這樣的視頻內容平台也收費,據說還是按照毛收入的0.5%,或是播放量來收的,上不封頂。
許多人並不知道,國內的三大視頻網站做了那麼多年,到現在其實還在持續虧錢,昂貴的專利費讓原本就不富裕的家庭更是雪上加霜。
更厲害的是,當你交了錢,HEVC Advance 會告訴你 :請把之前的欠下的專利費也補上吧,從你第一天開始銷售H.265內容開始。
兩個專利池已經夠嗆,2017年,愛立信、松下、高通、夏普和索尼又組了一個名叫Velos Media的新專利池,收費的標準和方式又不一樣。
企業老闆們排著隊,挨個吐出一口老血。
改編自《唐伯虎點秋香》
吐完血,大家算了算帳,一些人默默轉身下了H.265的車,重新坐回H.264這趟舊車。
這就是為什麼H.265標準發布已經7年,編碼效率比上一代提升了50%以上,主導市場的標準卻依然是17年前發布的H.264。
大家放著更好的技術不用?因為貴啊,用不起啊。百度搜索「h.265 專利」,出來的頭兩條新聞是這樣的:
國內被國際視頻編解碼標準的專利問題「卡脖子」的,可不止是騰訊一家,你認識的網際網路公司基本都要被卡一卡(當然,願意用巨大的人力、財力去花錢消災的,當我沒說)。
只是視頻這件事,對騰訊格外重要:
你刷朋友圈,和家人視頻,騰訊的寬頻成本在燃燒;
你刷騰訊視頻追綜藝,騰訊的寬頻成本在燃燒;
你看個騰訊系的直播,騰訊的寬頻成本在燃燒;
你用騰訊會議開會(那時候騰訊會議還沒發布,但想法已經在騰訊內部醞釀),騰訊的帶寬成本烈焰沖天。
除了自身業務,騰訊還對外輸出視頻技術服務,騰訊雲的兩條大腿,左腿是遊戲雲,右腿就是視頻雲,你知道的許多視頻、直播類APP,背後都是騰訊提供的視頻技術服務。
站在2017年前後那個時間點,騰訊很糾結:一邊是同樣飛速增長的帶寬和存儲成本,一邊是高昂且混亂的技術專利費高牆。而音視頻需求的引線已在滋滋燃燒,隨時可能被引爆。
幾乎別無選擇,這家中國網際網路科技公司要駛向世界,國際標準這座冰山繞不開。
四
2018年4月10日,海風掠過美國加州聖地亞哥市,臨海的一家萬豪酒店,會議廳里坐滿了人,面前各自擺著筆記本電腦。沒有劍拔弩張,沒有刀光劍影,但這個場子裡正討論的事將影響整個數字世界的格局和走向。
這是JVET第十次會議,或者也可以叫MPEG第122次會議。
照片來自網絡
演講台上,一位約60歲的戴著眼鏡的男子以大會聯席主席的身份向世界宣布:下一代國際視頻編解碼標準命名為 Versatile video coding,簡稱VVC。也意味著這是新一代視頻標準的制定進入正式流程。
這對來說是一個絕無僅有的機會。視頻國際標準制定差不多每十年才輪一次。
專家們會分散在不同的分會場裡探討不同主題,別看他們只是開會,工作強度非常大,一開就是十幾個小時,甚至熬通宵討論。持續討論10至12天,從大到小,由框架至細節,方方面面都要討論到。
所有在場的專家團成員既是選手,也都是評委,他們每三個月就會從全球各地聚在一起「華山論劍」。
騰訊多媒體實驗室總監、行業標準負責人李翔告訴我,評價標準大致分成兩部分:其一是客觀質量評估——通過核心實驗來看峰值信噪比、壓縮性能、複雜度、失真度等指標。
其二是主觀質量測試——標準組織制定了一套嚴謹的評估方法和步驟,讓一群視力正常的人對視頻質量打分並進行嚴格的統計分析。
那一次會議,來自騰訊的專家團一口氣提交了10個提案,而且客觀指標排在不少國外的大公司之前。這讓不少國外的公司恍然意識到:騰訊的人來了,嗯?一上來就這麼厲害嘛?
在此之前,鮮有中國的網際網路公司參與提案。
除了客觀指標排名考前,聖地亞哥的那場會議以及之後2018年7月在盧布爾雅召開的會議上,騰訊多媒體實驗室聯合負責人劉杉被指定為標準文本的聯合主編,李翔被指定擔任VVC參考軟體聯席主席。
經過十次「華山論劍」,騰訊多媒體實驗室一共提交了300多篇技術提案,被錄用100多篇。而且在2018年7月的那次會議,《王者榮耀》的視頻片段被錄用為「標準測試序列」之一——相當於把《王者榮耀》的視頻片段作為一道考題,來驗證一個編解碼方案好不好。
「王者榮耀視頻片段被選為標準測試序列,可以保證新一代標準對典型遊戲場景的壓縮性能,對電競產業核心技術有極大的促進作用。」李翔告訴我,同時,這也是中國企業在國際標準制定中話語權提高的一個體現。
2020年7月,新一代H.266/VVC視頻標準正式定稿,但戰鬥遠沒有結束。
五
李翔和朱斌告訴我:「標準的發布僅僅是個開始,一個視頻編解碼標準的成功與否,不僅僅取決於其本身壓縮效率等性能指標,還要看其是否能被工業界廣泛採納,並得到包括內容生產、分發、播放在內整個生態鏈的支持。」
簡而言之,大家願不願意用,會用腳來投票。
如何讓那些還不熟悉H.266/VVC標準的視頻服務提供商、多媒體系統集成商和視頻應用開發者們儘快上手?騰訊多媒體實驗室的答案是:開源播放器。
「對!就從播放器和解碼器開始做起,而且一定要開源!」李翔說。
在標準討論期間,騰訊多媒體實驗室的朱斌博士就開始動手研發基於新一代標準的視頻播放器,並且緊緊盯著標準制定會議上的每一個「風吹草動」。
JVET第20次會議上,朱斌博士和同事們向標準組織JVET遞交留論文,這款播放器內置了騰訊自研的H.266/VVC軟體解碼器,支持高清、超高清以及螢幕內容分享等場景的實時解碼,開發者們基於此可以快速H.266/VVC標準格式在其產品中的嵌入,大幅降低新標準應用的技術門檻。
儘管新標準的普及還需要時間,但他們相信它就像一顆嫩芽,只要悉心澆灌,總有一天會長成參天大樹。
中國公司也必將在視頻編解碼技術領域扮演越來越重要的角色。
道路是漫長的,但前途是美好的,我們需要一些耐心。
最後再介紹一下我自己吧,我是謝么,科技科普作者一枚,日常是把各路技術講得通俗有趣。想跟我做朋友,可以加我的個人微信:xieyaopro。不想走丟的話,請關注【淺黑科技】!(別忘了加星標哦)
在這裡讀懂科技