用AI還原地道京片子!作者大谷親自揭秘老北京視頻語音修復,網友:黃渤穿越了

2020-07-09     大數據文摘

原標題:用AI還原地道京片子!作者大谷親自揭秘老北京視頻語音修復,網友:黃渤穿越了

大數據文摘出品

作者:劉俊寰

對歷史,我們總是充滿了無限的遐想,而北京這座城市充滿了太多故事,對於過去或現在生活在這裡的人,都是一份情懷。

在電影中,我們經常能看到對老北京街道的還原,但布景終歸只是布景。試想在90年前,有人用攝像機記錄下了當時的一切呢?

早在5月,微博博主「大谷Spitzer」分享了他對百年前老北京視頻的修復結果,如今在和央視的合作下,時隔兩個月,第二期節目終於如約而至,在新的視頻中,除了仍然熙熙攘攘的老北京街道,你還能看到很多生活化的場景,甚至聽到他們的聲音

比如在學校外面買飯時孩子們的喧鬧聲:

或者是盲人樂手在街邊彈奏表演:

甚至是在剃頭小攤剃頭,這效果可以堪比不少Tony老師了:

「這頭剃得好不疼,剃得不好,真疼!」
「你家幾口人啊「
「十口人?!怎麼那麼些人呢?「
「一天掙兩毛錢夠挑費不?「

看到這裡,有網友表示,「感覺剃頭師傅說了段相聲」。

這剃頭小哥也是個話癆,他對著鏡頭拍頭說「剃挺好」的時候,文摘菌覺得,這怎麼就這麼像「黃渤×夏雨」呢?

有網友也表示認同,笑稱道,「黃渤,你為什麼穿越回去剃頭」。

對於大谷來說,有了兩次的經驗,這次的修復項目要顯得得心應手了許多,在整體效果的呈現上,大谷也十分滿意,不過顏色上還存在閃爍,解析度也還可以再提升

大谷表示,會總結每次的經驗教訓,爭取下一次比上一次的效果更好,當然他也會嘗試加入一些新技術

這次的修復項目,大谷和央視進行了合作,在央視的宣傳下,更多人得以領略百年老北京風光,不少網友感嘆道科技的進步和貢獻:

也有網友感嘆道時間的流逝,「下一個90年,未來的人看到我們現在生活面貌,不知道會是什麼感想」。

視頻發布一周後,在微博、知乎等多個社交平台上都掀起了討論熱潮,文摘菌也再次聯繫到大谷,第二次接受採訪的他也顯得要遊刃有餘許多。

用AI項目做聲音修復,老北京視頻有聲音啦!

說到本次視頻的來源,大谷介紹道,可以稱得上本次修復過程中最困難的地方了

雖然網上能找到兩段相關的視頻影像,兩分鐘的宣傳片和六分鐘的正片,但是網上的版本水印非常重,基本不能用,這才觸發了大谷向美國南卡羅萊納大學影像庫「求救」,申請了視頻的使用權,得到了學校內部版本的視頻,這才解決了水印的問題。

「那邊的人很配合。」大谷說,當然他們提出了一些要求,就是要加上視頻前的小黃紙片,和版權聲明部分,除此之外,對視頻的後續處理和分享都是自由的

視頻開頭的小黃紙片

除了水印外,由於年代差距,這兩段宣傳片和正片的內容是不重複的,再加上當時的工作人員不懂中文,兩段視頻的時間順序是完全亂掉的,比如前一秒還是宣傳片的內容,後一秒就馬上跳到了全片末尾。

所以拿到這個視頻之後,大谷的第一個工作就是把視頻重新剪輯到正確的時間流上

在聲音的修復上,當時製作團隊所使用的錄音設備無形之中幫到了大忙,微博網友@失重的樑柱介紹道:

福克斯有聲電影新聞在當時是比較新鮮的模式。區別於華納兄弟開發了維他風(Vitaphone)和RCA 開發的光電留聲機(Photophone),福克斯的有聲電影(Movietone)屬於單攝影機系統, 可將聲畫同時錄製到膠片上,較之以往是十分便捷的。而目前所見的拍攝中國的原聲影片,很多都出自福克斯的這一系列。

得益於設備的先進,視頻本身的錄音效果就已經足夠好,再加上南卡羅萊納大學可能也進行了一些初步處理,大谷所做的工作主要是底層去噪,也就是處理掉那些經常出現在錄音中的、吱吱的毛刺聲。

大谷表示,AE或PR里的去噪功能就很好,系統首先會學習一小段噪音波形,隨後會自動把後續出現的噪音部分抵消,這樣的話聽上去會清晰很多。但去噪主要針對以低頻為主的聲音,處理後整體的聲音效果聽上去就會比較「干」,所以在去噪後,大谷還加入了一些混響,讓聲音聽上去更自然,當然文摘菌可是一點都沒聽出來。

不過,在盲人演奏的音樂部分,大谷除了加了混響外,基本沒有做其他處理,因為音樂本身的混聲就比較嚴重了,如果再去噪的話,低音樂器的聲音就會被掩蓋住。

隨後,大谷還介紹了一個聲音修復的AI項目,導入一段默片,AI系統就可以自動補充出音效,比如導入《火車進站》,系統就能補充火車的音效,由遠及近,非常逼真,有了這項技術就可以更輕鬆地對更多老電影進行聲音修復了。

不過,這個項目還沒有開源,大谷表示他也會持續關注最新進展。

論文連結如下,感興趣的朋友們可以嘗嘗鮮:

http://bvision11.cs.unc.edu/bigpen/yipin/visual2sound_webpage/visual2sound.html

大谷說到,這其實是第一次針對原聲視頻進行修復,也是很有意義的一次進步。南卡羅萊納大學影像庫內部還保存有很多有聲老視頻,也希望未來能夠和他們繼續取得聯繫。

畫面大升級:邊緣更平滑,整體效果更好了

除了聲音上的修復外,文摘菌也注意到,與第一期視頻相比,本次視頻中畫面上顏色跳來跳去的情況少了很多,這與大谷使用的不同軟體有著直接關係。

大谷表示,在畫面解析度上首先進行了進一步的提升,與第一期不同,本次修復主要使用的是Topaz,Topaz在邊緣的處理上要更加平滑,畫面效果也更好。

其次就是利用到了DeepRemaster這項技術,與這項技術的邂逅是在YouTube上的推薦流上,這其實是GitHub上的一個開源項目,目前還在研究中。

GitHub連結:

https://github.com/satoshiiizuka/siggraphasia2019_remastering

發現這項技術之後,大谷就發郵件徵得了兩位日本研究員的同意。

在使用過程中,大谷發現,DeepRemaster非常好上手,可以導入一些手繪圖或者歷史圖像作為參考圖,修復的效果就會穩定在參考圖的範圍內,同時場景中顏色的抖動也變得更加平穩

在本次視頻中,盲人音樂家表演的部分和「黃渤」拍頭的部分都是通過這個技術實現的。

當然,DeepRemaster技術本身也存在瓶頸,不是所有的場景都能直接套用,就大谷的個人經驗來說,對於動作劇烈或者是人臉很多的場景,比如市井,都沒辦法使用這項技術,DeepRemaster更適合那些靜幀、平移的畫面,比如音樂表演。

在畫面和聲音的修復工作上,大谷也進行了有機的結合,比如電腦自動補幀的時候,就可以利用空隙在PR上修復聲音,兩個部分可以不矛盾地進行,有時候會穿插著來,也會返工二次修復聲音部分。

除了在聲音和畫面上的修復外,我們也注意到,在這次的項目上,大谷也和央視進行了一次合作,他表示,自己主要負責技術修復,央視主要負責宣發,「這也省了很多力氣,上傳審核視頻都是很費時的」。

有了前兩次的經驗,這次的修復顯得要「順手」很多,整個製作周期大概持續了一個月的時間,這段時間裡,其實也不是全身心地撲在這上面,也有在開發自己的遊戲,做一些其他的項目。

在和央視的合作過程中,央視也會對整體的修復提出參考意見,比如音樂的剪輯,以及字幕的添加等。大谷感嘆道,添加字幕的過程同樣也是一次學習的體驗,同時也可以讓觀眾更好地理解人物對話。

不只如此,修復後的老視頻在社交媒體上傳播之後,大谷收到了很多反饋,比如第二期老視頻的出處本來是模糊的,後來有大神根據修復後的畫面等信息綜合後,指出這是100年前老濟南西門濼源門(濼源門),這些都是寶貴的互動。

破案過程,歡迎圍觀:

https://www.zhihu.com/question/399225415

神器DeepRemaster:如何把修復效果穩定在參考圖範圍內

和第一期修復視頻一樣,在這次新的視頻過程中,大谷仍然借鑑了YouTube博主Denis Shiryae的影像修復教程,以及使用到了上海交大聯合提出的DAIN補幀技術

除此之外,如上文所說,新一期視頻中使用到的新技術DeepRemaster由日本筑波大學和早稻田大學兩位研究者合作提出,論文曾被計算機圖形學頂會SIGGRAPH Asia 2019收錄。

論文連結:

http://iizuka.cs.tsukuba.ac.jp/projects/remastering/en/index.html

DeepRemaster之所以強大,是因為它與近年來使用遞歸模型處理視頻的方法不同,該方法對老舊影像的修復是基於全卷積網絡實現的。

在這項研究中,研究人員提出了一種單一框架,該框架基於帶有注意力機制的時間卷積神經網絡,主要以半交互的方式處理所有重製任務。同時,論文提出的source-reference注意力,允許模型在處理任意數量的彩色參考圖像時,不需要進行分割就能視頻著色,也很好地保持了時間一致性。

輸入一系列的黑白圖像,通過預處理網絡修復,修復的結果作為最終輸出視頻的亮度通道。然後,source-reference網絡將預處理網絡的輸出和任意數目的彩色參考圖像結合,產生視頻的最終色度通道。

在效果測試上,研究人員對一些老視頻進行了測試,比如下圖,結果正如大谷所說,在靜止的場景內,輸入少量參考圖像後,系統就能輸出穩定、一致的數千幀圖像

與以往的方法相比,DeepRemaster生成的圖像與真實世界的色彩更加一致

未來,大谷表示,他會繼續關注新的技術和老視頻修復領域,也會嘗試將這些新的AI修復技術利用到老視頻修復上。

換句話說,現在是不是就可以期待第三期的老北京修復視頻了?!搓手~

文章來源: https://twgreatdaily.com/jGsmMnMBiuFnsJQVHRtp.html