生產遊戲兩不誤——技嘉 GeForce RTX 3080 VISION 雪鷹

2020-12-29     愛活網

原標題:生產遊戲兩不誤——技嘉 GeForce RTX 3080 VISION 雪鷹

產品介紹

眾所周知,世界上的第一台通用電腦 ENIAC 是為了計算火炮火力表而製造出來的,可以說電腦從問世伊始,最大的貢獻就是解決各種人力難以企及的複雜計算問題。時至今日,雖然普通電腦早就比 ENIAC 快千萬倍,但是算力饑渴問題反而日益突出,其中大家現在接觸最多的就是三維渲染、多媒體處理、人工智慧等應用。

相對於遊戲而言,強調生產力的創作者們在顯卡上的要求更高,不僅要求有足夠快的性能,而且在兼容性和可靠性方面都是要求工具必須有足夠的的保證,因此像NVIDIA推出了專業卡產品線,例如 Quadro 等,這些專業卡一般配有很大的顯存並且開放了一些 OpenGL 加速支持,主要面向工作站市場。

不過隨著近年來 DirectX 也已經在工作站應用中得到了廣泛的應用,加上高端遊戲卡本身的價格水漲船高,對專業卡的影響已經降低了不少,甚至是有益的產品線補充。為此,NVIDIA 也發布了 Studio 驅動程序,讓非專業卡的遊戲卡產品線可以獲得一些原本工作站卡才具備的特性,例如 30 位 OpenGL 顯示支持等,搖身一變就成了准專業卡,成為生產力工具。

對於創作者而言,為了追求專業的設計軟體運行性能,要麼選擇價格非常昂貴的專業顯卡,要麼使用同樣昂貴的高性能CPU搭配大容量內存。專業級的顯卡雖然能提升工作效率,但其價格並不親民,這讓很多創作者望而卻步。而NVIDIA Studio驅動以及SDK的推出讓搭載圖靈核心的RTX遊戲顯卡在專業性能上也有了非常搶眼的表現,這在無形中為設計師們節省了大量的成本,而這也正是NVIDIA Studio驅動的優勢所在。對於大多數創作者而言,如果僅僅買一塊普通的GeForce RTX遊戲顯卡配合NVIDIA Studio驅動就能大幅提升工作效率,這無疑是非常吸引人的事。

而和GeForce Game Ready驅動不同的是,NVIDIA Studio驅動為藝術家、創作者和3D開發人員在使用創造性應用程式時提供最佳性能和可靠性。為了實現最高級別的可靠性,NVIDIA Studio驅動程序將對多個app creator工作流和從Adobe到Autodesk等多個頂級創意應用程式的多個版本進行廣泛的測試,確保提供給用戶的驅動程序是最可靠、效率最高的,因此對於非剛需專業顯卡的用戶來說,使用一塊NVIDIA GeForce RTX系列顯卡,就能勝任日常工作中的全部需求。

尤其在NVIDIA GeForce RTX30系列顯卡發布之後,搭載NVIDIA Ampere架構的GeForce系列顯卡擁有更多顯存容量和更強大的AI性能,在面對專業生產力軟體時,也擁有足以媲美專業卡的能力。

NVIDIA Ampere微架構集成了第二代光線追蹤內核(RT Core),每個 SM 內都擁有一個 RT Core,作用是對光線追蹤最消耗算力和帶寬的 BVH、三角形遍歷和求交進行加速。

相比圖靈的第一代 RT Core,NVIDIA Ampere的 RT Core 主要改進之處是增加了一個三角形求交單元,支持三角形求交內插支持,能對動態模糊特效下的光線追蹤求交處理加速。

在人工智慧或者說深度學習加速方面,NVIDIA Ampere架構的每個 SM 里有 4 個 Tensor Core(每個子核有一個 Tensor Core),但是每個 Tensor Core 的處理能力都倍增了,因此NVIDIA Ampere的每個 SM 也能跑 512 個 FP16 Tensor 操作。

在數據格式支持能力方面,NVIDIA Ampere引入了 BF16、TF32 兩種新的數據格式,前者是 Google 引入的一種 16 位數據格式,而後者則是 NVIDIA 自家首次引入的 19 位數據格式。

BF16:也被稱作 Brain Float 16 或者 BFloat 16,由 Google Brain 推出,最初只有谷歌的 TPU 深度學習處理器採用。和 FP16 一樣,BF16 也是 16 位長的二進位數,但是它的數據格式是 1 位符號位、8 位指數,7 位尾數。這樣的設計是為了追求 FP32 的動態範圍,但是需要犧牲尾數數據範圍。

TF32:這是 NVIDIA 在 A100 廚房發布會首次公布的數據格式,目前已發布的NVIDIA Ampere全系 GPU 配備的 Tensor Core 都支持這個數據格式。TF32 的數據格式是 19 位二進位,有 1 個符號位,8 位指數以及 10 位尾數。

TF32 具備 FP32 和 BF16 一樣的 8 位動態範圍,但是有效數字精度比 BF16 多了 3 位,如果以十進位來說相當於有效數字精度從兩位提高到了接近四位。

在具體實現上,在啟用 TF32 的時候,NVIDIA Tensor Core 輸入輸出的數據格式依然是 FP32,但是 Tensor Core 內部會以 TF32 的格式進行計算,因此,TF32 無需程式設計師修改代碼,只需要編譯器提供支持即可,和 FP32 相比,TF32 只是精度降低,但是動態範圍保持一樣。

由於數據格式的原因,FP16 和 BF16 都需要更多的代碼量,但是因為可以節省內存占用以及更快的速度,所以 BF16 和 FP16 依然值得採納。

除了支持更廣泛的數據格式外,A100 引入的硬體稀疏化技術在 GA10X 上也得以實現,透過該技術,GA10X 在同樣每周期 512 個 FP16 tensor 操作的能力上可以再增加一倍達到等效每周期 1024 個 FP16 操作。

和GeForce RTX 2080 Super 相比,GeForce RTX 3080 的張量性能可以最高達到 2.7 倍。

和 A100 相比,作為面向消費級市場的 GA10X 去掉了 A100 的 FP64 以及 Binary(二元)張量計算支持。

A10X 的 Tensor Core 數量是 TU10X 的二分之一,但是由於每個 Tensor Core 規模是前代的兩倍,因此跑同樣格式的數據性能都是一樣的,例如 FP16 的時候都是每個 SM 每周期跑 512 個 FP16 tensor Ops。

比較特別的是,GA10X 具備 A100 一樣的硬體細粒度結構化稀疏加速能力,能夠以每 4 個權重為一組的方式,將已經訓練好的權重分組中權重值為 0 的兩個權重修剪掉,透過這個稀疏化處理,實現了推理準確無損情況下等效 100% 的深度學習性能提升,或者說等效每周期每個 SM 完成 1024 個 FP16 Tensor 操作。

除了 RT Core 和 Tensor Core 的改進外,技嘉 GeForce RTX 3080 VISION 雪鷹採用的 GA102 GPU 還支持 RTX IO,透過 RTX IO,GPU 可以直接從 NVME 硬碟讀取數據而無需 CPU 和系統主內存參與,這對很多生產力應用都有莫大的好處,例如 8K RAW 視頻采編等,要知道,對於 NVME 硬碟來說如果傳輸的壓縮數據需要 CPU 先解碼的話,會吃掉數十個內核的算力,但是如果直接讓 GPU 讀取解碼的話,只需要半個 CPU 的開銷。RTX IO 在 Windows 上需要 2021 年微軟 DirectIO 支持。

而技嘉的 GeForce RTX 3080 VISION 雪鷹就是技嘉科技針對工作站市場的一款准專業卡產品。技嘉 GeForce RTX 3080 VISION 雪鷹採用的是 NVIDIA GeForce RTX 3080 GPU,基於NVIDIA Ampere 架構,擁有第二代光線追蹤內核和第三代張量內核,擁有 10 GiB GDDR6X 顯存,配備三槽式「風之力」靜音散熱器,強調性能、穩定性以及噪音的最佳平衡。

作為定位工作與遊戲兼顧的產品,技嘉 GeForce RTX 3080 VISION 雪鷹採用的風之力三風扇搭配了兩個 90mm 和一個 80mm 特殊刀鋒扇葉風扇,分別以正逆轉方式運作,散熱器擁有 7 根高性能純銅導熱管,GPU 接觸面為碩大銅片,風扇能根據負載實現動態啟停,擋板經過鏤空處理,便於讓熱量直接排除機箱外。

除此以外,技嘉 GeForce RTX 3080 VISION 雪鷹配備了金屬強化背板,能為 PCB 提供全面加固減少變形,尾部還有鏤空設計,能讓散熱器風扇氣流通過增強散熱。

由於現在的 GPU 和 PCB 相當複雜,我們這次沒有做拆卡,上圖是技嘉官方提供的散熱電路圖。技嘉 GeForce RTX 3080 VISION 雪鷹合共採用了 17 相供電,用於 GPU 的有 13 相,顯存為 4 相,每組 MOSFET 都提供了過熱保護和負載平衡設計,加上長壽命固態電容、合金電感、低電阻電晶體等耐用材料,可以確保顯卡強勁性能以及持久使用。

核心基頻為 1.8 GHz(公版規格是 1.71G Hz),內存頻率為 1.188 GHz(等效 19 Gbps),性能較公版略強。

顯卡頂部支持 RGB FUSION 2.0 的 RGB 燈效支持,支持 1677 萬色的變化。

鍍金顯示輸出接口,雙 HDMI + 三 Displayport,滿足絕大多數應用場景。

AORUS ENGINE 是技嘉官方提供的超頻、監控軟體,大家可以根據實際應用和顯卡的體質進行頻率、風扇轉速等調整。

技嘉 GeForce RTX 3080 VISION 雪鷹與NVIDIA Ampere

技嘉 GeForce RTX 3080 VISION 雪鷹採用的 NVIDIA GeForce RTX 3080 GPU 是 NVIDIA 的第二代 RTX 系列產品,GPU 代號為 GA102,屬於NVIDIA Ampere微架構,擁有 68 個流式多處理器(SM),合計 8704 和 CUDA Core,能提供每秒 31.3 GFLOPS 以上的單精度性能。

技嘉 GeForce RTX 3080 VISION 雪鷹支持 8K AV1 和 HEVC 硬體解碼,配合最新版本的 Premiere Pro,可以在時間線里流暢拖拉進度素材完成剪輯。

顯示器方面,技嘉 GeForce RTX 3080 VISION 雪鷹最高支持 8K 60Hz DP 1.4、HDMI 2.1 輸出,可以完美實現新一代超高清播放的支持。

從生產力應用的角度來說,我覺得選擇像技嘉 GeForce RTX 3080 VISION 雪鷹這類 N 系產品的最大好處是業界最強的應用生態,例如:

你是做實時建築場景開發的話,UE、Unity 、Dunia(Farcry 引擎)等引擎已經把光線追蹤集成,NVIDIA 這邊提供了 RTX 支持,包括 DDGI 或者說 RTX GI 全局照明這類高級特效就是點一下滑鼠就能馬上用上,不再需要以前那樣用徹夜通用計算來跑烘焙;

如果是做電影特效的話,三維方面 NVIDIA 光線追蹤加速獲得了業界最廣泛支持,包括 Keyshot 這個以前只做 CPU 渲染的渲染器也都在圖靈發布後就立馬擁抱 NVIDIA,NVIDIA 的 OptiX 在這裡扮演了重要角色。OptiX 是 NVIDIA 的光線追蹤開發框架,是 NVIDIA 過去數十年做通用計算和光線追蹤做出來的終極殺招,圖靈和NVIDIA Ampere出來後,OptiX 都第一時間跟進,讓各個渲染引擎快速實現對最新技術的支持。

如果你是做視頻編輯的話,使用 RED 8K RAW 編輯,如果純用 CPU 來跑的話,畫面在時間線上的拖放回看和幻燈片沒啥差別,NVIDIA 使用 CUDA 實現了 RED 官方采編軟體的 8K RAW 加速,能實現實時拖放回看,效率大為提升。

性能測試

我們使用了面向生產力的軟體來做這次測試,首先登場的是 SPECviewperf 2020。

SPECviewperf 2020 是今年 10 月 SPEC.org 發布的面向專業圖形應用的測試包,和 3DMark 不一樣的是,它採集了真實軟體的渲染軌跡,使用真實的複雜場景和模型,2020 版 Viewperf 光是安裝包就有 16 GB,需要 60 GB 硬碟空間才能完成安裝,連測試結果文件的大小都有 70 MB。

測試平台:

顯卡:技嘉 GeForce RTX 3080 VISION 雪鷹

驅動版本:NVIDIA Studio Driver 460.89

內存:阿斯加特 DDR4-3600 8 GB * 4

硬碟:Micron 128 GB MLC SSD SATA3

顯示器解析度:1920×1080 60Hz

Windows 10 20H2 專業工作站版

我們這裡使用了 spec.org 官網的測試數據作對比,需要注意的是,大家的 CPU 平台不一樣,不過我們從價格來看的話,我們的平台價格要第一大截,生產力先決的產品選擇價格也是一個重要的因素。

某東價格參考:

Quadro RTX 4000:7789 元

技嘉 GeForce RTX 3080 VISION 雪鷹:6899 元

從測試結果來看,技嘉 GeForce RTX 3080 VISION 雪鷹在 3dsmax-07、maya-06、solidworks-05 中有顯著優勢,其中 3dsmax-07 達到了對比產品的 1.76 倍和 2.34 倍,maya-06 達到 1.57 和 2.4 倍、solidworks-05 達到了 1.7 和 2.73 倍。落後較多的項目只有一個:snx-04,說明這個項目還是需要 OpenGL 專業卡才行。

上面是三維軟體實時視口性能測試,接下來讓我們看看離線渲染或者說成品渲染的性能。

我這次使用的是 Blender 2.9.1,場景為 DroidChase,這是一個運動場景,有大量的動態模糊效果,只對比開啟 技嘉 GeForce RTX 3080 VISION 雪鷹硬體光線追蹤(OptiX)、純 CPU 渲染以及 CUDA GPU 通用計算加速。

先看看啟用硬體光線追蹤渲染和純 CPU 渲染的畫面對比圖:

打開硬體光線追蹤(OptiX):

純 CPU 渲染:

CUDA 通用計算:

要是沒有差別是假的,畫面中車身右側是有一些反射倒影的區別,但是整體來看非常接近,至於性能差別……:

就是這麼強,這正是因為 技嘉 GeForce RTX 3080 VISION 雪鷹 RT Core 以及 CUDA 本身的算力加持才得以實現的,在渲染過程中,CPU 基本處於閒置狀態,用戶可以在此時上上網等幹些別的事情而不會干擾到渲染,感覺技嘉 GeForce RTX 3080 VISION 雪鷹此時就是一個多快好省的迷你渲染農場。

接下來我們試了一下深度學習方面 技嘉 GeForce RTX 3080 VISION 雪鷹的性能表現。

如果從純深度學習的角度來看,GeFroce RTX 3080 具備較強的浮點、張量性能,但是也不是沒有缺點,例如內存容量只有 10 GB,有些數據集真的沒法一下吃下去,此外三槽設計對多卡並行不是很友好。

我們基於最新版本的 CUDA 11.1 Toolkit 和 Tensorflow 20.10-tf1(用的是 NGC 上的 docker 容器)進行了一些深度學習的測試,技嘉 GeForce RTX 3080 VISION 雪鷹和上一代的 GeForce RTX 2080 Ti 相比,CNN/ResNET 的性能大約提升了 50%,不過受制於顯存容量,batch 只能開到 192,多少影響了性能發揮,如果是 3090 的話 batch 數量可以開到 512,可以更充分發揮性能。

由於時間有限,我們這次並未進行稀疏化的對比。

寫在最後

毫無疑問,如果現在想要一片價格適宜、功能齊備、生產力先決的顯卡,還是只能從 N 卡陣營里找,幾乎全面覆蓋甚至想你所想的保姆式應用生態可以讓項目最快部署,時間、效率,都是必須優先考慮的。

技嘉 GeForce RTX 3080 VISION 雪鷹就是一塊能適應這個選擇的產品,它有強大的實時、離線渲染性能,具備一定的煉丹(深度學習)能力,我覺得可以作為工作站領域值得考慮的採購選項。

哦,對了,溫度和噪音的結果又如何呢?這裡翻出來吧:

我們在 Blender 以硬體光線追蹤加速渲染的時候打開技嘉的 AORUS ENGINE 進行風扇和溫度的監控,可以看到,想開在 54 度之前,風扇是完全沒啟動的,當溫度達到 54 度以後,風扇開始啟動,此時轉速大約是每分鐘 1234 轉,速度並不高,因此噪聲其實也並不高,然後在這樣的轉速下溫度就一直保持著。當然,我這裡是靠一身正氣禦寒的廣州,測試時候的室內氣溫大約是 15 攝氏度。

文章來源: https://twgreatdaily.com/AniJrXYBF7MU6wDEr3tl.html