AIGC專業高效利器,AMD RX 7900XT AI性能提升超乎想像

2023-12-08     電腦報

原標題:AIGC專業高效利器,AMD RX 7900XT AI性能提升超乎想像

對於AIGC設計師用戶和AI出圖愛好者來說,大顯存高端顯卡當然是最佳的高效工具。而目前由於眾所周知的原因,部分高端顯卡的價格被一炒再炒,大大增加了這類用戶的裝機成本。實際上,大家不要忘了AMD旗下的Radeon RX 7900系列其實在AIGC方面的性能也是非常強悍的,特別在是時下熱門的AI出圖應用中也有十分出色的表現。再加上AMD顯卡的價格一直都穩中有降,因此Radeon RX 7900系列可以說是性價比非常高的AI出圖利器,其中擁有20GB超大顯存的Radeon RX 7900 XT更是爆款甜品。

RDNA3架構與超大顯存加持,RX 7900 XT天生適合AIGC

RX 7900 XT採用了小晶片設計的RDNA3架構,GCD晶片使用5nm工藝,MCD部分則使用6nm工藝,總面積與上代RX 6950 XT相同,但電晶體達到上代的2.15倍以上,因此能效表現相對上代RDNA2大幅提升。此外,RDNA3架構相對上代新增了AI加速器單元,無限緩存也升級到了第二代,等效顯存帶寬是RX 6950 XT的1.67倍,由此也帶來了更為強悍的數據吞吐能力。

之所以說RX 7900 XT非常適合AIGC應用,一方面就是它擁有強悍的算力,單精度峰值性能高達52 TFLOPS,半精度峰值性能高達103 TFLOPS,分別是RX 6950 XT的2.2倍和2.18,算力直接決定了AI計算的速度,而這方面RX 7900 XT無疑是第一梯隊的水平;另一方面就是它擁有320 bit位寬、容量高達20 GB的GDDR6顯存,這對於AI出圖來講就意味著支持更高的圖片解析度上限,設計師可以直出大圖而不用去花時間高清重建。這兩大優勢中後者尤其重要,也是小顯存中低端顯卡無法比擬的。

此外,放眼高端顯卡市場,同代競品16GB顯存的RTX 4080售價已經超過八千元,再往上就是幾萬元天價且買不到的24GB顯存RTX 4090,已經和性價比沒什麼關係了。相比之下,擁有20GB超大顯存的RX 7900 XT僅需5000元出頭真的可以說是性價比爆棚的AIGC利器,再加上現在A卡還可以通過微軟Olive工具來優化模型提升出圖速度,所以它特別適合需求比基礎AI玩家更高更專業的AIGC設計師用戶和AI深度愛好者。

接下來就讓我們一起來看看RX 7900 XT在熱門本地AI出圖工具Stable Diffusion中的性能表現吧。

Stable Diffusion出圖實測:RX 7900 XT大顯存尤其搶眼

測試平台

顯卡:AMD Radeon RX 7900 XT

處理器:AMD銳龍5 7600X

內存:阿斯加特DDR5 7200 16GB×2

主板:華碩TUF GAMING A620M-PLUS

硬碟:WD_BLACK SN850X 2TB

電源:ROG雷神THOR 1600W

作業系統:Windows 11專業版23H2

Stable Diffusion的Windows版早就已經添加了對DirectML的支持,因此AMD顯卡也可以在Windows 10/11系統中實現對它的硬體加速。原版的Stable Diffusion環境配置和各種設定比較複雜(主要是受網絡連接的影響),嫌麻煩也可以選用各位AI大佬製作的整合包,本次我們測試也選用了B站UP主秋葉製作的整合包,經過簡單的設置後即可在高級選項中選擇實用RX 7900 XT以DirectML的模式進行加速。此外,由於RX 7900 XT擁有20GB大顯存,所以我們可以直接選擇12GB以上顯存的模式實現效率最大化。

實測出圖時,我們設置疊代步數20、Euler採樣a、512×512解析度、CFG為7,模型選用麥橘唯美人物模型。從圖中可以看到,在一批次出五張圖的設定下,20GB顯存已經完全用滿,此時RX 7900 XT已經做到了全速輸出,完成時間大約為22秒。

讓我們再進一步增加計算壓力,一次生成10張圖,此時RX 7900 XT也處於滿載輸出狀態,20GB顯存占滿也並沒有明顯拖慢速度,完成的時間大約為47秒,略高於5張圖22秒的兩倍。我們也用純處理器試著出了一張圖用作參考,以測試平台的6核處理器來看,出一張圖大約需要3分18秒,而RX 7900 XT出一張圖大約費時6.8秒,差不多快了28倍,很顯然要做AIGC,高性能顯卡確實是首選方案。

從Stable Diffusion的出圖測試來看,在一次生成多張或生成更高解析度的圖片時,Stable Diffusion對顯存的占用是非常高的,吃滿20GB顯存也並不稀奇,而顯存低於20GB的話,就可能會因為爆顯存影響效率或無法正常出圖。因此,像是AIGC設計師或者是深度AI玩家,擁有20GB大顯存且自身算力也過硬的RX 7900 XT確實是上佳之選。

支持Olive模型優化,RX 7900 XT的AI出圖性能再度暴增

我們知道,在幾個月前,AMD和微軟合作優化了Microsoft Olive路徑,可以把基本模型從PyTorch轉換為ONNX,從而巨幅提升AMD顯卡在文生圖方面的計算效率。目前經過多個版本的疊代,AMD顯卡使用Olive優化模型的設置也變得更加簡單,普通玩家也可以輕鬆上手了,接下來就讓我們實際體驗一下。

測試環境依然是在Windows平台下,我們需要安裝Git For Windows、Python For Windows和Miniconda For Windows,這些去官網下載安裝就好,記得裝完之後確保它們加入了系統變量Path。接下來就是配置虛擬環境、安裝Olive、克隆Stable Diffusion到本地,啟動Stable Diffusion自動下載需要的組件。具體的操作細節可以點擊下方連結查看AMD官方教程(注意,遇到報錯可能需要更新一下PIP和HTTPX到對應版本)。

(https://community.amd.com/t5/ai/updated-how-to-running-optimized-automatic1111-stable-diffusion/ba-p/630252)

運行Stable Diffusion(Olive版)之後,在ONNX頁面下先下載原版模型,然後在Olive頁面中點選Optimize ONNX model,然後點擊Optimize model using Olive按鍵優化模型,大約3分27秒即可完成優化。

優化完成之後,此時在主介面左上角即可選擇原版模型或Olive優化模型進行出圖對比了。這裡提醒大家在首次下載完ONNX原版模型之後備份一下,以免Olive優化模型直接在原路徑上進行覆蓋,不方便多次對比。

那麼Olive優化模型之後RX 7900 XT出圖速度提升有多大呢?從圖上可以看到,我們選擇一次出兩批圖,每批三張,總共六張。優化之前需要28.9秒完成,優化之後僅需13秒,出圖速度提升幅度高達122%!可見優化效果是非常明顯的。

實際上,如果RX 7900 XT是在Linux環境下使用ROCm平台來運行 Stable Diffusion的話,出圖效率還有數倍的提升,所以專業用戶也可以關注一下Windows平台的ROCm版Stable Diffusion(RX 7900 XT是完全支持ROCm的Runtime和HIP SDK的,RX 6750以下只支持Runtime),從這一點來講RX 7900 XT不但可以讓你立刻享受極高的AI性能,它也擁有極其深厚的「戰未來」潛力。

總結:AIGC專業高效利器,RX 7900 XT性價比遙遙領先

從前面的分析可以看到,RX 7900 XT不但本身擁有旗艦級的算力,而且還擁有20GB超大顯存,超過了RTX 4080的16GB顯存,更大的顯存也更有利於AI出圖的解析度和效率。同時,RX 7900 XT在顯存更大的情況下售價僅為RTX 4080的61%,性價比可以說是真的遙遙領先了。從Stable Diffusion的實測來看,在出圖數量增多的情況下,對顯存的需求確實是非常高的,RX 7900 XT的20GB大顯存正好可以發揮威力,在連續出圖的情況下也能保證圖片不出錯,同時也保障了出圖效率。此外,我們也可以看到,在使用Olive優化模型之後,RX 7900 XT的出圖速度進一步實現了翻倍,相當於也是給用戶帶來了免費的性能升級,將來Windows平台有更加完善的ROCm版Stable Diffusion登場的話,RX 7900 XT更是可以如虎添翼,AI性能直接起飛。因此,對於有較高專業AIGC應用需求而不是簡單出圖玩玩的專業用戶來講,RX 7900 XT可以說是非常適合他們的選擇。

此外,我們也選擇了兩套旗艦級AI電腦配置進行對比,其中AMD平台採用了銳龍9 7950X與RX 7900 XT的組合,而Intel平台則是酷睿i9 14900K與RTX 4080的組合。從總價可以看到,AMD這套配置擁有5350元的價格優勢,同時顯存還多出4GB,不光在AIGC應用中可以發揮強悍的性能,在其他生產力應用中也有一流的表現,屬於既全能性價比又高的方案。而Intel平台這邊總價高出36%,性價比明顯落後,顯存也更小,在AI出圖或其他生產力應用中不免受到更多限制。

總而言之,如果你需要經常面對比較專業的AIGC應用,特別看重超大顯存,同時也想享受極致的性價比,那麼RX 7900 XT確實是非常值得優先考慮的解決方案。

文章來源: https://twgreatdaily.com/d9fa09ae37ee5820d1b261b8701bb962.html