把大模型裝進攝像機，需要怎樣的AI晶片？愛芯元智的答案是AX650N

芯東西（公眾號：aichip001）

作者 | ZeR0

編輯 | 漠影

芯東西5月30日報道，ChatGPT的爆發正掀起一場前所未有的AI大模型競賽。在這場競賽中，速度是搶得先發優勢的關鍵，從模型訓練到落地部署，都對更高性能的AI晶片提出迫切需求。

今年3月，AI視覺感知晶片研發及基礎算力平台公司愛芯元智推出了第三代高算力、高能效比的SoC晶片AX650N。愛芯元智聯合創始人、副總裁劉建偉在近日接受芯東西等媒體採訪時談道，AX650N晶片在跑Transformer時優勢明顯，而Transformer是當前大模型普遍採用的結構。

Transformer最初被用於處理自然語言處理領域的任務，逐漸向計算機視覺領域拓展，並展現出在越來越多視覺任務中取代傳統主流計算機視覺算法CNN的潛能。如何在端側、邊緣側高效部署Transformer，隨之成為越來越多有大模型部署需求的用戶選擇平台的核心考量要素。

相比在雲端使用GPU部署Transformer大模型，愛芯元智認為，在邊緣側、端側部署Transformer的最大挑戰來自功耗，這使得愛芯元智兼具高性能和低功耗的混合精度NPU成為端側和邊緣側部署Transformer的首選平台。

數據顯示，在愛芯元智AX650N平台上運行主流的視覺模型Swin Transformer（SwinT），性能高達361FPS，精度高達80.45%，而功耗低至199FPS/W，這在落地部署中很有競爭力。

一、兼具高算力與高能效比，已適配多種Transformer模型

AX650N晶片是繼AX620、AX630系列後，愛芯元智推出的又一款高性能智能視覺晶片。

這款SoC採用異構多核設計，集成了8核A55 CPU、43.2TOPs@INT4或10.8TOPs@INT8高算力的NPU、支持8K@30fps的ISP，以及H.264、H.265編解碼的VPU。

接口方面，AX650N支持64bit LPDDR4x，多路MIPI輸入，千兆Ethernet、USB以及HDMI 2.0b輸出，並支持32路1080p@30fps解碼。

針對大模型在邊緣側、端側的部署，AX650N具有高性能、高精度、低功耗、易部署的優勢。

具體來看，愛芯元智AX650N在運行SwinT時，361幀的高性能可媲美汽車自動駕駛領域基於GPU的高端域控SoC；80.45%的高精度高於市面平均水平；199FPS/W速度反映出低功耗，比目前基於GPU的高端域控SoC有著數倍的優勢。

愛芯元智解釋說，早期邊緣側、端側客戶比較看重算力有多少T，但這是一個間接數據，用戶最終關心的是在實際業務中模型能跑得多快，以及部署成本和使用成本有多低。

對此，AX650N支持低比特混合精度，用戶如果採用INT4，則可以極大地減少內存和帶寬占用率，有效控制端側邊緣側部署的成本。

目前AX650N已適配ViT/DeiT、Swin/SwinV2、DETR等Transformer模型，在DINOv2也能跑到30幀以上，這使得用戶進行檢測、分類、分割等操作更加方便。基於AX650N的產品也已經落地於智慧城市、智慧教育、智能製造等計算機視覺重要應用場景。

二、部署大模型易上手，可運行GitHub原版模型

愛芯元智還打造了新一代AI工具鏈Pulsar2。該工具鏈包含模型轉換、離線量化、模型編譯、異構調度四合一功能，進一步強化了網絡模型高效部署的需求，在針對NPU架構進行了深度優化的同時，也擴展了運算元&模型支持的能力及範圍，以及對Transformer結構網絡的支持。

愛芯元智在實踐中發現，市面上宣傳晶片能跑SwinT的公司，通常需要對模型做一些修改，修改後可能會引發一系列問題，給用戶帶來更多的不便。

此前類似於SwinT的視覺類Transformer模型大多數部署在雲端伺服器上，原因是GPU對於MHA結構計算支持更友好，反而邊緣側/端側AI晶片由於其架構限制，為了保證CNN結構的模型效率更好，基本上沒有對MHA結構做過多性能優化，甚至需要修改網絡結構才能勉強部署。

而AX650N具有部署方便的特點。在愛芯元智的平台上，GitHub上的原版模型可以高效運行，無需對模型做修改，不需要QAT重新訓練。

「我們的用戶反饋，我們的平台是目前看到對Transformer支持最好的一個平台，也看到在我們這個平台來落地大模型的可能性。」劉建偉談道，客戶能夠體會到AX650N作為AI算力平台，最終落地效果更好用、更易用，對場景的適應性較強，上手速度也比較快，大幅提升了用戶的效率，縮短量產周期。

愛芯元智收集到的客戶反饋顯示，拿到愛芯元智的開發板和文檔後，基本上1小時就能完成demo的復現以及運行私有網絡模型。

由於在硬體和軟體設計上保持了一定的靈活性和可編程性，AX650N晶片能夠快速適應新出現的網絡結構。接下來，愛芯元智AX650N將針對Transformer結構進行持續優化，探索多模態大模型等更多的Transformer大模型。

愛芯元智還將基於AX650N推出AXera-Pi Pro開發板，並在GitHub放上更豐富的資料及AI示例，以便開發者快速探索更豐富的產品應用。

三、視覺類應用場景已對Transformer模型產生迫切需求

在愛芯元智看來，在邊緣側或端側部署視覺大模型，有助於解決長尾場景下AI智能應用投入太高的問題。

比如做河道垃圾監測，以前的方式是當河道上出現一種垃圾，先去採集數據、做數據標註，然後進行模型訓練。當某一天河道出現某種新垃圾，是之前數據標註訓練沒有覆蓋的，該模型就可能識別不出來了。從頭重新訓練又費時耗力。

而Transformer大模型具備語義理解能力，擁有比傳統CNN模型更強的通用性，不需要預先知道所有的複雜視覺場景，就能理解和執行更廣泛的下游任務。有了預訓練大模型，採用無監督訓練，模型都能識別從未見過的新垃圾。

愛芯元智告訴芯東西，目前凡是用攝像頭去捕捉畫面的應用場景，都已經開始對Transformer大模型產生比較迫切的需求，具體落地速度則取決於各細分領域客戶自身的研發及資源投入情況。

從晶片架構設計角度來看，要讓Transformer模型更快部署在邊緣側或端側，一方面要設法降低大模型帶寬的使用情況，另一方面需針對Transformer的結構進行優化。愛芯元智相關負責人稱，AX650N在實際部署中積累的工程經驗將疊代到下一代晶片平台中，讓Transformer模型跑得更快更好，相比其他同行有一定先發優勢。

「這也是為什麼說愛芯的晶片平台是Transformer落地的最佳選擇，因為大家在做模型變小的過程中，一定是想看在端側跑的效果，我們有這樣的平台可以做這樣閉環的試驗。」他談道。

為了進一步優化Transformer推理效果，愛芯元智將聚焦於如何讓硬體高效讀取離散數據，以及讓配套的計算能夠和數據讀取匹配起來。此外，愛芯元智也在嘗試用4bit來解決模型參數量大的問題，並探索對一些稀疏化或混合專家系統（MOE、Mixture of Experts）模型的支持。

結語：高性能AI晶片鑄就大模型部署基石

從2020年實現首顆高性能AI視覺晶片AX630A量產，2021年點亮第二代自研邊緣側智能晶片 AX620A，再到最新發布的第三代AX650N晶片，愛芯元智通過持續推出高算力、高能效比的AI視覺晶片，滿足端側和邊緣側的AI應用需求。

愛芯元智創始人、董事長兼執行長仇肖莘博士說，人工智慧技術發展不斷催生新機遇，此前的幾波技術浪潮曾推動愛芯元智在視覺處理、汽車電子等晶片技術上的進展，近期大模型的爆發則為愛芯過去幾年在端側、邊緣側的堅持探索創造了新機會。

而愛芯相關研發和落地規劃都劍指一個目標，即用戶或潛在用戶一想到Transformer，就能想到愛芯元智，進而在愛芯元智的AI算力平台上開發更多基於Transformer模型的應用，最終加速大模型及智能應用在端側和邊緣側落地的節奏。

反過來，更多部署經驗的沉澱，也會推動愛芯元智的晶片與軟體持續進化，通過提供更高性能、更好用易用的工具，助力算法工程師進一步推開Transformer模型創新應用的想像力之門。

把大模型裝進攝像機，需要怎樣的AI晶片？愛芯元智的答案是AX650N

曝Apollo擬向英特爾投資50億美元

晶片巨頭裁員15000人！

黃仁勛封神時刻！英偉達市值全球第一背後，一個創造歷史的精明刀客與營銷鬼才

傳Arm擬明年推出自研AI晶片！

12家AI晶片創企，盯上大模型生意

又一家深圳半導體企業IPO獲受理！

OPPO調校晶片的秘籍，對外公布

RISC-V生態加速壯大！睿思芯科與多個海內外開源社區宣布合作

生成式AI需要怎樣的數據中心CPU？阿里雲火山引擎解讀雲端晶片需求

從軟硬體到生態加速AI PC革命，英偉達憑實力證明RTX就是AI

美國調查英偉達3款對華定製AI晶片：將檢查每一個規格細節

3D堆疊、背面供電、背面觸點，英特爾展示前沿電晶體微縮技術突破

讓生成式AI訓練更高效！Rambus推出9.6GBps HBM3內存控制器IP

AMD最強生成式AI核彈發布！跑大模型性能超H100，預告下一代AI PC處理器

OpenAI百度爭相送錢，盯上一家AI晶片創企

英特爾的危機：「Wintel」聯盟面臨挑戰，更多Windows轉向非英特爾處理器

國產CPU里程碑！龍芯最強處理器、自研GPGPU來了，披露Tock「三劍客」

突發，英國AI晶片獨角獸退出中國，大幅裁員

TCL晶片公司被曝解散！

30億美元！美國晶片法案首個重大研發投資計劃，投向先進封裝

OpenAI CEO被曝擬成立AI晶片公司，秘密推進數十億美元融資談判

微軟推出首款自研大模型AI晶片！台積電5nm、1050億顆電晶體，OpenAI率先試用

模擬人眼、拯救糊圖、兼容主流AI晶片，最小事件視覺傳感器問世！對話Prophesee CEO

大模型推理乘上RISC-V快車？國內AI晶片創企推大模型系列一體機