阿里雲、華為、商湯等首批通過中國信通院公布 AI 代碼大模型評估

2024-06-11     IT之家

IT之家 6 月 11 日消息,中國信息通信研究院公布了可信 AI 代碼大模型評估的首輪評估名單,阿里雲通義靈碼、華為雲盤古、智譜 codegeex 等國產 AI 大模型均入選並首批通過。

此次大模型評估以《智能化軟體工程技術和應用要求 第 1 部分:代碼大模型》標準為依據,圍繞通用能力、專用場景能力、應用成熟度,為模型能力提升和企業選型提供規範性參考。

IT之家註:《智能化軟體工程技術和應用要求 第 1 部分:代碼大模型》(標準編號 AIIA / PG 0110-2023)標準於 2024 年 1 月 25 日正式發布,該標準由中國信通院與中國工商銀行聯合牽頭髮起,涵蓋通用能力、專用場景能力和應用成熟度三大部分,包括 100 多個能力要求。

此次驗證,依據標準開展,評價指標覆蓋 6 大通用能力場景、7 大專用能力場景、3 大服務成熟度,多維度驗證研發大模型在研發場景能力和人效優化效果方面的場景豐富度,重點考察研發大模型在代碼理解、代碼生成和補全、研發問答、單元測試用例生成等方面的能力支持度,全方位評估研發大模型在數據合規性、模型成熟度、服務成熟度方面的應用成熟度。

目前,華為雲盤古大模型、智譜 CodeGeeX 代碼大模型、阿里雲 AI 編程助手通義靈碼、中國電信星辰政務大模型等首批通過評估,並在全部 100 多個能力評估中表現優秀,獲得 4 + 評級

以阿里雲通義靈碼為例,信通院評測結果顯示:

  • 在通用能力方面,通義靈碼在代碼轉換、代碼檢查及修復、代碼優化等方面表現突出;
  • 在專用場景方面,通義靈碼提供網站開發、資料庫開發、大數據開發、嵌入式開發等多個場景支持能力;
  • 在應用成熟度方面,通義靈碼具備較完善的數據合規及數據分類分級機制,且模型穩定性及可維護性表現優異,在模型推理性能、模型服務風險可控性等方面均表現優秀。
  • 在通用能力方面,通義靈碼在代碼轉換、代碼檢查及修復、代碼優化等方面表現突出;
  • 在專用場景方面,通義靈碼提供網站開發、資料庫開發、大數據開發、嵌入式開發等多個場景支持能力;
  • 在應用成熟度方面,通義靈碼具備較完善的數據合規及數據分類分級機制,且模型穩定性及可維護性表現優異,在模型推理性能、模型服務風險可控性等方面均表現優秀。

公開資料顯示,AI 代碼大模型首輪評估於今年 3 月啟動,主要面向適用於金融、科技、網際網路、電信、軟體等各行業,生產、使用或計劃使用代碼大模型的企業,評估結果旨在為模型廠商提供代碼大模型能力的評價和指導標準,以及為模型應用方提供有效衡量其能力水平的標準依據。

文章來源: https://twgreatdaily.com/a59eef86d546094fcbef6e6f0c346bb3.html