新華社研究院發布大模型體驗報告，訊飛星火總分第一

8月12日，新華社研究院中國企業發展研究中心發布《人工智慧大模型體驗報告2.0》，對當前國內風生水起的主流大模型進行了客觀評測，結果顯示，科大訊飛星火總分第一。

相對於6月首次發布的《人工智慧大模型體驗報告》，本次測評在題目設計、對標Benchmark（人類）、打分權重、專家測評團隊四大維度進行了全面升級。

其中，在題目設計方面，測評題目由300道擴展至500道，並進一步完善了題目分類：

在對標Benchmark方面，本次測評將接受過高等教育的人類作為對照，來考評大模型真實能力；

在打分標準上，本次測評根據對產業、生活的實際價值，對基礎能力、智商能力、情商能力和工具提效四大測評維度進行了權重設計；

在測評團隊方面，本次測評特邀北京大學文化與傳播研究所及其他產界、學界專家全程參與。

本次研究設置了用戶體驗項目，抓取了7月31日—8月4日數據，通過人機互動提問等形式，對國內主流大模型進行使用體驗評測，旨在為科技企業調整努力方向提供參考。

報告顯示，與2023年6月相比，當前中國大模型產品進步顯著。但與接受過高等教育的人類相比，大模型在智商、情商等方面還存在一定程度差距。

綜合基礎能力、智商能力、情商能力和工具提效四大能力綜合得分情況來看，科大訊飛星火大模型得分1013，僅比人類答案少1分，在各主流大模型中排名第一。其它排在第二、第三的分別為百度文心一言和商湯商量。

據了解，科大訊飛星火大模型發布於5月6日，並於6月9日完成首次升級。相對於初始版本，訊飛星火訊飛新版本無論是知識問答能力、推理能力、數學能力、語言理解、代碼能力還是文本生成能力均有較大提升。

科大訊飛星火之所以有如此表現，此前科大訊飛董事長劉慶峰表示，主要是因為公司員工努力和技術積累所致。

劉慶峰表示，在過去24年的創業歷程中，為了讓機器實現像人一樣能聽會說、能理解會思考，用人工智慧建設美好世界的夢想，科大訊飛人沒有一天停止過，也沒有一天不再奮鬥。

在過去的創業歷程中，科大訊飛不僅徹底扭轉了中文語音產業的競爭格局，而且在英文等多語種領域獲得了全球第一的地位。

在全球首次讓機器語音轉寫超過專業書記員；首次讓機器翻譯通過國家翻譯師資格考試；首次讓機器通過了國家執業醫師資格考試。同時也是中國唯一一家承擔認知智能國家重點實驗室建設的公司。

除技術積累外，科大訊飛還擁有成建制的團隊，且每一個關鍵模塊都是完全自主研發的，有完整的創新體系，這是科大訊飛在人工智慧領域得以踏實前行的關鍵。

科大訊飛星火大模型當前的版本為1.5，據悉，8月15日，科大訊飛將正式發布訊飛星火2.0版，在文本生成、語言理解、邏輯推理等各項能力持續提升的同時，代碼能力和多模態能力將登上全新高度。