8月12日,新華社研究院中國企業發展研究中心發布《人工智慧大模型體驗報告2.0》,對當前國內風生水起的主流大模型進行了客觀評測,結果顯示,科大訊飛星火總分第一。
相對於6月首次發布的《人工智慧大模型體驗報告》,本次測評在題目設計、對標Benchmark(人類)、打分權重、專家測評團隊四大維度進行了全面升級。
其中,在題目設計方面,測評題目由300道擴展至500道,並進一步完善了題目分類:
在對標Benchmark方面,本次測評將接受過高等教育的人類作為對照,來考評大模型真實能力;
在打分標準上,本次測評根據對產業、生活的實際價值,對基礎能力、智商能力、情商能力和工具提效四大測評維度進行了權重設計;
在測評團隊方面,本次測評特邀北京大學文化與傳播研究所及其他產界、學界專家全程參與。
本次研究設置了用戶體驗項目,抓取了7月31日—8月4日數據,通過人機互動提問等形式,對國內主流大模型進行使用體驗評測,旨在為科技企業調整努力方向提供參考。
報告顯示,與2023年6月相比,當前中國大模型產品進步顯著。但與接受過高等教育的人類相比,大模型在智商、情商等方面還存在一定程度差距。
綜合基礎能力、智商能力、情商能力和工具提效四大能力綜合得分情況來看,科大訊飛星火大模型得分1013,僅比人類答案少1分,在各主流大模型中排名第一。其它排在第二、第三的分別為百度文心一言和商湯商量。
據了解,科大訊飛星火大模型發布於5月6日,並於6月9日完成首次升級。相對於初始版本,訊飛星火訊飛新版本無論是知識問答能力、推理能力、數學能力、語言理解、代碼能力還是文本生成能力均有較大提升。
科大訊飛星火之所以有如此表現,此前科大訊飛董事長劉慶峰表示,主要是因為公司員工努力和技術積累所致。
劉慶峰表示,在過去24年的創業歷程中,為了讓機器實現像人一樣能聽會說、能理解會思考,用人工智慧建設美好世界的夢想,科大訊飛人沒有一天停止過,也沒有一天不再奮鬥。
在過去的創業歷程中,科大訊飛不僅徹底扭轉了中文語音產業的競爭格局,而且在英文等多語種領域獲得了全球第一的地位。
在全球首次讓機器語音轉寫超過專業書記員;首次讓機器翻譯通過國家翻譯師資格考試;首次讓機器通過了國家執業醫師資格考試。同時也是中國唯一一家承擔認知智能國家重點實驗室建設的公司。
除技術積累外,科大訊飛還擁有成建制的團隊,且每一個關鍵模塊都是完全自主研發的,有完整的創新體系,這是科大訊飛在人工智慧領域得以踏實前行的關鍵。
科大訊飛星火大模型當前的版本為1.5,據悉,8月15日,科大訊飛將正式發布訊飛星火2.0版,在文本生成、語言理解、邏輯推理等各項能力持續提升的同時,代碼能力和多模態能力將登上全新高度。