三款國產AI考上文科一本線,期待中國人工智慧取得更大突破

2024-07-02   封面新聞

胡欣紅

6月24日,在極客公園最新發布的高考新課標Ⅰ卷大模型評測報告中,GPT-4o以562分排名文科總分第一。國內產品中,位元組跳動旗下的豆包拔得頭籌,成績是542.5分。本次大模型高考評測與河南省考卷完全相同,河南高考錄取分數線顯示,文科本科一批錄取分數線為521分,豆包等三款國產AI成功衝上一本線。

人工智慧參加高考,其實已經不是什麼新鮮事兒。早在2017年,一款名為「AI-MATHS」的高考機器人,就在全封閉環境中、有監考老師和公證員的情況下,和全國文科高考生同場競技。這位特殊「考生」挑戰了北京卷文科數學和全國二卷文科數學,得分為105分和100分,雖然離110分的目標還有差距,但已經碾壓了許多患有「數學恐懼症」的考生。

時隔7年,包括GPT-4o、豆包、文心一言4.0、百小應等在內的近十款大模型再度一起同台競技,三款國產AI成功一舉衝上一本線,再度引發輿論熱議。

AI參加高考,並不是為了「好玩」。很多經歷過高考「洗禮」的過來人,都不無感慨地表示高三是一生中最博學的時候,甚至達到了自己智力水平的巔峰。雖然有些調侃和誇大的色彩,但高考確實在一定程度上「檢驗」了個體的綜合素養。既然名為「人工智慧」,能否配得上這個名稱,參加高考無疑成了最具說服力的方式之一。

於是,隨著人工智慧的突破性進展,在圍棋、自動駕駛等領域一展身手後,便盯上了挑戰高考這個「新賽道」,意在通過高考對學習和知識運用能力檢驗,一較高下。不出意外,GPT-4o憑藉強勁的實力奪得魁首,而國產AI豆包的表現同樣可圈可點,不僅超過文科一本線20分,而且還取得歷史、化學兩項單科第一。

值得一提的是,豆包的作文在匿名閱卷中獲得閱卷老師的好評:文章中顯出的對就業結構、倫理方面的擔心,展現出豆包已經具有不錯的思想深度和思辨能力。在立住「問題」後,豆包隨即用反問句自然過渡,引出三個排比段提出解決問題的方法——保持「問題意識」。其中用發展的眼光分析問題,結合現實生活揭示問題產生的根源和危害的部分頗為亮點,並且整體上「結構嚴謹,層層推進,語句流暢,認識全面」。

豆包技術能力之所以明顯領先於國內其他大模型,其實並不意外。根據智源研究院 FlagEval 大模型評測平台6月最新榜單,豆包大模型在主觀評測和客觀評測的綜合成績均排名前二,知識運用和數學能力單項得分排名客觀評測第一、主觀評測前三。

科學技術是第一生產力。隨著數字經濟時代的到來,基於人工智慧、5G技術、物聯網等領域的科技創新,已成為提升國家綜合國力和核心競爭力的關鍵。我們必須看到,技術進步不是一場百米衝刺,而是漫長的長跑。ChatGPT的誕生,就是世界頂尖科學家經年累月研發的結果。十年磨一劍,才有了一朝橫空出世的「驚艷」。

生成式對話產品的出現,意味著人類對自身的突破,也為未來科技發展破了題。當下,生成式AI賽道已成未來人工智慧化發展的方向,如同多年前的AlphaGo,ChatGPT已經成為人工智慧發展史上的一個符號,從這個意義上說,它不可被複製,只能被超越。

科技是國家強盛之基,創新是民族進步之魂。正是基於對科技的高度重視,一年前中共中央、國務院發布了《黨和國家機構改革方案》,把科技作為重要內容,備受外界矚目。與時俱進,才能領先一步。此舉體現了中央對科技發展戰略性、方向性、全局性重大問題的高度重視,由此釋放出來的制度優勢、政策紅利,也必將極大促進科技領域的創新創造。期待以豆包等為代表的國產AI,能藉助這股東風取得更大的突破,讓世人「刮目相看」。