首發評測丨阿里版 ChatGPT 來了!我們問了 100 多道題,它得了 90 分

2023-04-07     愛范兒

原標題:首發評測丨阿里版 ChatGPT 來了!我們問了 100 多道題,它得了 90 分

——你是誰?

——我是一個能夠回答問題、創作文字,還能表達觀點、撰寫代碼的超大規模語言模型。可以用於各種自然語言處理任務,如語言翻譯、文本生成、問答系統等。

這是阿里雲今天開啟企業邀測的大語言模型 「通義千問」 對自己的定義,是的,阿里入局了。

在愛范兒小紅書首發上手「鳥鳥分鳥」後,APPSO 又在第一時間拿到了通義千問的測試機會,表現如何,能否滿足國內用戶對大語言模型的需求?我們對它進行了全面測試。

申請內測的連結在這裡

https://tongyi.aliyun.com/

寫腳本、說情話,通義千問來了

一個聊天框,幾個功能提示,與其他大語言模型一樣,通義千問的介面非常簡潔,只要輸入問題,就會得到回應。

聊天只是開胃菜,讓通義千問在工作生活中派上用場才是正經事。

寫文章、出策劃、做腳本,通義千問表現如何呢?

首先,我想讓通義千問為我寫一段電影腳本,讓「法外狂徒」張三能被繩之以法。

偵查與反偵察,黑客技術的利用,甚至在承認罪行被捕後,張三還在法庭上翻供以求最後一線生機。雖然沒有太多細節,但這樣一再反轉的劇情,這個張三,確實不好對付。

通義千問能創作的當然不只是電影劇本,這打打殺殺的劇情也不適合小朋友,所以我又用它寫了一個故事,寓教於樂,讓孩子知道朋友的重要性。

兩個生活在一起的朋友,遇到危險依然不放棄友誼,積極快樂的生活在一起。或許是為了讓小朋友看明白,通義千問還用了「小手」、「小腳」這樣的詞。

如果你想創作類似的故事,也可以像我一樣在問題中給主角命名,比如奶茶和鐺鐺這兩個名字,正是我和朋友家貓咪的名字,用熟悉的名字講故事,小朋友會更有代入感。

我也嘗試用通義千問寫職場應用文,在郵件、會議記錄、客戶策劃等文件類型中思考很久,最終決定用它寫一封辭職信。

看到這封辭職信的時候我笑了半天,一個隱藏富二代把繼承家業寫得如此不卑不亢,不過倒也沒有說謊,這事確實挺急的。

既然要繼承家業,自然要好好規劃,所以我決定先定一個小目標:要如何讓我的酒店省內知名?

品牌、服務、產品、營銷,雖然內容提的很全,但沒有太多可實際操作的方法論,所以我進行了追問。

客戶調研、場地升級、服務完善、禮品定製,連異業合作都安排上了,鑒於我沒有給太詳細的信息,通義千問的回答已經很不錯了。

通義千問還提供了一個百寶袋,將其能力進行了更垂直的場景化定製,如果你不知道該如何問問題,那百寶袋裡的小應用更適合你。

比如,作為一個大語言模型的產品經理,你可以用「寫提綱」撰寫項目介紹。

項目獲得投資人支持後,可以使用「SWOT 分析」來了解競爭環境。

產品終於研發上線,就可以使用「商品描述生成」來寫一段產品的介紹語。

其他功能更偏娛樂性,好玩是它們最主要的作用。比如知乎上經常會看到「如何以 XXX 開頭寫一個故事」,那就可以使用「然後呢」工具來寫故事。

許多大語言模型都因寫出了「油炸螺絲釘」的做法而成為笑料,通義千問則帶著一種既然暫時無法改變,那就大方拿出來給大家笑的態度,把它做成了「會放飛的菜譜」功能。

百寶袋的存在,讓我感到了通義千問的「謙遜」,它只能回答文字,相比國外模型發布的時間也不算早,但它可以讓用戶更快的上手大語言模型,而百寶袋裡坦誠展示缺點(比如菜譜)的小應用,反而成為了它的一個亮點。

我問了 100 多道題,它有點超出預期

如果只測試官方提供的問題,那和說明書有什麼區別?我們從一些投資機構針對大語言模型的中文測試集中,選取了 110 道各個領域的題目來測試通義千問,問題包括:

1. 基礎能力(50 題):對事實理解、信息提取、文本翻譯等能力進行考察
例:美短、英短、暹羅和緬因屬於什麼;列舉 10 本科幻小說;寫一首關於交通信號燈的詩;
2. 進階能力(50 題):對物理、化學、數學、謎語等基礎能力進行考察
例:金元素屬於哪一種化學鍵;埋在奴家心底,打一字;請問以下單詞中的共同詞素是什麼:pyre,empyrean,antipyretic。
3. 垂直領域(10 題):對計算機、生物、醫學、天文等能力進行考察
例:作為一個醫生,在將工作交給資深同事之前,您應該嘗試給病人插管多少次;《大雲經》預言了誰的來臨。

先說結論,通義千問的總成績為 90 分(43/38/9),與 ChatGPT 3.5 接近(92 分,47/40/5)。考慮到問題的局限性,我們不能得出通義千問能力接近 ChatGPT 3.5 的結論,但至少在中文對話方面,今天的通義千問可以帶給我們不錯的體驗。

對通義千問來說,它做不好的,基本都是大語言模型共同的難題。

比如做飯這個大語言模型永遠過不去的坎,從紅燒螺絲釘到油炸奧特曼,大語言模型總能為中華美食畫上濃墨重彩的一筆又一筆。

好在通義千問的廚藝也有所長進,問一些奇怪料理做法時,它已經可以識別出問題,並給出相對正常的答案(雖然讀起來還是有點奇怪)。

當其他大模型說著「我什麼都能辦到,但是真的不會做飯」時,通義千問或許是最好的廚子。

不過在腦筋急轉彎上,通義千問還是翻了車,或許是對人類太信任了,大語言模型在回答問題前都不太會質疑人類。腦筋急轉彎這種帶點壞心思的問題,對純真的大語言模型來說還是太超前了。

但就像「清蒸皮卡丘」一樣,並不是所有的胡編亂造都會得到回應。比如在我讓它杜撰著名人士 Fred Rickerson 的生平時,它會堅定的告訴我這個人或許不夠著名。

當我提問「香蕉的平方根」時,它也會明確告訴我香蕉是水果,不能做數學運算,而且沒有說髒話。

可以看出,剛剛開啟公測的通義千問,已經在解決大語言模型會存在的各種問題,但在語言邏輯、數學計算上,它距離好用依然有不小的距離。

詩文講的是彈箜篌

但我對通義千問的還是充滿信心的,因為第一次測試 110 道題目時,通義千問的成績是 65 分(35/23/7),但第二天再測,它一下子考到了 90,這模型難道是以天為單位進化的?好奇心驅使我找阿里的朋友問了問,他們說,他們什麼也不知道。

無論如何,大語言模型的發展,和我們從學渣到學霸的努力可不一樣。

還記得你當年嘲笑的 Siri 嗎

記得第一次在 iPhone 上使用 Siri 時,我和身邊的朋友七嘴八舌,不為用它解決什麼問題,只想聽到「我好像聽不明白」,然後哄堂大笑。而今天,大家七嘴八舌的內容,變成了貼吧里的腦筋急轉彎。

對大語言模型來說,它很難承認自己對某些知識的無知,所以就會鬧出「麻辣螺絲釘的做法」、「香蕉的平方根是根號 3」的笑話。這並不是處於某種目的被有意編造,而是純粹因算法導致的「無中生有」。這種不能理解知識邊界的無心之過,是目前神經網絡難以克服的缺點。

我問通義千問要如何有效的利用它,它很謙虛的告訴我,它的知識是通過大量的數據和算法訓練而成的,但這些知識並不是全部都正確。因此,如果發現回答有誤,請不要吝嗇專業知識和見解,這將有助於它不斷改進和提高。

「通義」代表著知識的廣泛與普世,「千問」說明了問題複雜與獨特,通義千問不夠完美,還需要我們給它更好的 Prompt,與它一同進步。

對了,本文中不少段落都是由通義千問完成的,你能發現是哪部分嗎?

文章來源: https://twgreatdaily.com/zh-tw/e122a2b2b7e55fc77a17e5aaceec4a2f.html