訊飛星火V1.5:人工智慧的新高度,未來的新方向

2023-06-14     深圳吃喝玩樂蒲

原標題:訊飛星火V1.5:人工智慧的新高度,未來的新方向

新一輪的大模型升級,誰能引領潮流

5月11日,谷歌的大語言模型PaLM 2閃亮登場,它的全才特性令人矚目。精通100種語言,數學、軟體開發、語言翻譯推理和自然語言生成等方面皆有深入造詣。

國內的AI大模型也毫不遜色,百度的 「文心一言」以其擅長的文學創作、商業文案、數理邏輯、中文理解和多模態生成能力,充當著貼心的寫作夥伴。而「360智腦」在圖像處理領域展現出無可比擬的優勢,其深度學習技術可以精準識別並分析圖像內容,讓用戶對圖像信息有更直觀的理解。

彼時,讓我們將焦點放到科大訊飛6月9日發布會上公布的的訊飛星火認知大模型V1.5。它在開放式問答上取得了突破,多輪對話和數學能力再次升級,而在文本生成、語言理解、邏輯推理能力上,它也持續走在前列。同時,它的商業應用在學習、醫療、工業、辦公等領域也都有所展現。

那麼面對這一輪的大模型升級,誰能引領潮流?這需要你來決定,無論你是代碼大神還是辦公室新人,都可以在這些AI模型中找到適合自己的那一款。AI大模型的世界,充滿了無限可能,讓我們一起期待它們的精彩表現吧!

接下來,我們將會進一步探討訊飛星火認知大模型、文心一言、360智腦,通義千問這四位重量級選手的差異與亮點,以幫助你更好地理解它們的特性,並選擇最適合你的AI大模型。

創作能力大PK,誰能成為創作之星

首先,我們要來一場科幻創作大賽!

我們的挑戰者,將面臨一項艱巨的任務:仿照劉慈欣的科幻巨作《三體》風格,寫出一篇800字的小說。這不僅是對他們知識儲備的考驗,更是對他們創新思維和藝術靈感的挑戰。

那麼,誰能在這場科幻創作大賽中勝出,讓我們一起來揭曉吧!

文心一言的回答:

圖 1圖源:《科創板日報》

通義千問的回答:

圖 2圖源:《科創板日報》

訊飛星火的回答:

從結果上看,訊飛星火無論是篇幅還是內容豐富度,都強勢領跑,標題的創造力更是錦上添花。

而這背後的文學創作差異,便是一個既考驗語料積累又看重邏輯推理與算法的複雜比賽。

文心一言得益於百度這個大廚,擁有海量的中文搜尋引擎作為原料,烹飪出了自己的特色。而科大訊飛的訊飛星火,卻更像是一名精湛的廚藝高手,利用自己擅長的算法調料,早在2011年就已經在語音和語言信息處理的廚房裡炒制出了無數美味。當然,阿里巴巴旗下的通義千問也不容小覷,未來的應用場景寬廣,但它仍需進一步豐富自己的原料庫,才能在這場文學創作的比賽中更進一步。

推理解析大比拼,誰是真正的邏輯大師

數學,這是一個考驗邏輯和推理能力的領域。在這個領域裡,我們的大模型們將面臨一場嚴峻的挑戰。

訊飛星火、360智腦、文心一言,他們將要解決的是一道來自科創板日報的數學題。這不僅是對他們的數學知識的考驗,更是對他們的邏輯推理能力的挑戰。下面的圖片,將展示他們的解題過程。

文心一言的回答:

360智腦的回答:

訊飛星火的回答:

結果顯示,只有訊飛星火給出了準確的答案。

那不如給訊飛星火來一道更難得數學題?

從結果來看,訊飛星火依然展現出了嚴謹的解題思路。

至於答案是否正確,我們還需要數學大牛們的點評。但這道題目,可是涵蓋了微積分和多元函數積分等知識點的大怪獸,難度可不小。這也揭示了一個事實,那就是升級後的訊飛星火V1.5在長鏈條思維推理和數理邏輯推理能力上,已經有了飛躍式的提升。

無論是邏輯推理題還是數學問題,訊飛星火都能像一個熟練的魔術師,綜合應用各種數學方法,嚴謹推理出答案。

值得一提的是,搜狐科技通過選取2023年上海數學試卷的10道填空題,對市面上主流的5款大模型產品進行了一場公平的較量。

圖 3摘自搜狐科技

結果出人意料,訊飛星火以50%的正確率,答對了5題,成為這場比賽的「最佳表現者」。相比之下,百度的文心一言和ChatGPT答對了4題,正確率為40%;而360智腦和阿里的通義千問則像是遇到了難題,一題都未能答對。

邏輯數學題,對於當前各大語言模型來說,就像是一座高山,難以攀登。無論是國際還是國內的大模型,普遍在邏輯推理能力上表現不佳。

然而,訊飛星火卻在這場挑戰中表現出色,答對了高考數學試卷的一半題目,這充分體現了其強大的邏輯推理和數學能力。在訊飛星火升級後,數學能力已經事實上成為其最強項,這無疑為其在未來的發展中增添了更多可能性。

實用功能大對決,誰是你的貼身小助手

作為打工人,我們的日常就是一場場與時間的賽跑,一份份報告的攻堅戰。每當季度結束的時候,那份看似簡單,實則複雜的工作總結就像一座大山壓在我們的心頭。

如果有一個AI大模型能夠幫我們輕鬆搞定這些任務,那我們就能把那些苦逼的加班時間,換成一杯奶茶,一部電影,或者是一場說走就走的旅行。

那麼,各大語言模型能否勝任這樣的任務呢?下面就通過一個寫工作季度總結的任務來看看它們的表現如何。

文心一言回答:

通義千問的回答:

訊飛星火的回答:

從結果上看,雖然文心一言在開始時稍顯遲疑,但在稍作提示後也順利地完成了任務;通義千問多了些禮貌用語,也基本完成指令要求;訊飛星火整體看下來最為突出,條理清晰,重點突出,堪稱打工人福音。

說到這,就不得不提升級後的訊飛星火推出了200多個官方小助手,深度覆蓋了職場、生活、出行、寫作等用戶高頻場景。

其中,職場小助手包括了PPT大綱助手,周報小助理,調查問卷助手,活動發言稿助手等,這些小助手針對性地為打工人的各項工作提供了強大的支持。

無論你是需要準備一份PPT大綱,還是需要撰寫一份周報,或者是需要製作一份調查問卷,甚至是需要準備一份活動發言稿,訊飛星火的小助手都能為你提供專業、高效的幫助。

在上圖的演示中,小編選擇了市場分析師小助手。對話一開始小助手就直接了當的叫我提供給它一個行業,它就幫我搞定市場分析報告。小編隨便輸入了一個旅遊業。

隨後小助手立即像一個熟練的專家,流暢地列出了該行業的市場分析報告。生成分析報告的篇幅比較長,就不一一截圖了。

訊飛星火V1.5與舊版的對比:升級的價值和影響

掌握現在,預見未來:訊飛星火的實時知識更新能力

在6月9日的科大訊飛發布會上,總裁吳曉如就深入探討了大模型面臨的一個核心挑戰:新知識更新困難,導致有時候提供答案時知識及時性不足,甚至會出現張冠李戴的現象。

然而,這對星火模型V1.5來說不再是問題。

讓我們通過一個實時性問題來看一下新,舊版訊飛星火的對比

舊版訊飛星火的回答:

圖 4圖源:《科創板日報》

新版訊飛星火V1.5的回答:

顯然,新升級的訊飛星火V1.5很專業的回答了」特斯拉汽車銷量「的實時性問題,並且還兼顧了同比,環比增長率,考慮非常周到。

而舊版的訊飛星火,直接表示答不出來,讓我們到特斯拉官網自己查去。

針對這項能力的突破,總裁吳曉如在發布會上提到:

科大訊飛是通過實時信息庫和專業資料庫進行各種知識的搜索和提取,然後通過大模型的概括表達能力推送給用戶,確保了向用戶提供結果的及時性和準確性,使得開放式知識問答能力提升24%,能解決更複雜問題。

溝通無阻:訊飛星火在多輪對話中的精彩表現

而另一方面,發布會上劉聰以「我想寫一個小兔子去黃山旅遊探險的故事。」為例,通過提出情節的要求隨時調整故事內容,對科大訊飛星火認知大模型多輪對話的能力進行了展現。

在此,小編以一個生活中常見的案例來驗證這一點:

細心的朋友應該也發現了,小編的第二輪和第三輪發送給訊飛星火的問題:

1.聽起來不錯,我對藝術感興趣,我應該去哪一個地點?

2.謝謝,那我應該在什麼時間去那裡才能避開人群?

並沒有提及」上海「這個地點,而訊飛星火在隨後的回答里,顯然是記得第一輪對話中我向它表達的「希望去上海旅行」這一信息。

這種大模型對於上下文的記憶能力對用戶後期使用非常重要,

正如總裁吳曉如在發布會上強調的:

人與人間協同完成任務需要多次交互,很少一次交互就能完成一個複雜任務。因此,基於大模型認知能力的多輪對話提升,使我們未來可以完成特定複雜的任務。這種完整複雜的任務,可以通過人機共創來實現,不斷激發人與機器多人交互的靈感,共同協作,完成更複雜的標準。

解碼未來:大語言模型挑戰與前景展望

隨著人工智慧和大語言模型的不斷發展,我們正站在一個新的技術革命的門檻上。這些模型不僅在理解和生成人類語言方面取得了顯著的進步,而且正在開啟一個全新的認知時代,這將深刻改變我們的生活和工作方式。未來,我們期待看到大語言模型在更多領域中發揮其潛力,包括創新設計、決策支持、教育和娛樂等。同時,我們也期待看到更多的研究和開發工作,以解決大語言模型的挑戰,如模型的可解釋性、公平性和安全性等。

讓我們一起期待這個充滿無限可能的未來。

文章來源: https://twgreatdaily.com/zh-hk/9666053ecf90bdbc110bc51c59555426.html