中國版ChatGPT三月底開源,中國發展NLP有兩大困難

2023-03-01     科技真探社

原標題:中國版ChatGPT三月底開源,中國發展NLP有兩大困難

中國版的ChatGPT要來了。

日前復旦大學計算機科學技術學院教授邱錫鵬教授透露,國內第一個對話式大型語言模型MOSS將有可能在3月底開源,在不少媒體的介紹中,復旦大學的MOSS被看作是中國版的ChatGPT。

只不過尷尬的是,從網上透露出來的內測信息來看,就算是中國頂尖大學推出的NLP模型,它回答英文問題的水平卻高於中文問題,說白了,中國人做的大型語言模型,更擅長英文,而不是中文。

針對這個問題,邱錫鵬教授坦言:英文作為科研主流語言,在學術界和工業界中得到廣泛應用,積累了大量高質量的語料數據,這為英文自然語言處理的研究提供了極大的優勢。根據相關數據,MOSS學習的英文單詞數量是中文的十倍。

必須承認,這也是國內發展NLP不得不重視的問題之一。

正如上文所說,英語作為科研主流語言,在全球範圍內有著大量的學術期刊、網頁、書籍,可以作為ChatGPT的訓練數據來源,比如說英國人創辦的《自然》雜誌、《柳葉刀》等等,在ChatGPT的訓練數據來源總量中,類似的雜誌、期刊排名第三,尤其是專業的學術期刊,這些數據會幫助ChatGPT的寫作更清晰、有條理。

除此之外,英文網站占全球網站總量近60%,而中文網站目前仍不足2%。

另外,除了中文對比英文天然存在的訓練數據差距之外,還有一個很大的困難,還是計算晶片硬體上的差距。

去年8月,美國限制高性能GPU晶片出口,所有行業人士都直接指出,這是為了限制國內AI技術的發展。當時,有些人覺得這件事沒那麼重要,可等到OpenAI在去年年底推出ChatGPT之後,國內不少人終於認識到老美釜底抽薪的招數,有多狠辣。

我們必須要承認,高性能GPU是人工智慧的基石

據稱未來的ChatGPT5將會在25000個英偉達GPU上進行訓練,但如果算上為了滿足全球用戶的計算量,谷歌、微軟等搜索行業巨頭可能會需要總共幾十萬、甚至百萬台的英偉達GPU。

底層硬體的局限和差距,已經成為國內發展ChatGPT不得不重視的問題。

最後,在ChatGPT發布之前,很多人覺得中美兩國在AI領域的技術積累不分伯仲、平分秋色,甚至是中國小優,可ChatGPT推出之後,不少人瞬間感覺被「打臉」,原來差距如此明顯。

不得不說,我們仍要謙虛地看待國內AI技術產業的發展仍然落後國外頂尖水平。

文章來源: https://twgreatdaily.com/e7df7a64fbc1ecba734128c98e66c0a4.html