國產AI殺瘋了!以小博大對戰GPT,或為對抗AI iPhone的最強後援

2024-05-21   ITheat熱點科技

昨日,全球最強端側多模態模型再次刷新,僅用8B參數,擊敗了OpenAI的GPT-4V和谷歌的Gemini Pro,而且,其OCR長難圖識別刷新SOTA,圖像編碼速度暴漲150倍,而這個全球最強端側多模態模型不是國外大廠的出品,而是國內大模型研發實力最頭部的公司面壁智能,最新打造出來的面壁小鋼炮MiniCPM-Llama3-V 2.5。

據了解,面壁小鋼炮MiniCPM-Llama3-V 2.5僅憑8B量級的端側模型,在評測平台OpenCompass得分65.1,與閉源模型Qwen-VL-Max或可一戰,綜合性能直接力壓重量級選手GPT-4V和Gemini Pro。在OCR綜合基準測試中,又取得了725分的成績,大幅遠超GPT-4V,並在大模型的「頑疾」幻覺能力上也獲得了重大改進,還有各種基準測試,數據都遠超GPT-4V和Gemini Pro。

簡單來說,MiniCPM-Llama3-V 2.5能看、能讀、速度快、更會思考,而且,還用最小的參數撬動了最強性能!那麼,拋開這些基準測試,這個小鋼炮到底能給我們普通人帶來啥?首先,它能支持30+種語言,包括德語、法語、西班牙語、義大利語、俄語等主流語言;其次,它支持難圖、長圖、長文本的精準識別,比如你在看一個吃瓜長文,總因為「太長不看」而煩惱,丟給它,它就能快速匯總出關鍵內容;如果是一張英文版的圖文信息,它也能根據你的需求,給出非常精準的匯總;而且,它能夠在一張擁有多種要素信息的圖片中,「一眼」看懂圖片的主題內容,並推理出圖片的來源信息,再把「思考」後的信息整理匯總給我們。當它搭載到手機上,將能直接在設備端快速、實時運行,減少數據泄露風險,而且,即使沒有網絡連接,也能正常工作,還適用於多種設備,或成為真正的AI「貼身助理」。