多模态为何成为AI最火的发展方向?

2023-12-26     壹零社

原标题:多模态为何成为AI最火的发展方向?

谷歌多模态大模型Gemini 1.0(双子星)的发布,成功推动AI竞赛往纵深发展,而多模态AI,成了兵家必争之地。

01

“原生多模态”成Gemini核心价值

谷歌Gemini横空出世,再次让大家的目光聚焦在了多模态AI上。

Gemini起初就是以原生多模态的方式设计,从一开始就在不同模态上使用由谷歌设计的TPUs v4 和 v5e芯片接受预训练,要具有处理不同形式数据(语言+听力+视觉)的能力,一开始就在不同模态上进行预训练,利用额外的多模态数据进行微调以提升有效性。

接着用更多额外的多模态数据对它进行不断微调,以提升效能。这种方法使得Gemini在最初阶段就能更自然地理解和推理各种类型的输入内容在几乎所有领域的能力都达到了前所未有的先进水平。

原生多模态是Gemini一大亮点

谷歌DeepMind首席执行官德米斯·哈萨比斯在接受媒体采访时曾表示,“到目前为止,大多数模型都通过训练单独的模块然后将它们拼接在一起来近似于多模态。”这似乎是在暗指OpenAI的技术,“对于某些任务来说这没问题,但你无法在多模态空间中进行这种深层复杂的推理。”而Gemini处理不同形式数据的能力从一开始就是该项目愿景的关键部分。

从Meta的SAM、OpenAI的GPT-4V到谷歌Gemini,AI大模型的多模态能力在过去数个月里实现了快速跃迁,多模态逐渐成为AI发展的重要方向和路径。

02

生成式AI的下一站

模态(modal) 是事情经历和发生的方式,我们生活在一个由多种模态 (Multimodal) 信息构成的世界,包括视觉信息、听觉信息、文本信息、嗅觉信息等等,当研究的问题或者数据集包含多种这样的模态信息时我们称之为多模态问题,研究多模态问题是推动人工智能更好的了解和认知我们周围世界的关键。

多模态 AI 合并了许多数据模态,例如文本、照片、视频和音频,以提供对场景的更透彻的理解。多模式 AI 的目标是从多个来源编译数据,以支持更准确和可信的决策。

如今,单模态数据在实际应用中存在局限性,需要采用多模态AI。举个例子,一辆只有摄像头系统的自动驾驶汽车很难在弱光下识别行人。如果加上激光雷达、雷达和 GPS 就可以完美解决这些问题,可以为车辆提供更全面的周围环境图像,从而使驾驶更安全、更可靠。

多模态AI能够帮助驾驶系统更准确地判断周围环境

为了更透彻地理解复杂事件,融合多种感官至关重要。文本、照片、视频和音频都可以使用多模态 AI 进行组合,以更全面地了解情况。多模态AI用于教育,通过结合评估、学习分析和社交互动等多种来源的信息,为学生量身定制学习体验。

而文生视频则成为多模态大模型下一步发展的重点,甚至被誉为“多模态AIGC的圣杯”。从视频生视频到文生视频、图生视频,多模态的发展重视用更少的用户输入信息量实 现更丰富的AI生成结果。

自Runway推出Gen-1视频生视频工具后,AI处理视频、图 片功能在社交平台爆火,其背后即多模态大模型发展的表现之一,在众多企业和创业者的推动下,当下多模态应用也出现了井喷的态势。

03

多模态应用井喷

如果说谷歌Gemini离大家还有一些距离,那爆火出圈的Pika,以及三大图片转视频神器——阿里的Animate Anyone、字节跳动的Magic Animate、微软的GAIA等多模态AI应用则多少让人有些亲近感。

作为对标Runway Gen-2的AI视频生成平台Pika,成功搅动全球视频产业链,用户在对话框中输入文字“马斯克穿着太空服,3D动画”,一个3D动画版的“宇航员”马斯克就惟妙惟肖地出现在屏幕上,他身后喷着火焰的SpaceX火箭正腾空而起。

实现“文生视频”的Pika迅速火爆全球

简单、易用的文字-视频转换,让每个人都能成为自己故事的导演,激发出每个人内心的创作热情。而阿里的Animate Anyone和字节跳动的Magic Animate同样针对AI视频应用,通过AI技术将静态图像变成动态视频,极大降低了视频内容创作门槛。

与此同时,多家科技公司在文生视频领域取得新进展:Meta发布工具Emu Video,能够基于文本和图像输入生成视频剪辑;Runway在Gen2中上线Motion Brush动态笔刷功能,只需对着图像任意位置一刷,就能让静止的一切物体动起来;Stable AI推出Stable Video Diffusion,可以从图像中生成高品质的视频剪辑。

开源证券表示,科技巨头之间多模态大模型的竞争日益激烈,同时驱动着底层多模态大模型的能力不断突破,叠加GPTs等AI应用形式的出现,AI应用有望迎来快速增长期。

04

算力成多模态发展“拦路虎”

以文生视频为代表的多模态应用落地,究竟难在哪里?从本质看,视频是连续的多帧图像,然而文生图到文生视频并非简单的图片组合,而文生视频在文生图的基础上增加了时间维度,计算难度大、数据要求高、技术融合难度大等问题都成为多模态AI应用落地的阻碍,而真正的“拦路虎”则是算力。

多模态大模型的算力需求远高于纯文本模态。以Gemini为例,其强大的多模态能力背后,是庞大的算力需求。虽然没有正式公布,但根据内部消息,Gemini有万亿参数,训练所用的算力甚至达到GPT-4的五倍。

有别于传统大模型对英伟达硬件及生态的依赖,Gemini训练所需的算力基于谷歌自研的TPU v4和v5e等硬件。

在推出新模型的同时,谷歌顺势宣布推出迄今为止功能最强大、最高效、可扩展性最强的TPU系统Cloud TPU v5p,将用于开发更高层次的AI大模型。

谷歌一直有研发自己的TPU芯片

其TPU v5p的训练性能是上一代TPU v4的2.8倍,内存带宽提升3倍,芯片间互联带宽翻倍,达到4.8Tbps,同时,v5p单个POD中的芯片数量翻倍,达到8960颗。

显然,想要在多模态AI时代拿到足够的话语权,各大科技企业比拼算法的同时,更需要比拼算力资源,而这显然是互联网科技巨头的优势所在。从这个角度看,推动多模态AI落地,也是符合巨头们利益的。

05

写在最后:多模态,让AI认识世界

“跨模态任务需求+跨模态数据融合 +对人类认知能力的模拟”是AI模型走向多模态必然性的三大因素,多模态AI能够实现基于文本、语音、图片、视频等多模态数据的综合处理应用,完成跨模态领域任务,这意味着搭载多模态AI的机器人能够更“立体”地观察和认知现实世界。目前阿里已在实验将通义千问大模型应用到工业机器人。

未来5~10年,结合复杂多模态方案的大模型有望具备完备的与世界交互的能力,多模态GPT带来泛化能力提升,让机器人的通用性变高,届时,AI将重新认识世界。

文章来源: https://twgreatdaily.com/zh-hans/37a37242d7961cfeea1fdf1a00474a93.html