今天多模态AI概持续活跃,苏州科达3连板,宣亚国际大涨近13%,云鼎科技涨停,力盛体育、三态股份等跟涨。
上周末发酵的是谷歌的Gemini大模型,“多模态AI”,谷歌做的这个有很大的优势,自己握着大量的数据基础,号称“全面碾压GPT-4”。Gemini模型作为谷歌以及全球范围内最先发布的多模态模型,在性能上是第一个在MMLU上超越人类专家的模型。
现在很多厂商把目光放在多模态大模型上,对标GPT-4开发竞品。像AI初创企业Anthropic做出了对标的AI聊天机器人Claude。Meta是开源了自己的大模型LLaMA,Vicuna、WizardLM、Guanaco等模型也是将自己的大模型进行开源。微软KOSMOS-1模型拥有16亿参数,解锁多模态功能。之后或许还会有别的厂商陆陆续续做出来。
现在大厂们都发现了多模态AI具有明显的优势,可以超越单模态数据的限制,抓到不同数据模态之间的关联性,获得对自然现象更深入的理解。分析一个视频时可以抓到图像信息,音频信息,视频对话信息等等。多模态AI能够整合这些信息,使其在诸如情感分析、语音识别或图像描述等任务上表现出更高的性能。
当然了,我们也有很多厂商做多模态,三六零集团旗下智能硬件及物联网事业群360智慧生活发布了360智脑-视觉大模型,以及4款AI硬件设备,并宣布360智慧生活将进军SMB(中小型企业)市场。
比如科大讯飞做了星火认知大模型 V3.0 实现文本生成、语言理解、 知识问答、逻辑推理、数学、代码、多模态七大能力提升。苏州科达推出了KD-GPT大模型,包括多模态大模型、AIGC图像大模型和行业大模型已经初具雏形,并开始在实际项目中投入应用。亿嘉和发布的一种基于多模态超融合技术的大模型YJH-LM,目前已在公司商用清洁机器人上完成功能测试。等等。其他厂商也有。
但是前一阵比较火的是某达女儿创办的PIKA游戏,利用语音和文字描述对视频修改和生成的一种应用!信某达这种裙带关联被爆炒6连板。带火了多模态AI这个方向。
但是多模态AI现在还是太早了。
我们说,现在国内外吧,多模态技术应该还处于大爆发早期,现在得多模态AI的技术有点像几年前得NLP技术,得去研究的上下游任务和之后技术之间得链接,有哪些链接可以做到,有哪些做不到。
但是GPT的出现结束了之前很多独立存在的NLP上下游业务。GPT做了很多语言生成、对话、交互的业务,让很多人都感受到了GPT的技术是什么样的,能做什么用。GPT的出现也让NLP技术变得没那么难了,而且也变得众所周知了,因为之前那些自然语言专家,多是对自己的领域最熟知,文本分类的最了解文本分类,信息抽取的也是专门做手里这些。
每个任务都有专门的模型和框架,然后还有专门的专家,根据专门数据训练出来,然后摆在那儿供大家调用,所有这些NLP能力,仿佛工具集,有上千个工具供大家用。虽然有这么多工具,不过不了解每种工具的人也很迷茫,到底我该用哪个?哪个最适合我?这些都不知道,就得一些算法专家进一步解释,你面临的这个问题是文本分类问题,那个问题是阅读理解问题,再把工具给你。
于之后得ChatGPT的出现,就解决了这样的问题,可以让你用自然语言说你想干什么,让大模型去理解你的意图,再将这个能力给到它。很多东西ChatGPT都可以理解。并做出相关得回应。
这种大模型缩短了AI能力和我们之间的距离,很多厂商都可以用GPT 做个新的应用产品出来。而且OpenAI的ChatGPT、GPT API、ChatGPT Plugin差不多有了自己的核心技术和自己的生态。逐步用超级AI大模型建立生态,只要是有了自己生态的产品,以后都不用私有部署,很多能够直接连接大厂大模型。
到最后可能就会是通用智能计算的生态越来越大,甚至是大厂垄断,其他所有科技公司、创业者都很难在大语言模型这个领域建立起自己的技术壁垒。而一些专有智能计算上域,基于开源模型简单封装的解决方案将迅速实用化,在开发和部署做到价格越来越低。
但是和大语言模型相比,多模态AI在技术上还是一个开始,谁有实力,谁都可以研究,可以参与,无论研究还是是应用层面,都是处于上半场。
我们也说多模态现在还在研究阶段,但是可以确定得是,不管是不是在训练阶段,或是在推理阶段,对于算力的需求都相较于单模态模型有极大的提升。因为应用场景多或请求量大会增加对计算资源的需求,会带动计算集群规模。所以无论怎么发展,都绕不开算力。 算力核心只有四个公司,还记得吗?我在每天9点直播中讲过,记得的同学可以打上来!
吕长顺(凯恩斯) 证书编号:A0150619070003。【以上内容仅代表个人观点,不构成买卖依据,股市有风险,投资需谨慎】