通过近距离沟通,我们窥见了AWS的技术与方法论

2023-12-21   三易生活

原标题:通过近距离沟通,我们窥见了AWS的技术与方法论

不久前,我们三易生活用多篇内容为大家集中带来了今年AWS re:Invent的相关信息。

当时我们几乎解析了每一场重要的Keynote,还为大家分析了诸多AWS新产品、新服务的特点,以及它们在业内的特别之处。

但除此之外,在此次re:Invent 2023期间,我们其实还与AWS的多位内部人士进行了一些更为深入的沟通。由于其中涉及到许多刚刚发布、或是相互之间关联性不是太大的新技术,因此当时我们没有急于将其进行整理、并撰写稿件。

不过随着今年AWS re:Invent告一段落,我们也腾出了时间对所有的这些零散材料和信息进行整合,并从中挑选出了大家可能更感兴趣的部分内容,来进行一次简要的综述。

AWS的多款“黑科技”,距离正式落地还需时日

首先,我们来聊聊在今年AWS re:Invent上发布的多款硬件和软件新品的正式开放情况。

据AWS负责销售、市场和全球服务副总裁Matt Garman透露的信息显示,Amazon最新的自研推理芯片、也就是Trainium2,需要等到明年下半年才会正式面向全球市场开放。

相比之下,Amazon自研的新一代通用处理器、也就是Graviton 4,则已经发布了第一个实例的预览。有看过我们三易生活此前相关分析的朋友可能会记得,它这次主要的提升集中在能效比方面。说得更直白一点,就是它虽然并不比Graviton 3E更快,但是会“省钱”很多,因此对于“非土豪型”的云计算客户会更加友好。而且AWSA即将推动新款通用处理器在亚马逊云科技中国区的落地,或许在不久之后,国内的云计算客户也将用上这款“新U”。

此外,Amazon最新的生成式AI语音助手服务、也就是Amazon Q,目前已经在部分可用区进行预览,未来它也将会是一项“全球式服务”。

新技术的意义在哪?它让客户更加“平等化”

当然大家都知道,AWS如今几乎每年都会发布新的自研芯片,还在不断在推出更灵活、更加简化操作的数据库和人工智能服务。那么这就很自然地会产生一个问题,他们的创新动力从何而来,这些新的芯片和服务又是为什么而生?

可能有的朋友会认为,这个问题还不简单,因为市场有竞争,所以AWS也需要不断自我进化。

确实如此,但事情并没有这么简单。比如AWS全球汽车及制造行业专业服务团队负责人John Allen在与我们的交流中,就曾多次提到“平等”、“民主化”这些概念。在他看来,诸如宝马、丰田这样的大型传统车企固然是AWS的“忠实客户”,但他们也确实很积极地在采用最新的生成式AI技术、在使用最新的云计算芯片,去加速自己的产品和服务进步。

但与此同时,比如说汽车行业现在还有很多的新兴品牌,这些厂商也会有快速研发产品的需求,并且他们也会对“软件定义汽车”、会对自动驾驶的AI训练,有着很大的需求。

然而,行业巨头毕竟有先发优势,那么对于新兴品牌而言,它们要如何才能尽可能地缩小技术差距,甚至在部分产品或服务上实现反超呢?不得不说,以AWS为代表、积极采纳最新技术的云服务提供商,就带来了这种机会。

相比于自建数据库、自建超算中心、自己去慢慢进行训练迭代,AWS能够提供快得多的算力、大得多的全球存储池,而且还有多达10万个以上、经验丰富的合作伙伴,可以帮助这些新兴企业“快速起步”,使用最新的云端实例去开发产品、加速他们自己的算法迭代,或者是为他们的新车提供更稳定可靠的云端数据库和AI服务支撑。

当然,这些对于AWS自身来说也有好处,因为这就意味着客户阵容的进一步开拓、意味着“云计算”的影响力触及到更多行业和更多企业,同时也代表着他们能够获取更多的经验,去为自家的下一代硬件和服务迭代做好准备。

自研技术不是“自High”,必须基于实际需求

当提及AWS的自研硬件,以及他们在芯片方面的不断创新时,可能也会有朋友想到,AWS并不是唯一一家能做自研芯片的云计算厂商。那么与其他的竞争对手相比,他们的优势又体现在哪里呢?

不得不说,这其实是最有趣的一件事。因为当我们纵观整个AWS的自研硬件体系就会发现,他们的主要优势表面上看起来似乎是起步比较早,所以迭代次数会更多一些。除此之外,AWS的自研硬件体系也比较“全面”,他们不只有自研的通用处理器、AI推理芯片、机器学习芯片,还有诸如网络连接硬件、自研存储系统等等。

但是以上这些其实都是“表象”,当我们将目光进一步扩大、去看到AWS最新的整个云端算力情况时,可能就会注意到这样一个事实,那就是AWS虽然有着大量的自研芯片,但他们并不是只靠自研芯片。他们还有许许多多的、第三方的通用算力方案,甚至很多第三方的算力方案都还是行业首发、甚至是独占。

比如,亚马逊云科技大中华区产品部总监周舸在此次沟通中,就提到了来自NVIDIA的GH200。这是目前最新、最快的超大型GPU计算方案,在今年的re:Invent上,AWS方面就高调宣布了与NVIDIA的进一步战略合作,并将会使用GH200去构成超大规模的UltraClusters算力集群。

值得一提的是,AWS自研的Trainium2芯片同样会被用于超大型计算集群,同样也可以提供超大规模的AI计算服务,而它与GH200将会是一个“共存”的、可选的关系。GH200是现阶段最快的计算方案,它更适合追求极限性能、希望最大程度缩短计算周期的用户;而Trainium2则拥有更低的功耗,更适合超长周期的模型迭代,并且对于重视性价比的用户更为友好。

与此同时,无论在GH200、还是在Trainium2的集群里,AWS又都使用了他们自研的SRD私有网络协议,以及相应的网络接口和自研的Amazon EFA网卡硬件。这些由AWS自研的网络设备可以消除传统TCPIP网络里的握手等待,大幅提升数据传输的稳定性和速度,进一步解放超大计算集群的效率。

所以这些就意味着什么呢?简单来说,AWS对于自研硬件的使用绝对不是为了“撑面子”,他们是完全出于经验、出于客户的实际性能需求,而去进行的硬件研发。

AWS方面非常清楚,到底哪些东西真正需要“自研”、哪些则使用通用方案更好,因为云计算不是“面子工程”,最后注定还是要服务于客户、服务于千行百业的。而任何一项技术,只有真正可以起到提升效率、推动行业进步作用,显然它才是好的技术。而“为了自研而自研”最终往往只是在浪费资源,并且甚至可能起到拖后腿的作用。