单个肿瘤的活体组织检查就超过八百万次,数据量是如此庞大,普通电脑难以应付。百亿亿级(每秒进行10的18次方,也就是1后面18个零,浮点运算)的超级计算机的建成,有望借助AI的力量对抗癌症。
Rick Stevens,CANDLE计划的首席调查员(图源:阿贡国家实验室)
撰文 | 李薇达
编辑 | 邸利会
根据世界卫生组织发布的报告,癌症是继心脏病之后的全球第二大死因。但到本世纪末,癌症预计将成为全球的头号“杀手”,也是阻碍人类预期寿命延长的最大“拦路虎”。
可癌症又是极其复杂的疾病,迄今为止,医生们还没弄清楚为什么一种特定的癌症会影响某一个人而不会影响另外一个人;为什么一种药对某患者有效却对另一个患者无效。
另外,在一个典型的癌症研究中,对单个肿瘤的活体组织检查就超过八百万次——医生们分析癌症的表征、对药物治疗的反应以及患者身体受到的影响。这些数据量是如此巨大,以至于普通电脑都难以应付。
深度学习与癌症治疗
为了解决这些问题,医生们向超级计算机求助。
2016年,美国国家癌症研究所、美国能源部和其他多个国家级实验室联手启动了一项名为“癌症探月”(Cancer Moonshot)的计划,而研究工作的重点之一是构建一个名为CANDLE(CANcer Distributed Learning Environment, 癌症分布式学习环境)的人工智能(AI)框架,它将提供一个公共发现平台,以借助AI的力量对抗癌症。
为更好地了解癌症的本质,并找出对抗多种形式癌症的最佳药物,CANDLE将着重解决三个关键挑战,以加速在分子,细胞和群体水平的研究。
首先,研究团队需要对各种癌症的核心生物学和分子相互作用有一个详细的了解。其次,研究小组必须开发计算模型来预测癌细胞对药物的反应。该模型可用于优化临床前药物筛选,并为癌症患者提供精确的药物治疗。第三,团队还得从所谓的“患者轨迹”中收集信息。也就是说,他们必须评估全美数百万癌症患者的数据,包括肿瘤学家手写的患者报告,以期发现一些模式或样板,然后基于此构建大规模的计算模型。
CANDLE计划的三大挑战(图源:candle.cels.anl.gov)
注:RAS信号途径是一种常见细胞分子信号传导途径。
这个过程从收集所有已知的关于癌症如何运作、对药物的反应和个人行为的数据开始,然后创建一个虚拟的近似值。因此,这些挑战同时也将考验这一项目的机器学习方式——深度学习。通过将创新的数据采集和分析技术、模型组成与模拟结合,深度学习将帮助得出为单个患者设计的专门性的预后和治疗计划。
美国阿贡国家实验室计算、环境与生命科学实验室副主任,同时也是CANDLE的首席调查员Rick Stevens表示——
“深度学习是利用多层神经网络来进行机器学习,当这个程序获得更多的数据进行预测时,它会变得更智能或更准确。如果把这个系统比作火箭飞船,那么学习模型就类似于火箭发动机,而数据代表燃料。不管发动机有多好,它都需要很好的燃油来起飞。所以,我们的持续挑战是获得大量的高质量数据,然后对他们进行清理、整合,再将她们规范,然后设计出最新的深层学习架构,以最大限度地利用它。”
虽然分子结构、药物组合和患者数据集的数量惊人,但百亿亿级计算机将逐步 “学习”并管理它们。
Aurora exascale超级计算机(图源:英特尔)
美国第一台百亿亿级的超级计算机
英特尔和美国能源部正在建造Aurora,它被誉为美国第一台百亿亿级的超级计算机。Aurora的性能如何强大呢?打个比方如果地球上的每个人每秒都进行一次计算(例如涉及代数的数学问题),那么每个人都需要四年多才能完成Aurora在一秒内完成的所有计算。
这台百亿亿级的计算机将在阿拉贡国家实验室进行开发,并且计划在2021年底全面投入运行。
同时作为Aurora背后的核心人物,Stevens对于这台超级计算机的前景十分乐观: “我们把这系统取名‘Aurora’(极光)便是因为那包含了我们的理想目标——创造一个在某种意义上可以照亮世界的系统。第一次,我们将拥有惊人的强大的计算能力,它可以提供每秒10到18次幂运算。我们将不再受计算机遗留能力瓶颈的阻碍而可以自由地实验和尝试新的方法。CANDLE团队很兴奋超级计算机将用它前所未有的能力和之前不可能的方式来帮助人类。”
超级计算机竞赛
不过,虽然前景很光明,但百亿亿级计算机的广泛应用仍需数年的时间。目前,各国在超级计算机领域展开了激烈的竞赛。
2018年,中国超算天津中心对外展示了我国新一代百亿亿次超级计算机“天河三号”原型机,并且预计在2020年研制成功。而日本计算机巨头富士通和日本最大的研究机构——日本理化研究所(RIKEN)也已开始对下一代超级计算机Post-K进行现场测试,并预计于2021年投入使用。他们认为这将使日本重新回到全球超级计算机排名的领先位置。
正如Aurora所展示的,攻克癌症,百亿亿次超级计算机的到来将是一件利器,同时在应对气候变化、助力智能制造、新材料的发明和应用、物联网等方面也将继续发挥巨大作用。伴随着大量数据时代的到来,人类对强大计算力的需求是无限的。