新智元報道
編輯:編輯部
【新智元導讀】繼谷歌DeepMind AI工具成功預測出220萬種晶體結構後,微軟團隊最新擴散模型MatterGen,能設計生成新穎、穩定的材料,刷新SOTA。
材料科學領域的一個重大挑戰,如今被大模型攻克了。
先前,谷歌DeepMind的全新AI工具GNoME,成功預測出220萬種晶體結構,在學術界掀起海嘯級地震。
今天,微軟團隊推出下一代生成式AI工具——MatterGen,大大提升了設計所需特性材料的速度。
當前,材料科學的核心挑戰是,發現所需特性的材料,比如高鋰離子電導率的電池材料。
一般來說,要做到這一點,首先需要找到新材料,然後根據應用進行篩選。
這就好比要創建一隻貓的圖像,首先要生成100萬張不同的圖像,然後再搜索有貓的圖像。
而有了MatterGen模型,就可以「直接生成」所需特性的新型材料,這與DALL·E處理圖像生成的方式非常相似。
論文地址:https://arxiv.org/pdf/2312.03687.pdf
簡單來說,MatterGen是擴散模型的一種,專門設計用於生成新穎、穩定的材料。
另外,MatterGen還有適配器模塊,可根據化學、對稱性等各種約束條件進行微調,以生成材料。
值得一提的是,與SOTA模型(CDVAE)相比,MatterGen生成的新穎獨特結構的穩定性高出2.9倍。它還生成接近能量局部最小值17.5倍的結構。
看得出,AI在材料設計和篩選方面表現出巨大潛力,必將給材料學帶來顛覆性的變革。
晶體材料生成的擴散過程
在MatterGen中,研究人員介紹了一種為晶體材料量身定製的新型擴散過程,如下圖a。
擴散模型通過學習分數網絡(score network)來逆轉固定的破壞過程來生成樣本。
圖像的破壞過程通常添加高斯噪聲,但晶體材料具有獨特的周期結構和對稱性,需要定製的擴散過程。
晶體材料可由其重複單元(即單元格)定義,單元格編碼原子類型A(即化學元素)、坐標X和周期晶格L。
作者為每個成分定義了一個適合其自身幾何形狀的破壞過程,並具有物理上的極限噪聲分布。
再具體來講,坐標擴散採用包裹正態分布,來遵守周期邊界,並在噪聲極限接近均勻分布。
其中,晶格擴散採用對稱形式,接近於平均值為訓練數據中原子平均密度的立方晶格分布。原子擴散是在分類空間中定義的,其中單個原子被損壞成掩蔽狀態。
根據破壞後的結構,便可以學習一個分數網絡,它可以分別為原子類型、坐標和晶格輸出等變分數,從而無需從數據中學習對稱性。
對此,研究人員將該網絡稱為「基礎模型」。
為了生成具有所需屬性約束的材料,研究人員還引入了適配器模塊,這些模塊可用於在帶有屬性標籤的附加數據集上對「基礎模型」進行微調,如下圖b所示。
由於計算成本較高,如果標註的數據集與未標註的結構數據集相比規模較小,微調仍能很好地發揮作用。
適配器模塊是注入到基本模型的每一層中的可調節的組件,以根據給定的屬性標籤改變其輸出。
由此產生的微調模型與無分類器引導結合使用,引導生成的結果符合目標屬性約束。
作者將這種方法應用於多種類型的屬性,生成了一套微調模型,可以生成具有目標化學成分、對稱性或標量屬性(如磁密度)的材料,下圖c。
生成穩定、多樣化材料
那麼,MatterGen究竟如何才能生成穩定的材料?
在作者看來,MatterGen的基本模型生成穩定、多樣化材料的能力,是解決任何逆向材料設計任務的先決條件。
研究人員將逆向材料設計的生成模型設計為一個兩步過程:
首先預訓練一個通用的基本模型,以便在元素周期表上生成穩定的、多樣的晶體,然後針對不同的下游任務對基本模型進行微調。
為了訓練基礎模型,研究者從Materials Project(MP)和Alexandria數據集中重新計算了607,684個穩定結構(多達20個原子),並將其稱為Alex-MP-20。
研究者認為,如果通過DFT鬆弛後每個原子的能量低於參考數據集的0.1 eV/原子閾值,包括從MP、Alexandria和ICSD數據集重新計算的1,081,850個獨特結構,則該結構是穩定的。
下圖a顯示了,MatterGen生成的幾個隨機樣品,具有典型的無機材料配位環境。
為了評估穩定性,研究人員對1024個生成結構進行DFT計算。
圖b顯示了,78%的結構生成低於0.1 eV/原子閾值(13%低於0.0 eV/原子閾值) ,而75%的結構生成低於0.1 eV/原子閾值(3%低於0.0 eV/原子閾值)。此外,圖c顯示95%的生成結構具有RMSD w.r.t。
研究進一步發現,MatterGen可以生成大量獨特和新穎的材料。
如圖d所示,當生成1000個結構時,獨特結構的百分比是100% ,而當生成100萬個結構時,獨特結構的百分比僅下降到86% ,而新穎性保持穩定在68%左右。
此外,研究人員還將MatterGen與先前的材料生成模型進行比較,並顯示出性能方面的顯著改進。
這裡,主要關注兩個關鍵指標:
(1) 生成樣本中 S.U.N. 材料的百分比,衡量生成有希望候選材料的總體成功率;
(2) 生成樣本與其DFT鬆弛結構之間的平均RMSD,衡量與等效平衡的距離。
實驗結果顯示,在圖e-f中,與之前最先進的CDVAE相比,MatterGen-MP顯示S.U.N.結構的百分比提高了1.8倍,平均RMSD降低了3.1倍。
在比較MatterGen和微調的MatterGen-MP時,研究者還發現由於擴大了訓練數據集,S.U.N.結構的比例進一步提高了1.6倍,RMSD降低了5.5倍。
綜上所述,作者已經證明,與以前的生成模型相比,MatterGen能夠以更高的速率生成S.U.N.物質,同時生成的結構在數量級上更接近其局部能量最小值。
目標化學材料生成
在目標化學體系(如Li-Co-O)中找到最穩定的材料結構,對於確定評估穩定性所需的真正凸包(Convex hull)至關重要,實際上也是材料設計的主要挑戰之一。
在下圖a-b中,可以看到MatterGen在每種系統類型,和每種化學複雜度下生成的S.U.N.結構百分比都是最高的。
如圖c所示,在「部分探索」系統和「充分探索系統」中,MatterGen在組合凸包上找到的獨特結構數量也是最高的,前者在訓練過程中提供了凸包附近的已知結構,後者在訓練過程中沒有提供凸包附近的已知結構。
在三元和四元系統中,替換法提供了一種相似或更有效的方法來生成「船體」上的結構,而MatterGen則在二元系統中取得了更好的性能,如圖d所示。
此外,當篩選方法因資料庫中的材料枯竭而趨於飽和時,MatterGen可以不斷生成滿足高體積模量等目標特性的新型材料。
與篩選基線相比,MatterGen發現了更多新穎的穩定高體積模量材料,並且不會因計算資源的增加而停滯不前。MatterGen可以找到250多種體積模量>400 GPa的材料,而在參考數據集中只找到2種此類材料。
另外,MatterGen還可以生成給定目標空間組的結構。
MatterGen在性能受限的情況下生成穩定的新材料
最後,研究人員還解決了尋找低供應鏈風險磁鐵的多屬性材料設計問題。MatterGen提出的結構既具有高磁密度,又具有低供應鏈風險的化學成分。
網友看後表示,室溫超導體又要回來了。
正如微軟團隊所說,MatterGen是AI在材料設計領域向前邁出的重要一步。
參考資料:
https://www.microsoft.com/en-us/research/blog/mattergen-property-guided-materials-design/