麻省理工學院使用超級計算機分析整個網際網路流量

2019-10-28     技術力量

麻省理工學院的研究人員使用超級計算機系統開發了一個模型,該模型可以捕獲特定日期世界範圍內的網絡流量,可以用作網際網路研究和許多其它應用程式的度量工具。

研究人員說,如此大規模地了解網絡流量模式,對於制定網際網路政策,識別和防止斷網,防禦網絡攻擊以及設計更高效的計算基礎架構很有用。

研究人員在最近召開的電氣和電子工程師協會高性能極限計算會議上發表這份研究報告。

研究人員收集了最大的可公開訪問的網際網路流量數據集,其中包括在過去幾年中在全球不同位置交換的500億個數據包。

他們通過一個新的「神經網絡」通道運行數據,該管道在麻省理工學院的「超級雲」的10000個處理器上運行,該系統結合了林肯實驗室和研究所的計算資源。該神經網絡自動訓練了一個模型,該模型捕獲了數據集中所有連結的關係,從常見的ping到谷歌和臉書之類的巨頭,再到罕見的僅短暫連接但似乎對網絡流量有影響的連結。

此模型可以獲取任何龐大的網絡數據集,並生成一些有關網絡中所有連接如何相互影響的統計度量。這可用於揭示有關對等文件共享,惡意IP位址和垃圾郵件行為,關鍵部門中的攻擊分布以及流量瓶頸的見解,以更好地分配計算資源並保持數據流。

從概念上講,這項工作類似於測量宇宙微波背景,即圍繞宇宙傳播的幾乎均勻的無線電波,這是研究外層空間現象的重要信息來源。麻省理工學院林肯實驗室超級計算中心的研究員,天文學家傑里米·開普納說:「我們建立了一個精確的模型來測量網際網路的虛擬世界背景。如果要檢測任何方差或異常,則必須具有良好的背景模型。」

在網際網路研究中,研究網絡流量異常可能發現網絡威脅。為此,需要首先了解正常流量的情況。但是捕獲這些仍然具有挑戰性。傳統的「流量分析」模型只能分析受位置限制的源與目的地之間交換的數據包的小樣本。這降低了模型的準確性。

研究人員並沒有特別想解決這個流量分析問題。但是他們一直在開發新技術,以處理大量的網絡矩陣。

網絡通常以地圖的形式進行研究,參與者以節點表示,連結表示節點之間的連接。隨著網際網路流量的增加,節點的大小和位置也有所不同。大型超節點是流行的樞紐,例如谷歌或臉書。葉節點從該超節點展開,並且彼此之間以及與該超節點具有多個連接。隔離節點和連結位於超級節點和葉節點的「核心」之外,它們之間很少連接。

捕獲這些地圖的全部範圍對於傳統模型是不可行的。開普納說:「如果沒有超級計算機,就無法觸摸這些數據。」

麻省理工學院的研究人員與日本大學建立的廣泛集成分布式環境(WIDE)項目以及位於加利福尼亞的應用網際網路數據分析中心(CAIDA)合作,捕獲了全球最大的網際網路流量數據包捕獲數據集。匿名數據集可追溯到2015年,在日本和美國的不同地點,隨機日期內,消費者與各種應用和服務之間包含近500億個唯一的源和目標數據點。

在可以根據該數據訓練任何模型之前,他們需要進行一些廣泛的預處理。為此,他們利用了先前創建的稱為動態分布式維度數據模式(D4M)的軟體,該軟體使用一些平均技術來有效地計算和分類「超稀疏數據」,該數據包含比數據點更多的空白空間。研究人員將數據分解為約100000個數據包的單位。這產生了源與目的地之間數十億行和列的交互的更緊湊矩陣。

但是此稀疏數據集中的絕大多數單元仍然為空。為了處理矩陣,研究團隊在相同的10000個處理器核上運行了神經網絡,從而創建了潛在準確模型的機率分布。

然後,它使用改進的糾錯技術進一步細化每個模型的參數,以捕獲儘可能多的數據。傳統上,機器學習中的糾錯技術將嘗試降低任何偏遠數據的重要性,以使模型適合正態機率分布,從而使模型總體上更加準確。但是研究人員使用了一些數學方法來確保模型仍然看到所有外圍數據(例如,隔離的連結),這對整體測量而言都是重要的。

最後,神經網絡本質上生成了一個僅包含兩個參數的簡單模型,該模型描述了網際網路流量數據集,從真正流行的節點到孤立的節點,以及介於兩者之間的所有信息的完整頻譜。

現在,研究人員正在與同行聯繫,以尋找該模型的下一個應用程式。例如,專家可以檢查研究人員在實驗中發現的孤立連結的重要性,這種連結很少,但似乎會影響核心節點中的網絡流量。

除了網際網路之外,神經網絡通道還可用於分析任何超稀疏網絡,例如生物和社會網絡。開普納說:「對於想要建立更強大的網絡或檢測網絡異常的人們來說,我們現在為他們提供了一個了不起的工具。這些異常可能只是用戶行為的正常行為,也可能是他們在其它不正常的事情。」

文章來源: https://twgreatdaily.com/zh-hk/fA8wEm4BMH2_cNUgEBMo.html