作者：張振偉
來源：https://zhangzw.com/20190521.html

假設遇到這樣一個問題：一個網站有 20 億 url 存在一個黑名單中，這個黑名單要怎麼存？若此時隨便輸入一個 url，你如何快速判斷該 url 是否在這個黑名單中？並且需在給定內存空間（比如：500M）內快速判斷出。

可能很多人首先想到的會是使用 HashSet，因為 HashSet基於 HashMap，理論上時間複雜度為：O(1)。達到了快速的目的，但是空間複雜度呢？

URL字符串通過Hash得到一個Integer的值，Integer占4個位元組，那20億個URL理論上需要：20億*4/1024/1024/1024=7.45G的內存，不滿足空間複雜度的要求。

這裡就引出本文要介紹的「布隆過濾器」。

何為布隆過濾器

百科上對布隆過濾器的介紹是這樣的：

布隆過濾器（Bloom Filter）是1970年由布隆提出的。它實際上是一個很長的二進位向量和一系列隨機映射函數。布隆過濾器可以用於檢索一個元素是否在一個集合中。它的優點是空間效率和查詢時間都比一般的算法要好的多，缺點是有一定的誤識別率和刪除困難。

是不是描述的比較抽象？那就直接了解其原理吧！

還是以上面的例子為例：

哈希算法得出的Integer的哈希值最大為：Integer.MAX_VALUE=2147483647，意思就是任何一個URL的哈希都會在0~2147483647之間。

那麼可以定義一個2147483647長度的byte數組，用來存儲集合所有可能的值。為了存儲這個byte數組，系統只需要：2147483647/8/1024/1024=256M。

比如：某個URL（X）的哈希是2，那麼落到這個byte數組在第二位上就是1，這個byte數組將是：000….00000010，重複的，將這20億個數全部哈希並落到byte數組中。

判斷邏輯：

如果byte數組上的第二位是1，那麼這個URL（X）可能存在。為什麼是可能？因為有可能其它URL因哈希碰撞哈希出來的也是2，這就是誤判。

但是如果這個byte數組上的第二位是0，那麼這個URL（X）就一定不存在集合中。

多次哈希：

為了減少因哈希碰撞導致的誤判機率，可以對這個URL（X）用不同的哈希算法進行N次哈希，得出N個哈希值，落到這個byte數組上，如果這N個位置沒有都為1，那麼這個URL（X）就一定不存在集合中。

Guava的BloomFilter

Guava框架提供了布隆過濾器的具體實現：BloomFilter，使得開發不用再自己寫一套算法的實現。

創建BloomFilter

BloomFilter提供了幾個重載的靜態 create方法來創建實例：

最終還是調用：

BloomFilter里byte數組的空間大小由 expectedInsertions， fpp參數決定，見方法：

真正的byte數組維護在類：BitArray中。

使用:

最後通過：put和 mightContain方法，添加元素和判斷元素是否存在。

算法特點

1、因使用哈希判斷，時間效率很高。空間效率也是其一大優勢。

2、有誤判的可能，需針對具體場景使用。

3、因為無法分辨哈希碰撞，所以不是很好做刪除操作。

使用場景

1、黑名單 2、URL去重

3、單詞拼寫檢查

4、Key-Value緩存系統的Key校驗

5、ID校驗，比如訂單系統查詢某個訂單ID是否存在，如果不存在就直接返回。

20 億的 URL 集合，如何快速判斷其中一個？

算法特點

使用場景

為什麼不推薦使用存儲過程？

一文搞懂 Java 中的枚舉，看完都懂了

web容器是如何解析http報文的

95後的小鮮肉是如何自學成才？這裡有份必備的入門資源

面試題：SSH 和 SSM 兩個框架的淺顯的區別？

談談中間件開發，給想從事中間件開發的同學

一文帶你入門區塊鏈

阿里校招回憶錄（已成功拿到offer）

為什麼大多數人在Windows上的安裝git flow會失敗？

假如生活欺騙了你，不要悲傷不要心急《代碼大全》會一直陪伴著你

小李，快看看這位大佬的算法之路，寫得真心不錯...

程式設計師，如何在編程面試中脫穎而出？

Spring 最常用的 7 大類註解，史上最強整理

Java Web項目發布，伺服器部署（完整版）

女票沒有代碼好？程式設計師：我們不一樣，我們不一樣

什麼是整潔的架構

詳細講解 Redis 的兩種安裝部署方式

潘石屹開始學Python了！他還買了這些書，網友：作秀麼？

牛逼哄哄的ELK日誌分析系統，搭建起來也沒有想像中的那麼難啊

一個埠沒關，我得伺服器被黑到系統崩潰，看我怎麼找回數據

漫畫：如何用Zookeeper實現分布式鎖？

「解惑」Java 代碼執行原理

來一份MySQL索引數據結構及優化清單

你的代碼要被存在北極1000年！GitHub啟動代碼永久存儲計劃