算法篇之BitMap原理與改造,利與弊的取捨

2019-11-14     程式設計師聖經

來源公眾號Java藝術 ,

作者wujiuye

內存不足,一直都是一件令人頭疼的事情,在有限的資源下,時間與空間的取捨是我們平時開發中思考最多的問題。無論是操作資料庫還是Redis緩存,都沒有直接使用內存緩存速度快,尤其是對大批量數據的處理。為能把內存使用率降低,並且提升業務的處理速度,我想了很多辦法,但效果都不顯著,如果數據量再增加,估計也只能加機器。今天分享下,我為適應業務需求對BIMAP算法的改造思路。

BITMAP實現原理

一個byte類型有8bit,可以存儲8位數,如0,1,2,3,4,5,6,7;byte的0位為1,則說明0這個數存在這個byte中,byte的1位為1,則說明1這個數存在這個byte中。這與數組的原理是一樣的,只是把元素當成數組的下標,然後用0|1表示這個元素是否存在,0為false,1為true。

可是一個byte只能存在0~7的元素,那8以上的數怎麼存儲。這就是需要一個byte數組,byte[0]存儲0~7,byte[1]存儲8~15,以此類推。

比如存儲25這個數,先拿25右移3位(實際是除以8,但使用移位運算速度更快)拿到一個下標,這個下標就表示這個數存在哪個區間(byte數組的下標),再用這個數與8(一個byte=8bit)取模,可以拿到這個元素用byte的哪一個bit來存儲。

舉例:還是以25這個數字為例,將25寫入BitMap中。

假設byte數組的大小為10(不夠擴容,跟List一樣道理)。

計算出25在byte數組的下標:


int index = 25>>3

等價於 25/8=3(數組下標從0開始,剛好不用減1);

計算出bit在byte中的下標:


int bitIndex = 25%8 = 1(byte元素下標也是從0開始);

所以得出


int e = byteArray[index];

e |= 0x01<

byteArray[index]=e;

那麼怎麼判斷一個元素是否存在呢?


byte dest = (0x01<

return e & dest == dest;

移除元素25:


int e = byteArray[index];

e ^= 0x01<

byteArray[index]=e;

注意:可根據需求實現是否線程安全的。

BITMAP存在的缺點

看起來BITMAP確實很優秀,存儲1~80000的數字,如果以int數組來存儲,需要80000*4(int=4byte)=160000byte的內存空間,而使用BitMap只需要80000/4/8=2500byte的內存空間,減少了64倍的內存空間。而且,它天然的擁有Set集合的去重功能,比如一個數組存在10個1,最終只會存儲一個1。

然而,這些優點都只是理論上的,最優的情況下。因為存儲的是連續的數字,如果數字不是連續的呢,比如我就存儲兩個元素,一個是1,一個是10000,那它依然占據了1000個元素的存儲空間,是不是利變成了弊。再假如,我存儲的數字是10000~40000,那是不是10000之前的空間就是多餘的,浪費掉了?

所以BitMap的使用尤其要根據業務場景選擇,如果要存儲的整數數據沒有連續性,或者元素個數非常少的情況的,就不要考慮這種方案。可以用在存儲資料庫記錄的自增唯一標識,這種都會是連續性的,而且也會比較集中,不會出現1~100就到3000~4000的這種間隔很大的情況。

而第二個缺點,假設存儲數字是從40000開始的這種情況,可以將存儲的元素減去起始值再存儲。但除非是排序好的數字,否則你還得先提前知道你要存儲的這些數據中的最小值。怎麼解決,假設需要存儲的數據是1000~4000,那起始值就設置為1000,比如存儲元素1003,先再1003-1000得到3,再存儲3。判斷一個元素是否存在或者移除一個元素也是先將目標元素減去起始值再判斷。

改造後的BITMAP

接下來介紹,我為適應業務而改造的BITMAP。就是為了解決無法預估最小值的情況。

先說下原理。改造後的BitMap可以在new的時候指定一個中間值,如果不指定,那就在寫第一個元素的時候,將第一個元素設置為中間值。中間值與起始值的目的等同。為的是實現以中心分散的集中存儲方式,更高效的節省BitMap的內存使用。借用負無窮到0,0到正無窮的思路。定義兩個byte數組(不是一個了),小於中間值的存在一個數組,大於等於中間值的存儲在另一個數組。

這就是改造後的BitMap。在存儲元素的時候,實際是先使用中間值減去元素值得出目標值,再存儲這個目標值。看個例子,比如中間值設置為100,現在要存儲的元素是134,存儲過程如下。

計算出134在byte數組的下標:


int index = (100[中間值] - 134)>> 3

等價於 -34/8=4(數組下標從0開始,剛好不用減1);

說明:index為負數=>存儲在第一個byte數組;

index為正數=>存在在第二個byte數組;

計算出bit在byte中的下標:


int bitIndex = |-34|%8 = 2(byte元素下標也是從0開始);

所以得出


int e = leftByteArray[index];

e |= 0x01<

leftByteArray[index]=e;

獻上完整的工具類代碼

文章來源: https://twgreatdaily.com/zh-hk/XKGjaG4BMH2_cNUg5BWx.html