大數據文摘出品
你的臉被明碼標價,價值......0.5元。
技術變革總有著雙面性。「刷臉」越來越多的應用到了生活中的場景,「人臉」作為每個人獨一無二的生物特徵替代了交易密碼,似乎是安全性更強的支付方式,然而真的是這樣嗎?
但你有沒有想過,我們在App上刷的「臉「都去了哪裡?
本月,新華網發表了一篇名為《0.5元一份!誰在出賣我們的人臉信息?》的調查文章,發現一些網絡黑產從業者利用電商平台,批量倒賣非法獲取的人臉等身份信息和『照片活化』網絡工具及教程。這些被倒賣的人臉圖像和個人信息數據包多達2萬套。
在這些黑市,單個人臉數據只賣0.5元一份。
「一張臉」賣5毛,「照片動態化」工具35元一套
在央視財經頻道的相關報道中,記者調查發現,在淘寶、閒魚等網絡交易平台上,通過搜索特定關鍵詞,就能找到專門出售人臉數據和「照片活化」工具的店鋪,五千多張人臉照片集,僅售10元。
這些淘寶賣家都打著暗語,比如「人臉全國各地區行業可做,信譽第一」、「出售人臉四件套,懂的來」等。有些店鋪點開後直接跳轉到閒魚介面。
當買家表示有興趣時,賣家就會以「說多了會被封」為由把對話轉移到微信或QQ等App上。隨後商家會告訴買者,單個人臉數據0.5元一份。
如果需要利用人臉照片完成「眨眼、張嘴、點頭」等動態驗證操作,商家還可提供一份價值35元的類似Deepfake的軟體包,其中不僅包含靜止的人臉圖像,還有虛擬視頻刷機包、虛擬視頻模擬器和人臉視頻修改軟體等「照片活化」工具,還有這些工具的操作教程文件。
有了這個軟體包,你就可以操控照片完成一些比較高難度的認證動作,比如系統要求將攝像頭再次對準自己,按照指令作出眨眼、搖頭、張嘴等動作,完成認定,讓機器確認這個人的確是你。
商家表示,拍下後直接付款即可,確認收貨後就把連結發給買家。
利用這些工具就可以完成靜態圖像動態化,網絡黑產從業者一般是利用軟體,將靜態的人臉照片處理成動態視頻,進而騙過部分手機應用中的活體認證環節,認證後實名帳戶則可以被倒賣,用於商業推廣或小額網貸等用途。
在商家發給新華視點記者的人臉圖像中,有一些單人手持身份證的樣本照片,隨後還向記者展示了其利用工具修改上述照片後欺騙某網絡社交平台人臉識別機制的效果視頻。
那這些包含人臉信息和其他身份信息的數據從何而來?有賣家向記者透露,自己所售賣的人臉信息來自一些網貸和招聘平台;至於如何從這些平台中獲取此類信息,對方沒有作答。
報道發布後,相關部門也對於這些交易網站上的相關商家進行了徹查,文摘菌發稿前也在淘寶和閒魚搜索了一番,目前已經無法再搜到相關店鋪售賣信息了。
那麼這些信息可以用來幹嘛呢?
部分公司和個人會利用這些數據訓練人臉識別算法,提升模型的精準性;
但更嚴重的情況下,有部分商家表示,買家可以利用這些人臉數據幫他人解封微信和支付寶的凍結帳號,還能繞過知名婚戀交友平台及手機卡實名認證的人臉識別機制,大批帳號認證後,甚至可以用來給自己的某些平台帳號做「水軍」,畢竟一張照片5毛錢,比刷評論還要划算。
去年8月,深圳龍崗警方發現有轄區居民的身份信息被人冒用,其駕駛證被不法分子通過網絡服務平台冒用扣分。
據警方介紹,在上述案件中,犯罪嫌疑人利用非法獲取的公民照片進行一定預處理,而後通過「照片活化」軟體生成動態視頻,騙過人臉核驗機制。就可以登錄各網絡服務平台註冊會員或進行實名認證。
印度10萬份身份證駕照照片被售賣,黑客90塊就能登陸你的各種帳號
個人人臉等私密信息被售賣,這在全球不是個例。
上個月,印度也剛剛發生了一起重大的數據泄漏事件,將近100GB的數據包在暗網中售賣,數據包中包括超過10萬印度人的身份證件掃描件,包括護照,PAN卡,Aadhar卡,選民ID和駕照。
整個數據隨後被全球網絡情報機構Cyble以大約4,800美元(約合3.4萬人民幣)的比特幣收購。數據樣本表明,這些文件是政府頒發的各種身份證明文件的掃描副本,這些證據表面上看來是合法的。
此外在美國,人臉識別初創公司Clearview AI今年上半年曾報告過一起黑客攻擊,其全部客戶名單都被黑客竊取了。「一名入侵者『未經授權進入』其客戶名單,獲取了這些客戶已設置的用戶帳戶數量以及搜索數量,涉及到的客戶包括執法機構和銀行等。」
據稱,Clearview AI的人臉資料庫里包括了從網際網路上搜集了30多億張照片,並為美國和加拿大600多家執法機構的嫌疑人身份識別系統提供便利。
這些被盜的人臉信息去了哪裡呢?
VPNOverview去年曾在一份報告中指出,像「Financial Oasis」和「PayPal Cent」這樣的暗網網站是盜取金融信息的主要市場,人們可以在那裡挑選自己喜歡的帳戶。受害者的原籍國、是否有與PayPal掛鉤的卡以及餘額等信息都被公開列出。
而且,在暗網上的個人信息可是很值錢的,以下是報告中列出的一些被明碼標價的數據內容。
黑客在獲取個人信息後,只需花費$12.99(約合人民幣91元)就可以登錄你的各種社交帳號,並且藉此賺到一大筆錢。
比如可以出售這些盜取的帳戶或轉移可用資金,還可以使用你關聯的信用卡購物,以及借用你的身份做更多事情。
面部特徵信息應與其他身份信息隔離儲存
過去,防止身份盜竊和保證身份安全的基本步驟包括粉碎文件、定期更改密碼、不要相信任何名人在電子郵件或推特中「撒幣」等。
隨著我們進入數字時代,安全威脅更加複雜和嚴重。我們的生活基於網絡,我們的財產、重要的法律文件等經常以這樣或那樣的方式被拴在網上。
只要有足夠的個人信息和基本的技術知識,即使是技術有限的小偷也有可能進入你的一些最重要的帳戶。
所以,一旦你的面部信息被盜用,將意味著什麼?
你的個人信息很可能在暗網中出售,對於黑客和詐騙者而言,信息業務是一項極為有利可圖的業務。由於大多數人都有多個在線帳戶,因此,如果黑客可以訪問您的一個帳戶,則通常會使其他帳戶更容易被黑客入侵。
專家提醒,這些人臉信息有可能被用於虛假註冊、電信網絡詐騙等違法犯罪活動。
中國的許多電信基礎設施都與面部識別相關聯,這意味著網際網路提供商、社交媒體應用程式和銀行在使用設備時都需要通過面部掃描來驗證個人身份。要想騙過這些系統,基本上就需要在網上假定另一個人的身份。
如果大部分人臉識別都是用類似iPhone這種3D面部掃描技術,而不僅是二維圖像,那麼盜取面部信息就相對困難一些。然而,目前國內的智慧型手機沒有這種傳感器。
其他國家的大多數應用程式都依賴於智慧型手機的身份驗證,無論是指紋掃描儀還是像FaceID這樣的面部識別。而這些應用本身並沒有嘗試進行面部識別,這使得這些技術在別國也不太可能發揮同樣的作用。
從網際網路提供商、社交媒體應用程式到銀行,所有人都要求通過面部掃描來驗證個人身份。
在這個「臉」即密碼的時代,一旦面部特徵被竊取,身份證、電話號碼和銀行信息等數據也會一併被偷走,幾乎毫無安全感可言。
對此,人臉識別技術專家、廈門瑞為信息技術有限公司研究中心總監賈寶芝博士建議,相關平台在制定人臉識別安全規範的過程中,要強調「人臉數據等生物特徵信息」與「其他身份信息」實行完全隔離存儲,避免將人臉數據與身份信息相關聯後發生批量化泄露。
合法的人臉識別數據如何獲得?
最後,對於想要提升人臉識別算法的公司和個人,其實有很多合法途徑可以獲得個人為了學術研究貢獻出來的免費「臉」,文摘菌也在這裡提供一些免費的人臉數據來源。
1. CelebA數據集
僅出於非商業研究目的,來自MMLAB的數據集包含200,000多個名人圖像。
http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
2.帶邊框的圖像中的人臉檢測
圖像中的人臉檢測是一個簡單但有用的數據集,其中包含500幅圖像,其中約有1100張人臉已經用邊框框標記。
https://dataturks.com/projects/devika.mishra/face_detection
3. 帶有標記地標點的人臉圖像
該數據集包括7,000多個面部圖像,並在每個圖像上標註了關鍵點。每個圖像上的關鍵點數量各不相同,單個圖像上的最大關鍵點數量為15。關鍵點數據包含在單獨的CSV文件中。
https://www.kaggle.com/drgilermo/face-images-with-marked-landmark-points
4.Flickr的面孔
使用從Flickr拍攝的圖像,該數據集包含210,000張圖像。總圖像數量由來自Flickr的70,000張原始圖像,以1024 x 1024像素裁剪的70,000張圖像和以128 x 128像素裁剪的70,000張組成。
https://github.com/NVlabs/ffhq-dataset
5.Google面部表情比較
來自Google AI的Google面部表情比較數據集包含156,000張面部圖像。這些圖像以三胞胎形式出現,每個三聯體中的兩個圖像在面部表情方面被標註為三聯體中「最相似」。以真正的Google方式,對這些圖像進行了精心的注釋,每個三元組均由至少六個獨立的人類注釋者進行處理。
https://ai.google/tools/datasets/google-facial-expression/
6.野外標記的人臉數據
該數據集由麻薩諸塞大學的研究人員創建,最初是為了研究無約束的人臉識別而製作的。總共有5700多人的13,000張圖像。數據集還包含CSV格式的有用元數據。
https://www.kaggle.com/jessicali9530/lfw-dataset
7.真實和假臉檢測資料庫
該數據集用於訓練面部識別模型,以區分真實面部圖像和生成的面部圖像。該數據集包括1,000多個真實的面部圖像和900多個偽造的面部圖像,這些圖像的識別難度從容易,中等和難於改變。
https://www.kaggle.com/ciplab/real-and-fake-face-detection
8.辛普森一家
使用從流行的美國卡通系列的第25季到第28季拍攝的圖像,該數據集包含超過9,800張Simpsons人物的裁剪面孔。
https://www.kaggle.com/kostastokis/simpsons-faces
9.tufts臉資料庫
tufts人臉資料庫擁有超過100,000張圖像,其中包括分成9類的大量人臉圖像。類別包括計算機素描,熱敏,熱裁剪,三維,Lytro,2D RGB周圍,2D RGB情感,夜視和視頻。
https://www.kaggle.com/kpvisionlab/tufts-face-database
10.UMDFaces
到目前為止,該列表中最大的數據集是UMDFaces數據集,它在靜態圖像中的8,200多個不同主題上具有超過367,000個面部注釋。除了這些圖像之外,數據集還包括超過370萬個視頻幀,全部帶有超過3,100個對象的面部關鍵點。應該注意的是,該數據集嚴格僅用於非商業研究目的。
https://www.umdfaces.io/
11.UTKFace
UTKFace數據集包括年齡範圍廣泛的面孔。這些圖像中的人範圍從不到一歲到一百多歲。該數據集包括超過20,000張帶有年齡,性別和種族注釋的面部圖像。
https://susanqq.github.io/UTKFace/
12.wider face資料庫
該數據集包含超過10,000張圖像,其中包含多人或僅一個人。圖像被分為許多設置,例如會議,交通,遊行等等。
https://www.kaggle.com/mksaad/wider-face-a-face-detection-benchmark
13.耶魯人臉資料庫
耶魯人臉資料庫是一個數據集,包含在各種光照條件下的15個不同主體的165張GIF圖像。圖像中的被攝對象表現出不同的情感和表情。
https://www.kaggle.com/olgabelitskaya/yale-face-database
14.標記面部關鍵點的YouTube面孔
該數據集由名人的Youtube公共視頻組成,總共155,560個靜止幀。這些視頻被裁剪成圍繞名人的臉,並為每個視頻的每一幀都標註了面部關鍵點。
https://www.kaggle.com/selfishgene/youtube-faces-with-facial-keypoints