大數據是從搜尋引擎得來的嗎?

2022-03-13     方思其

原標題:大數據是從搜尋引擎得來的嗎?

當你打開搜尋引擎,輸入內容,按下 Enter,大部分情況下,就可以得到你想要的結果。BUT,不一會兒,你就可以在其它網頁廣告模塊里看到和你先前搜索內容高度近似的內容。純屬巧合嗎?是黑客攻擊了你的設備嗎?還是有人在你家安裝了攝像頭?

起初,人們通過 FTP 來共享交流資源,後來開發出了yahoo! Web分類目錄資料庫,1996 年還在道瓊斯工作的李彥宏為搜尋引擎結果頁面排名開發了 RankDex 網站評分算法,並獲得了該技術的美國專利。1998 年拉里 · 佩奇引用李彥宏的 rankdex 算法開發了 PageRank 算法,創立了 Google,隨後便一直引領著網際網路的發展。

搜尋引擎作為網際網路的「擺渡人」,重要性、不言而喻,他可以告訴你路邊這朵花是你不要采的野花,也可以在不經意間改變全球 25% 以上的全國選舉結果。

這艘船怎麼開,往哪開,根據你輸入的坐標精準導航還是給你開到荒蕪偏僻的海里,你說了不算。更何況你還沒有支付擺渡時產生的成本支出。擺渡人靠愛來發電嗎?所以,這個看似簡單的搜索動作,內部卻充滿了複雜且龐大的技術結晶與利益結構。

那我們搜索時到底發生了什麼?

首先爬蟲將網際網路的信息抓取並存儲下來,然後對抓取的網頁做關鍵詞的索引,針對這些關鍵詞在網頁中的出現頻率,位置等給予不同的權值標定,存儲到索引庫中,當你按下搜索鍵,搜尋引擎就會根據你提供的信息在自己的索引庫里查詢對比關鍵詞排序並將結果展現在你面前。至此,一個搜索動作的完結,在你面前呈現的或許是你想要的結果,或許只是相關產品的推薦,又或許是你昨天晚上百無聊賴之際不為人知搜索動作的餘震。

那麼到底是哪個步驟出了問題才會出現上面這兩種情況呢?如果說搜尋引擎商不再用愛發電,在你搜索時投放客戶廣告這也情有可原,但為什麼你前腳剛搜索的信息和後腳出現的廣告內容如此高度相似呢?

這一切都擺脫不掉一個叫作 cookies 的文本文件。

在搜索過程中,當你第一次訪問一個啟用 cookie 的網站的時候,比如淘寶,它就會在你的電腦里存儲一個有特殊 id 的 cookie 文件,以追蹤你和網站之間的互動,保證你的購物車內容是時刻更新的,不會因為你刷新了網頁而丟失購物車內的產品。除了購物車,追蹤你和網站之間互動的 cookie 還可以用身份識別器讓伺服器記住你的登錄信息,這樣你就可以不用每次打開網站都輸入帳戶密碼了。cookie 同時也讓網站記住他們有多少訪問者,因為每一個訪問者獨特的 id 都被儲存在了 cookie 里。

這個大小不會超過4kb的文本文件,使我們的網際網路使用體驗提升了不止一截。BUT,這個小餅乾雖然營養豐富,吃多了也是會長胖的。

我們這麼多行為以及數據都被記錄在 cookie 里,它就相當於我們個人隱私的資料庫,記錄了我們和網站之間的互動,以及我們經常瀏覽的網站內容,這些東西一旦泄露,很多人當然是無顏再面對江東父老了,好在多數 cookie 都是以加密的方式傳輸,就算泄露也不會產生大事故。但在沒有仔細觀看隱私協議的你和提供服務的平台之間就不好說了。

大多數 cookie 只是為我們提供便利且無害的服務,誰也不想每次加載新的頁面時看到重新登錄這煩人的對話框吧。但還有一種 cookies 比較危險,我們稱他為第三方 cookies。他們並不來自你當前訪問的網站,而是由其他域名所支持的,並且他可以在你的電腦里植入自己的 cookie,在不同的網站上追蹤你的行為和數據,所以碰到這樣的廣告你一定要注意。但如果你頻繁遇到這樣的廣告,可就要好好審視下自己了。

技術本無對錯,在於人懷著怎樣的目的去使用。那我們怎麼防止隱私被惡人所竊取呢?

使用 Duckduckgo,Startpage 等注重保護用戶隱私的搜尋引擎。大多數瀏覽器都支持設置禁止第三方 cookie,這樣就可以只接受你訪問網站的 cookie

文章來源: https://twgreatdaily.com/zh-tw/51f68602c80d0831f7784ed6486c0188.html