大数据是从搜索引擎得来的吗?

2022-03-13     方思其

原标题:大数据是从搜索引擎得来的吗?

当你打开搜索引擎,输入内容,按下 Enter,大部分情况下,就可以得到你想要的结果。BUT,不一会儿,你就可以在其它网页广告模块里看到和你先前搜索内容高度近似的内容。纯属巧合吗?是黑客攻击了你的设备吗?还是有人在你家安装了摄像头?

起初,人们通过 FTP 来共享交流资源,后来开发出了yahoo! Web分类目录数据库,1996 年还在道琼斯工作的李彦宏为搜索引擎结果页面排名开发了 RankDex 网站评分算法,并获得了该技术的美国专利。1998 年拉里 · 佩奇引用李彦宏的 rankdex 算法开发了 PageRank 算法,创立了 Google,随后便一直引领着互联网的发展。

搜索引擎作为互联网的“摆渡人”,重要性、不言而喻,他可以告诉你路边这朵花是你不要采的野花,也可以在不经意间改变全球 25% 以上的全国选举结果。

这艘船怎么开,往哪开,根据你输入的坐标精准导航还是给你开到荒芜偏僻的海里,你说了不算。更何况你还没有支付摆渡时产生的成本支出。摆渡人靠爱来发电吗?所以,这个看似简单的搜索动作,内部却充满了复杂且庞大的技术结晶与利益结构。

那我们搜索时到底发生了什么?

首先爬虫将互联网的信息抓取并存储下来,然后对抓取的网页做关键词的索引,针对这些关键词在网页中的出现频率,位置等给予不同的权值标定,存储到索引库中,当你按下搜索键,搜索引擎就会根据你提供的信息在自己的索引库里查询对比关键词排序并将结果展现在你面前。至此,一个搜索动作的完结,在你面前呈现的或许是你想要的结果,或许只是相关产品的推荐,又或许是你昨天晚上百无聊赖之际不为人知搜索动作的余震。

那么到底是哪个步骤出了问题才会出现上面这两种情况呢?如果说搜索引擎商不再用爱发电,在你搜索时投放客户广告这也情有可原,但为什么你前脚刚搜索的信息和后脚出现的广告内容如此高度相似呢?

这一切都摆脱不掉一个叫作 cookies 的文本文件。

在搜索过程中,当你第一次访问一个启用 cookie 的网站的时候,比如淘宝,它就会在你的电脑里存储一个有特殊 id 的 cookie 文件,以追踪你和网站之间的互动,保证你的购物车内容是时刻更新的,不会因为你刷新了网页而丢失购物车内的产品。除了购物车,追踪你和网站之间互动的 cookie 还可以用身份识别器让服务器记住你的登录信息,这样你就可以不用每次打开网站都输入账户密码了。cookie 同时也让网站记住他们有多少访问者,因为每一个访问者独特的 id 都被储存在了 cookie 里。

这个大小不会超过4kb的文本文件,使我们的互联网使用体验提升了不止一截。BUT,这个小饼干虽然营养丰富,吃多了也是会长胖的。

我们这么多行为以及数据都被记录在 cookie 里,它就相当于我们个人隐私的数据库,记录了我们和网站之间的互动,以及我们经常浏览的网站内容,这些东西一旦泄露,很多人当然是无颜再面对江东父老了,好在多数 cookie 都是以加密的方式传输,就算泄露也不会产生大事故。但在没有仔细观看隐私协议的你和提供服务的平台之间就不好说了。

大多数 cookie 只是为我们提供便利且无害的服务,谁也不想每次加载新的页面时看到重新登录这烦人的对话框吧。但还有一种 cookies 比较危险,我们称他为第三方 cookies。他们并不来自你当前访问的网站,而是由其他域名所支持的,并且他可以在你的电脑里植入自己的 cookie,在不同的网站上追踪你的行为和数据,所以碰到这样的广告你一定要注意。但如果你频繁遇到这样的广告,可就要好好审视下自己了。

技术本无对错,在于人怀着怎样的目的去使用。那我们怎么防止隐私被恶人所窃取呢?

使用 Duckduckgo,Startpage 等注重保护用户隐私的搜索引擎。大多数浏览器都支持设置禁止第三方 cookie,这样就可以只接受你访问网站的 cookie

文章来源: https://twgreatdaily.com/zh-hans/51f68602c80d0831f7784ed6486c0188.html