在這個用數據說話的時代,數據是一件極其重要的事情,怎樣才能抓取到完整以及全面的數據呢?這並不是一件容易的事情。
如果想要做好大數據的分析,單單依靠一己之力或者是周邊的數據是遠遠不夠的,還需要藉助「神秘的外部力量」。
這個時候,網際網路上的資源就非常關鍵了,從網絡上爬取數據資源,就成為了至關重要的一個環節。
那到底什麼是網絡爬蟲呢?
網絡爬蟲也叫網絡蜘蛛,即Web Spider,名字非常形象。
如果把網際網路比喻成一個蜘蛛網,那麼Web Spider就是在網上爬來爬去的蜘蛛。網絡蜘蛛通過網頁的連結地址來尋找網頁,從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它連結地址,然後通過這些連結地址尋找下一個網頁,一直循環下去,直到把整個網站所有的網頁都抓取完為止。
如果把整個網際網路當成一個網站,那麼網絡蜘蛛可以用這個原理把網際網路上所有的網頁都抓取下來。
光是聽起來就很有意思,那利用這等技術能做些什麼好玩的事兒呢?
小編隨意選取了部分知友的回答,大家感受下~~
@冰藍
之前在北京買房,誰想房價開始瘋長,鏈家的房價等數據分析只給了一小部分,遠遠不能滿足自己的需求。於是晚上花了幾個小時的時間寫了個爬蟲,爬下了北京所有的小區信息及北京所有小區的所有歷史成交記錄。
@陳樂群
上次發現Android QQ和iOS QQ可以顯示網絡狀態(2G/WiFi)之後,突然想到,這樣子好像可以監視某人的出行和作息規律。簡單的來說,在家裡或者工作的地方,一般是有WiFi的,然後出門了,WiFi就斷掉了。如果監測頻率足夠頻繁,那麼結合一定的推理,可以大致推測出一個人的行動。如果長期監視,那麼可以大致推出一個人的作息時間。
@柳易寒
我用爬蟲爬了我愛白菜網、超值分享匯、發現值得買、惠惠購物、今日聚超值、留住你、買手黨、沒得比、慢慢買、牛雜網、買個便宜貨、什麼值得買、天上掉餡餅、一分網、折800值得買、值值值等網站的折扣信息。
這些網站都是提供的一些及時的、性價比較高的商品,很多時候要一個一個網站的看(重度用戶),很容易就會錯過一些很划算的商品。
@蘿莉控夫斯基
我的愛人是某網絡公司的銷售,需要收集各種企業信息然後打電話聯繫。於是乎利用採集腳本抓一坨一坨的資料給她用,而她的同事天天自己搜資料整理到半夜。
看完技術流網友的評論發現,網絡爬蟲似乎試一把雙刃劍,既可以方便人們抓取數據,節省大量的時間與精力,但同時也會帶來負面的影響,嚴重的甚至有可能犯罪哦!
不管是做什麼事,一定要把握好尺度,因為技術是無罪的,人們可以用它的方便造福自己,利用不當的話,會毀了自己。
生活和工作中,大家應該要適當的保持謹慎,對於一些遊走在法律邊緣的事情,請保持距離。
在這裡,小編溫馨提示大家,技術是個好東西,可是要用到正道上哦~~