為什麼選擇用python做爬蟲

2019-10-19 科技i關注

什麼是網絡爬蟲？

網絡爬蟲是一個自動提取網頁的程序，它為搜尋引擎從全球資訊網上下載網頁，是搜尋引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的URL，在抓取網頁的過程中，不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件

爬蟲有什麼用？

做為通用搜尋引擎網頁收集器。（google,baidu）做垂直搜尋引擎.科學研究：在線人類行為，在線社群演化，人類動力學研究，計量社會學，複雜網絡，數據挖掘，等領域的實證研究都需要大量數據，網絡爬蟲是收集相關數據的利器。偷窺，hacking，發垃圾郵件……

爬蟲是搜尋引擎的第一步也是最容易的一步

用什麼語言寫爬蟲？

C，C++。高效率，快速，適合通用搜尋引擎做全網爬取。缺點，開發慢，寫起來又臭又長，例如：天網搜索原始碼。腳本語言：Perl, Python, Java, Ruby。簡單，易學，良好的文本處理能方便網頁內容的細緻提取，但效率往往不高，適合對少量網站的聚焦爬取C#？（貌似信息管理的人比較喜歡的語言）

選擇Python做爬蟲的原因：

跨平台，對Linux和windows都有不錯的支持。

科學計算，數值擬合：Numpy，Scipy

可視化：2d：Matplotlib(做圖很漂亮), 3d: Mayavi2

複雜網絡：Networkx統計：與R語言接口：Rpy

交互式終端

網站的快速開發

一個簡單的Python爬蟲

import urllib

import urllib.request

def loadPage(url,filename):

"""

作用：根據url發送請求，獲取html數據;

:param url:

:return:

"""

request=urllib.request.Request(url)

html1= urllib.request.urlopen(request).read()

return html1.decode('utf-8')

def writePage(html,filename):

"""

作用將html寫入本地

:param html: 伺服器相應的文件內容

:return:

"""

with open(filename,'w') as f:

f.write(html)

print('-'*30)

def tiebaSpider(url,beginPage,endPage):

"""

作用貼吧爬蟲調度器，負責處理每一個頁面url;

:param url:

:param beginPage:

:param endPage:

:return:

"""

for page in range(beginPage,endPage+1):

pn=(page - 1)*50

fullurl=url+"&pn="+str(pn)

print(fullurl)

filename='第'+str(page)+'頁.html'

html= loadPage(url,filename)

writePage(html,filename)

if __name__=="__main__":

kw=input('請輸入你要需要爬取的貼吧名:')

beginPage=int(input('請輸入起始頁'))

endPage=int(input('請輸入結束頁'))

url='https://tieba.baidu.com/f?'

kw1={'kw':kw}

key = urllib.parse.urlencode(kw1)

fullurl=url+key

tiebaSpider(fullurl,beginPage,endPage)

更多Python相關技術文章，請訪問Python教程欄目進行學習！

以上就是為什麼選擇用python做爬蟲的詳細內容，更多請關注其它相關文章！

更多技巧請《轉發 + 關注》哦！

為什麼選擇用python做爬蟲

新手SEO如何去做好一個網站簡析新手做網站的經驗

excel表格數據怎麼製作成創意的心形柱形圖表？

WPS2019表格怎麼實現數據前自動加貨幣符號？

橙瓜碼字怎麼進行稿費計算橙瓜碼字計算稿費的方法

知識就是金錢之：word怎麼快速創建堆疊列表？

iPhone11 Pro和Pixel 4哪款拍照好 iPhone11 Pro和Pixel 4拍照對

魅族16T和紅米K20 Pro哪款好魅族16T和紅米K20 Pro區別對比

realme Q和紅米Note8哪款好 realme Q和紅米Note8區別對比

三星Galaxy A50s值不值得買三星Galaxy A50s手機全面評測

vivo S5怎麼樣一圖看懂vivo S5新機

新一代5G旗艦聯想Z6 Pro 5G版怎麼樣聯想Z6 Pro 5G版全面體驗評

美團袋鼠豆怎麼查看？美團袋鼠豆的查看方法

word2016怎麼製作圓箭頭流程圖？

word2016怎麼快速製作射線群集？

知識就是金錢之：ppt怎麼設計箭頭效果的時間軸？

橙瓜碼字怎樣找回歷史內容找回歷史版本內容操作方法介紹

知識就是金錢之：微信小程序開發搖一搖功能

vue使用recorder.js實現錄音功能

webpack優化之代碼分割與公共代碼提取詳解

mpvue微信小程序開發之實現一個彈幕評論

Egg Vue SSR 服務端渲染數據請求與asyncData

JavaScript This指向問題詳解

VUE.CLI4.0配置多頁面入口的實現

知識就是金錢之：uni-app實現點贊評論功能