Python利用Phantomjs抓取渲染JS後的網頁

最近需要爬取某網站，無奈頁面都是JS渲染後生成的，普通的爬蟲框架搞不定，於是想到用Phantomjs搭一個代理。

Python調用Phantomjs貌似沒有現成的第三方庫（如果有，請告知小2），漫步了一圈，發現只有pyspider提供了現成的方案。

簡單試用了一下，感覺pyspider更像一個為新手打造的爬蟲工具，好比一個老媽子，有時無微不至，有時喋喋不休。

輕巧的小工具應該更受人喜愛，我也懷著一點私心，可以帶著我最愛的BeautifulSoup一塊兒用，而不用再學PyQuery（pyspider用來解析HTML），更不用忍受瀏覽器寫Python的糟糕體驗（偷笑）。

所以花了一個下午的時間，把pyspider當中實現Phantomjs代理的部分拆了出來，獨立成一個小的爬蟲模塊，希望大家會喜歡（感謝binux！）。

準備工作

你當然要有Phantomjs，廢話！（Linux下最好用supervisord守護，必須保持抓取的時候Phantomjs一直處於開啟狀態）

用項目路徑下的phantomjs_fetcher.js啟動：phantomjs phantomjs_fetcher.js [port]

安裝tornado依賴（使用了tornado的httpclient模塊）

調用是超級簡單的

from tornado_fetcher import Fetcher

# 創建一個爬蟲

>>> fetcher=Fetcher(

user_agent='phantomjs', # 模擬瀏覽器的User-Agent

phantomjs_proxy='http://localhost:12306', # phantomjs的地址

poolsize=10, # 最大的httpclient數量

async=False # 同步還是異步

)

# 開始連接Phantomjs的代理，可以渲染JS！

>>> fetcher.phantomjs_fetch(url)

# 渲染成功後執行額外的JS腳本（注意用function包起來！）

>>> fetcher.phantomjs_fetch(url, js_script='function(){setTimeout("window.scrollTo(0,100000)}", 1000)')

更多技巧請《轉發 + 關注》哦！

Python利用Phantomjs抓取渲染JS後的網頁

文章來源: https://twgreatdaily.com/zh-cn/GiAWG24BMH2_cNUgd4Pd.html

新手SEO如何去做好一個網站簡析新手做網站的經驗

excel表格數據怎麼製作成創意的心形柱形圖表？

WPS2019表格怎麼實現數據前自動加貨幣符號？

橙瓜碼字怎麼進行稿費計算橙瓜碼字計算稿費的方法

知識就是金錢之：word怎麼快速創建堆疊列表？

iPhone11 Pro和Pixel 4哪款拍照好 iPhone11 Pro和Pixel 4拍照對

魅族16T和紅米K20 Pro哪款好魅族16T和紅米K20 Pro區別對比

realme Q和紅米Note8哪款好 realme Q和紅米Note8區別對比

三星Galaxy A50s值不值得買三星Galaxy A50s手機全面評測

vivo S5怎麼樣一圖看懂vivo S5新機

新一代5G旗艦聯想Z6 Pro 5G版怎麼樣聯想Z6 Pro 5G版全面體驗評

美團袋鼠豆怎麼查看？美團袋鼠豆的查看方法

word2016怎麼製作圓箭頭流程圖？

word2016怎麼快速製作射線群集？

知識就是金錢之：ppt怎麼設計箭頭效果的時間軸？

橙瓜碼字怎樣找回歷史內容找回歷史版本內容操作方法介紹

知識就是金錢之：微信小程序開發搖一搖功能

vue使用recorder.js實現錄音功能

webpack優化之代碼分割與公共代碼提取詳解

mpvue微信小程序開發之實現一個彈幕評論

Egg Vue SSR 服務端渲染數據請求與asyncData

JavaScript This指向問題詳解

VUE.CLI4.0配置多頁面入口的實現

知識就是金錢之：uni-app實現點贊評論功能