講講Python爬蟲繞過登錄的小技巧

 來源：公眾號Python知識圈
作者 pk哥

前言

很多時候我們做 Python 爬蟲時或者自動化測試時需要用到 selenium 庫，我們經常會卡在登錄的時候，登錄驗證碼是最頭疼的事情，特別是如今的文字驗證碼和圖形驗證碼。文字和圖形驗證碼還加了干擾線，本文就來講講怎麼繞過登錄頁面。

登錄頁面的驗證，比如以下的圖形驗證碼。

還有我們基本都看過的 12306 的圖形驗證碼。

繞過登錄方法

繞過登錄基本有兩種方法，第一種方法是登錄後查看網站的 cookie，請求 url 的時候把 cookie 帶上，第二種方法是啟動瀏覽器帶上瀏覽器的全部信息，包括添加的書籤和訪問網頁的 cookie 信息。

第一種 cookie 方法我們要分析別人網站的 cookie 值，找出相應的值然後添加進去，對於我們不熟的網站，他們可能也會做加密或者動態處理，所以有些網站也不是那麼好操作。如果是自己公司的網站需要測試，我們可以詢問對應的開發那個 cookie 值是區分獨立用的值，拿出來放在請求裡面就行。

添加 cookie 繞過登錄

比如我們登錄百度帳號比較費勁，每次都需要登錄也比較繁瑣，我們 F12 打開頁面調試工具，登錄後找到www.baidu.com文件，在 cookie 中，我們發現很多值，其中圖中圈起來的就是我們要找的值。

我們在訪問 baidu 連結的時候加上這個 cookie 值，這樣就是直接登錄後的百度帳號了。

下載瀏覽器驅動

我們要 selenium 啟動瀏覽器時，需要下載後對應的驅動文件並放在 Python 安裝的根目錄下，比如我會用到谷歌 Chrome 瀏覽器和 Firefox 火狐瀏覽器。

谷歌瀏覽器驅動下載地址：

http://chromedriver.storage.googleapis.com/index.html

火狐瀏覽器驅動下載地址：

https://github.com/mozilla/geckodriver/releases/

啟動 Chrome 瀏覽器繞過登錄

我們每次打開瀏覽器做相應操作時，對應的緩存和 cookie 會保存到瀏覽器默認的路徑下，我們先查看個人資料路徑，以 chrome 為例，我們在地址欄輸入 chrome://version/

圖中的個人資料路徑就是我們需要的，我們去掉後面的 \\Default，然後在路徑前加上「–user-data-dir=」就拼接出我們要的路徑了。

profile_directory = r'--user-data-dir=C:\\Users\\\\xxx\\AppData\\Local\\Google\\Chrome\\User Data'

接下來，我們啟動瀏覽器的時候採用帶選項時的啟動，這種方式啟動瀏覽器需要注意，運行代碼前需要關閉所有的正在運行 chrome 程序，不然會報錯。全部代碼如下。

selenium 自動化啟動瀏覽器後我們會發現我之前保存的書籤完整在瀏覽器上方，baidu 帳號也是登錄的狀態。

啟動 Firfox 瀏覽器繞過登錄

Firfox 火狐瀏覽也可以這樣啟動它，設置略有不同。

首先，查看配置文件的存儲路徑，查看方法：幫助–故障排除信息–配置文件夾，把裡面的路徑複製過來就行。

同樣，我們把路徑放在變量中。

profile_path = r'C:\\Users\\guixianyang\\AppData\\Roaming\\Mozilla\\Firefox\\Profiles\\dvm6wqam.default'

我們也在火狐瀏覽器中登錄好百度的帳號，用 selenium 自動化啟動帶配置文件的火狐瀏覽器，也會發現啟動時已經啟動了瀏覽器安裝的插件和登錄好的百度帳號。

繞過圖形驗證碼的網站

文中第一個圖是簡書登錄時的圖形驗證碼，我們登錄簡書後（cookie 有一定的時效，貌似有 10 天半個月左右），把上面代碼中的連結換成簡書的，再用上面的方法覺可以實現繞過登錄頁的圖形驗證碼。

比如我直接打開我的簡書個人主頁

https://www.jianshu.com/u/52353ffa8b86

自動化啟動後也是保留了登錄的狀態。

網站的登錄大門已被打開，接下來就可以做自己想做的事情了，比如爬蟲、自動化測試驗證之類的。

PS：以上技巧對有些網站可能不管用，但是對大部分網站還有適用的，覺得本文小技巧有用的自己趕緊試試吧。

講講Python爬蟲繞過登錄的小技巧

文章來源: https://twgreatdaily.com/zh-hk/lATBWmwBUcHTFCnfIyKJ.html

為什麼不推薦使用存儲過程？

一文搞懂 Java 中的枚舉，看完都懂了

web容器是如何解析http報文的

95後的小鮮肉是如何自學成才？這裡有份必備的入門資源

面試題：SSH 和 SSM 兩個框架的淺顯的區別？

談談中間件開發，給想從事中間件開發的同學

一文帶你入門區塊鏈

阿里校招回憶錄（已成功拿到offer）

為什麼大多數人在Windows上的安裝git flow會失敗？

假如生活欺騙了你，不要悲傷不要心急《代碼大全》會一直陪伴著你

小李，快看看這位大佬的算法之路，寫得真心不錯...

程式設計師，如何在編程面試中脫穎而出？

Spring 最常用的 7 大類註解，史上最強整理

Java Web項目發布，伺服器部署（完整版）

女票沒有代碼好？程式設計師：我們不一樣，我們不一樣

什麼是整潔的架構

詳細講解 Redis 的兩種安裝部署方式

潘石屹開始學Python了！他還買了這些書，網友：作秀麼？

牛逼哄哄的ELK日誌分析系統，搭建起來也沒有想像中的那麼難啊

一個埠沒關，我得伺服器被黑到系統崩潰，看我怎麼找回數據

漫畫：如何用Zookeeper實現分布式鎖？

「解惑」Java 代碼執行原理

來一份MySQL索引數據結構及優化清單

你的代碼要被存在北極1000年！GitHub啟動代碼永久存儲計劃