Python作為一種程式語言,被稱為「膠水語言」,更被擁躉們譽為「最美麗」的程式語言,從雲端到客戶端,再到物聯網終端,無所不在,同時還是人工智慧優選的程式語言。
話不多說,直接開講!教你如何用Python爬蟲爬取各大網站視頻和圖片。
網站分析:
我們點視頻按鈕,可以看到的連結是:http://www.budejie.com/video/
接著我們點開網頁源碼,看下面之處:
接著我們把那個下面畫紅線的連結點開,可以看到是個視頻。
下面我進行相似的操作點圖片按鈕,可以看到連結:http://www.budejie.com/pic/
接著我們點開網頁源碼。
相同操作,我們點開連結:http://mpic.spriteapp.cn/ugc/2016/07/07/577d9f0cdd67d_1.jpg
基本上就是這麼個套路,也就用了python的兩個模塊 一個urllib 一個re正則
效果圖:
這個是我爬下來的圖片
這個是我爬下來的視頻
這個是我把Linux上的視頻拖一下到Windows上給大家看效果。
下面直接上代碼!!!
爬視頻的代碼
#!/usr/bin/env python
# -*- coding:utf-8 -*-
import urllib,re
def geturl():
html = urllib.urlopen("http://www.budejie.com/video/").read()
reg = r'data-mp4="(.*?)"'
return re.findall(reg,html)
for page in range(1,100):
for i in geturl():
print i #i是視頻的連結地址
video = urllib.urlopen(i).read()
fwc = open('./video/%s' %i.split('/')[-1],'wb')
fwc.write(video)
fwc.close()
爬圖片的代碼
# -*- coding:utf-8 -*-
import urllib,re
def geturl():
html = urllib.urlopen("http://www.budejie.com/pic/").read()
reg = r'data-original="(.*?)"'
return re.findall(reg,html)
for page in range(1,100):
for i in geturl():
print i #i是圖片的連結地址
video = urllib.urlopen(i).read()
fwc = open('./picture/%s' %i.split('/')[-1],'wb')
fwc.write(video)
fwc.close()
最後; 如果你是零基礎小白,看不懂,沒關係!
python完整項目代碼+電子書籍+Python視頻學習資料,
需要的轉發本文,然後私信小編「python」即可免費領取。
由北京尚學堂高淇老師親自錄製,400集python全棧入門到精通的python全套+前端+4個實戰項目,小夥伴們快快領取學習吧!
硬體:
第一篇:作業系統簡介
第二篇:作業系統
linux基礎:
第一篇:初始Linux
第二篇:基本使用
第三篇:Linux進階
python基礎:
第一篇:python基礎大綱
第二篇:變量與交互
第三篇:快捷鍵
第四篇:基本數據類型,基本二,字符串,列表,元組,字典,集合
第五篇:基礎條件和循環
第六篇:循環,元組,字典列表代碼整理,計算器小程序,一大波作業來襲
第七篇:第六篇-練習代碼
第八篇:集合
第九篇:字典
第十篇:元組
第十一篇:列表
第十二篇:字符串
第十三篇:日期格式化
python-文件處理:
第一篇:字符編碼、文件處理
python-函數:
第一篇:初始函數
第二篇:函數進階
第三篇:裝飾器
第四篇:遞歸與二分法
第五篇:內置函數思維導圖
第六篇:疊代器、生成器、列表推倒。。
第七篇:eval一個神器的函數
python-模塊和包:
第一篇:模塊導入和包
第二篇:常用的幾個模塊
第三篇;摘要算法模塊
第四篇:logging模塊
第五篇:configparser模塊
python-面向對象:
第一篇:初始面向對象
第二篇:面向對象三大特性
第三篇:property-staticmethod-classmethod
第四篇:神奇的反射
第五篇:面向對象拓展
python-異常處理:
第一篇:異常處理
python-網絡編程:
第一篇:初始socket
第二篇:客戶端服務端一、客戶端服務端二
python-進程、線程、協程:
第一篇:線程與進程
第二篇:並發編程
第三篇:多進程模擬搶票
第五篇:進程的隊列
第六篇:互斥鎖
第七篇:開啟線程的兩種方式,線程queue
第八篇:線程與進程的兩種應用
第九篇:死鎖與遞歸鎖,定時器
第十篇:event模式資料庫連結
第十一篇:進程池與線程池,統一進程的兩個任務切換問題
第十二篇:同步與異步
第十三篇:阻塞IO,非阻塞IO,多路復用
第十四篇:進程、線程、協程終極版
資料庫-MySQL-MongoDB:
第一篇:MySQL--資料庫基本操作一,基本操作二
第二篇:MySQL--進階操作(了解即可)
第三篇:MySQL--經典習題
第四篇:MongoDB
前端:HTML、css、JavaScript、jquery、vue.js:
第一篇:HTML
第二篇:css
第三篇:JavaScript
第四篇:jQuery,跨域實例
第五篇:vue.js入門,項目結構介紹,es6入門
第六篇:vue.js詳細的操作實例一
第七篇:vue-router篇
第八篇:快速上手npm
第九篇:初識webpack
python-Django框架:
第一篇:安裝以及介紹--Django生命周期--一些命令----筆記---筆記2--筆記3
第二篇:初始django,MTV模型,請求方式測試
第三篇:簡單的登錄註冊,admin管理,權限管理測試
第四篇:模板層,練習,模板繼承,csrf跨站
第五篇:基於MySQL的圖書管理,圖書管理增刪改,加了cookie的圖書管理
第五篇:orm查詢,查詢二
第六篇:cookie驗證,cookie與session
第七篇:diy自己的權限系統
第八篇:Django-ajax,,跨站請求偽造,jQuery-serizlize的用法
第九篇:文件上傳,驗證碼,Django緩存問題
第十篇:Django-rest-framework,部分總結
第十一篇:content-type
Git-版本控制:
第一篇:Git入門
第二篇:git操作演示
python-flask框架:
第一篇:flask各種小東西
第二篇:flask開發框架,配置文件
第三篇:單例模式
第四篇:flask-session源碼剖析
第五篇:flask-session組件
第五篇:信號
第六篇:sqlalchemy操作,操作2,詳細,,命令使用
第七篇:flask-script
redis:
第一篇:基本使用
爬蟲相關
第一篇:爬取校花網資源
第二篇:請求庫-request
第三篇:解析庫-re-beautifulsoup
第四篇:存儲庫-MySQL(見上面MySQL),MongoDB
第五篇:github綿密登錄,自動投遞簡歷
第六篇:提高爬蟲性能,爬蟲性能測試代碼
第七篇:爬蟲框架scrapy1,爬蟲框架scrapy2
第八篇:爬取亞馬遜商品信息,爬取網絡小說
第九篇:分布式爬蟲 ---
項目練習:
第一篇:基於bootstrap搭建靜態網站
第二篇:基於bootstrap+MySQL搭建動態網站
第三篇:基於HTML,css,jQuery,JavaScript,MySQL搭建博客系統
第四篇:基於django做權限控制
第五篇:基於django做增刪改查組件,分頁器組件
第五篇:為公司做crm資產管理
第六篇:基於flask做權限控制
第七篇:爬蟲項目
第八篇:路飛學成搭建
源碼剖析:
第一篇:flask
第二篇:django
第三篇:django-restframework源碼流程分析
金融與算法:
第一篇:金融介紹
第二篇:量化投資與python
第三篇:ipython基礎認識
第四篇:numpy數組運算,事例代碼
第五篇:pandas數據分析,事例代碼
第六篇:matplotlib繪圖可視化,事例代碼
第七篇:金融分析實例(了解)
第八篇;算法基礎(理論),實例代碼
第九篇:排序lowB三人組,示例代碼
第十篇:NB三人組,示例代碼
第十一篇:算法進階、其它(了解)
第十二篇:數據結構、數據結構實例代碼
第十三篇:設計模式、設計模式實例代碼