快就完事了!10分鐘用python爬取網站視頻和圖片,小白也可以

2019-09-16     一枚丶程序媛呀

Python作為一種程式語言,被稱為「膠水語言」,更被擁躉們譽為「最美麗」的程式語言,從雲端到客戶端,再到物聯網終端,無所不在,同時還是人工智慧優選的程式語言。

話不多說,直接開講!教你如何用Python爬蟲爬取各大網站視頻和圖片。

網站分析:

我們點視頻按鈕,可以看到的連結是:http://www.budejie.com/video/

接著我們點開網頁源碼,看下面之處:


接著我們把那個下面畫紅線的連結點開,可以看到是個視頻。


下面我進行相似的操作點圖片按鈕,可以看到連結:http://www.budejie.com/pic/


接著我們點開網頁源碼。


相同操作,我們點開連結:http://mpic.spriteapp.cn/ugc/2016/07/07/577d9f0cdd67d_1.jpg


基本上就是這麼個套路,也就用了python的兩個模塊 一個urllib 一個re正則

效果圖:

這個是我爬下來的圖片


這個是我爬下來的視頻


這個是我把Linux上的視頻拖一下到Windows上給大家看效果。

下面直接上代碼!!!

爬視頻的代碼


#!/usr/bin/env python
# -*- coding:utf-8 -*-
import urllib,re
def geturl():
html = urllib.urlopen("http://www.budejie.com/video/").read()
reg = r'data-mp4="(.*?)"'
return re.findall(reg,html)
for page in range(1,100):
for i in geturl():
print i #i是視頻的連結地址
video = urllib.urlopen(i).read()
fwc = open('./video/%s' %i.split('/')[-1],'wb')
fwc.write(video)
fwc.close()
爬圖片的代碼
# -*- coding:utf-8 -*-
import urllib,re
def geturl():
html = urllib.urlopen("http://www.budejie.com/pic/").read()
reg = r'data-original="(.*?)"'
return re.findall(reg,html)
for page in range(1,100):
for i in geturl():
print i #i是圖片的連結地址
video = urllib.urlopen(i).read()
fwc = open('./picture/%s' %i.split('/')[-1],'wb')
fwc.write(video)
fwc.close()


最後; 如果你是零基礎小白,看不懂,沒關係!

python完整項目代碼+電子書籍+Python視頻學習資料,

需要的轉發本文,然後私信小編「python」即可免費領取。

由北京尚學堂高淇老師親自錄製,400集python全棧入門到精通的python全套+前端+4個實戰項目,小夥伴們快快領取學習吧!

硬體:

第一篇:作業系統簡介

第二篇:作業系統

linux基礎:

第一篇:初始Linux

第二篇:基本使用

第三篇:Linux進階

python基礎:

第一篇:python基礎大綱

第二篇:變量與交互

第三篇:快捷鍵

第四篇:基本數據類型,基本二,字符串,列表,元組,字典,集合

第五篇:基礎條件和循環

第六篇:循環,元組,字典列表代碼整理,計算器小程序,一大波作業來襲

第七篇:第六篇-練習代碼

第八篇:集合

第九篇:字典

第十篇:元組

第十一篇:列表

第十二篇:字符串

第十三篇:日期格式化

python-文件處理:

第一篇:字符編碼、文件處理

python-函數:

第一篇:初始函數

第二篇:函數進階

第三篇:裝飾器

第四篇:遞歸與二分法

第五篇:內置函數思維導圖

第六篇:疊代器、生成器、列表推倒。。

第七篇:eval一個神器的函數

python-模塊和包:

第一篇:模塊導入和包

第二篇:常用的幾個模塊

第三篇;摘要算法模塊

第四篇:logging模塊

第五篇:configparser模塊

python-面向對象:

第一篇:初始面向對象

第二篇:面向對象三大特性

第三篇:property-staticmethod-classmethod

第四篇:神奇的反射

第五篇:面向對象拓展

python-異常處理:

第一篇:異常處理

python-網絡編程:

第一篇:初始socket

第二篇:客戶端服務端一、客戶端服務端二

python-進程、線程、協程:

第一篇:線程與進程

第二篇:並發編程

第三篇:多進程模擬搶票

第五篇:進程的隊列

第六篇:互斥鎖

第七篇:開啟線程的兩種方式,線程queue

第八篇:線程與進程的兩種應用

第九篇:死鎖與遞歸鎖,定時器

第十篇:event模式資料庫連結

第十一篇:進程池與線程池,統一進程的兩個任務切換問題

第十二篇:同步與異步

第十三篇:阻塞IO,非阻塞IO,多路復用

第十四篇:進程、線程、協程終極版

資料庫-MySQL-MongoDB:

第一篇:MySQL--資料庫基本操作一,基本操作二

第二篇:MySQL--進階操作(了解即可)

第三篇:MySQL--經典習題

第四篇:MongoDB

前端:HTML、css、JavaScript、jquery、vue.js:

第一篇:HTML

第二篇:css

第三篇:JavaScript

第四篇:jQuery,跨域實例

第五篇:vue.js入門,項目結構介紹,es6入門

第六篇:vue.js詳細的操作實例一

第七篇:vue-router篇

第八篇:快速上手npm

第九篇:初識webpack

python-Django框架:

第一篇:安裝以及介紹--Django生命周期--一些命令----筆記---筆記2--筆記3

第二篇:初始django,MTV模型,請求方式測試

第三篇:簡單的登錄註冊,admin管理,權限管理測試

第四篇:模板層,練習,模板繼承,csrf跨站

第五篇:基於MySQL的圖書管理,圖書管理增刪改,加了cookie的圖書管理

第五篇:orm查詢,查詢二

第六篇:cookie驗證,cookie與session

第七篇:diy自己的權限系統

第八篇:Django-ajax,,跨站請求偽造,jQuery-serizlize的用法

第九篇:文件上傳,驗證碼,Django緩存問題

第十篇:Django-rest-framework,部分總結

第十一篇:content-type

Git-版本控制:

第一篇:Git入門

第二篇:git操作演示

python-flask框架:

第一篇:flask各種小東西

第二篇:flask開發框架,配置文件

第三篇:單例模式

第四篇:flask-session源碼剖析

第五篇:flask-session組件

第五篇:信號

第六篇:sqlalchemy操作,操作2,詳細,,命令使用

第七篇:flask-script

redis:

第一篇:基本使用

爬蟲相關

第一篇:爬取校花網資源

第二篇:請求庫-request

第三篇:解析庫-re-beautifulsoup

第四篇:存儲庫-MySQL(見上面MySQL),MongoDB

第五篇:github綿密登錄,自動投遞簡歷

第六篇:提高爬蟲性能,爬蟲性能測試代碼

第七篇:爬蟲框架scrapy1,爬蟲框架scrapy2

第八篇:爬取亞馬遜商品信息,爬取網絡小說

第九篇:分布式爬蟲 ---

項目練習:

第一篇:基於bootstrap搭建靜態網站

第二篇:基於bootstrap+MySQL搭建動態網站

第三篇:基於HTML,css,jQuery,JavaScript,MySQL搭建博客系統

第四篇:基於django做權限控制

第五篇:基於django做增刪改查組件,分頁器組件

第五篇:為公司做crm資產管理

第六篇:基於flask做權限控制

第七篇:爬蟲項目

第八篇:路飛學成搭建

源碼剖析:

第一篇:flask

第二篇:django

第三篇:django-restframework源碼流程分析

金融與算法:

第一篇:金融介紹

第二篇:量化投資與python

第三篇:ipython基礎認識

第四篇:numpy數組運算,事例代碼

第五篇:pandas數據分析,事例代碼

第六篇:matplotlib繪圖可視化,事例代碼

第七篇:金融分析實例(了解)

第八篇;算法基礎(理論),實例代碼

第九篇:排序lowB三人組,示例代碼

第十篇:NB三人組,示例代碼

第十一篇:算法進階、其它(了解)

第十二篇:數據結構、數據結構實例代碼

第十三篇:設計模式、設計模式實例代碼

獲取方式:請大家轉發本文+關注並私信小編 「python 」,即可獲取。


文章來源: https://twgreatdaily.com/zh-tw/-LXdOW0BJleJMoPMHQG1.html