1. 什么是爬虫？

网络爬虫也叫网络蜘蛛，如果把互联网比喻成一个蜘蛛网，那么蜘蛛就是在网上爬来爬去的蜘蛛，爬虫程序通过请求url地址，根据响应的内容进行解析采集数据，比如：如果响应内容是html，分析dom结构，进行dom解析、或者正则匹配，如果响应内容是xml/json数据，就可以转数据对象，然后对数据进行解析。

2. 有什么作用？

通过有效的爬虫手段批量采集数据，可以降低人工成本，提高有效数据量，给予运营/销售的数据支撑，加快产品发展。

3. 业界的情况

目前互联网产品竞争激烈，业界大部分都会使用爬虫技术对竞品产品的数据进行挖掘、采集、大数据分析，这是必备手段，并且很多公司都设立了爬虫工程师的岗位

4. 合法性

爬虫是利用程序进行批量爬取网页上的公开信息，也就是前端显示的数据信息。因为信息是完全公开的，所以是合法的。其实就像浏览器一样，浏览器解析响应内容并渲染为页面，而爬虫解析响应内容采集想要的数据进行存储。

5. 反爬虫

爬虫很难完全的制止，道高一尺魔高一丈，这是一场没有硝烟的战争，码农VS码农

反爬虫一些手段：

合法检测：请求校验(useragent，referer，接口加签名，等)

小黑屋：IP/用户限制请求频率，或者直接拦截

投毒：反爬虫高境界可以不用拦截，拦截是一时的，投毒返回虚假数据，可以误导竞品决策

Python数据分析师的待遇

目前Python数据分析师正处于需求量大，人才供不应求的阶段，薪资也很可观。在国内，普通Python数据分析师的基本岗位薪资起步可达10000元/月。经验丰富的数据分析工程师薪资高达30000元/月以上。

各个传统的行业都会有大量的数据需要处理。而Python最大的优势，就是在数据处理领域有着得天独厚的优势。

爬虫与数据分析学习路线

1、第一个Python网络爬虫

1)什么是爬虫

2)一起编写第一个爬虫

2、专业HTTP分析工具Fiddler的使用1)Fiddler 用户界面

1)Fiddler 用户界面

2)Fiddler 主菜单

3)Fiddler 工具栏

4)信任 Fiddler 证书

5)Inspector

6)保存\\导入\\导出数据流

7)使用Fiddler检测手机流量

8)Fiddler自动生成爬虫代码

3、实际爬虫Python编码问题

1)vim中如何查看文件编码

2)str编码转换

3)print函数如何处理编码

4)浏览器如何推断网页编码

5)使用Python推测一个文件的编码并给出推断概率

6)Windows 命令行编码查看与设置

7)如何解决Windows命令行的乱码问题

4、urllib2 的使用

1)urllib2请求返回网页

2)urllib2使用代理访问网页

3)urllib2修改header

5、TesseractOCR语言模型爬取使用带验证码登录的网站

1)Tesseract 使用介绍

2)Tesseract 语言模型训练

3)带验证码网站登录示例

6、Beautiful Soup

1)bs4解析器选择

2)lxml解析器安装与使用

XPath & CSS

7、选择器

1)XPath语法讲解

2)XPath 选择示例

3)浏览器对XPath的支持

4)CSS选择器原理

5)CSS选择器使用实例

8、PhantomJS

1)安装

2)脚本传参

3)页面加载

4)Code Evaluation

5)DOM 操作

6)网络请求及响应

9、SeleniumWebdriver

1)元素的定位

2)添加等待时间

3)打印信息

4)浏览器的操作

5)浏览器前进后退

6)键盘事件

10、Scrapy大型框架使用代理服务器爬取

1)鼠标事件

2)定位一组元素

3)上传文件

4)下拉框处理

5)调用JavaScript脚本

6)控制浏览器滚动条

7)原理解析

8)代理ip的获取

9)代理ip的使用

10)架构概览

11)Spider

12)Selector

13)Item

14)Scrapy Shell

15)Item Pileline

Scrapy

11、分布式集群多代理爬虫Redis分布式集群Redis MongoDB在爬虫里的应用

1)Requests and Responses

2)Link Extractor

3)Logging

4)编写应用MongoDB的Scrapy-Redis 爬虫

5)应用之前讲过的多代理技术\\分布式爬虫技术\\Redis集群技术, 编写一个大型房源网站整站遍历抓取爬虫项目

12、数据分析工具与模块

1)Numpy

2)Pandas

3)Scipy

4)Matplotlib

5)Seaborn

6)Scikit-Learn

学以致用：爬虫我们会对一个房源网站进行分布式、多代理、可暂停恢复的爬取，让大家在实战中体会各种技术的综合运用。

学完可掌握的核心能力：

1.掌握各类HTTP调试器用法

2.理解网络爬虫编写的基本套路

3.了解网络爬虫编写的各种陷阱

4.能够应对动态网站爬取

5.能够应对带有验证码的网站

6.能够应对需要浏览器渲染的网站

7.能够应对分布式抓取需要

8.能够应对反爬虫技术

9.能够应对无界面抓取

10.能够利用爬虫平台

注意：以上爬虫和数据分析小编已经打包成电子版的视频教程
获取方式：
关注小编后，转发此文，然后私信小编<爬虫>即可获取！

学习爬虫与数据分析，就该这么学（附学习路线和视频教程）

爬虫与数据分析学习路线

学完可掌握的核心能力：

月初编程最佳福利！300集Java+400集Python视频教程限额分享

零基础转行Python你确定不了解一下吗？文末附全套python教程

北京大学出版，Web程序员的成功之路，《PythonWeb开发学习实录》

阿里Java工程师：这是我看过微服务写的最全的一篇文章

Python特异功能之一：利用Python进行端口扫描，分享学习教程

IT界多位大牛倾力打造的python系统学习流程，附配套视频教程

惊艳带你眼球的十大经典排序算法，对你的帮助足够大

Java老司机：想要构建一个完整的业务架构，这些技术是你应掌握的

来看看Java、Python和大数据，哪个发展前景最好？

最近超火的Java自学学习路线，只需26周彻底搞定，你不Mark一下？

学习爬虫与数据分析，就该这么学（附学习路线和视频教程）

Python三步走：了解Python+深入Python+学习Python

腾讯算法工程师分享—最全面的算法和数据结构知识（附带学习资料

清华硕士写给每一位IT自学者的入门指南

深入了解数据结构、算法、编程语言三者的计算思维（附教程分享

如果这篇文章都不能够带你Python学习入门，我将永远退出编程界

大佬为你深度讲解JavaScript 究竟是如何工作的？

史上最强人工智能学习路线，想学就拿走呗！分享给你

超详细解析java技术原理，小白如何学习java到架构师

零基础进军Java必备！java基础学习—网络编程总结

腾讯资深Python工程师分享--MySQL优化，分享Python视频教程

全网最全、最细、最深的java学习资料：覆盖工作中所有技术点

软件测试人员必备的60个测试工具清单，附测试学习资料+视频教程

让你见识一下什么叫最完整、最系统的Java学习路线