Scrapy学习笔记

Scrapy入门：

scrapy是框架

采用异步框架，实现高效率的网络采集

最强大的框架，没有之一

Scrapy安装：

pip install scrapy

报错--->VC++14.0 Twisted

解决方法：

离线安装  ：pip install xxx.whl

scrapy bench 运行的时候报错-->win32

解决方法：

pip install pywin32

Scrapy入门实战案例：

采集目标：

采集网站的IP代理包括IP PORT

1.创建项目：

scrapy startproject xxx(项目名字)

2.创建爬虫：

scrapy genspider 爬虫名字  网站域名

注意：

爬虫名字不要和项目名字一样

网站域名是允许爬虫采集的域名（baidu.com）

实例：

import scrapy #导入Scrapy

#创建爬虫类  并且继承自scrapy.Spider--->最基础的类  另外几个类都是继承自这个类
class BaiduSpider(scrapy.Spider):
    name = 'baidu'  #爬虫名字 -->必须唯一
    allowed_domains = ['baidu.com']   #允许采集的域名
    start_urls = ['https://www.baidu.com/?tn=44004473_1_oem_dg']  #开始采集的

#解析响应数据，提取数据，或者网址等  response 就是网页源码
    def parse(self, response):
        pass

3.分析网址

提取数据：

正则表达式（基础）

XPath----->从HTML中提取数据语法

CSS------>从HTML中提取数据语法

python学习笔记

Scrapy学习笔记

Scrapy入门：

Scrapy安装：

Scrapy入门实战案例：

相关

selenium python学习笔记之八窗口截图、验证码处理

【python学习笔记】openpyxl操作excel高阶操作

Python学习笔记-----类和对象知识点2)---类的继承

Python学习笔记-----类和对象知识点2)---类的继承

【Python学习笔记六】获取百度搜索结果以及百度返回“百度安全验证”问题解决

【Python学习笔记七】从配置文件中读取参数

Python学习笔记.md

python学习笔记02：数据类型

Python学习笔记：利用pd.assign新增一列

Python学习笔记：获取图片分辨率

基础python学习笔记6——一些好用的库

Python学习笔记（二）——int类型转换

标签