Scrapy学习笔记


Scrapy入门:

scrapy是框架

采用异步框架,实现高效率的网络采集

最强大的框架,没有之一

 

Scrapy安装:

pip install scrapy   

报错--->VC++14.0 Twisted

解决方法:

离线安装  :pip install xxx.whl

scrapy bench 运行的时候 报错-->win32

解决方法:

pip install pywin32

Scrapy入门实战案例:

采集目标:

采集网站的IP代理 包括IP PORT

1.创建项目:

scrapy startproject xxx(项目名字)

2.创建爬虫:

scrapy genspider 爬虫名字  网站域名

注意:

爬虫名字不要和项目名字一样

网站域名是允许爬虫采集的域名 (baidu.com)

 

实例:

import scrapy #导入Scrapy

#创建爬虫类  并且继承自scrapy.Spider--->最基础的类  另外几个类都是继承自这个类
class BaiduSpider(scrapy.Spider):
    name = 'baidu'  #爬虫名字 -->必须唯一
    allowed_domains = ['baidu.com']   #允许采集的域名
    start_urls = ['https://www.baidu.com/?tn=44004473_1_oem_dg']  #开始采集的

#解析响应数据,提取数据,或者网址等  response 就是网页源码
    def parse(self, response):
        pass

3.分析网址

提取数据:

正则表达式(基础 )

XPath----->从HTML中提取数据语法

CSS------>从HTML中提取数据语法