Scrapy学习笔记
Scrapy入门:
scrapy是框架
采用异步框架,实现高效率的网络采集
最强大的框架,没有之一
Scrapy安装:
pip install scrapy
报错--->VC++14.0 Twisted
解决方法:
离线安装 :pip install xxx.whl
scrapy bench 运行的时候 报错-->win32
解决方法:
pip install pywin32
采集目标:
采集网站的IP代理 包括IP PORT
1.创建项目:
scrapy startproject xxx(项目名字)
2.创建爬虫:
scrapy genspider 爬虫名字 网站域名
注意:
爬虫名字不要和项目名字一样
网站域名是允许爬虫采集的域名 (baidu.com)
实例:
import scrapy #导入Scrapy #创建爬虫类 并且继承自scrapy.Spider--->最基础的类 另外几个类都是继承自这个类 class BaiduSpider(scrapy.Spider): name = 'baidu' #爬虫名字 -->必须唯一 allowed_domains = ['baidu.com'] #允许采集的域名 start_urls = ['https://www.baidu.com/?tn=44004473_1_oem_dg'] #开始采集的 #解析响应数据,提取数据,或者网址等 response 就是网页源码 def parse(self, response): pass
3.分析网址
提取数据:
正则表达式(基础 )
XPath----->从HTML中提取数据语法
CSS------>从HTML中提取数据语法