Crawlab 整合 playwright爬虫简例。
第一步:部署crawlab
部署的方式有多种,可以直接部署,亦可docker,我推荐docker部署,简单方便。
1.安装docker
就如crawlab-team在其doc上说都2202年了学点docker吧。
docker 官方安装教程:https://docs.docker.com/engine/install
简单的几个docker shell,接下来你可以用到:
1.1 docker ps 列出容器。
1.2 docker exec -it "容器id" /bin/bash 进入容器内部
1.3 docker stop "容器id" 停止容器
1.4 docker start “容器id” 启动容器
1.5 docker rmi "容器id" 清除容器
1.6 docker images 列出镜像
2. 部署
接着crawlab的教程就完事了
pip install docker-compose
3. 启动
在docker-compose.yml的目录下,使用docker-compose up -d
我po一下:
我这个是单节点版的(多节点请看官方doc),我这里设置mongo的权限认真,抄的话,请先进入mongo的容器里面,添加管理员,(默认是没有管理员的)如何添加--》https://blog.csdn.net/zhao_5352269/article/details/82871284
可以启动了
使用docker-compose up -d(这个命令是创建容器及启动容器)
几个小shell:
2.1 docker-compose down :关闭和删除容器
2.2 docker-compose stop 关闭
2.3 docker-compose start 启动
2.集成playwright
可以通过web前端:
我的搜不到,还有点小问题,但是我是单机的,我可以进入容器里面安装。
进入容器里面安装,先改一下pip源(修改/root/.pip/pip.conf,没有就自己建一个)
pip install playwright
安装浏览器:
playwright install webkit
第一次运行会让你安装deps
playwright install-deps
安装出现超时的问题。
修改/etc/apt/source.list
po一下:
deb http://mirrors.aliyun.com/ubuntu/ focal main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ focal main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ focal-security main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ focal-security main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ focal-updates main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ focal-updates main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ focal-proposed main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ focal-proposed main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ focal-backports main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ focal-backports main restricted universe multiverse
改完以后记得apt-get update
完成上述就可以运行playwright了
如何运行我的爬虫程序
首先打包你的程序成zip,然后再前端上传
上传到容器的位置在/app/spider/