Crawlab 整合 playwright爬虫简例。


第一步:部署crawlab

    部署的方式有多种,可以直接部署,亦可docker,我推荐docker部署,简单方便。

    1.安装docker

      就如crawlab-team在其doc上说都2202年了学点docker吧。

      docker 官方安装教程:https://docs.docker.com/engine/install

      简单的几个docker shell,接下来你可以用到:

        1.1 docker ps 列出容器。

         1.2 docker exec -it "容器id" /bin/bash 进入容器内部

         

         1.3 docker stop "容器id"  停止容器

         1.4 docker start  “容器id” 启动容器

          1.5 docker rmi  "容器id"   清除容器

          1.6 docker images 列出镜像

        2. 部署

          接着crawlab的教程就完事了

          pip install docker-compose

         3. 启动

        在docker-compose.yml的目录下,使用docker-compose up -d

        我po一下:

         我这个是单节点版的(多节点请看官方doc),我这里设置mongo的权限认真,抄的话,请先进入mongo的容器里面,添加管理员,(默认是没有管理员的)如何添加--》https://blog.csdn.net/zhao_5352269/article/details/82871284

        可以启动了

        使用docker-compose up -d(这个命令是创建容器及启动容器)

        几个小shell:

        2.1 docker-compose down :关闭和删除容器

        2.2 docker-compose stop 关闭

        2.3 docker-compose start 启动

     2.集成playwright

      可以通过web前端:

      我的搜不到,还有点小问题,但是我是单机的,我可以进入容器里面安装。

      进入容器里面安装,先改一下pip源(修改/root/.pip/pip.conf,没有就自己建一个)

      pip install playwright

      安装浏览器:

      playwright install webkit

      第一次运行会让你安装deps

      playwright install-deps

      安装出现超时的问题。

      修改/etc/apt/source.list

      po一下:

    deb http://mirrors.aliyun.com/ubuntu/ focal main restricted universe multiverse
    deb-src http://mirrors.aliyun.com/ubuntu/ focal main restricted universe multiverse
    deb http://mirrors.aliyun.com/ubuntu/ focal-security main restricted universe multiverse
    deb-src http://mirrors.aliyun.com/ubuntu/ focal-security main restricted universe multiverse
    deb http://mirrors.aliyun.com/ubuntu/ focal-updates main restricted universe multiverse
    deb-src http://mirrors.aliyun.com/ubuntu/ focal-updates main restricted universe multiverse
    deb http://mirrors.aliyun.com/ubuntu/ focal-proposed main restricted universe multiverse
    deb-src http://mirrors.aliyun.com/ubuntu/ focal-proposed main restricted universe multiverse
    deb http://mirrors.aliyun.com/ubuntu/ focal-backports main restricted universe multiverse
    deb-src http://mirrors.aliyun.com/ubuntu/ focal-backports main restricted universe multiverse

    改完以后记得apt-get update

    完成上述就可以运行playwright了  

     如何运行我的爬虫程序

    首先打包你的程序成zip,然后再前端上传

    上传到容器的位置在/app/spider/