AWS入门学习(4)——Glue ETL


之前我们通过爬网程序对源数据的元信息进行了爬取,接下来我们就需要创建并运行Glue ETL job对数据进行数据处理,将数据存储到业务指定的S3 Bucket中。

1、创建Glue作业——配置作业属性

 左侧导航栏选择”作业“,点击”添加作业“——键入作业名称,IAM角色选择默认角色“AWSGlueServiceRole-DefaultRole”,页面最下方点击“下一步”

 2、创建Glue作业——选择数据源

选择数据源。勾选在AWS入门教程(3)——GLUE爬取数据中爬取生成的表“20211123”,点击“下一步”——转换数据结构,默认即可,点击“下一步”

3、创建Glue作业——选择数据目标

选择一个数据目标。勾选“在数据目标中创建表”,在数据存储的下拉列表中选择“Amazon S3”,在格式的下拉列表中选择“CSV”,在目标路径中键入“s3://ykang-test-01-source/20211123-target”,点击“下一步”

4、创建Glue作业——创建ETL逻辑

修改列的映射关系,保持默认即可,点击“保存作业并编辑脚本”——根据个人需求编辑脚本,修改完成后点击保存

5、运行Glue job

点击左上角的“运行作业”,以默认参数形式运行,等待执行结果。作业详情界面可以观察到具体的运行状态,等待状态变成succeed后,表示作业运行成功——到配置的Amazon S3路径下查询是否生成对应文件

AWS