AWS入门学习(4)——Glue ETL

之前我们通过爬网程序对源数据的元信息进行了爬取，接下来我们就需要创建并运行Glue ETL job对数据进行数据处理，将数据存储到业务指定的S3 Bucket中。

1、创建Glue作业——配置作业属性

左侧导航栏选择”作业“，点击”添加作业“——键入作业名称，IAM角色选择默认角色“AWSGlueServiceRole-DefaultRole”，页面最下方点击“下一步”

选择数据源。勾选在AWS入门教程(3)——GLUE爬取数据中爬取生成的表“20211123”，点击“下一步”——转换数据结构，默认即可，点击“下一步”

选择一个数据目标。勾选“在数据目标中创建表”，在数据存储的下拉列表中选择“Amazon S3”，在格式的下拉列表中选择“CSV”，在目标路径中键入“s3://ykang-test-01-source/20211123-target”，点击“下一步”

修改列的映射关系，保持默认即可，点击“保存作业并编辑脚本”——根据个人需求编辑脚本，修改完成后点击保存

点击左上角的“运行作业”，以默认参数形式运行，等待执行结果。作业详情界面可以观察到具体的运行状态，等待状态变成succeed后，表示作业运行成功——到配置的Amazon S3路径下查询是否生成对应文件

AWS