AWS入门教程(3)——Glue爬取数据

在中我们已经将一份 CSV 数据文件上传到了 S3 服务器上，接下来我们需要获取S3 中的元数据信息以便后续对数据进行读取和 ETL 处理。AWS 提供了 Glue 服务来完成这一操作，因此我们需要创建并运行Glue爬网程序对S3 Bucket中的数据进行爬取。

1、创建分类器

分类器用于确定数据的架构。选择左侧导航栏的“分类器”，点击左上角的“添加分类器”—— 在弹窗中键入分类器名称，分类器类型选择csv，列标题采用检测标题的方式，填入表头schema信息，以“，”分割的形式粘贴进去，Glue将按照schema进行数据的读取，编辑完成后点击“创建”——创建完成后自动跳转到分类器展示界面

2、创建爬网程序——添加有关爬网程序的信息

左侧导航栏选择“爬网程序”，点击“添加爬网程序”——编辑对应对信息，并添加自定义分类器，添加步骤1中创建完成的分类器“ykang-test-01-classifier”，页面角色点击“下一步”

3、创建爬网程序——添加数据源配置

配置数据源信息，选择爬取数据源的类型，以及爬取S3时爬取该路径下的所有folders，点击下方的“下一步”

4、创建爬网程序——添加数据源

选择数据存储“S3”，包含路径填写在中步骤4中复制的S3 URI路径，点击“下一步”——添加另一个数据存储，默认“否”即可，点击“下一步”

5、创建爬网程序——选择一个 IAM 角色

勾选“选择现有的IAM角色”，在IAM角色的下拉菜单中选择默认角色“AWSGlueServiceRole-DefaultRole”，该角色包含了绝大部分服务的管理员权限，点击“下一步”

6、创建爬网程序——完成创建

创建执行计划，默认即可，点击“下一步”——创建爬网计划的输出，点击“添加数据库”——键入数据库名称，点击“创建”——返回创建爬网计划的输出界面，点击“下一步”——预览计划，点击“完成”——爬网程序创建完毕，自动返回爬网程序详情界面

7、运行爬网程序

勾选需要运行的爬网程序，点击“运行爬网程序”——爬网程序的状态变成“starting”表示运行成功

8、查看爬网运行结果

待爬网程序重新变成“Ready”状态表示运行完毕，左侧导航栏选择“数据库”，点击步骤6中创建的数据库”ykang-test-01-src“，进入数据库详情界面，点击”ykang-test-01-src的表“——点击由爬网程序创建的表“20211123“，进入表详情界面，详情信息与我们导入S3的csv文件的元数据相同

AWS

AWS入门教程(3)——Glue爬取数据

1、创建分类器

2、创建爬网程序——添加有关爬网程序的信息

3、创建爬网程序——添加数据源配置

4、创建爬网程序——添加数据源

5、创建爬网程序——选择一个 IAM 角色

6、创建爬网程序——完成创建

7、运行爬网程序

8、查看爬网运行结果

相关

Glue:Resource:aws_glue_catalog_database

Glue:Resource:aws_glue_data_catalog_encryption_settings

Glue:Resource:aws_glue_connection

如何使用 IAM 策略授予对特定 AWS S3 文件夹的用户特定访问权限？

AWS S3 JAVASCRIPT SDK 上传

业务中台建设微服务流程编排： Uber Cadence | Netflix Conductor | Camunda Zeebe |

[AWS Devops]Codecommit-branches and pull requests

[AWS Devops]Codecommit-branches and pull requests

[AWS Devops]Codecommit-branches and pull requests

aws-eks-创建与使用

AWS 使用总结及部分服务学习记录

亚马逊AWS Kinesis Video Streams with KVS demo示例

标签

AWS入门教程(3)——Glue爬取数据

1、创建分类器

2、 创建爬网程序——添加有关爬网程序的信息

3、创建爬网程序——添加数据源配置

4、创建爬网程序——添加数据源

5、创建爬网程序——选择一个 IAM 角色

6、创建爬网程序——完成创建

7、运行爬网程序

8、查看爬网运行结果

相关

2、创建爬网程序——添加有关爬网程序的信息