AWS入门教程(3)——Glue爬取数据
在中我们已经将一份 CSV 数据文件上传到了 S3 服务器上,接下来我们需要获取S3 中的元数据信息以便后续对数据进行读取和 ETL 处理。AWS 提供了 Glue 服务来完成这一操作,因此我们需要创建并运行Glue爬网程序对S3 Bucket中的数据进行爬取。
1、创建分类器
分类器用于确定数据的架构。选择左侧导航栏的“分类器”,点击左上角的“添加分类器”—— 在弹窗中键入分类器名称,分类器类型选择csv,列标题采用检测标题的方式,填入表头schema信息,以“,”分割的形式粘贴进去,Glue将按照schema进行数据的读取,编辑完成后点击“创建”——创建完成后自动跳转到分类器展示界面
2、 创建爬网程序——添加有关爬网程序的信息
左侧导航栏选择“爬网程序”,点击“添加爬网程序”——编辑对应对信息,并添加自定义分类器,添加步骤1中创建完成的分类器“ykang-test-01-classifier”,页面角色点击“下一步”
3、创建爬网程序——添加数据源配置
配置数据源信息,选择爬取数据源的类型,以及爬取S3时爬取该路径下的所有folders,点击下方的“下一步”
4、创建爬网程序——添加数据源
选择数据存储“S3”,包含路径填写在中步骤4中复制的S3 URI路径,点击“下一步”——添加另一个数据存储,默认“否”即可,点击“下一步”
5、创建爬网程序——选择一个 IAM 角色
勾选“选择现有的IAM角色”,在IAM角色的下拉菜单中选择默认角色“AWSGlueServiceRole-DefaultRole”,该角色包含了绝大部分服务的管理员权限,点击“下一步”
6、创建爬网程序——完成创建
创建执行计划,默认即可,点击“下一步”——创建爬网计划的输出,点击“添加数据库”——键入数据库名称,点击“创建”——返回创建爬网计划的输出界面,点击“下一步”——预览计划,点击“完成”——爬网程序创建完毕,自动返回爬网程序详情界面
7、运行爬网程序
勾选需要运行的爬网程序,点击“运行爬网程序”——爬网程序的状态变成“starting”表示运行成功
8、查看爬网运行结果
待爬网程序重新变成“Ready”状态表示运行完毕,左侧导航栏选择“数据库”,点击步骤6中创建的数据库”ykang-test-01-src“,进入数据库详情界面,点击”ykang-test-01-src的表“——点击由爬网程序创建的表“20211123“,进入表详情界面,详情信息与我们导入S3的csv文件的元数据相同