亚马逊AWS官方博客
Tag: ETL
Kylin 4 集成 Amazon Glue Catalog!
Kylin 4 集成 Amazon Glue Catalog
Amazon Glue 实现 JDBC 数据源增量数据加载
Amazon Glue实现JDBC数据源增量数据加载
使用 Amazon Redshift 构建分层数据仓库分析 OLTP 数据
Instruct how to build a hierarchical data warehouse in Redshift
另辟蹊径: 在云端使用SQL语言实现数据转化,测试和文档维护
本篇文章将为读者介绍一新的开源工具: DBT(Data Build Tool), 并详细演示,如何使用DBT,基于Amazon Redshift 使用SQL语言来做数据转换,测试用例编写 和文档维护。
大道至简-使用Athena对数据ETL处理
This article introduces the use of Athena to crop, enrich, repartition, format conversion and other ETL operations
在 AWS Glue 的 Python Shell 作业中部署 AWS Data Wrangler 进行 ETL 数据处理
本文首先介绍了AWS Glue以及该服务的功能和使用场景,然后介绍了AWS Glue 中的Python Shell作业,可以基于Python完成一些基础的ETL操作。接下来,我们又介绍了Pandas on AWS – AWS Data Wrangler这款在AWS上进行数据分析的利器,并通过一个示例场景(CSV转换Parquet)来介绍了如何在Python Shell作业引入AWS Data Wrangler来简化在AWS平台上的无服务器化的ETL任务。
使用 Glue 和 Athena 分析 AWS 服务日志
本文以VPC流日志为例,指导如何使用Glue爬网程序构建VPC流日志的数据目录,并使用GLUE ETL 作业把源数据进行分区并转换成Parquet格式,加速Athena查询VPC流日志的速度并减少扫描量以降低分析的成本。
使用 Apache Flink 与 Amazon Kinesis Data Analytics 实现流式 ETL
本文讨论了如何使用Apache Flink与Kinesis Data Analytics构建流式ETL管道。其中着重强调了如何构建可扩展解决方案,在解决流式摄取中部分高级用例的同时,保持较低的运营开销。这套解决方案将帮助大家快速实现流式数据的丰富与转换,并将其加载至数据湖、数据存储或者其他分析工具当中,且无需执行额外的ETL操作步骤。本文还探讨了如何通过监控与故障处理对应用程序加以扩展。