亚马逊AWS官方博客
Category: AWS Glue
使用AWS Glue在Amazon S3上构建数据湖实战
此文整体采用无服务器的架构,利用AWS Glue加载并转换应用日志和JDBC数据源,并以目标格式写到以S3构建的数据湖中,该技术可以有效的打通因为不同摄入/获取数据方式形成的数据孤岛,以数据为基石更好的帮助业务部门做业务决策。
使用新的 AWS Glue DynamoDB Export 连接器加速 AWS Glue 作业中的 Amazon DynamoDB 数据访问评论源
现代数据架构鼓励数据湖、数据仓库和专用数据存储的集成,从而实现统一治理和轻松数据移动。借助 AWS 上的现代数 […]
使用 Amazon Athena、Amazon EMR 和 AWS Glue 构建 Apache Iceberg 数据湖
大多数企业将其关键数据存储在数据湖中,您可以将来自各种来源的数据存储到集中存储中。数据由专门的大数据计算引擎处理,例如用于交互式查询的 Amazon Athena、用于 Apache Spark 应用程序的 Amazon EMR、用于机器学习的 Amazon SageMaker 和用于数据可视化的 Amazon QuickSight。
AWS Glue 版本 2.0 采用快 10 倍的作业启动时间和 1 分钟最低计费持续时间
AWS Glue 是一项完全托管的提取、转换和加载 (ETL) 服务,可让客户更轻松地准备和加载数据以进行分析。Glue 是一项“无服务器”服务,您无需预置或管理任何资源,并且只需在 Glue 有效运行时为资源付费。
使用 AWS Glue 和 Amazon S3 构建数据湖基础
数据湖是一种越来越受欢迎的数据存储和分析方法,可解决处理海量异构数据的难题。数据湖可让组织将所有结构化和非结构化数据存储在一个集中式存储库中。由于数据可以按原样存储,因此无需将其转换为预先定义的数据结构(区别于传统关系型数据仓库)。
使用 AWS Glue 和 Amazon Athena 实现无服务器的自主型机器学习
您是否遇到过需要根据某些属性划分数据集的情况?K-means 是用于划分数据的最常见的机器学习算法之一。该算法 […]
AWS Glue 全托管 ETL 服务使用指南
作者:蒋华, AWS合作伙伴解决方案架构师 目 录 第1章 Glue概述 1.1 Glue介绍 1.2 Gl […]