AWS Glue 功能
為什麼選擇 Glue?
AWS Glue 是一種無伺服器、可擴展的資料整合服務,可讓您更輕鬆地探索、準備、移動和整合來自多個來源的資料,以進行分析、機器學習和應用程式開發。在生成式 AI 的協助下,AWS Glue 提供資料整合所需的所有功能,因此,您可以取得洞見,並在數分鐘內而非數月將資料投入使用。使用 AWS Glue,無須設定或管理任何基礎設施。您只需支付執行任務時使用的資源費用。
我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。
如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。
必要 Cookie 對於我們所提供的網站和服務而是必要的,而且無法停用。它們的設定通常是對您在網站上的動作的回應,例如,設定您的隱私偏好、登入或填寫表單。
效能 Cookie 提供有關客戶如何瀏覽我們網站的匿名統計資料,以便我們改善網站體驗和效能。獲核准的第三方可代表我們執行分析,但他們無法將資料用於自己的用途。
功能 Cookie 可協助我們提供實用的網站功能、記住您的偏好設定,以及顯示相關內容,獲核准的第三方可能會設定這些 Cookie 以提供特定網站功能。若您不允許這些 Cookie,則部分或全部服務可能無法正常運作。
我們或我們的廣告合作夥伴可以透過網站對廣告 Cookie 進行設定,協助我們提供相關的行銷內容。若您不允許這些 Cookie,您將看到相關程度較低的廣告。
封鎖部分類型的 Cookie 可能會影響您在使用我們的網站時的體驗。您可以隨時在本網站頁尾按一下「Cookie 偏好設定」來變更您的 Cookie 偏好設定。若要進一步了解我們和獲核准的第三方如何在我們的網站上使用 Cookie,請閱讀我們的 AWS Cookie 通知。
我們會在 AWS 網站和其他資產上顯示與您興趣相關的廣告,包括跨情境行為廣告。跨情境行為廣告使用來自一個網站或應用程式的資料,在不同公司的網站或應用程式上向您投放廣告。
若要不允許 AWS 根據 Cookie 或類似技術進行跨情境行為廣告,請在下方選取「不允許」並「儲存隱私權選擇」,或造訪已啟用法律認可拒絕訊號的 AWS 網站,例如全域隱私權控制。如果您刪除 Cookie 或從其他瀏覽器或裝置造訪本網站,您需要重新選擇。如需關於 Cookie 及其使用方式的詳細資訊,請參閱 AWS Cookie 聲明。
若要不允許所有其他 AWS 跨情境行為廣告,請透過電子郵件填寫此表單。
如需有關 AWS 如何處理您的資訊的詳細資訊,請閱讀 AWS 隱私權聲明。
我們目前只會儲存基本 Cookie,因為我們無法儲存您的 Cookie 偏好設定。
如果您想要變更 Cookie 偏好設定,請稍後使用 AWS 主控台頁尾中的連結重試,如果問題仍存在,請聯絡支援部門。
AWS Glue 是一種無伺服器、可擴展的資料整合服務,可讓您更輕鬆地探索、準備、移動和整合來自多個來源的資料,以進行分析、機器學習和應用程式開發。在生成式 AI 的協助下,AWS Glue 提供資料整合所需的所有功能,因此,您可以取得洞見,並在數分鐘內而非數月將資料投入使用。使用 AWS Glue,無須設定或管理任何基礎設施。您只需支付執行任務時使用的資源費用。
AWS Glue Data Catalog 是您所有資料資產的持久性中繼資料存放區,無論資料位於何處。資料型錄包含表格定義、任務定義、結構描述和其他控制資訊,可協助您管理 AWS Glue 環境。它會自動運算統計值和註冊分割,以有效且經濟實惠的方式針對您的資料進行查詢。還會維護一份完整的結構描述版本歷史,讓您了解資料隨時間的變更情況。
AWS Glue 爬蟲程式會連線至您的來源或目標資料存放區,依序處理已排定優先順序的分類器清單以判斷資料的結構描述,然後在 AWS Glue Data Catalog 建立中繼資料。中繼資料存放在 Data Catalog 的資料表中,並在擷取、轉換和載入 (ETL) 任務的編寫程序使用。您可以依排程或隨需執行爬蟲程式,也可以根據事件觸發,以確保中繼資料是最新狀態。
AWS Glue 結構描述登錄檔是 AWS Glue 的一種無伺服器功能,讓您能夠使用已註冊的 Apache Avro 結構描述來驗證和控制串流資料的演變,而無需額外付費。透過 Apache 授權的序列化程式和還原序列化程式,AWS Glue Schema Registry 可與為 Amazon Managed Streaming for Apache Kafka (Amazon MSK)、Amazon Kinesis Data Streams、Apache Flink、Amazon Kinesis Data Analytics for Apache Flink 和 AWS Lambda 開發的 Java 應用程式整合。將資料串流應用程式與 AWS Glue Schema Registry 整合後,您可以利用控管結構描述演變的相容性檢查,以提高資料品質並防止意外變更。此外,您可以使用登錄檔內儲存的結構描述建立或更新 AWS Glue 資料表和分區。
Auto Scaling 是 AWS Glue 中的一項無伺服器功能,可根據工作負載動態地向上和向下擴展資源。使用 Auto Scaling,您的任務僅在需要時才分配給工作者。隨著任務的進行,它會進行進階轉換,AWS Glue 會根據它可以拆分工作負載的程度來新增和移除資源。您不再需要擔心過度佈建資源、花時間最佳化工作者數量或為空閒資源付費。
AWS Glue 可協助您清潔和準備資料以進行分析,而無須成為 ML 專家。其 FindMatches 功能可消除重複資料,並尋找彼此不完全相符的紀錄。例如,使用 FindMatches 在您的資料庫中尋找重複記錄,比方說,有一筆記錄列出地址為 “121 Main St.” 的 “Joe's Pizza”,另一筆記錄顯示 “Joseph's Pizzeria” 的地址為 “121 Main” 時。 FindMatches 會請您將一組記錄標記為 “matching” (相符) 或 “not matching” (不相符)。 然後這個系統就會學習您的標準,將一組記錄稱為 “match” (比對相符),然後建置 ETL 任務,以用於尋找資料庫中的重複記錄,或在兩個資料庫間比對相符的記錄。
如果您選擇以互動方式開發 ETL 程式碼,AWS Glue 會提供開發端點讓您編輯、偵錯和測試為您產生的程式碼。您可以使用您最喜愛的整合式開發環境 (IDE) 或筆記型電腦。您可以撰寫自訂讀取程式、寫入程式或轉換,並將它們匯入 AWS Glue ETL 任務做為自訂程式庫。您也可以在我們的 GitHub 儲存庫使用並與其他開發人員共享程式碼。 AWS Glue 互動式工作階段是任務開發的無伺服器功能,可簡化資料整合任務的開發。工程師還可使用他們選擇的 IDE 或筆記本以互動方式探索、實驗和處理資料。
AWS Glue DataBrew 為資料分析人員和資料科學家等使用者提供一個點按式互動視覺化界面,無需編寫程式碼即可清理和標準化資料。您可以直接從資料湖、資料倉儲和資料庫 (Amazon Simple Storage Service (Amazon S3)、Amazon Redshift、Amazon Aurora 和 Amazon Relational Database Service (Amazon RDS)) 輕鬆地視覺化、清理和標準化資料。您可以從 250 多種內建轉換中進行選擇,以合併、旋轉和轉置資料,並可透過直接將儲存的轉換套用於傳入的新資料,自動執行資料準備任務。
AWS Glue 敏感資料偵測可協助您定義、識別和處理資料管道和資料湖中的敏感資料。識別後,您可以透過編輯、取代或報告個人身分識別資訊 (PII) 資料和其他類型的敏感資料來修復敏感資料。AWS Glue 敏感資料偵測簡化了敏感資料的識別和遮罩,包括姓名、社會安全號碼、地址、電子郵件和駕照等 PII。
開發人員喜歡 Python,因為其易於使用且內建豐富的資料處理程式庫。他們希望使用熟悉的 Python 原始類型來處理大型資料集。AWS Glue for Ray 協助資料工程師使用 Python 和常用的 Python 程式庫來處理大型資料集。AWS Glue for Ray 使用 Ray.io,這是一種開放原始碼統一運算架構,可協助將 Python 工作負載從單一節點擴展至數百個節點。AWS Glue for Ray 無伺服器,因此不需要管理基礎設施。
AWS Glue 可協助您建立自訂視覺轉換,以便您可以定義、重複使用和共用 ETL 邏輯。 藉助 AWS Glue Custom Visual Transforms,資料工程師可以編寫和共用業務特定的 Apache Spark 邏輯,從而減少對 Spark 開發人員的依賴,並且更輕鬆地使 ETL 任務保持最新狀態。無論是視覺化還是以程式碼為基礎,這些轉換適用於 AWS 帳戶中的所有任務。
AWS Glue 提供生成式 AI 功能,可自動分析您的 Spark 任務並產生更新版本的升級計劃。透過自動識別和更新指令碼與組態,這可以減少保持 Spark 任務現代化、安全和高效能所需的時間和精力。
AWS Glue 使用生成式 AI 快速識別和解決 Spark 任務中的問題。它會分析任務中繼資料、執行日誌和組態,以提供根本原因分析和可行的建議,將疑難排解時間從幾天縮短為幾分鐘。
AWS Glue 互動式工作階段是任務開發的無伺服器功能,可簡化資料整合任務的開發。使用 AWS Glue 互動式工作階段,資料工程師能夠以互動方式探索和準備資料。工程師還可使用他們選擇的 IDE 或筆記本以互動方式探索、實驗和處理資料。
AWS Glue Studio 任務筆記本提供了在 AWS Glue Studio 中進行極少設定的無伺服器筆記本,因此開發人員可以快速入門。使用 AWS Glue Studio 任務筆記本,您可以存取內建介面來處理 AWS Glue 互動式工作階段,以儲存您的筆記本程式碼並將其排程為 AWS Glue 任務。
您可以依排程、隨需或根據事件叫用 AWS Glue 任務。您可以平行啟動多個任務,或指定任務間的相依性以建立複雜的 ETL 管道。AWS Glue 會處理所有任務間的相依性、篩選不良資料,並在任務失敗時重試。所有日誌和通知都會推送到 Amazon CloudWatch,讓您從一個集中的服務監控和取得提醒。 適用於 Apache Airflow 的 Amazon Managed Workflows (MWAA) 是 Apache Airflow 的一項受管服務,可讓您使用目前熟悉的 Apache Airflow 平台來協調工作流程。使用 MWAA,您可協調在複雜的 ETL 工作流程內使用不同技術的多個 ETL 程序。
AWS Glue 與廣泛使用的開放原始碼版本控制系統 Git 整合。您可以使用 GitHub 和 AWS CodeCommit 來維護對 AWS Glue 任務做出變更的歷史記錄,並套用現有的 DevOps 實務來對其進行部署。AWS Glue 中的 Git 整合適用於所有 AWS Glue 任務類型,無論是視覺化還是以程式碼為基礎。其包括與 GitHub 和 CodeCommit 的內建整合,還可更輕鬆地使用 Jenkins 和 AWS CodeDeploy 等自動化工具來部署 AWS Glue 任務。
AWS Glue Flex 是一個靈活的執行任務類別,允許您將非緊急資料整合工作負載 (例如預生產任務、測試和資料負載等) 的成本降低 35%。AWS Glue 有兩個任務執行類別:標準和靈活。標準執行類別非常適合需要快速任務啟動和專用資源的時間敏感型工作負載。AWS Glue Flex 適用於開始和完成時間可能變化的非時間敏感型任務。
AWS Glue 原生支援三種開放原始碼架構,包括 Apache Hudi、Apache Iceberg 和 Linux Foundation Delta Lake。這些架構可協助您以交易一致的方式管理資料,以便在以 Amazon S3 為基礎的資料湖中使用。
AWS Glue Data Quality 可協助您提升資料品質和信心。它會自動測量、監控和管理資料湖和管道中的資料品質。它還會自動計算統計資料、推薦品質規則、進行監控,並在品質下降時向您發出提醒,從而在影響您的企業之前更輕鬆地識別遺失、陳舊或不良資料。
AWS Glue 5.0 及更高版本透過為存取 Apache Iceberg、Apache Hudi 和 Delta 資料表的 Apache Spark 任務提供資料表、欄和列層級許可的存取控制,協助簡化事務資料湖的安全性和管控。
AWS Glue Studio 允許您編寫高度可擴展的 ETL 任務以進行分散式處理,而無須成為 Apache Spark 專家。在拖放任務編輯器中定義您的 ETL 程序,AWS Glue 則會自動產生程式碼以擷取、轉換和載入資料。此程式碼以 Scala 或 Python 產生,針對 Apache Spark 撰寫。
藉助 AWS Glue 中的 Amazon Q 資料整合,使用自然語言建立 ETL 任務。僅需描述您的資料轉換需求,即可取得自動產生的 Apache Spark 程式碼,您可以作為生產任務自訂、測試和部署這些程式碼。
AWS Glue 中的無伺服器串流 ETL 任務持續取用包括 Amazon Kinesis 和 Amazon MSK 在內的串流來源中的資料,對資料進行即時清除和轉換,並使其在幾秒內即可用於在您的目標資料存放區中進行分析。使用這項功能處理 IoT 事件串流、點擊流和網路日誌等事件資料。AWS Glue 串流 ETL 任務可豐富和彙總資料,聯結批次和串流來源,以及執行各種複雜分析和機器學習操作。
AWS Glue Data Catalog 支援 Apache Iceberg 資料表的最佳化。
AWS Glue Data Catalog 支援資料壓縮,可壓縮小型資料檔案以減少儲存用量並提高讀取效能。
AWS Glue Data Catalog 支援快照保留最佳化工具,透過僅保留所需的快照並移除不必要的舊快照以及其相關的基礎檔案,協助管理儲存開銷。
AWS Glue Data Catalog 支援定期識別和移除不必要的未參考檔案,從而釋放儲存空間。
AWS Glue Data Catalog 支援計算和更新 Iceberg 資料表中每欄的不同值 (NDV) 的數量,從而為處理大規模資料集的資料工程師和科學家提供更理想的查詢最佳化、資料管理和效能效率。
AWS Glue Data Catalog 支援各種資料格式的欄層統計資料格式,例如 Parquet、ORC、JSON、ION、CSV 和 XML。Amazon Redshift 和 Amazon Athena 等 AWS 分析服務可以使用這些欄統計資料來產生查詢執行計劃,並選擇可提高查詢效能的最佳計劃。