ETL คืออะไร
กระบวนการ Extract, transform and load (ETL) เป็นกระบวนการรวมข้อมูลจากหลายแหล่งไปยังพื้นที่เก็บข้อมูลส่วนกลางขนาดใหญ่ที่เรียกว่าคลังข้อมูล ETL ใช้ชุดกฎทางธุรกิจเพื่อล้างและจัดระเบียบข้อมูลดิบ และเตรียมข้อมูลดังกล่าวสำหรับการจัดเก็บ การวิเคราะห์ข้อมูล แล ะแมชชีนเลิร์นนิง (ML) คุณสามารถระบุความต้องการธุรกิจอัจฉริยะเฉพาะผ่านการวิเคราะห์ข้อมูล (เช่น การคาดการณ์ผลลัพธ์ของการตัดสินใจทางธุรกิจ การสร้างรายงานและแดชบอร์ด การลดความไร้ประสิทธิภาพในการดำเนินงาน และอื่นๆ อีกมากมาย)
ETL มีความสำคัญอย่างไร
องค์กรในปัจจุบันมีทั้งข้อมูลที่มีโครงสร้างและไม่มีโครงสร้างจากแหล่งต่างๆ ได้แก่
- ข้อมูลลูกค้าจากระบบการชำระเงินออนไลน์และการจัดการลูกค้าสัมพันธ์ (CRM)
- ข้อมูลสินค้าคงคลังและการดำเนินงานจากระบบผู้ขาย
- ข้อมูลเซ็นเซอร์จากอุปกรณ์ Internet of Things (IoT)
- ข้อมูลการตลาดจากโซเชียลมีเดียและคำติชมของลูกค้า
- ข้อมูลพนักงานจากระบบทรัพยากรบุคคลภายใน
การใช้กระบวนการ Extract, transform and load (ETL) ทำให้ชุดข้อมูลดิบแต่ละรายการสามารถจัดเตรียมในรูปแบบและโครงสร้างที่ใช้งานได้มากขึ้นสำหรับวัตถุประสงค์ในการวิเคราะห์ ส่งผลให้มีข้อมูลเชิงลึกที่มีความหมายมากขึ้น ตัวอย่างเช่น ผู้ค้าปลีกออนไลน์สามารถวิเคราะห์ข้อมูลจากจุดขายเพื่อคาดการณ์ความต้องการและจัดการสินค้าคงคลัง ทีมการตลาดสามารถรวมข้อมูล CRM เข้ากับคำติชมของลูกค้าบนโซเชียลมีเดียเพื่อศึกษาพฤติกรรมผู้บริโภค
ETL มีประโยชน์ต่อระบบธุรกิจอัจฉริยะอย่างไร
กระบวนการ Extract, transform and load (ETL) จะปรับปรุงข้อมูลและการวิเคราะห์ทางธุรกิจโดยทำให้กระบวนการมีความน่าเชื่อถือ แม่นยำ ละเอียด และมีประสิทธิภาพมากขึ้น
บริบททางประวัติศาสตร์
ETL ให้บริบททางประวัติศาสตร์เชิงลึกแก่ข้อมูลขององค์กร องค์กรสามารถรวมข้อมูลเดิมกับข้อมูลจากแพลตฟอร์มและแอปพลิเคชันใหม่ได้ สามารถดูชุดข้อมูลเก่าควบคู่ไปกับข้อมูลล่าสุดได้ ซึ่งจะทำให้เห็นข้อมูลในระยะยาว
มุมมองข้อมูลแบบ Consolidated
ETL ให้มุมมองโดยรวมของข้อมูลสำหรับการวิเคราะห์และการรายงานในเชิงลึก การจัดการชุดข้อมูลหลายชุดต้องใช้เวลาและการประสานงาน และอาจส่งผลให้เกิดความไร้ประสิทธิภาพและความล่าช้า ETL รวมฐานข้อมูลและรูปแบบข้อมูลต่างๆ ไว้ในมุมมองเดียวโดยรวม กระบวนการรวมข้อมูลช่วยปรับปรุงคุณภาพข้อมูลและประหยัดเวลาที่จำเป็นในการย้าย จัดประเภท หรือกำหนดมาตรฐานข้อมูล ซึ่งช่วยให้วิเคราะห์ แสดงภาพ และเข้าใจชุดข้อมูลขนาดใหญ่ได้ง่ายขึ้น
การวิเคราะห์ข้อมูลที่แม่นยำ
ETL ให้การวิเคราะห์ข้อมูลที่แม่นยำยิ่งขึ้นเพื่อให้เป็นไปตามมาตรฐานและการปฏิบัติตามกฎระเบียบ เครื่องมือ ETL สามารถผสานรวมกับเครื่องมือคุณภาพข้อมูลเพื่อสร้างโปรไฟล์ ตรวจสอบ และล้างข้อมูล เพื่อให้มั่นใจว่าข้อมูลมีความน่าเชื่อถือ
งานอัตโนมัติ
ETL ดำเนินการประมวลผลข้อมูลซ้ำโดยอัตโนมัติเพื่อการวิเคราะห์ที่มีประสิทธิภาพ เครื่องมือ ETL จะทำให้กระบวนการย้ายข้อมูลเป็นไปโดยอัตโนมัติ และสามารถตั้งค่าให้รวมการเปลี่ยนแปลงข้อมูลเป็นระยะๆ หรือแม้แต่ในรันไทม์ได้ ส่งผลให้วิศวกรข้อมูลสามารถใช้เวลาในการสร้างสรรค์สิ่งใหม่ๆ ได้มากขึ้น และไม่เสียเวลาในการจัดการงานที่น่าเบื่อ เช่น การย้ายและการจัดรูปแบบข้อมูล
ETL มีการพัฒนาอย่างไร
กระบวนการ Extract, transform and load (ETL) กำเนิดขึ้นจากการเกิดขึ้นของ Rational Database (ฐานข้อมูลแบบเชิงสัมพันธ์) ที่จัดเก็บข้อมูลในรูปแบบของตารางสำหรับการวิเคราะห์ เครื่องมือ ETL รุ่นแรกๆ พยายามจะแปลงข้อมูลจากรูปแบบข้อมูลธุรกรรมเป็นรูปแบบข้อมูลเชิงสัมพันธ์สำหรับการวิเคราะห์
ETL แบบดั้งเดิม
โดยทั่วไป ข้อมูลดิบจะถูกเก็บไว้ในฐานข้อมูลธุรกรรมที่รองรับคำขออ่านและเขียนจำนวนมาก แต่วิเคราะห์ได้ไม่ดีนัก อาจนึกภาพเป็นแถวในสเปรดชีต ตัวอย่างเช่น ในระบบอีคอมเมิร์ซ ฐานข้อมูลธุรกรรมจัดเก็บสินค้าที่ซื้อ รายละเอียดลูกค้า และรายละเอียดการสั่งซื้อไว้ในธุรกรรมเดียว ตลอดทั้งปี มีรายการธุรกรรมยาวเหยียดที่มีรายการซ้ำสำหรับลูกค้ารายเดิมที่ซื้อสินค้าหลายรายการในระหว่างปี ด้วยความซ้ำซ้อนของข้อมูล การวิเคราะห์สินค้ายอดนิยมหรือแนวโน้มการซื้อในปีนั้นจึงกลายเป็นเรื่องยุ่งยาก
เพื่อแก้ไขปัญหานี้ เครื่องมือ ETL จะแปลงข้อมูลธุรกรรมนี้เป็นข้อมูลเชิงสัมพันธ์โดยอัตโนมัติด้วยตารางที่เชื่อมต่อถึงกัน นักวิเคราะห์สามารถใช้การสืบค้นเพื่อระบุความสัมพันธ์ระหว่างตาราง นอกเหนือจากรูปแบบและแนวโน้ม
ETL สมัยใหม่
เมื่อเทคโนโลยี ETL พัฒนาขึ้น ทั้งประเภทข้อมูลและ Data Source (แหล่งที่มาของข้อมูล) ก็เพิ่มขึ้นอย่างทวีคูณ เทคโนโลยีคลาวด์เกิดขึ้นเพื่อสร้างฐานข้อมูลขนาดใหญ่ (เรียกอีกอย่างว่า Data Sink) Data Sink สามารถรับข้อมูลจากหลายแหล่งและมีทรัพยากรฮาร์ดแวร์พื้นฐานที่สามารถเพิ่มทรัพยากรได้เมื่อเวลาผ่านไป อีกทั้งเครื่องมือ ETL ยังมีความซับซ้อนมากขึ้นและสามารถทำงานร่วมกับชุดข้อมูลที่ทันสมัยได้ สามารถแปลงข้อมูลจากรูปแบบข้อมูลดั้งเดิมเป็นรูปแบบข้อมูลที่ทันสมัย ตัวอย่างของฐานข้อมูลสมัยใหม่มีดังต่อไปนี้
คลังข้อมูล
คลังข้อมูลเป็นพื้นที่เก็บส่วนกลางที่สามารถจัดเก็บฐานข้อมูลได้หลายฐานข้อมูล ภายในแต่ละฐานข้อมูล สามารถจัดระเบียบข้อมูลลงในตารางและคอลัมน์ที่อธิบายชนิดข้อมูลในตารางได้ ซอฟต์แวร์คลังข้อมูลทำงานบนฮาร์ดแวร์การจัดเก็บข้อมูลหลายประเภท เช่น โซลิดสเตตไดรฟ์ (SSD) ฮาร์ดไดรฟ์ และพื้นที่เก็บข้อมูลระบบคลาวด์อื่นๆ เพื่อเพิ่มประสิทธิภาพการประมวลผลข้อมูล
Data Lake
สามารถใช้ Data Lake เพื่อจัดเก็บข้อมูลที่มีโครงสร้างและไม่มีโครงสร้างในที่เก็บแบบรวมศูนย์แห่งเดียวและทุกขนาด สามารถจัดเก็บข้อมูลตามที่เป็นอยู่โดยไม่ต้องจัดโครงสร้างตามคำถามที่อาจมีในอนาคตก่อน Data Lake ยังอนุญาตให้เรียกใช้การวิเคราะห์ข้อมูลประเภทต่างๆ เช่น การสืบค้นด้วย SQL การวิเคราะห์ด้วย Big Data การค้นหาข้อความเต็ม การวิเคราะห์แบบเรียลไทม์ และ Machine Learning (แมชชีนเลิร์นนิง) (ML) เพื่อเป็นแนวทางในการตัดสินใจที่ดีขึ้น
กระบวนการ ETL ทำงานอย่างไร
กระบวนการ Extract, Transform and Load (ETL) ทำงานโดยการย้ายข้อมูลจากระบบต้นทางไปยังระบบปลายทางตามช่วงเวลา กระบวนการ ETL ทำงานในสามขั้นตอน ดังนี้
- ดึงข้อมูลที่เกี่ยวข้องจากฐานข้อมูลต้นทาง
- แปลงข้อมูลเพื่อให้เหมาะสมกับการวิเคราะห์มากขึ้น
- โหลดข้อมูลลงในฐานข้อมูลเป้าหมาย
การแยกข้อมูลคืออะไร
ในการแยกข้อมูล เครื่องมือการ Extract, Transform and Load (ETL) (กระบวนการ Extract, Transform and Load (ETL)) จะแยกหรือคัดลอกข้อมูลดิบจากหลายแหล่งและจัดเก็บไว้ในบริเวณที่จัดเตรียมไว้ บริเวณที่จัดเตรียมไว้ (หรือ Landing Zone) เป็นพื้นที่จัดเก็บระดับกลางสำหรับการจัดเก็บข้อมูลที่แยกออกมาชั่วคราว พื้นที่การจัดเตรียมข้อมูลมักจะเป็นแบบชั่วคราว หมายความว่าเนื้อหาจะถูกลบออกหลังจากการดึงข้อมูลเสร็จสิ้น อย่างไรก็ตาม บริเวณที่จัดเตรียมไว้อาจ Retain ข้อมูลไว้เพื่อวัตถุประสงค์ในการแก้ไขปัญหา
ความถี่ที่ระบบส่งข้อมูลจากแหล่งที่มาของข้อมูลไปยังที่เก็บข้อมูลเป้าหมายขึ้นอยู่กับกลไกการเก็บข้อมูลการเปลี่ยนแปลงที่สำคัญ การแยกข้อมูลมักเกิดขึ้นด้วยวิธีใดวิธีหนึ่งจากสามวิธีต่อไปนี้
การแจ้งเตือนการอัปเดต
ในการแจ้งเตือนการอัปเดต ระบบต้นทางจะแจ้งให้ทราบเมื่อ Data Record (บันทึกข้อมูล) มีการเปลี่ยนแปลง จากนั้นสามารถเรียกใช้กระบวนการแยกสำหรับการเปลี่ยนแปลงนั้นได้ ฐานข้อมูลและเว็บแอปพลิเคชันส่วนใหญ่มีกลไกการอัปเดตเพื่อรองรับวิธีรวบรวมข้อมูลนี้
การแยกเพิ่มเติม
แหล่งที่มาของข้อมูลบางแห่งไม่สามารถแจ้งเตือนการอัปเดตได้ แต่สามารถระบุและแยกข้อมูลที่ได้รับการแก้ไขได้ในช่วงเวลาที่กำหนด ในกรณีนี้ ระบบจะตรวจสอบการเปลี่ยนแปลงเป็นระยะ เช่น สัปดาห์ละครั้ง เดือนละครั้ง หรือเมื่อสิ้นสุดแคมเปญ เพียงแยกข้อมูลที่มีการเปลี่ยนแปลงเท่านั้น
การแยกเต็มรูปแบบ
บางระบบไม่สามารถระบุการเปลี่ยนแปลงข้อมูลหรือแจ้งเตือนได้ ดังนั้นการโหลดข้อมูลทั้งหมดจึงเป็นทางเลือกเดียว วิธีการแยกนี้กำหนดให้คุณต้องเก็บสำเนาของการแยกล่าสุดเพื่อตรวจสอบว่าระเบียนใดเป็นข้อมูลใหม่ เนื่องจากวิธีการนี้เกี่ยวข้องกับปริมาณการถ่ายโอนข้อมูลจำนวนมาก เราแนะนำให้ใช้เฉพาะกับตารางขนาดเล็กเท่านั้น
การแปลงข้อมูลคืออะไร
ในการแปลงข้อมูล เครื่องมือการ Extract, Transform and Load (ETL) (กระบวนการ Extract, Transform and Load (ETL)) จะแปลงและรวบรวมข้อมูลดิบในบริเวณที่จัดเตรียมไว้เพื่อเตรียมพร้อมสำหรับคลังข้อมูลเป้าหมาย ขั้นตอนการแปลงข้อมูลอาจเกี่ยวข้องกับการเปลี่ยนแปลงข้อมูลประเภทต่อไปนี้
การแปลงข้อมูลพื้นฐาน
การแปลงข้อมูลพื้นฐานช่วยปรับปรุงคุณภาพข้อมูลโดยลบข้อผิดพลาด ล้างข้อมูลในช่องข้อมูล หรือลดความซับซ้อนของข้อมูลลง ตัวอย่างของการแปลงมีดังนี้
การล้างข้อมูล
การล้างข้อมูลช่วยกำจัดข้อผิดพลาดและจับคู่ข้อมูลต้นฉบับกับรูปแบบข้อมูลเป้าหมาย ตัวอย่างเช่น สามารถจับคู่สาขาข้อมูลที่ว่างเปล่ากับตัวเลข 0 จับคู่ค่าข้อมูล "Parent" กับ "P" หรือจับคู่ "Child" กับ "C"
การกำจัดข้อมูลซ้ำซ้อน
การกำจัดข้อมูลซ้ำซ้อนในการล้างข้อมูลจะระบุและลบระเบียนที่ซ้ำกัน
การแก้ไขรูปแบบข้อมูล
การแก้ไขรูปแบบจะแปลงข้อมูล เช่น ชุดอักขระ หน่วยวัด และค่าวันที่/เวลา ให้อยู่ในรูปแบบที่สอดคล้องกัน ตัวอย่างเช่น บริษัทอาหารอาจมีฐานข้อมูลสูตรอาหาร (Recipe) ที่แตกต่างกัน โดยมีหน่วยวัดเป็นกิโลกรัมและปอนด์ ETL จะแปลงทุกอย่างเป็นปอนด์
การแปลงข้อมูลขั้นสูง
การแปลงขั้นสูงใช้กฎทางธุรกิจเพื่อปรับข้อมูลให้เหมาะสมเพื่อการวิเคราะห์ที่ง่ายขึ้น ตัวอย่างของการแปลงมีดังนี้
Derivation
Derivation ใช้กฎเกณฑ์ทางธุรกิจกับข้อมูลเพื่อคำนวณค่าใหม่จากค่าที่มีอยู่ ตัวอย่างเช่น สามารถแปลงรายได้เป็นกำไรโดยการลบค่าใช้จ่ายหรือคำนวณต้นทุนรวมของการซื้อโดยการคูณราคาของแต่ละรายการด้วยจำนวนรายการที่สั่งซื้อ
การเข้าร่วม
ในการเตรียมข้อมูล การเข้าร่วมจะเชื่อมโยงข้อมูลเดียวกันจากแหล่งที่มาของข้อมูลต่างๆ ตัวอย่างเช่น สามารถค้นหาต้นทุนการซื้อทั้งหมดของสินค้าหนึ่งรายการโดยการเพิ่มมูลค่าการซื้อจากผู้ขายต่างๆ และจัดเก็บเฉพาะยอดรวมสุดท้ายในระบบเป้าหมาย
การแยก
สามารถแบ่งคอลัมน์หรือคุณสมบัติข้อมูลออกเป็นหลายคอลัมน์ในระบบเป้าหมายได้ ตัวอย่างเช่น ถ้าแหล่งที่มาของข้อมูลบันทึกชื่อลูกค้าเป็น “Jane John Doe” ก็สามารถแยกเป็นชื่อแรก ชื่อกลาง และชื่อสุดท้ายได้
การสรุป
การสรุปจะช่วยปรับปรุงคุณภาพข้อมูลโดยลดค่าข้อมูลจำนวนมากในชุดข้อมูลที่มีขนาดเล็กลง ตัวอย่างเช่น มูลค่าใบแจ้งหนี้ใบสั่งของลูกค้าอาจมีจำนวนเงินเล็กน้อยที่แตกต่างกันได้ สามารถสรุปข้อมูลได้โดยการเพิ่มในช่วงเวลาที่กำหนดเพื่อสร้างตัววัดมูลค่าตลอดอายุการใช้งานของลูกค้า (CLV)
การเข้ารหัส
สามารถปกป้องข้อมูลที่ละเอียดอ่อนเพื่อให้เป็นไปตามกฎหมายข้อมูลหรือความเป็นส่วนตัวของข้อมูลโดยเพิ่มการเข้ารหัสก่อน Data Stream ไปยังฐานข้อมูลเป้าหมาย
การโหลดข้อมูลคืออะไร
ในการโหลดข้อมูล เครื่องมือในการ extract transform and load (ETL) จะย้ายข้อมูลที่แปลงแล้วจากพื้นที่การจัดเตรียมไปยังคลังข้อมูลเป้าหมาย องค์กรส่วนใหญ่ที่ใช้ ETL กระบวนการจะเป็นไปโดยอัตโนมัติ ชัดเจน ต่อเนื่อง และขับเคลื่อนด้วยแบทช์ สองวิธีในการโหลดข้อมูลมีดังต่อไปนี้
การโหลดแบบเต็มรูปแบบ
ในการโหลดแบบเต็มรูปแบบ ข้อมูลทั้งหมดจากแหล่งที่มาจะถูกแปลงและย้ายไปยังคลังข้อมูล การโหลดแบบเต็มรูปแบบมักจะเกิดขึ้นในครั้งแรกที่โหลดข้อมูลจากระบบต้นทางไปยังคลังข้อมูล
การโหลดเพิ่มเติม
ในการโหลดเพิ่มเติม เครื่องมือ ETL จะโหลดเดลต้า (หรือส่วนต่าง) ระหว่างระบบเป้าหมายและระบบต้นทางในช่วงเวลาปกติ ซึ่งจะเก็บวันที่แยกล่าสุดเพื่อให้โหลดเฉพาะระเบียนที่เพิ่มหลังจากวันที่นี้เท่านั้น การดำเนินการโหลดเพิ่มมีสองวิธี
การโหลดเพิ่มเติมแบบสตรีม
หากมีปริมาณข้อมูลน้อย สามารถสตรีมการเปลี่ยนแปลงอย่างต่อเนื่องผ่าน Data Pipeline ไปยังคลังข้อมูลเป้าหมายได้ เมื่อความเร็วของข้อมูลเพิ่มขึ้นนับล้านเหตุการณ์ต่อวินาที สามารถใช้การประมวลผลสตรีมเหตุการณ์เพื่อตรวจสอบและประมวลผลการสตรีมข้อมูล (Data Stream) เพื่อตัดสินใจได้ทันท่วงที
การโหลดเพิ่มเติมแบบชุด
หากมีปริมาณข้อมูลมาก สามารถรวบรวมการเปลี่ยนแปลงข้อมูลการโหลดเป็นชุดเป็นระยะๆ ในช่วงเวลาที่กำหนดนี้ จะไม่มีการดำเนินการใดๆ เกิดขึ้นกับระบบต้นทางหรือเป้าหมายเนื่องจากมีการซิงโครไนซ์ข้อมูลอยู่
ELT คืออะไร
กระบวนการ Extract, Load and Transform (ELT) เป็นส่วนขยายของ Extract, Transform and Load (ETL) (กระบวนการ Extract, Transform and Load (ETL)) ที่กลับลำดับของการดำเนินการ สามารถโหลดข้อมูลลงในระบบเป้าหมายได้โดยตรงก่อนประมวลผล ไม่จำเป็นต้องใช้พื้นที่การจัดเตรียมระดับกลาง เนื่องจากคลังข้อมูลเป้าหมายมีความสามารถในการทำแผนที่ข้อมูลอยู่ภายใน ELT ได้รับความนิยมมากขึ้นด้วยการนำโครงสร้างพื้นฐานระบบคลาวด์มาใช้ ซึ่งให้พลังการประมวลผลที่จำเป็นต่อฐานข้อมูลเป้าหมายในการแปลง
ETL เทียบกับ ELT
ELT ทำงานได้ดีสำหรับชุดข้อมูลที่มีปริมาณมากและไม่มีโครงสร้างซึ่งต้องการการโหลดบ่อยครั้ง นอกจากนี้ยังเหมาะอย่างยิ่งสำหรับข้อมูลขนาดใหญ่ (Big Data) เนื่องจากการวางแผนสำหรับการวิเคราะห์สามารถทำได้หลังจากการดึงข้อมูลและจัดเก็บข้อมูล มีการแปลงจำนวนมากสำหรับขั้นตอนการวิเคราะห์และมุ่งเน้นไปที่การโหลดข้อมูลดิบที่ผ่านการประมวลน้อยที่สุดลงในคลังข้อมูล
กระบวนการ ETL ต้องการคำจำกัดความเพิ่มเติมในตอนเริ่มต้น การวิเคราะห์จำเป็นต้องมีส่วนร่วมตั้งแต่เริ่มต้นเพื่อกำหนดประเภทข้อมูล โครงสร้าง และความสัมพันธ์เป้าหมาย นักวิทยาศาสตร์ข้อมูลส่วนใหญ่ใช้ ETL เพื่อโหลดฐานข้อมูลแบบดั้งเดิมลงในคลัง และ ELT ก็กลายมาเป็นบรรทัดฐานในปัจจุบัน
การจำลองระบบเสมือนของข้อมูลคืออะไร
การจำลองระบบเสมือนของข้อมูลใช้ชั้นนามธรรมของซอฟต์แวร์เพื่อสร้างมุมมองข้อมูลแบบบูรณาการโดยไม่แยก แปลง หรือโหลดข้อมูลทางกายภาพ องค์กรใช้ฟังก์ชันนี้เป็นที่เก็บข้อมูลเสมือนแบบเบ็ดเสร็จโดยไม่มีค่าใช้จ่ายและความซับซ้อนในการสร้างและจัดการแพลตฟอร์มที่แยกจากกันสำหรับแหล่งที่มาและเป้าหมาย การที่ใช้การจำลองระบบเสมือนของข้อมูลควบคู่ไปกับกระบวนการ Extract, Transform and Load (ETL) ได้นั้น ทำให้เห็นมากขึ้นว่าเป็นทางเลือกแทน ETL และวิธีการรวบรวมข้อมูลทางกายภาพอื่นๆ ตัวอย่างเช่น คุณสามารถใช้ AWS Glue Elastic Views ในการสร้างตารางเสมือนซึ่งเป็นมุมมองผลการสืบค้นจากพื้นที่จัดเก็บข้อมูลต้นทางต่าง ๆ หลายแห่งได้อย่างรวดเร็ว
AWS Glue คืออะไร
AWS Glue คือบริการผสานข้อมูลแบบไม่ต้องใช้เซิร์ฟเวอร์ที่ช่วยทำให้การค้นหา จัดเตรียม ย้าย ผสานข้อมูลสำหรับการวิเคราะห์ แมชชีนเลิร์นนิง และการพัฒนาแอปพลิเคชันง่ายขึ้น
- คุณสามารถค้นพบและเชื่อมต่อกับที่เก็บข้อมูลที่หลากหลาย 80+ แห่ง
- คุณสามารถจัดการข้อมูลของคุณในแคตตาล็อกข้อมูลส่วนกลาง
- วิศวกรข้อมูล นักพัฒนา ETL นักวิเคราะห์ข้อมูล และผู้ใช้ทางธุรกิจสามารถใช้ AWS Glue Studio เพื่อสร้าง เรียกใช้ และตรวจสอบไปป์ไลน์ ETL เพื่อโหลดข้อมูลลงใน Data Lake
- AWS Glue Studio มีอินเทอร์เฟซ Visual ETL, Notebook, และโปรแกรมแก้ไขโค้ด ดังนั้นผู้ใช้จึงมีเครื่องมือที่เหมาะสมกับทักษะต่างๆ ของตน
- ด้วย Interactive Sessions วิศวกรข้อมูลสามารถสำรวจข้อมูล ตลอดจนสร้างและทดสอบงานโดยใช้ IDE หรือ Notebook ที่พวกเขาต้องการ
- AWS Glue เป็นแบบไม่ต้องใช้เซิร์ฟเวอร์และปรับขนาดตามความต้องการโดยอัตโนมัติ ดังนั้นคุณจึงสามารถเน้นที่การรับข้อมูลเชิงลึกจากข้อมูลขนาดเพตะไบต์โดยไม่ต้องจัดการโครงสร้างพื้นฐาน
เริ่มต้นใช้งาน AWS Glue ด้วยการสร้างบัญชี AWS