กระบวนการ ETL และ ELT แตกต่างกันอย่างไร
กระบวนการ Extract, Transform and Load (ETL) และ Extract, Load and Transform (ELT) เป็นสองแนวทางในการประมวลผลข้อมูลสำหรับการวิเคราะห์ องค์กรขนาดใหญ่มีแหล่งที่มาของข้อมูลหลายร้อยแหล่ง (หรือหลายพันรายการ) จากทุกแง่มุมของการดำเนินงาน เช่น แอปพลิเคชัน เซ็นเซอร์ โครงสร้างพื้นฐานด้านไอที และพาร์ทเนอร์บุคคลที่สาม พวกเขาจะต้องกรอง เรียงลำดับ และล้างปริมาณข้อมูลขนาดใหญ่นี้เพื่อให้มีประโยชน์สำหรับการวิเคราะห์และระบบธุรกิจอัจฉริยะ กระบวนการ ETL ใช้ชุดของกฎทางธุรกิจในการประมวลผลข้อมูลจากหลายแหล่งก่อนที่จะรวมไว้ที่ส่วนกลาง กระบวนการ ELT จะโหลดข้อมูลตามที่เป็นอยู่และจะแปลงข้อมูลในภายหลัง โดยขึ้นอยู่กับกรณีการใช้งานและข้อกำหนดความต้องการในการวิเคราะห์ กระบวนการ ETL ต้องการคำจำกัดความเพิ่มเติมในตอนเริ่มต้น การวิเคราะห์ต้องเข้ามามีส่วนร่วมตั้งแต่เริ่มต้นเพื่อกำหนดเป้าหมายประเภทข้อมูล โครงสร้าง และความสัมพันธ์ นักวิทยาศาสตร์ข้อมูลใช้กระบวนการ ETL เป็นหลักเพื่อนำเข้าฐานข้อมูลแบบดั้งเดิมลงในคลังข้อมูล ขณะที่กระบวนการ ELT นั้นได้กลายมาเป็นมาตรฐานในปัจจุบันไปแล้ว
อะไรคือความคล้ายคลึงกันระหว่างกระบวนการ ETL และ ELT
ทั้งกระบวนการ Extract, Transform and Load (ETL) และกระบวนการ Extract, Load and Transform (ELT) เป็นลำดับของกระบวนการที่เตรียมข้อมูลสำหรับการวิเคราะห์เพิ่มเติม กระบวนการทั้งคู่จะจับข้อมูล ประมวลผล และนำเข้าข้อมูลสำหรับการวิเคราะห์ในสามขั้นตอน
การดึงข้อมูล
การดึงข้อมูลเป็นขั้นตอนแรกของทั้ง ETL และ ELT ขั้นตอนนี้เกี่ยวกับการรวบรวมข้อมูลดิบจากแหล่งต่างๆ โดยอาจเป็นฐานข้อมูล, ไฟล์, Software as a Service (SaaS), เซ็นเซอร์ Internet of Things (IoT) หรือเหตุการณ์ของแอปพลิเคชัน คุณสามารถรวบรวมข้อมูลกึ่งโครงสร้าง มีโครงสร้าง หรือไม่มีโครงสร้างในขั้นตอนนี้ได้
การแปลงข้อมูล
ในกระบวนการ ETL การแปลงข้อมูลเป็นขั้นตอนที่สอง ในขณะที่ในกระบวนการ ELT จะเป็นขั้นตอนที่สาม ขั้นตอนนี้จะมุ่งเน้นไปที่การเปลี่ยนแปลงข้อมูลดิบจากโครงสร้างเดิมเป็นรูปแบบที่ตรงตามข้อกำหนดความต้องการของระบบเป้าหมายที่คุณวางแผนจะจัดเก็บข้อมูลสำหรับการวิเคราะห์ ตัวอย่างบางส่วนของการแปลงข้อมูลมีดังต่อไปนี้
- การเปลี่ยนประเภทหรือรูปแบบข้อมูล
- การลบข้อมูลที่ไม่สอดคล้องกันหรือไม่ถูกต้อง
- การลบข้อมูลซ้ำซ้อน
คุณใช้กฎและฟังก์ชันเพื่อทำความสะอาดและเตรียมข้อมูลสำหรับการวิเคราะห์ในระบบเป้าหมาย
การนำเข้าข้อมูล
ในขั้นตอนนี้คือการเก็บข้อมูลลงในฐานข้อมูลเป้าหมาย กระบวนการ ETL จะประมวลผลการนำเข้าข้อมูลเป็นขั้นตอนสุดท้าย เพื่อให้เครื่องมือการรายงานสามารถใช้โดยตรงเพื่อสร้างรายงานและข้อมูลเชิงลึกที่นำไปปฏิบัติได้ อย่างไรก็ตาม ในกระบวนการ ELT คุณยังคงต้องแปลงข้อมูลที่ดึงมาหลังจากนำเข้าแล้ว
กระบวนการ ELT และ ETL แตกต่างกันอย่างไร
ในลำดับต่อไป เราจะอธิบายถึงกระบวนการ Extract, Transform and Load (ETL) และกระบวนการ Extract, Load and Transform (ELT) นอกจากนี้ คุณยังสามารถอ่านภูมิหลังทางประวัติศาสตร์ได้อีกด้วย
กระบวนการ ETL
กระบวนการ ETL มีสามขั้นตอนดังนี้
- ดึงข้อมูลดิบจากแหล่งต่างๆ
- ใช้เซิร์ฟเวอร์ประมวลผลรองเพื่อแปลงข้อมูลนั้น
- นำเข้าข้อมูลดังกล่าวลงในฐานข้อมูลเป้าหมาย
ขั้นตอนการแปลงจะช่วยยืนยันได้ว่าข้อมูลมีความสอดคล้องกับข้อกำหนดความต้องการด้านโครงสร้างของฐานข้อมูลเป้าหมาย คุณจะสามารถย้ายข้อมูลได้หลังถูกแปลงและมีความพร้อมแล้วเท่านั้น
กระบวนการ ELT
กระบวนการ ELT มีสามขั้นตอนดังนี้
- ดึงข้อมูลดิบจากแหล่งต่างๆ
- นำเข้าข้อมูลลงในคลังข้อมูลหรือ Data Lake ตามสภาพดั้งเดิม
- แปลงข้อมูลได้ตามต้องการในขณะที่อยู่ในระบบเป้าหมาย
ด้วยกระบวนการ ELT จะทำให้การล้างข้อมูล การเปลี่ยนแปลง และการเพิ่มข้อมูลทั้งหมดจะเกิดขึ้นภายในคลังข้อมูล คุณสามารถโต้ตอบและแปลงข้อมูลดิบได้หลายครั้งตามต้องการ
ประวัติของกระบวนการ ETL และ ELT
กระบวนการ ETL มีมาตั้งแต่ปี 1970 ซึ่งได้รับความนิยมมากเป็นพิเศษจากการเพิ่มขึ้นของคลังข้อมูล อย่างไรก็ตาม คลังข้อมูลแบบเดิมจำเป็นต้องมีกระบวนการ ETL แบบกำหนดเองสำหรับแหล่งที่มาของข้อมูลแต่ละแหล่ง
วิวัฒนาการของเทคโนโลยีระบบคลาวด์ได้เปลี่ยนแปลงนิยามของความเป็นไปได้ ในปัจจุบัน บริษัทต่างๆ สามารถจัดเก็บข้อมูลดิบได้แบบไม่จำกัดตามขนาดและวิเคราะห์ในภายหลังได้ตามต้องการ กระบวนการ ELT กลายเป็นวิธีการรวมข้อมูลที่ทันสมัยสำหรับการวิเคราะห์ที่มีประสิทธิภาพ
ความแตกต่างที่สำคัญระหว่าง ETL กับ ELT
กระบวนการ Extract, Load and Transform (ELT) ได้ปรับปรุง กระบวนการ Extract, Transform and Load (ETL) ในหลายรูปแบบ
ตำแหน่งในการแปลงและนำเข้าข้อมูล
การแปลงและการนำเข้าข้อมูลจะเกิดขึ้นในสถานที่ที่แตกต่างกันและใช้กระบวนการที่แตกต่างกัน กระบวนการ ETL จะแปลงข้อมูลบนเซิร์ฟเวอร์การประมวลผลรอง
ในทางกลับกัน กระบวนการ ELT จะนำเข้าข้อมูลดิบโดยตรงลงในคลังข้อมูลเป้าหมาย และคุณจะสามารถแปลงข้อมูลได้ทุกเมื่อที่คุณต้องการหลังจากข้อมูลอยู่ในคลังแล้ว
ความเข้ากันได้ของข้อมูล
กระบวนการ ETL เหมาะที่สุดสำหรับข้อมูลที่มีโครงสร้างที่คุณมีในตารางที่มีแถวและคอลัมน์ได้ โดยจะแปลงข้อมูลที่มีโครงสร้างชุดหนึ่งเป็นรูปแบบที่มีโครงสร้างอื่น และจากนั้นจะทำการนำเข้าข้อมูล
ในทางกลับกัน กระบวนการ ELT จะจัดการกับข้อมูลทุกประเภท รวมถึงข้อมูลที่ไม่มีโครงสร้าง เช่น รูปภาพหรือเอกสารที่คุณไม่สามารถจัดเก็บในรูปแบบตารางได้ และด้วยกระบวนการ ELT จะทำให้สามารถนำเข้าข้อมูลในรูปแบบต่างๆ ลงในคลังข้อมูลเป้าหมายได้ จากนั้นคุณจะสามารถแปลงข้อมูลเพิ่มเติมเป็นรูปแบบที่คุณต้องการได้
ความเร็ว
กระบวนการ ELT ทำงานเร็วกว่า ETL กระบวนการ ETL นั้นมีขั้นตอนเพิ่มเติมก่อนที่จะนำเข้าข้อมูลไปยังเป้าหมายที่ปรับขนาดได้ยาก และทำให้ระบบทำงานช้าลงเมื่อขนาดของข้อมูลเพิ่มขึ้น
ในทางตรงกันข้าม กระบวนการ ELT จะโหลดข้อมูลโดยตรงไปยังระบบปลายทางและแปลงข้อมูลแบบขนาน ใช้การประมวลผลและการทำงานแบบขนานกันในคลังข้อมูลบนคลาวด์มีเพื่อส่งมอบการแปลงข้อมูลแบบเรียลไทม์หรือกึ่งเรียลไทม์สำหรับการวิเคราะห์
ค่าใช้จ่าย
กระบวนการ ETL จำเป็นต้องมีการมีส่วนร่วมในการวิเคราะห์ตั้งแต่เริ่มต้น นักวิเคราะห์จำเป็นต้องวางแผนล่วงหน้าเกี่ยวกับรายงานที่ต้องการสร้างและกำหนดโครงสร้างข้อมูลรวมถึงการจัดรูปแบบ เวลาที่ต้องใช้ในการตั้งค่าจะเพิ่มขึ้น ซึ่งหมายถึงจะมีค่าใช้จ่ายที่เพิ่มขึ้นด้วย โครงสร้างพื้นฐานเซิร์ฟเวอร์เพิ่มเติมสำหรับการแปลงอาจมีค่าใช้จ่ายที่มากขึ้น
กระบวนการ ELT มีระบบน้อยกว่า ETL เนื่องจากการแปลงทั้งหมดเกิดขึ้นภายในคลังข้อมูลเป้าหมาย เนื่องจากมีระบบที่น้อยลง การบำรุงรักษาก็จะน้อยลง ส่งผลให้ทับซ้อนข้อมูลง่ายขึ้นและมีต้นทุนการติดตั้งน้อยลง
การรักษาความปลอดภัย
เมื่อคุณทำงานกับข้อมูลส่วนบุคคล คุณจำเป็นต้องปฏิบัติตามข้อบังคับความเป็นส่วนตัวของข้อมูล บริษัทต่างๆ ต้องปกป้องข้อมูลที่ระบุตัวตนของบุคคลได้ (PII) จากการเข้าถึงโดยไม่ได้รับอนุญาต
ในกระบวนการ ETL นักพัฒนาซอฟต์แวร์จำเป็นต้องสร้างโซลูชันแบบกำหนดเอง เช่น การปิดบัง PII เพื่อตรวจสอบและปกป้องข้อมูล
ในทางกลับกัน โซลูชันของกระบวนการ ELT จะมีคุณสมบัติด้านความปลอดภัยมากมาย เช่น การควบคุมการเข้าถึงแบบละเอียดและการยืนยันตัวตนแบบหลายปัจจัยโดยตรงภายในคลังข้อมูล คุณสามารถลงทุนในด้านเวลามากขึ้นในการวิเคราะห์และใช้เวลาน้อยลงในการปฏิบัติตามข้อกำหนดด้านข้อมูล
เมื่อใดที่ควรเลือกใช้ ETL กับ ELT
กระบวนการ Extract, Load and Transform (ELT) เป็นตัวเลือกมาตรฐานสำหรับการวิเคราะห์สมัยใหม่ อย่างไรก็ตาม คุณอาจพิจารณาใช้กระบวนการ Extract, Transform and Load (ETL) ในสถานการณ์ต่อไปนี้
ฐานข้อมูลดั้งเดิม
บางครั้งการใช้ ETL เพื่อผสานรวมกับฐานข้อมูลเดิมหรือแหล่งที่มาของข้อมูลของบุคคลที่สามด้วยรูปแบบข้อมูลที่กำหนดไว้ล่วงหน้าจะเป็นประโยชน์มากกว่า เพียงแค่คุณต้องแปลงและนำเข้าข้อมูลเพียงครั้งเดียวหลังจากข้อมูลอยู่ในระบบของคุณ หลังจากแปลงข้อมูลแล้ว คุณจะใช้งานได้อย่างมีประสิทธิภาพมากขึ้นในการวิเคราะห์ในอนาคตทั้งหมด
การทดลอง
ในองค์กรขนาดใหญ่ วิศวกรข้อมูลได้ทำการทดลองต่างๆ เช่น การค้นหาแหล่งที่มาของข้อมูลที่ซ่อนอยู่สำหรับการวิเคราะห์ และทดลองใช้แนวคิดใหม่ๆ เพื่อตอบคำถามทางธุรกิจ ETL มีประโยชน์ในการทดลองข้อมูลเพื่อทำความเข้าใจฐานข้อมูลและประโยชน์ของฐานข้อมูลในสถานการณ์แบบเฉพาะเจาะจง
การวิเคราะห์ที่ซับซ้อน
คุณสามารถใช้กระบวนการ ETL และ ELT ร่วมกันในการวิเคราะห์ที่ซับซ้อนที่ใช้ข้อมูลหลายรูปแบบจากแหล่งต่างๆ นักวิทยาศาสตร์ข้อมูลอาจตั้งค่าไปป์ไลน์ ETL จากแหล่งที่มาบางส่วนและใช้ ELT กับส่วนที่เหลือ วิธีนี้จะช่วยปรับปรุงประสิทธิภาพการวิเคราะห์และเพิ่มประสิทธิภาพของแอปพลิเคชันได้ในบางกรณี
แอปพลิเคชัน IoT
แอปพลิเคชัน Internet of Things (IoT) ที่ใช้เซ็นเซอร์ Data Stream มักจะได้รับประโยชน์จากกระบวนการ ETL มากกว่า ELT ตัวอย่างกรณีการใช้งานทั่วไปสำหรับ ETL ใน Edge มีดังต่อไปนี้
- เมื่อคุณต้องการรับข้อมูลจากโปรโตคอลที่แตกต่างกันและแปลงเป็นรูปแบบข้อมูลมาตรฐานเพื่อใช้ในเวิร์กโหลดบนคลาวด์
- เมื่อคุณต้องการกรองข้อมูลความที่มีความถี่สูง ใช้ฟังก์ชันหาค่าเฉลี่ยในชุดข้อมูลขนาดใหญ่ จากนั้นโหลดค่าเฉลี่ยหรือค่าที่กรองในอัตราที่ลดลง
- เมื่อคุณต้องการคำนวณค่าจากแหล่งที่มาของข้อมูลที่แตกต่างกันบนอุปกรณ์ในระบบ และส่งค่าที่กรองแล้วไปยังแบ็คเอนด์ระบบคลาวด์
- เมื่อคุณต้องการล้างข้อมูล กรองข้อมูลซ้ำ หรือเติมองค์ประกอบข้อมูลอนุกรมเวลาที่ขาดหายไป
สรุปความแตกต่างระหว่าง ETL กับ ELT
หมวดหมู่ | ETL |
ELT |
ความหมาย |
กระบวนการ Extract, Transform and Load |
กระบวนการ Extract, Load and Transform |
กระบวนการ |
ดึงข้อมูลดิบ แปลงเป็นรูปแบบที่กำหนดไว้ล่วงหน้า จากนั้นนำข้อมูลลงในคลังข้อมูลเป้าหมาย |
ดึงข้อมูลดิบ นำข้อมูลลงในคลังข้อมูลเป้าหมาย จากนั้นแปลงข้อมูลก่อนการวิเคราะห์ |
ตำแหน่งการแปลงข้อมูลและนำข้อมูลเข้าสู่ระบบ |
การแปลงข้อมูลจะเกิดขึ้นในเซิร์ฟเวอร์การประมวลผลรอง |
การแปลงข้อมูลจะเกิดขึ้นในคลังข้อมูลเป้าหมาย |
ความเข้ากันได้ของข้อมูล |
เหมาะสมกับข้อมูลที่มีโครงสร้าง |
สามารถจัดการข้อมูลที่มีโครงสร้าง ไม่มีโครงสร้าง และกึ่งมีโครงสร้างได้ |
ความเร็ว |
ETL ทำงานช้ากว่า ELT |
กระบวนการ ELT ทำงานเร็วกว่า ETL เนื่องจากสามารถใช้ทรัพยากรภายในของคลังข้อมูลได้ |
ค่าใช้จ่าย |
อาจใช้เวลานานและเสียค่าใช้จ่ายในการตั้งค่าสูง ทั้งนี้ขึ้นอยู่กับเครื่องมือ ETL ที่ใช้งาน |
คุ้มค่ากว่าโดยขึ้นอยู่กับโครงสร้างพื้นฐานของกระบวนการ ELT ที่ใช้งาน |
การรักษาความปลอดภัย |
อาจต้องสร้างแอปพลิเคชันแบบกำหนดเองเพื่อให้เป็นไปตามข้อกำหนดในการปกป้องข้อมูล |
คุณสามารถใช้คุณสมบัติที่มาในตัวของฐานข้อมูลเป้าหมายเพื่อจัดการการปกป้องข้อมูล |
AWS จะรองรับข้อกำหนดด้านความต้องการของกระบวนการ ETL และ ELT ของคุณได้อย่างไร
การวิเคราะห์ข้อมูลบน AWS อธิบายถึงบริการวิเคราะห์ที่มีให้เลือกมากมายจาก Amazon Web Services (AWS) ที่เหมาะกับความต้องการด้านการวิเคราะห์ข้อมูลทั้งหมดของคุณ ด้วย AWS จะทำให้องค์กรทุกขนาดและทุกอุตสาหกรรมสามารถพลิกโฉมธุรกิจของตนด้วยข้อมูลได้
บริการของ AWS บางส่วนที่คุณสามารถใช้สำหรับข้อกำหนดความต้องการของกระบวนการ ETL และ ELT ของคุณมีดังต่อไปนี้
- Amazon Aurora รองรับการบูรณาการ ETL แบบไร้รอยต่อกับ Amazon Redshift การผสานรวมนี้ทำให้สามารถวิเคราะห์ข้อมูลได้แบบเรียลไทม์และแมชชีนเลิร์นนิงผ่าน Amazon Redshift บนข้อมูลธุรกรรมระดับเพตะไบต์ (PB) จาก Aurora
- AWS Data Pipeline คือบริการ ETL ที่มีการจัดการ ซึ่งช่วยให้คุณสามารถกำหนดการเคลื่อนย้ายและการแปลงข้อมูลในบริการต่างๆ ของ AWS
- AWS Glue คือบริการผสานรวมข้อมูลแบบไม่ต้องใช้เซิร์ฟเวอร์สำหรับงาน ETL ที่ขับเคลื่อนด้วยเหตุการณ์และงาน ETL แบบไม่ใช้โค้ด
- AWS IoT Greengrass รองรับ ETL ของคุณในกรณีการใช้งาน Edge โดยนำการประมวลผลบนคลาวด์และตรรกะไปยังอุปกรณ์ Edge
- Amazon Redshift ช่วยให้คุณสามารถตั้งค่าเวิร์กโฟลว์ ELT ทั้งหมดและค้นหาชุดข้อมูลจากแหล่งที่มาต่างๆ ได้โดยตรง
เริ่มต้นใช้งาน ELT และ ETL บน AWS โดยสร้างบัญชีฟรีวันนี้