Data Lake อาจกลายเป็นพื้นที่เก็บข้อมูลโดยไม่มีการควบคุมดูแลที่เหมาะสม การตั้งค่าการตรวจสอบคุณภาพข้อมูลใช้เวลานาน น่าเบื่อ และเกิดข้อผิดพลาดได้ง่าย คุณต้องสร้างกฎการตรวจคุณภาพข้อมูลด้วยตนเองและเขียนรหัสเพื่อตรวจสอบไปป์ไลน์ข้อมูล และแจ้งเตือนผู้บริโภคข้อมูลเมื่อคุณภาพข้อมูลลดลง การตรวจคุณภาพข้อมูลของ AWS Glue ช่วยลดความพยายามในการตรวจคุณภาพด้วยตนเองจากหลายวันเหลือเพียงไม่กี่ชั่วโมง โดยจะคำนวณสถิติโดยอัตโนมัติ แนะนำกฎการตรวจคุณภาพ ตรวจสอบ และแจ้งเตือนคุณเมื่อตรวจพบปัญหา สำหรับปัญหาที่ซ่อนอยู่และค้นหาได้ยาก การตรวจคุณภาพข้อมูลของ Glue จะใช้อัลกอริธึม ML การผสมผสานพลังของแนวทางตามกฎและ ML พร้อมด้วยโซลูชันแบบไม่ต้องใช้เซิร์ฟเวอร์ ปรับขนาดได้ และเปิดช่วยให้คุณสามารถส่งมอบข้อมูลคุณภาพสูงเพื่อการตัดสินใจทางธุรกิจได้อย่างมั่นใจ 

ภาพรวมการตรวจคุณภาพข้อมูลของ AWS Glue (1:27)

คุณสมบัติของการตรวจคุณภาพข้อมูลของ AWS Glue

AWS Glue เป็นแบบไม่ต้องใช้เซิร์ฟเวอร์ คุณจึงสามารถปรับขนาดได้โดยไม่ต้องจัดการโครงสร้างพื้นฐาน มันปรับขนาดตามขนาดข้อมูลใดก็ได้ และมีการเรียกเก็บเงินตามการใช้งานจริงเพื่อเพิ่มสภาพคล่องและลดต้นทุน คุณภาพข้อมูล AWS Glue ใช้ Deequ ซึ่งเป็นเฟรมเวิร์กโอเพ่นซอร์สที่สร้างโดย Amazon ซึ่งใช้เพื่อจัดการชุดข้อมูลขนาดเพตะไบต์ การตรวจคุณภาพข้อมูลของ AWS Glue นั้นมีความยืดหยุ่นและสะดวกโดยไม่ต้องล็อก-อินเนื่องจากสร้างขึ้นโดยใช้โอเพนซอร์ส
คุณภาพข้อมูลของ AWS Glue จะคำนวณสถิติสำหรับชุดข้อมูลของคุณโดยอัตโนมัติ มันจะใช้สถิติเหล่านี้ในการแนะนำชุดของกฎคุณภาพที่จะตรวจสอบความใหม่ ความถูกต้อง ความสมบูรณ์ และแม้แต่ปัญหาที่พบได้ยาก คุณสามารถปรับกฎที่แนะนำ ยกเลิกกฎ หรือเพิ่มกฎใหม่ได้ตามต้องการ หากตรวจพบปัญหาด้านคุณภาพ การตรวจคุณภาพข้อมูลของ AWS Glue จะแจ้งเตือนคุณเพื่อให้คุณตอบสนองต่อปัญหาได้
การตรวจคุณภาพข้อมูลของ AWS Glue มีความชาญฉลาด เรียนรู้รูปแบบของสถิติข้อมูลที่รวบรวมในช่วงเวลาหนึ่งโดยใช้อัลกอริทึม ML ตรวจจับความผิดปกติ รูปแบบข้อมูลที่ผิดปกติ และการแจ้งเตือนผู้ใช้ นอกจากนี้ยังสร้างกฎอัตโนมัติเพื่อตรวจสอบรูปแบบเฉพาะเหล่านี้ เพื่อให้คุณสามารถสร้างกฎคุณภาพข้อมูลได้อย่างต่อเนื่อง
ข้อมูลของคุณอยู่ในที่เก็บข้อมูลต่างๆ และย้ายจากที่เก็บหนึ่งไปยังอีกที่หนึ่ง การตรวจสอบคุณภาพของข้อมูลทั้งตอนที่ข้อมูลมาถึงและระหว่างการส่งข้อมูลล้วนเป็นสิ่งสำคัญ กฎการตรวจคุณภาพข้อมูลของ AWS Glue สามารถนำไปใช้กับข้อมูลที่อยู่ในพื้นที่จัดเก็บในชุดข้อมูลและ Data Lake ของคุณรวมถึงไปป์ไลน์ข้อมูลทั้งหมดที่มีการเคลื่อนไหวของข้อมูลอยู่ คุณสามารถใช้กฎกับชุดข้อมูลหลายชุดได้ สำหรับไปป์ไลน์ข้อมูลที่สร้างบน AWS Glue Studio คุณจะสามารถใช้การแปลงเพื่อประเมินคุณภาพของไปป์ไลน์ทั้งหมดได้โดยมีค่าใช้จ่ายเพียงเล็กน้อยเนื่องจากข้อมูลอยู่ในหน่วยความจำแล้ว คุณยังสามารถกำหนดกฎเพื่อหยุดไปป์ไลน์ได้หากคุณภาพแย่ลง เพื่อป้องกันไม่ให้ข้อมูลที่ใช้ไม่ได้เข้าสู่ Data Lake ของคุณ
ใช้กฎการตรวจคุณภาพข้อมูลของ AWS Glue มากกว่า 25 กฎ เพื่อตรวจสอบข้อมูลของคุณและระบุข้อมูลเฉพาะที่ทำให้เกิดปัญหา ดำเนินการตรวจสอบคุณภาพข้อมูลที่เปรียบเทียบชุดข้อมูลที่แตกต่างกันในแหล่งที่มาของข้อมูลที่แตกต่างกันภายในไม่กี่นาทีด้วยกฎนอกกรอบ การใช้ Glue ETL คุณสามารถแก้ไขปัญหาเหล่านี้ได้อย่างง่ายดายและนำเข้าข้อมูลคุณภาพสูงลงในที่เก็บข้อมูลของคุณ