AWS Glue Data Quality

قدِّم بيانات عالية الجودة في جميع مخازن البيانات والمسارات

يقوم مئات الآلاف من العملاء بإنشاء مخازن البيانات التي يمكن أن تصبح مستنقعات من البيانات بدون جودة البيانات. إعداد جودة البيانات هي عملية مرهقة وتستهلك الوقت. يجب تكوين قواعد جودة البيانات وتحليلها يدويًا وكتابة الرمز للتنبيه عند تراجع الجودة. تقلل AWS Glue Data Quality جهود البيانات اليدوية هذه من أيام إلى ساعات. تحسب AWS Glue Data Quality تلقائيًا الإحصائيات، وتوصي بقواعد البيانات، وتراقبها وتنبهك عند اكتشاف الجودة التي تراجعت. لذا، يصبح تحديد البيانات التالفة أو القديمة أو المفقودة قبل أن تؤثر على عملك عملية سهلة.

نظرة عامة حول جودة البيانات AWS Glue ‏(1:27)

ميزات جودة البيانات AWS Glue

AWS Glue بلا خادم، لذا يمكنك التوسع دون الحاجة إلى إدارة البنية التحتية. يمكن التوسع لأي حجم من البيانات، وتتميز بفوترة الدفع مقابل الاستخدام لزيادة المرونة وتحسين التكاليف. AWS Glue Data Quality تستخدم Deequ إطار عمل مفتوح المصدر تم إنشاؤه بواسطة Amazon لإدارة مجموعات بيانات ذات قدرة على التوسّع تُقدّر بالبيتابايت. لأنه تم إنشاء AWS Glue Data Quality باستخدام المصدر المفتوح، فهي توفر المرونة وسهولة التنقل بدون تقييد.
تحسب AWS Glue Data Quality الإحصائيات تلقائيًا لمجموعات بياناتك. وتَستخدم هذه الإحصائيات للتوصية بمجموعة من قواعد الجودة التي تتحقق من تكامل البيانات ودقتها وتحديثها وحتى المشكلات التي يصعب العثور عليها. يمكنك تعديل القواعد الموصى بها والقواعد الملغاة أو أضف قواعد جديدة حسب الحاجة. إذا تم اكتشاف مشكلات في الجودة، فإن جودة البيانات AWS Glue تنبهك أيضًا لتتمكن من التصرف معها.
تتميز جودة البيانات AWS Glue بالذكاء. حيث إنها تتعلم أنماط إحصاءات البيانات التي جُمعت بمرور الوقت باستخدام خوارزميات تعلُّم الآلة. وتكتشف أوجه الخلل وأنماط البيانات غير المعتادة وتنبه المستخدمين. وتقوم أيضًا بإنشاء قواعد تلقائيًا لمراقبة هذه الأنماط المحددة حتى تتمكن من إنشاء قواعد جودة البيانات بشكل تدريجي.
توجد بياناتك في مستودعات مختلفة، وتنتقل من مستودع إلى آخر. مراقبة جودة البيانات بمجرد وصولها وأثناء انتقالها أمر مهم. يمكن تطبيق قواعد AWS Glue Data Quality على البيانات غير النشطة في مجموعات بياناتك ومخازن البيانات، وعلى مسارات البيانات بالكامل التي تكون البيانات فيها قيد التنقل. يمكنك تطبيق القواعد عبر العديد من مجموعات البيانات. بالنسبة إلى مسارات البيانات المبنية على AWS Glue Studio، يمكنك تطبيق تحويل لتقييم جودة المسار بأكمله بجزء بسيط من التكلفة حيث إن البيانات موجودة بالفعل في الذاكرة. يمكنك أيضًا تعريف القواعد لإيقاف المسار عند تراجع الجودة، لمنع البيانات التالفة من الوصول إلى مخازن البيانات.
استخدم أكثر من 25 قاعدة من قواعد جودة البيانات AWS Glue المبتكرة للتحقق من صحة بياناتك وتحديد البيانات المحددة التي تسبب المشكلات. نفذ فحوصات جودة البيانات التي تقارن مجموعات البيانات المختلفة في مصادر البيانات المختلفة في دقائق باستخدام القواعد المبتكرة. باستخدام الاستخراج والانتقال والتحميل (ETL) الخاص بـ Glue، يمكنك بسهولة معالجة هذه المشكلات واستيعاب بيانات عالية الجودة في مستودعات البيانات.