ما المقصود بعملية الاستخراج، والانتقال، والتحميل (ETL)؟

الاستخراج، والانتقال، والتحميل (ETL) هي عملية دمج البيانات من مصادر متعددة في مستودع مركزي كبير يسمى "مستودع البيانات". تستخدم عملية ETL مجموعة من قواعد العمل لإصلاح البيانات الأولية وإزالتها وتنظيمها، ثمّ إعدادها للتخزين وتحليلات البيانات وتعلّم الآلة (ML). يمكنك تلبية احتياجات ذكاء الأعمال المحددة من خلال تحليلات البيانات (مثل التنبؤ بنتيجة قرارات العمل، وإنشاء التقارير ولوحات المعلومات، وتقليل عدم الكفاءة التشغيلية، والمزيد).

ما سبب أهمية عملية الاستخراج، والانتقال، والتحميل (ETL)؟

لدى المنظمات اليوم بيانات مهيكلة وأخرى غير مهيكلة من مصادر مختلفة، بما فيها:

  • بيانات العملاء من أنظمة الدفع عبر الإنترنت وإدارة علاقات العملاء (CRM)
  • بيانات الجرد وبيانات العمليات من أنظمة البائعين
  • بيانات الاستشعار من أجهزة إنترنت الأشياء (IoT)
  • بيانات التسويق من وسائل التواصل الاجتماعي وتعليقات العملاء
  • بيانات الموظفين من أنظمة الموارد البشرية الداخلية

بتطبيق عملية الاستخراج، والانتقال، والتحميل (ETL)، يمكن إعداد مجموعات بيانات أولية فردية بتنسيق وبنية أكثر قابلية للاستخدام لأغراض التحليلات، ما يؤدي إلى رؤى أكثر وضوحًا وفائدة. على سبيل المثال، يمكن لتجار التجزئة عبر الإنترنت تحليل البيانات الواردة من نقاط البيع لأغراض توقع الطلب وإدارة المخزون. يمكن لفرق التسويق دمج بيانات إدارة علاقات العملاء (CRM) مع ملحوظات العملاء على وسائل التواصل الاجتماعي لدراسة سلوك المستهلك.

كيف تستفيد أدوات الاستخراج، والانتقال، والتحميل (ETL) من ذكاء الأعمال؟

تعمل تقنية الاستخراج، والانتقال، والتحميل (ETL) على تحسين ذكاء الأعمال والتحليلات بجعل الإجراءات أكثر موثوقية ودقة وتفصيلاً وفعالية.

السياق التاريخي

تمنح تقنية الاستخراج، والانتقال، والتحميل (ETL) بيانات المنظمة سياقًا تاريخيًا ضاربًا بجذوره. يمكن للمؤسسة دمج البيانات القديمة مع البيانات الواردة من المنصات والتطبيقات الجديدة. يمكنك عرض مجموعات البيانات القديمة جنبًا إلى جنب مع المزيد من المعلومات الحديثة، ما يمنحك عرضًا طويل المدى للبيانات.

عرض بيانات موحَّد

توفر أدوات الاستخراج، والانتقال، والتحميل (ETL) عرضًا موحدًا للبيانات لأغراض التحليل المتعمق وإعداد التقارير. تتطلب إدارة مجموعات بيانات متعددة الوقت والتنسيق، وقد تسفر عن عدم الكفاءة والتأخير. تجمع ETL بين قواعد البيانات وأشكال مختلفة من البيانات في عرض واحد وموحَّد. تحسِّن عملية تكامل البيانات جودة البيانات، وتوفر الوقت اللازم لنقل البيانات أو تصنيفها أو توحيدها. يسهِّل هذا تحليل مجموعات البيانات الكبيرة وعرضها مرئيًا وفهمها.

تحليل دقيق للبيانات

يوفر الاستخراج، والانتقال، والتحميل (ETL) تحليلاً أكثر دقة للبيانات من أجل استيفاء المعايير التنظيمية والامتثال. يمكنك دمج أدوات الاستخراج، والانتقال، والتحميل (ETL) مع أدوات جودة البيانات لوصف البيانات وتحليلها وتدقيقها وتنظيفها، ما يضمن موثوقية البيانات.

أتمتة المهام

تجعل أدوات الاستخراج، والانتقال، والتحميل (ETL) مهام معالجة البيانات القابلة للتكرار مؤتمتة من أجل تحليل فعال. تعمل أدوات ETL على أتمتة عملية ترحيل البيانات، ويمكنك إعداد هذه الأدوات لدمج تغييرات البيانات دوريًا أو حتى في وقت التشغيل. ونتيجة لذلك، يمكن لمهندسي البيانات قضاء المزيد من الوقت في الابتكار ووقتًا أقل في إدارة المهام الشاقة، مثل نقل البيانات وتنسيقها.

كيف تطورت تقنية الاستخراج، والانتقال، والتحميل (ETL)؟

نشأت عملية الاستخراج، والانتقال، والتحميل (ETL) مع ظهور قواعد البيانات العلائقية التي تخزِّن البيانات في شكل جداول للتحليل. حاولت أدوات الاستخراج، والانتقال، والتحميل (ETL) في بادئ الأمر تحويل البيانات من تنسيقات بيانات المعاملات إلى تنسيقات البيانات العلائقية من أجل تحليلها.

عملية الاستخراج، والانتقال، والتحميل (ETL) التقليدية

بشكل أساسي، كانت البيانات الأولية تُخزن في قواعد بيانات المعاملات التي تدعم العديد من طلبات القراءة والكتابة، ولكن ذلك لم ينسجم جيدًا مع التحليلات. يمكنك التفكير في الأمر باعتباره صفًا في جدول بيانات. على سبيل المثال، في نظام التجارة الإلكترونية خزَّنت قاعدة بيانات المعاملات العنصر الذي تم شراؤه وتفاصيل العميل وتفاصيل الطلب في معاملة واحدة. وعلى مدار العام، احتوت قاعدة بيانات المعاملات على قائمة طويلة من المعاملات تشمل إدخالات متكررة للعميل نفسه الذي اشترى عناصر متعددة خلال العام. ونظرًا لتكرار البيانات، أصبح من الصعب تحليل العناصر الأكثر شيوعًا أو اتجاهات الشراء في ذلك العام.

للتغلب على هذه المشكلة، حوَّلت أدوات الاستخراج، والانتقال، والتحميل (ETL) تلقائيًا بيانات المعاملات هذه إلى بيانات علائقية باستخدام جداول مترابطة. يمكن للمحللين استخدام الاستعلامات لتحديد العلاقات بين الجداول، بالإضافة إلى الأنماط والاتجاهات.

عملية الاستخراج، والانتقال، والتحميل (ETL) العصرية

مع تطور تقنية الاستخراج، والانتقال، والتحميل (ETL)، زادت كلاً من أنواع البيانات ومصادر البيانات أضعافًا مضاعفة. جاءت تكنولوجيا السحابة لإنشاء قواعد بيانات ضخمة (تسمى أيضًا أحواض البيانات). يمكن أن تستقبل أحواض البيانات هذه البيانات من مصادر متعددة، ولها موارد أساسية من الأجهزة يمكن توسعتها بمرور الوقت. أصبحت أدوات الاستخراج، والانتقال، والتحميل (ETL) أيضًا أكثر تعقيدًا، ويمكنها العمل مع أحواض البيانات الحديثة. يمكنها تحويل البيانات من تنسيقات البيانات القديمة إلى تنسيقات بيانات حديثة. فيما يلي أمثلة على قواعد البيانات الحديثة.

مستودعات البيانات

مستودع البيانات هو مستودع مركزي يمكنه تخزين قواعد بيانات متعددة. داخل كل قاعدة بيانات، يمكنك تنظيم بياناتك في جداول وأعمدة تصف أنواع البيانات الموجودة في الجدول. يعمل برنامج مستودع البيانات مع أنواع متعددة من أجهزة التخزين—مثل محركات الأقراص ذات الحالة الصلبة (SSD) ومحركات الأقراص الثابتة ووحدات التخزين السحابية الأخرى—لتحسين معالجة بياناتك.

مخازن البيانات

باستخدام مخزن البيانات، يمكنك تخزين بياناتك المهيكلة وغير المهيكلة في مستودع مركزي واحد وبأي نطاق. يمكنك تخزين البيانات كما هي بدون الحاجة إلى هيكلتها أولاً بناءً على الأسئلة التي قد تطرحها مستقبلاً. تتيح لك أيضًا مخازن البيانات تشغيل أنواع مختلفة من التحليلات لبياناتك، مثل استعلامات SQL وتحليلات البيانات الكبيرة والبحث بنص كامل والتحليلات في الوقت الفعلي وتعلّم الآلة في التوصل إلى قرارات أفضل.

كيف تتم عملية الاستخراج، والانتقال، والتحميل (ETL)؟

يعمل الاستخراج، والانتقال، والتحميل (ETL) عن طريق نقل البيانات من النظام المصدر إلى النظام الوجهة على فترات دورية. تعمل عملية الاستخراج، والانتقال، والتحميل (ETL) في ثلاث خطوات:

  1. استخرج البيانات ذات الصلة من قاعدة البيانات المصدر
  2. تحويل البيانات بحيث تكون أكثر ملاءمة للتحليلات
  3. تحميل البيانات في قاعدة البيانات الهدف

ما المقصود باستخراج البيانات؟

في استخراج البيانات، تستخرج أدوات الاستخراج، والانتقال، والتحميل (ETL) البيانات الأولية من مصادر متعددة أو تنسخها وتخزِّنها في منطقة التشغيل المرحلي. منطقة التشغيل المرحلي (أو منطقة الأساس) هي منطقة تخزين وسيطة لتخزين البيانات المستخرجة مؤقتًا. غالبًا ما تكون مناطق التشغيل المرحلي للبيانات عابرة، ما يعني أن محتوياتها تُمحى بعد إتمام استخراج البيانات. ومع ذلك، قد تحتفظ منطقة التشغيل المرحلي أيضًا بأرشيف للبيانات لأغراض استكشاف الأخطاء وإصلاحها.

يعتمد عدد المرات التي يرسل فيها النظام البيانات من مصدر البيانات إلى مخزن البيانات الهدف على آلية الالتقاط الأساسية لبيانات التغيير. عادةً ما يحدث استخراج البيانات بإحدى الطرق الثلاث التالية.

إشعار التحديث

في إشعار التحديث، يخطرك النظام المصدر عندما يطرأ تغيير على سجل البيانات. يمكنك بعد ذلك تشغيل عملية الاستخراج لهذا التغيير. توفر معظم قواعد البيانات وتطبيقات الويب آليات تحديث لدعم هذه الطريقة لتكامل البيانات.

الاستخراج التزايدي

لا يمكن لبعض مصادر البيانات توفير إشعارات التحديث، ولكن يمكنها تحديد البيانات التي تم تعديلها خلال فترة زمنية معينة واستخراجها. في هذه الحالة، يتحقق النظام من التغييرات على فترات زمنية دورية، على سبيل المثال مرة في الأسبوع أو مرة في الشهر أو في نهاية الحملة. كل ما تحتاج إليه هو استخراج البيانات التي تغيرت.

الاستخراج الكامل

لا يمكن لبعض الأنظمة تحديد تغييرات البيانات أو إعطاء إشعارات، لذا تصبح إعادة تحميل جميع البيانات هي الخيار الوحيد. تتطلب طريقة الاستخراج هذه منك الاحتفاظ بنسخة من آخر مستخرج للتعرف على السجلات الجديدة. نظرًا إلى أن هذا الأسلوب يتضمن نقل بيانات بأحجام كبيرة، نوصي باستخدامه للجداول الصغيرة فقط.

ما المقصود بتحويل البيانات؟

في تحويل البيانات، تحوِّل أدوات الاستخراج، والانتقال، والتحميل (ETL) البيانات الأولية وتجمعها في منطقة التشغيل المرحلي لإعدادها لمستودع البيانات الهدف. يمكن أن تتضمن مرحلة تحويل البيانات الأنواع التالية من التغيير في البيانات.

التحويل الأساسي للبيانات

تحسِّن التحويلات الأساسية جودة البيانات بإزالة الأخطاء أو بإفراغ حقول البيانات أو بتبسيط البيانات. فيما يلي أمثلة على هذه التحويلات.

تنظيف البيانات

يزيل تنظيف البيانات الأخطاء ويعيِّن البيانات المصدر إلى تنسيق البيانات الهدف. على سبيل المثال، يمكنك تعيين حقول البيانات الفارغة إلى الرقم 0، أو تعيين قيمة البيانات "Parent" إلى "P"، أو تعيين "Child" إلى "C".

إلغاء تكرار البيانات

يحدد إلغاء تكرار البيانات في عملية تنظيف البيانات السجلات المكررة ويحذفها.

مراجعة تنسيق البيانات

تحوِّل مراجعة التنسيق البيانات، مثل مجموعات الأحرف ووحدات القياس وقيم التاريخ/الوقت، إلى تنسيق متسق. على سبيل المثال، قد يكون لدى إحدى شركات الأغذية قواعد بيانات مختلفة للوصفات، حيث المكونات مقيسة بالكيلوغرامات والأرطال. ستحوِّل أداة ETL كل القياسات إلى الرطل.

التحويل المتقدم للبيانات

تستخدم التحويلات المتقدمة قواعد الأعمال لتحسين البيانات من أجل تسهيل التحليل. فيما يلي أمثلة على هذه التحويلات.

الاشتقاق

يطبِّق الاشتقاق قواعد الأعمال على بياناتك لحساب القيم الجديدة من القيم الموجودة. على سبيل المثال، يمكنك تحويل الإيرادات إلى الربح بطرح المصاريف أو حساب التكلفة الإجمالية لعملية شراء بضرب سعر كل عنصر في عدد العناصر.

الربط

في إعداد البيانات، يُستخدم الربط في ربط البيانات نفسها من مصادر بيانات مختلفة. على سبيل المثال، يمكنك حساب إجمالي تكلفة الشراء لعنصر واحد بجمع قيمة الشراء من بائعين مختلفين وتخزين الإجمالي النهائي فقط في النظام الهدف.

التقسيم

يمكنك تقسيم عمود أو سمة بيانات إلى عدة أعمدة في النظام الهدف. على سبيل المثال، إذا حفَظ مصدر البيانات اسم العميل باسم "Jane John Doe"، يمكنك تقسيمه إلى الاسم الأول والأوسط والأخير.

التلخيص

يحسِّن التلخيص جودة البيانات باختزال عدد كبير من قيم البيانات إلى مجموعة بيانات أصغر. على سبيل المثال، يمكن أن تتضمن قيم فاتورة طلب العميل مبالغ صغيرة مختلفة. يمكنك تلخيص البيانات بجمعها لفترة زمنية معينة لإنشاء مقياس القيمة الدائمة للعميل (CLV).

التشفير

يمكنك حماية البيانات الحساسة امتثالاً لقوانين البيانات أو خصوصية البيانات بإضافة التشفير قبل تدفق البيانات إلى قاعدة البيانات الهدف.

ما المقصود بتحميل البيانات؟

في تحميل البيانات، تنقل أدوات الاستخراج، والانتقال، والتحميل (ETL) البيانات المحوَّلة من منطقة التشغيل المرحلي إلى مستودع البيانات الهدف. بالنسبة لمعظم المؤسسات التي تستخدم ETL، تكون العملية مؤتمتة ومحددة جيدًا ومستمرة ومدفوعة بالحزَم. تُتَّبع طريقتان لتحميل البيانات.

تحميل كامل

في حالة التحميل الكامل، تُحوَّل البيانات بالكامل من المصدر وتُنقَل إلى مستودع البيانات. عادةً ما يتم التحميل الكامل في المرة الأولى التي تحمِّل فيها البيانات من نظام مصدر إلى مستودع البيانات.

تحميل تزايدي 

في التحميل التزايدي، تحمِّل أداة ETL دلتا (أو الفرق) بين الأنظمة الهدف والأنظمة المصدر على فترات منتظمة. تخزِّن تاريخ الاستخراج الأخير بحيث تُحمَّل السجلات المضافة بعد هذا التاريخ فقط. توجد طريقتان لتنفيذ التحميل التزايدي.

دفق الحمل التزايدي

إذا كانت لديك أحجام بيانات صغيرة، يمكنك دفق التغييرات المستمرة عبر خطوط أنابيب البيانات إلى مستودع البيانات الهدف. عندما تزداد سرعة البيانات إلى ملايين الأحداث في الثانية، يمكنك استخدام معالجة دفق الأحداث لمراقبة عمليات تدفق البيانات ومعالجتها لاتخاذ القرارات في الوقت المناسب.

التحميل التزايدي للحزَم

إذا كانت لديك أحجام بيانات كبيرة، يمكنك تجميع التغييرات في بيانات التحميل في شكل حزَم دوريًا. في أثناء هذه الفترة الزمنية المحددة، لا يمكن أن تحدث أي إجراءات للنظام المصدر أو الهدف، حيث تتم مزامنة البيانات.

ما المقصود بـ ELT؟

الاستخراج، والانتقال، والتحميل (ELT) هو امتداد للاستخراج والانتقال والتحميل (ELT) يعكس ترتيب العمليات. يمكنك تحميل البيانات مباشرة إلى النظام الهدف قبل معالجتها. ليست هناك حاجة إلى منطقة التشغيل المرحلي الوسيطة لأن مستودع البيانات الهدف لديه إمكانات لتعيين البيانات بداخله. أصبحت عملية الاستخراج، والانتقال، والتحميل (ELT) أكثر شيوعًا مع اعتماد البنية التحتية السحابية، ما يمنح قواعد البيانات الهدف قوة المعالجة التي تحتاج إليها لإجراء التحويلات.

ETL مقارنةً بـ ELT

تعمل ELT جيدًا مع مجموعات البيانات كبيرة الحجم وغير المهيكلة، التي تتطلب تحميلاً متكررًا. وهي أيضًا مثالية للبيانات الكبيرة لأنه يمكن التخطيط للتحليلات بعد استخراج البيانات وتخزينها. إنها تترك الجزء الأكبر من التحويلات لمرحلة التحليلات وتركز على تحميل البيانات الأولية، التي تمت معالجتها بالحد الأدنى، إلى مستودع البيانات.

تتطلب عملية ETL المزيد من التعريف في البداية. تحتاج التحليلات إلى المشاركة من البداية لتحديد أنواع البيانات الهدف وهياكلها وعلاقاتها. يستخدم علماء البيانات ETL بشكل أساسي في تحميل قواعد البيانات القديمة إلى المستودع، وأصبحت عملية ELT هي المعيار اليوم.

ما المقصود بالمحاكاة الافتراضية للبيانات؟

تستخدم المحاكاة الافتراضية للبيانات طبقة تجريد في البرنامج لإنشاء عرض متكامل للبيانات بدون استخراج البيانات أو تحويلها أو تحميلها فعليًا. تستخدم المؤسسات هذه الوظيفة كمستودع افتراضي وموحد للبيانات تفاديًا للكلفة والتعقيد التي يتسم بهما بناء منصات منفصلة للمصدر والهدف وإدارتها. في حين أنه يمكنك استخدام المحاكاة الافتراضية للبيانات جنبًا إلى جنب مع الاستخراج، والانتقال، والتحميل (ETL)، يُنظر إليها بشكل متزايد على أنها بديل لـ ETL وللطرق المادية الأخرى لتكامل البيانات. على سبيل المثال، يمكنك استخدام AWS Glue Elastic Views لإنشاء جدول افتراضي بسرعة—عرض متحقق—من مخازن بيانات متعددة ومختلفة المصادر.

ما المقصود بـ AWS Glue؟

AWS Glue هي خدمة تكامل بيانات بلا خادم تسهّل على مستخدمي التحليلات اكتشاف البيانات وإعدادها ونقلها ودمجها من مصادر متعددة للإجراء التحليلات واستخدام تعلّم الآلة (ML) وتطوير التطبيقات.

  • يمكنك استكشاف أكثر من 80 مخزن بيانات متنوع والاتصال بهم.
  • يمكنك إدارة بياناتك في كتالوج بيانات مركزي.
  • يمكن لمهندسي البيانات ومطوري ETL ومحللي البيانات ومستخدمي الأعمال التجارية استخدام AWS Glue Studio لإنشاء مسارات ETL وتشغيلها ومراقبتها لتحميل البيانات إلى مخازن البيانات.
  • يقدم AWS Glue Studio‏ واجهات ETL ‏‎مرئية، ودفتر ملاحظات ومحرر تعليمات برمجية، حتى يتمكن المستخدمون من الحصول على أدوات تلائم مهاراتهم.
  • مع الجلسات التفاعلية، يمكن لمهندسي البيانات استكشاف البيانات والمؤلف والمهام التجريبية باستخدام الـ IDE المفضل لديهم أو دفتر الملاحظات.
  • AWS Glue هي خدمة بلا خادم وتتوسّع بشكل تلقائي حسب الطلب، حتى يتسنى لك التركيز على اكتساب الرؤى من بيانات بحجم البيتابايت بدون الحاجة إلى إدارة البنية الأساسية.

بدأ استخدام AWS Glue من خلال إنشاء حساب AWS.

الخطوات التالية في عملية الاستخراج والتحويل والتحميل (ETL) من AWS

التحقق من الموارد الإضافية المتعلقة بالمنتج
تعرف على المزيد حول AWS Glue 
سجّل الاشتراك للحصول على حساب مجاني

تمتع بالوصول الفوري إلى طبقة AWS المجانية. 

التسجيل 
بدء البناء في وحدة التحكم

ابدأ في البناء باستخدام AWS في وحدة إدارة تحكم AWS.

تسجيل الدخول