عام

لاكتشاف ما هو جديد مع Amazon Redshift، يُمكنك زيارة صفحة كل ما هو جديد.
للاطلاع على المزيد من المعلومات التفصيلية وإرشادات الاستخدام، تفضل بزيارة الوثائق.

س: ما المقصود بـ Amazon Redshift؟

يستخدم عشرات الآلاف من العملاء Amazon Redshift كل يوم لتشغيل تحليلات SQL في السحابة، حيث يقوم بمعالجة وحدات إكسابايت من البيانات بهدف استخلاص رؤى أعمال. سواءً كانت بياناتك المتنامية مخزنةً في مخازن البيانات التشغيلية، أو مخازن البيانات، أو خدمات تدفق البيانات، أو مجموعات بيانات تابعة لأطراف خارجية، فإن Amazon Redshift يساعدك في الوصول إلى البيانات ودمجها ومشاركتها بطريقة آمنة وبأقل حد من الحركة أو النسخ. يتكامل Amazon Redshift تمامًا مع خدمات قواعد البيانات والتحليلات وتعلّم الآلة من AWS بهدف استخدام نُهُج Zero-ETL أو لمساعدتك في الوصول إلى البيانات الموجودة للحصول على تحليلات في الوقت الفعلي تقريبًا، وبناء نماذج تعلّم الآلة في SQL، وتمكين تحليلات Apache Spark باستخدام البيانات في Redshift. يُمكّن Amazon Redshift Serverless المهندسين والمطورين وعلماء البيانات والمحللين من البدء بسهولة وتوسعة نطاق التحليلات بسرعة في بيئة تتسم بخلوها من المهام الإدارية. بفضل محرك المعالجة المتوازية على نطاق واسع (MPP) وبنيتها التي تفصل بين الحوسبة والتخزين للحصول على كفاءة التوسع، والابتكارات في الأداء المدفوعة بتعلم الآلة (على سبيل المثال: طرق العرض التلقائية المادية)، تم تصميم Amazon Redshift لتحقيق التوسّع في النطاق ولتوفير أداء بسعر أفضل بمعدل 5 أضعاف مقارنةً بمستودعات البيانات السحابية الأخرى.

س: ما أهم الأسباب التي تجعل العملاء يختارون Amazon Redshift؟

يختار آلاف العملاء Amazon Redshift من أجل تسريع الوقت الذي يحصلون خلاله على الرؤى؛ وذلك لأنه نظام تحليلات قوي يتكامل جيدًا مع خدمات قواعد البيانات وتعلّم الآلة، بجانب أنه سهل الاستخدام ويمكن أن يصبح خدمةً مركزيةً تقدم لهم جميع احتياجاتهم من التحليلات. يوفر Amazon Redshift Serverless سعة مستودع بيانات ويوسّع هذه السعة تلقائيًا للحصول على أداء عالٍ لأعباء العمل كثيرة المتطلبات وغير المتوقعة. يقدم Amazon Redshift أداءً تسعيريًا رائدًا في مختلف أعباء عمل التحليلات، سواءً كان عبء العمل من نوعية إعداد لوحات المعلومات، أو تطوير التطبيقات، أو مشاركة البيانات، أو مهام ETL (الاستخراج والتحويل والتحميل) أو العديد من المهام الأخرى. ومع قيام عشرات الآلاف من العملاء بتشغيل التحليلات على وحدات تيرابايت وبيتابايت من البيانات، يعمل Amazon Redshift على تحسين أداء أعباء عمل للعملاء في العالم الحقيقي، استنادًا إلى قياس أداء الأسطول عن بُعد، ويوفر أداءً يتوسّع خطيًا حسب عبء العمل، مع الحفاظ على انخفاض التكاليف. ابتكارات الأداء متاحة للعملاء بدون أي تكلفة إضافية. يتيح Amazon Redshift لك الحصول على الرؤى من خلال تشغيل التحليلات في الوقت الفعلي والتحليلات التنبؤية على جميع بياناتك في قواعد البيانات التشغيلية، ومخزن البيانات، ومستودع البيانات، وبيانات البث، ومجموعات البيانات التابعة لأطراف خارجية. يدعم Amazon Redshift أمانًا رائدًا حيث إنه يتضمن إدارة هويات واتحاد هويات من أجل تسجيل الدخول الأحادي، والمصادقة متعددة العوامل، والتحكم في الوصول على مستوى العمود، والأمان على مستوى الصف، والتحكم في الوصول المستند إلى الدور، وAmazon Virtual Private Cloud (Amazon VPC)، وتغيير حجم المجموعة بطريقة أسرع.

س: كيف يسهِّل Amazon Redshift إدارة مستودعات البيانات وإدارة التحليلات؟

يُدار Amazon Redshift بالكامل بواسطة AWS، ولذا لا تقلق بشأن مهام إدارة مستودعات البيانات مثل توفير الأجهزة، وتصحيح البرامج، والإعداد، والتكوين، وعُقد المراقبة، ومحركات الأقراص للتعافي من حالات الفشل، أو النُسَخ الاحتياطية. تدير AWS نيابةً عنك العمل اللازم لإعداد مستودع البيانات وتشغيله وتوسعته، وهذا يفرغك للتركيز على بناء تطبيقاتك. يوفر Amazon Redshift Serverless سعة مستودع البيانات ويوسّع هذه السعة تلقائيًا للحصول على أداء عالٍ لأعباء العمل كثيرة المتطلبات وغير المتوقعة، ولن تدفع سوى مقابل الموارد التي تستخدمها. كما يحتوي Amazon Redshift على إمكانات الضبط التلقائي، ويقدم توصيات تختص بإدارة مستودعك في Redshift Advisor. مع Redshift Spectrum، يتولى Amazon Redshift إدارة البنية الأساسية للحوسبة كلها، وموازنة التحميل، والتخطيط، والجدولة، وتنفيذ استعلاماتك على البيانات المخزنة في Amazon S3. يُمكّن Amazon Redshift التحليلات على جميع بياناتك عن طريق التكامل العميق مع خدمات قواعد البيانات بفضل ميزات مثل Amazon Aurora Zero-ETL to Amazon Redshift والاستعلام الموحد للوصول إلى البيانات في مكانها من قواعد البيانات التشغيلية مثل Amazon RDS ومخزن بيانات Amazon S3. يُمكّن Redshift استيعاب البيانات المتدفقة بدون تعليمة برمجية، من خلال مسارات بيانات تلقائية تستوعب تلقائيًا البيانات المتدفقة أو ملفات Amazon S3. كما يتكامل Redshift أيضًا مع AWS Data Exchange، وهذا بدوره يُمكّن المستخدمين من البحث عن مجموعات بيانات الأطراف الخارجية والاشتراك فيها والاستعلام عنها ودمجها مع بياناتهم للحصول على رؤى شاملة. من خلال التكامل الأصلي في Amazon SageMaker، يستطيع العملاء البقاء داخل مستودع البيانات الخاص بهم وإنشاء نماذج تعلّم آلة في SQL وتدريب تلك النماذج وبنائها. يوفر Amazon Redshift في جميع احتياجاتك من تحليلات SQL أداءً تسعيريًا أفضل بمقدار 5 مرات من مستودعات البيانات السحابية الأخرى.

س: ما خيارات النشر المتاحة في Amazon Redshift؟

Amazon Redshift عبارة عن خدمة مُدارة بالكامل وتقدم كلاً من الخيار الموفَّر والخيار بلا خوادم، وهذا يزيد لك من كفاءة تشغيل التحليلات وتوسعتها بدون الاضطرار إلى إدارة مستودع البيانات. يمكنك تشغيل نقطة نهاية Amazon Redshift Serverless جديدة لتوفير مستودع البيانات تلقائيًا في ثوانٍ أو يمكنك اختيار الخيار المُوفَّر لأعباء العمل التنبؤية.

س: كيف يمكنني بدء استخدام Amazon Redshift؟

من خلال بضع خطوات في وحدة إدارة تحكم AWS، يمكنك بدء الاستعلام عن البيانات. يُمكنك الاستفادة من عينة مجموعات البيانات مسبقة التحميل، بما في ذلك مجموعات بيانات المعيار TPC-H وTPC-DS وغيرها من عينات الاستعلامات لبدء التحليلات على الفور. لبدء استخدام Amazon Redshift Serverless، اختر "تجربة Amazon Redshift Serverless" وابدأ الاستعلام عن البيانات. ابدأ الاستخدام هنا.

س: كيف يُقارن أداء Amazon Redshift بأداء مستودعات البيانات الأخرى؟

تُظهر نتائج المعيار TPC-DS أن Amazon Redshift يوفر أفضل أداء تسعيري حتى في حالة مجموعة البيانات الصغيرة نسبيًا التي سعتها 3 تيرابايت. يوفر Amazon Redshift أداءً تسعيريًا أفضل بمقدار 5 مرات من مستودعات البيانات السحابية الأخرى. وهذا يعني أنه يمكنك الاستفادة من الأداء التسعيري الرائد المتاح في Amazon Redshift من البداية بدون ضبط يدوي. استنادًا إلى قياس أداء الأسطول عن بُعد، نعلم أيضًا أن معظم أعباء العمل هي أعباء عمل استعلام قصيرة (أعباء عمل يجري تشغيلها في أقل من ثانية واحدة). في أعباء العمل هذه، تُظهر أحدث المعايير أن Amazon Redshift يقدم أداءً تسعيريًا أفضل بما يصل إلى 7 أضعاف في أعباء العمل عالية التزامن منخفضة زمن الاستجابة مقارنةً بمستودعات البيانات السحابية الأخرى. تعرّف على المزيد هنا.

س: هل يمكنني الحصول على مساعدة للتعرف على المزيد حول خدمة Amazon Redshift وإلحاقها؟

نعم، يتوفر متخصصو Amazon Redshift للإجابة على الأسئلة وتقديم الدعم. اتصل بنا وسيصلك رد منا خلال يوم عمل واحد لمناقشة كيف يمكن أن تساعد AWS مؤسستك.

س: ما المقصود بالتخزين المُدار من Amazon Redshift؟

يتوفر التخزين المُدار من Amazon Redshift مع أنواع عقد RA3 والعقد بلا خوادم ويتيح لك إمكانية التوسع والدفع مقابل التخزين والحوسبة بشكل مستقل حتى تتمكن من تغيير حجم مجموعتك بناءً على احتياجات الحوسبة فقط. وهو يستخدم تلقائيًا التخزين المحلي المستند إلى محركات الحالة الثابتة عالية الأداء كذاكرة تخزين مؤقت من الطبقة الأولى ويستفيد من التحسينات مثل مقدار كتلة البيانات، وعمر كتلة البيانات، وأنماط عبء العمل لتقديم أداء عالٍ أثناء توسيع التخزين تلقائيًا إلى Amazon S3 عند الحاجة بدون أن يتطلب أي إجراء.

س: كيف أستخدم التخزين المُدار من Amazon Redshift؟

إذا كنت تستخدم بالفعل عُقَد التخزين المكثف Amazon Redshift أو عُقَد الحوسبة المكثفة، فيمكنك استخدام Elastic Resize (تغيير الحجم المرن) لترقية مجموعاتك الحالية إلى مثيل حسابي جديد هو RA3. تقوم Amazon Redshift Serverless والمجموعات التي تستخدم مثيل RA3 تلقائيًا باستخدام التخزين المدار بواسطة Redshift من أجل تخزين البيانات. لا يتطلب أية إجراءات إضافية خارج استخدام مثيلات Amazon Redshift Serverless أو RA3 لاستخدام هذه الإمكانية.

س: كيف يمكنني تشغيل استعلامات من Redshift للبيانات المخزنة في مخزن بيانات AWS؟

Amazon Redshift Spectrum هي إحدى ميزات Amazon Redshift التي تتيح لك تشغيل استعلامات على خلفية مخزن البيانات في خدمة Amazon S3، بدون الحاجة إلى تحميل بيانات أو ETL. عند إصدار استعلام SQL، فإنه ينتقل إلى نقطة نهاية Amazon Redshift، والتي تقوم بإنشاء خطة استعلام وتحسينها. يحدد Amazon Redshift البيانات المحلية والبيانات الموجودة في Amazon S3، ويضع خطةً لتقليل كمية بيانات S3 التي يجب قراءتها، ويطلب من عمال Amazon Redshift Spectrum الخروج من تجمع الموارد المشترك لقراءة البيانات ومعالجتها من Amazon S3.

س: ما الذي ينبغي مراعاته عند استخدام مثيلات RA3؟

فكر في اختيار أنواع عُقَد RA3 في الحالات التالية:

  • تحتاج إلى المرونة في توسع الحوسبة والدفع مقابلها بعيدًا عن التخزين.
  • تستعلم عن جزء من إجمالي بياناتك.
  • يتزايد حجم بيانات بسرعة أو من المتوقع زيادته سريعًا.
  • تريد المرونة لقياس حجم المجموعات بناءً على احتياجات أدائك فقط.

مع استمرار زيادة نطاق البيانات ليصل إلى وحدات من البيتابايت، يزيد أيضًا حجم البيانات التي تستوعبها في مستودع بيانات Amazon Redshift. ربما تبحث عن طرق لتحليل جميع بياناتك بطريقة فعالة.

مع مثيلات Amazon Redshift RA3 الجديدة ذات التخزين المُدار، يمكنك اختيار عدد العُقد بناءً على متطلبات أدائك، ولن تدفع إلا مقابل ما تستخدمه من قدرة التخزين المُدار. وهذا يمنحك المرونة في اختيار حجم مجموعة RA3 بناءً على كمية البيانات التي تعالجها يوميًا بدون زيادة تكاليف التخزين. وبناءً على نظام AWS Nitro System، تستخدم مثيلات RA3 ذات التخزين المُدار محركات حالة ثابتة عالية الأداء (SSDs) في حالة بياناتك النشطة وتستخدم Amazon S3 في حالة بياناتك غير النشطة، ما يوفر سهولةً في استخدام التخزين فعال التكلفة وسرعةً في أداء الاستعلامات.

س: ما الميزة التي يمكنني استخدامها في التحليلات القائمة على الموقع؟

يوفر Amazon Redshift spatial تحليلات قائمةً على الموقع للحصول على رؤى ثرية في بياناتك. حيث تدمج بسهولة البيانات المكانية وبيانات الأعمال لتوفر تحليلات تساهم في اتخاذ القرارات. أطلقت Amazon Redshift دعم معالجة البيانات المكانية الأصلية في نوفمبر 2019، مع هندسة نوع بيانات متعددة الأشكال وعدة وظائف مكانية رئيسة في SQL. والآن ندعم نوع البيانات الجغرافية وزاد حجم مكتبتنا من الوظائف المكانية في SQL حتى وصل إلى 80. ندعم جميع أنواع البيانات والمعايير المكانية المشتركة بما فيها Shapefiles وGeoJSON وWKT وWKB وeWKT وeWKB. لمعرفة المزيد، تفضل بزيارة صفحة الوثائق أو صفحة البرامج التعليمية المكانية في Amazon Redshift.

س. كيف يُقارن دعم SQL في Athena مع Redshift، وكيف لي أن أختار بين الخدمتين؟

يقوم كل من Amazon Athena وAmazon Redshift Serverless بمعالجة مختلف الاحتياجات وحالات الاستخدام، حتى وإن كانت كلتا الخدمتين بلا خوادم ويُمكّنان مستخدمي SQL. 

بفضل بنية المعالجة المتوازية على نطاق واسع (MPP) التي تفصل بين التخزين والحوسبة وتعلّم الآلة التي أدت إلى إمكانات التحسين التلقائي، يعد مستودع البيانات مثل Amazon Redshift، سواءً كان بلا خوادم أو كان مُوفَّرًا، خيارًا رائعًا للعملاء الذين يحتاجون أفضل أداء تسعيري على أي نطاق لأعباء العمل المعقدة الخاصة بذكاء الأعمال والتحليلات. يمكن للعملاء استخدام Amazon Redshift كأحد المكونات المركزية في بنية البيانات لديهم حيث يتوفر به تكاملات عميقة للوصول إلى البيانات الموجودة أو استيعاب البيانات أو نقلها بسهولة إلى المستودع للحصول على تحليلات عالية الأداء، من خلال الطريقة ZeroETL والطريقة no-code (بلا تعليمة برمجية). يمكن للعملاء الوصول إلى البيانات المخزنة في Amazon S3، وقواعد البيانات التشغيلية مثل Aurora وAmazon RDS، ومستودعات بيانات الأطراف الخارجية من خلال التكامل مع AWS Data Exchange، والدمج مع البيانات المخزنة في مستودع بيانات Amazon Redshift لإجراء التحليلات. يُمكنهم بدء تخزين البيانات بسهولة وإجراء تعلّم الآلة باستخدام كل هذه البيانات. 

تُعد خدمة Amazon Athena مناسبةً تمامًا للتحليلات التفاعلية واستكشاف البيانات في مخزن البيانات أو أي مصدر بيانات من خلال إطار عمل موصلات قابل للتوسّع (يتضمن أكثر من 30 موصلًا مبتكرًا للتطبيقات وفي أماكن العمل أو أنظمة التحليلات السحابية الأخرى) بدون القلق بشأن استيعاب البيانات أو معالجتها. تم تصميم Amazon Athena على محركات وأطر عمل مفتوحة المصدر مثل Spark وPresto وApache Iceberg، مما يمنح العملاء المرونة في استخدام Python أو SQL أو العمل على تنسيقات البيانات المفتوحة. إذا أراد العملاء إجراء تحليلات تفاعلية باستخدام أطر عمل وتنسيقات بيانات مفتوحة المصدر، فإن Amazon Athena تُعد مكانًا رائعًا للبدء. 

بدون خوادم

س: ما المقصود بـ Amazon Redshift Serverless؟

Amazon Redshift Serverless هو أحد خيارات Amazon Redshift التي بلا خوادم الذي يزيد من كفاءة إجراء التحليلات ويوسّع نطاقها في ثوانٍ بدون الحاجة إلى إعداد البنية الأساسية لمستودع البيانات وإدارتها. مع Redshift Serverless، يستطيع المستخدمون، بمن فيهم محللو البيانات والمطورون ومتخصصو الأعمال وعلماء البيانات، الحصول على الرؤى والأفكار من البيانات بسهولة عن طريق تحميلها والاستعلام عنها في مستودع البيانات.

س: كيف يمكنني بدء استخدام Amazon Redshift Serverless؟

يُمكنك من خلال بضع خطوات في وحدة إدارة تحكم AWS اختيار "تكوين Amazon Redshift Serverless" وبدء الاستعلام عن البيانات. يُمكنك الاستفادة من عينة مجموعات بيانات محملة مسبقًا مثل بيانات الطقس وبيانات التعداد السكاني ومجموعات بيانات المعايير بالإضافة إلى عينات من الاستعلامات لبدء التحليلات فورًا. ويمكنك إنشاء مجموعات البيانات والمخططات والجداول وبيانات الحمل من Amazon S3، ومشاركات بيانات Amazon Redshift أو استعادتها من نسخة احتياطية موفَّرة حالية من Redshift. كما يمكنك الاستعلام عن البيانات في تنسيقات مفتوحة (مثل Parquet أو ORC) في مخزن بيانات Amazon S3 أو بيانات الاستعلامات في قواعد بيانات تشغيلية مثل Amazon Aurora وAmazon RDS PostgreSQL وMySQL. راجع دليل بدء الاستخدام.

س: ما مزايا استخدام Amazon Redshift Serverless؟

إذا لم يكن لديك خبرة في إدارة مستودع البيانات، فلا تقلق بشأن إعداد المجموعات أو تكوينها أو إدارتها أو ضبط المستودع. يمكنك التركيز على استخلاص رؤى مفيدة من بياناتك أو تقديم نتائج أعمال أساسية من خلال البيانات. ولا تدفع سوى مقابل ما تستخدمه لتتمكن من إدارة التكاليف. تستمر في الاستفادة من أداء Amazon Redshift العالي وميزات SQL المتميزة، والتكامل السلس مع مخازن البيانات ومستودعات البيانات التشغيلية والتحليلات التنبؤية المدمجة وإمكانات مشاركة البيانات. إذا كنت بحاجة إلى تحكم دقيق في مستودع بياناتك، يمكنك توفير مجموعات Redshift.

س: كيف يعمل Amazon Redshift Serverless مع خدمات AWS الأخرى؟

يُمكنك الاستمرار في استخدام جميع وظائف التحليلات المتميزة المتاحة في Amazon Redshift مثل الصلات المعقدة، والاستعلامات المباشرة عن البيانات في مخزن بيانات Amazon S3 وقواعد البيانات التشغيلية، وطرق العرض المادية، والإجراءات المخزنة، ودعم البيانات شبه المهيكلة، وتعلّم الآلة، وكذلك الأداء العالي على نطاق واسع. إن كل الخدمات ذات الصلة التي يتكامل معها Amazon Redshift (مثل Amazon Kinesis، وAWS Lambda، وAmazon QuickSight، وAmazon SageMaker، وAmazon EMR، وAWS Lake Formation، وAWS Glue) تستمر في العمل مع Amazon Redshift Serverless.

س: ما حالات الاستخدام التي يمكنني معالجتها باستخدام Amazon Redshift Serverless؟

يمكنك الاستمرار في تشغيل جميع حالات استخدام التحليلات. بفضل بساطة بدء سير العمل، وضبط النطاق التلقائي، وإمكانية الدفع مقابل الاستخدام، فإن تجربة Amazon Redshift Serverless الآن تزيد من كفاءة بيئات التطوير والاختبار وتجعلها أكثر فعالية من حيث التكلفة وهذه البيئات تحتاج إلى سرعة البدء، وتحليلات أعمال مخصصة، وأعباء عمل ذات احتياجات حوسبة متنوعة وغير متوقعة، وأعباء عمل متقطعة أو متفرقة.

استيعاب البيانات وتحميلها

س: كيف أقوم بتحميل البيانات في مستودع بيانات Amazon Redshift الخاص بي؟

يمكنك تحميل البيانات إلى Amazon Redshift من مجموعة من مصادر البيانات بما في ذلك Amazon S3 أو Amazon RDS أو Amazon DynamoDB أو Amazon EMR أو AWS Glue أو AWS Data Pipeline أو أي مضيف يدعم SSH على Amazon EC2 أو في الموقع. يحاول Amazon Redshift تحميل بياناتك بشكل متواز لكل عقدة حوسبة لزيادة السعر الذي يتم عنده استيعاب البيانات داخل مجموعة مستودع البيانات الخاصة بك. يستطيع العملاء الاتصال بـ Amazon Redshift باستخدام ODBC أو JDBC وإصدار أوامر "إدخال" SQL لإدخال البيانات. يُرجى ملاحظة أن هذا أبطأ من استخدام S3 أو DynamoDB لأن هذه الطرق تقوم بتحميل البيانات بشكل متوازٍ لكل عقدة حوسبة بينما يقوم SQL بإدخال حمل العبارات من خلال العقدة الرائدة الوحيدة. لمزيد من التفاصيل حول تحميل البيانات في Amazon Redshift، يُرجى الاطلاع على دليل بدء الاستخدام.

س: كيف يختلف الأمر auto-copy (النسخ التلقائي) عن الأمر copy (النسخ) في Redshift؟

يوفر الأمر auto-copy (النسخ التلقائي) في Redshift إمكانية أتمتة جُمَل النسخ عن طريق تتبع مجلدات Amazon S3 واستيعاب ملفات جديدة بدون تدخل من العميل. بدون النسخ التلقائي، تقوم جُملة النسخ بالبدء الفوري لعملية استيعاب الملفات للملفات الحالية. يقوم النسخ التلقائي بتمديد أمر النسخ الحالي ويوفر القدرة على 1/ أتمتة عملية استيعاب الملفات من خلال مراقبة مسارات Amazon S3 المحددة للملفات الجديدة، و2/ إعادة استخدام تكوينات النسخ، مما يقلل من الحاجة إلى إنشاء جُمَل نسخ جديدة وتشغيلها لمهام الاستيعاب المتكررة، و3/ تتبع الملفات المحملة لتجنب تكرار البيانات.

س: كيف يمكنني بدء استخدام أمر النسخ التلقائي في Redshift؟

للبدء، يجب أن يكون لدى العملاء مجلد Amazon S3، والذي يمكن الوصول إليه عن طريق مجموعة Redshift/نقطة نهاية بلا خوادم باستخدام أدوار IAM المرتبطة، وإنشاء جدول Redshift لاستخدامه كهدف. بمجرد أن يصبح مسار Amazon S3 وجدول Redshift جاهزين، يمكن للعملاء إنشاء مهمة نسخ باستخدام الأمر copy. بمجرد إنشاء مهمة النسخ، يبدأ Redshift في تتبع مسار Amazon S3 المحدد بالخلفية ويبدأ جُمَل النسخ المعرفة بواسطة المستخدم لتقوم بنسخ الملفات الجديدة تلقائيًا إلى الجدول الهدف.

س: ما حالات استخدام تكامل Amazon Redshift لـ Apache Spark؟

تشمل حالات الاستخدام الرئيسية ما يلي: 1/ العملاء الذين يستخدمون Amazon EMR وAWS Glue لتشغيل مهام Apache Spark التي تصل إلى البيانات وتحميلها في Amazon Redshift كجزء من مسارات استيعاب البيانات وتحويلها (الدفعية والتدفق) 2/ العملاء الذين يستخدمون Amazon SageMaker في إجراء تعلّم الآلة باستخدام Apache Spark ويتعين عليهم الوصول إلى البيانات المخزنة في Amazon Redshift المتعلقة بهندسة الميزات والتحوّل. 3/ عملاء Amazon Athena يستخدمون Apache Spark في إجراء تحليل تفاعلي على البيانات في Amazon Redshift.

س: ما مزايا تكامل Amazon Redshift لـ Apache Spark؟

يوفر Baikal المزايا التالية: 1/ سهولة الاستخدام لبدء تطبيقات Apache Spark وتشغيلها على البيانات في Amazon Redshift بدون القلق بشأن الخطوات اليدوية الموجودة في إعداد الإصدارات غير المعتمدة من Spark وصيانتها؛ 2/ سهولة استخدام Apache Spark من خدمات AWS المتنوعة مثل Amazon EMR وAWS Glue وAmazon Athena وAmazon SageMaker مع Amazon Redshift مع الحد الأدنى من التكوين؛ 3/ تحسين الأداء مع تشغيل تطبيقات Apache Spark على Amazon Redshift.

س. متى ينبغي لي استخدام Amazon Aurora Zero-ETL to Amazon Redshift بدلًا من الاستعلام الموحد؟

تُمكّن الميزة Amazon Aurora Zero-ETL to Amazon Redshift عملاء Amazon Aurora وAmazon Redshift من تشغيل تحليلات في الوقت الفعلي تقريبًا وتعلّم الآلة على وحدات بيتابايت من بيانات المعاملات من خلال تقديم حل مُدار بالكامل بهدف إتاحة بيانات المعاملات من Amazon Aurora في Amazon Redshift في غضون ثوانٍ من كتابتها. مع الميزة Amazon Aurora Zero-ETL to Amazon Redshift، ما على العملاء سوى اختيار جداول Amazon Aurora التي تحتوي على البيانات التي يرغبون في تحليلها باستخدام Amazon Redshift، وتقوم الميزة بتكرار المخطط والبيانات بسلاسة في Amazon Redshift. إنه يقلل من حاجة العملاء إلى إنشاء مسارات معقدة للبيانات وإدارتها، وبالتالي يمكنهم بدلاً من ذلك التركيز على تحسين تطبيقاتهم. مع الميزة Amazon Aurora Zero-ETL to Amazon Redshift، يمكن للعملاء نسخ البيانات نسخًا متماثلًا من عدة مجموعات من قواعد بيانات Amazon Aurora في مثيل Amazon Redshift نفسه للحصول على رؤى شاملة عبر العديد من التطبيقات، وفي الوقت نفسه دمج أصول التحليلات الأساسية، وتحقيق وفورات كبيرة في التكلفة وتحسين الكفاءة التشغيلية. مع الميزة Amazon Aurora Zero-ETL to Amazon Redshift، يمكن للعملاء أيضًا الوصول إلى التحليلات الأساسية وإمكانات تعلم الآلة التي يشتمل عليها Amazon Redshift مثل طرق العرض المادية، ومشاركة البيانات، والوصول الموحد إلى العديد من مخازن البيانات. يُمكّن ذلك العملاء من الجمع بين التحليلات في الوقت الفعلي والتحليلات الأساسية لاستخلاص رؤى حساسة للوقت بشكل فعال والتي تسترشد بقرارات الأعمال. علاوةً على ذلك، يستخدم العملاء Amazon Aurora في المعاملات وAmazon Redshift للتحليلات، وبالتالي لا توجد موارد حوسبة مشتركة وهذا ينتج عنه حل فعال ومستقر من الناحية التشغيلية.

س: كيف ترتبط الميزة Amazon Aurora Zero-ETL to Amazon Redshift بخدمات AWS الأخرى وكيف تعمل معها؟

يوفر تكامل Amazon Aurora Zero-ETL مع Amazon Redshift تكاملاً سلسًا بين الخدمتين لتحليلات المعاملات.

س. كيف تعمل الميزة Streaming Ingestion (استيعاب التدفق)؟

تختلف بيانات البث عن جداول قواعد البيانات التقليدية في أنه عندما تقوم بالاستعلام عن بث، فإنك تلتقط صورةً لتطور علاقة متغيرة بمرور الوقت. ومن ناحية أخرى، تلتقط الجداول نسخةً احتياطيةً في نقطة زمنية معينة لهذه العلاقة المتغيرة بمرور الوقت. يعتاد عملاء Amazon Redshift على العمل على جداول منتظمة وإجراء المعالجة النهائية (أي التحوّلات) للبيانات باستخدام نموذج دفعي تقليدي، على سبيل المثال "ELT". إننا نقدم طريقةً لاستخدام طرق العرض المادية (MVs) في Redshift وبالتالي يمكن للعملاء بسهولة إعداد عرض مادي لنقطة زمنية معينة، على نحو متراكم إلى حين وقت الاستعلام عنه، بأسرع ما يمكن لدعم تدفقات عمل ELT.

مشاركة البيانات

: ما حالات استخدام مشاركة البيانات؟

تتضمن حالات الاستخدام الرئيسية ما يلي:

  • مجموعة ETL مركزية تُجري مشاركةً للبيانات مع العديد من مجموعات ذكاء الأعمال/التحليلات لتوفير عزل أعباء عمل القراءة وإمكانية الشحن الاختيارية.
  • موفر بيانات يُجري مشاركةً للبيانات إلى مستهلكين خارجيين.
  • مشاركة مجموعات بيانات مشتركة مثل العملاء والمنتجات عبر مجموعات الأعمال المختلفة والتعاون من أجل توسعة التحليلات وعلوم البيانات.
  • تحقيق لامركزية مستودع البيانات من أجل تبسيط الإدارة.
  • مشاركة البيانات بين بيئات التطوير والاختبار والإنتاج.
  • الوصول إلى بيانات Redshift من خدمات التحليلات الأخرى من AWS.

س: ما المقصود بالاستعلامات عبر قواعد البيانات في Amazon Redshift؟

باستخدام الاستعلامات عبر قواعد البيانات، يُمكنك الاستعلام بسهولة عن البيانات وضمها من أي قاعدة بيانات Redshift لديك حق الوصول إليها، بغض النظر عن قاعدة البيانات التي تتصل بها. يمكن أن يشمل ذلك قواعد البيانات المحلية على المجموعة وكذلك مجموعات البيانات المشتركة التي تتوفر من المجموعات البعيدة. تمنحك الاستعلامات عبر قواعد البيانات المرونة لتنظيم البيانات كقواعد بيانات منفصلة لدعم التكوينات متعددة المستأجرين.

س: من المستخدمون الرئيسيون لخدمة AWS Data Exchange؟

تحقق AWS Data Exchange لعملاء AWS مزيدًا من الكفاءة في تبادل بيانات الأطراف الخارجية واستخدامها بأمان في AWS. يود محللو البيانات، ومديرو المنتجات، ومديرو قوائم المشروعات، وعلماء البيانات، وعلماء البيانات الكمية، وفنيو التجارب السريرية، والمطورون تقريبًا في كل مجال الوصول إلى المزيد من البيانات لتحسين التحليلات، وتدريب نماذج تعلم الآلة، واتخاذ قرارات مستندة إلى البيانات. ولكن لا يوجد مكان واحد تعثر فيه على بيانات من عدة موفرين ولا يوجد تناسق في كيف يوصل الموفرون البيانات، وبالتالي يتم تركها مع مجموعة من الوسائط المادية المشحونة، وبيانات اعتماد بروتوكول نقل الملفات (FTP)، واستدعاءات واجهة برمجة التطبيقات (API) للحلول. وفي المقابل، تود العديد من المؤسسات جعل البيانات متاحةً لأغراض بحثية أو تجارية ولكن من الصعب جدًا والمكلف القيام ببناء تقنية تختص بتوصيل البيانات واستحقاقها وإصدار الفواتير والحفاظ على هذه التقنية والذي من شأنه إزالة الضغط الناجم عن إمداد البيانات القيّمة.

قابلية التوسع والتزامن

س: كيف يمكنني زيادة حجم وتحسين أداء مجموعة مستودع بيانات Amazon Redshift؟

يوفر Amazon Redshift Serverless تلقائيًا سعة تخزين لمستودع البيانات ويقوم من خلال طريقة ذكية بتوسعة الموارد الأساسية. يقوم Amazon Redshift Serverless بضبط السعة في ثوانٍ لتقديم أداء عالٍ بصفة مستمرة وتوفير عمليات مبسطة حتى لأعباء العمل كثيفة المتطلبات والمتقلبة. ومن خلال ميزة ضبط النطاق المتزامن (Concurrency Scaling)، يمكنك دعم المستخدمين المتزامنين والاستعلامات المتزامنة غير المحدودة، من خلال أداء الاستعلامات الذي يتسم بالسرعة الدائمة. عندما يتم تمكين ميزة ضبط النطاق المتزامن، يقوم Amazon Redshift بإضافة سعة إلى المجموعة عندما تتعرض المجموعة إلى زيادة في قائمة انتظار الاستعلامات.

في التوسّع اليدوي، إذا كنت ترغب في زيادة أداء الاستعلام أو الاستجابة للاستخدام المفرط لوحدة المعالجة المركزية أو الذاكرة أو المدخلات/المخرجات، يمكنك زيادة عدد العُقَد داخل مجموعة مستودع البيانات باستخدام Elastic Resize من خلال وحدة إدارة تحكم AWS أو واجهة برمجة تطبيقات ModifyCluster. عندما تُعدّل مجموعة مستودع البيانات، يتم فورًا تطبيق التغييرات التي تطلبها. تتوفر قياسات استخدام الحوسبة، واستخدام التخزين، وحركة مرور القراءة/الكتابة إلى مجموعة مستودع بيانات Redshift مجانًا عبر وحدة إدارة تحكم AWS أو واجهات برمجة تطبيقات Amazon CloudWatch. يمكنك كذلك إضافة قياسات مُعرَّفة المستخدم من خلال وظيفة القياسات المخصصة Amazon CloudWatch.

ومع Amazon Redshift Spectrum، يمكنك تشغيل مجموعات Redshift متعددة تصل إلى نفس البيانات في Amazon S3. ويمكنك استخدام مجموعات مختلفة لحالات استخدام مختلفة. على سبيل المثال، يمكنك استخدام مجموعة للتقارير القياسية وأخرى لاستعلامات علوم البيانات. ويمكن أن يستخدم فريق التسويق مجموعاته المختلفة عن مجموعات فريق العمليات. تقوم Redshift Spectrum تلقائيًا بتوزيع تنفيذ الاستعلام على عدة عمال Redshift Spectrum من مجموعة موارد مشتركة لقراءة البيانات ومعالجتها من Amazon S3، كما أنه يسحب النتائج مرةً أخرى إلى مجموعة Redshift من أجل إجراء أي عمليات معالجة متبقية.

س: هل تبقى مجموعة مستودع البيانات متاحةً أثناء ضبط النطاق؟

الأمر يتوقف على عدة أشياء. عندما تستخدم ميزة ضبط النطاق المتزامن، تكون المجموعة متاحة بشكل كامل للقراءة والكتابة أثناء ضبط النطاق المتزامن. مع Elastic Resize، لا تكون المجموعة متاحةً لمدة أربع إلى ثمان دقائق والتي تمثل فترة تغيير الحجم. بفضل مرونة تخزين Redshift RA3 في التخزين المُدار، تكون المجموعة متاحةً بصفة كاملة وتنتقل البيانات بشكل تلقائي بين عُقد التخزين المُدار وعُقد الحوسبة.

س: ما المقصود بـ Elastic Resize وكيف يختلف عن ضبط النطاق المتزامن؟

يقوم Elastic Resize بإضافة أو إزالة العُقد من مجموعة Redshift واحدة خلال دقائق لإدارة معدل نقل الاستعلامات الخاصة بها. على سبيل المثال، قد يحتاج عبء عمل ETL لساعات معينة في تقارير نهاية اليوم أو الشهر إلى موارد Amazon Redshift إضافية لإتمامها في الوقت المناسب. تضيف ميزة ضبط النطاق المتزامن المزيد من موارد المجموعة الإضافية من أجل زيادة إجمالي تزامن الاستعلامات.

س: هل يمكنني الوصول إلى مجموعات ضبط النطاق المتزامن بشكل مباشر؟

لا. فضبط النطاق المتزامن عبارة عن مجموعة قابلة للتوسع بشدة من موارد Amazon Redshift، ولا يحظى العملاء بإمكانية الوصول إليها بشكل مباشر.

الأمان

س: كيف يحافظ Amazon Redshift على أمان بياناتي؟

يدعم Amazon Redshift أمانًا رائدًا حيث إنه يتضمن إدارة هويات واتحاد هويات من أجل تسجيل الدخول الأحادي، والمصادقة متعددة العوامل، والتحكم في الوصول على مستوى العمود، والأمان على مستوى الصف، والتحكم في الوصول المستند إلى الدور، وAmazon Virtual Private Cloud (Amazon VPC). مع Amazon Redshift، يتم تشفير بياناتك أثناء النقل وأثناء عدم النشاط. يتم تقديم جميع ميزات أمان Amazon Redshift فورًا بدون أي تكلفة إضافية لتلبية متطلبات الأمان والخصوصية والامتثال الأكثر تطلبًا. يُمكنك الاستفادة من دعم AWS للمزيد من معايير الأمان وشهادات الامتثال أكثر مما يدعمه أي مقدم خدمة آخر، ومن هذه المعايير والشهادات ISO 27001 وSOC وHIPAA/HITECH وFedRAMP.

س: هل يدعم Redshift عناصر التحكم في الوصول متعددة المستويات مثل الأمان؟

نعم، يوفر Amazon Redshift الدعم للتحكم في الوصول القائم على الدور. التحكم في الوصول على مستوى الصف يسمح لك بتعيين دور واحد أو أكثر من دور لمستخدم، وتعيين أذونات النظام وأذونات الكائنات حسب الدور. يُمكنك استخدام أدوار نظام مبتكرة؛ المستخدم الرئيسي، وdba، والمشغل، ومسؤولو الأمان، أو إنشاء أدوارك الخاصة.

س: هل تدعم Amazon Redshift إخفاء البيانات أو ترميز البيانات؟

تمكّنك وظائف AWS Lambda المُعرفة من قِبل المستخدم (UDFs) من استخدام وظيفة AWS Lambda باعتبارها وظيفة مُعرفة من قِبل المستخدم في Amazon Redshift واستدعائها من استعلامات Redshift SQL. تمكّنك هذه الوظيفة من كتابة ملحقات مُخصَّصة لاستعلام SQL لتحقيق تكامل أكثر إحكامًا مع الخدمات الأخرى أو منتجات الأطراف الخارجية. يُمكنك كتابة وظائف Lambda المُعرفة من قِبل المستخدم لتمكين الترميز الخارجي، وإخفاء البيانات، والتعرف على البيانات أو إلغاء التعرف عليها من خلال التكامل مع موردين مثل Protegrity، وحماية البيانات الحساسة أو إلغاء حمايتها بناءً على أذونات المستخدم ومجموعات المستخدم، في وقت الاستعلام.

مع دعم إخفاء البيانات الديناميكي، يسهل على العملاء حماية بياناتهم الحساسة والتحكم في الوصول الدقيق متعدد المستويات من خلال إدارة سياسات إخفاء البيانات. لنفترض أن لديك تطبيقات بها عدة مستخدمين وعدة كائنات تحتوي على بيانات حساسة لا يمكن عرضها لجميع المستخدمين. لديك متطلبات الغرض منها توفير مستوى أمان دقيق متعدد المستويات مختلف تريد منحه لمجموعات أخرى من المستخدمين. إن ميزة إخفاء البيانات الديناميكي في Redshift هي ميزة قابلة للتكوين للسماح للعملاء بتحديد قيم البيانات المخفية بطريقة متسقة محافظة على التنسيق ولا يمكن التراجع عنها. بمجرد أن تكون الميزة متاحة للجمهور العام، تبدأ في استخدامها على الفور يمكن لمسؤولي الأمان إنشاء سياسات وتطبيقها باستخدام أوامر قليلة فقط.

س: هل يدعم Amazon Redshift تسجيل الدخول الأحادي؟

نعم. يمكن للعملاء الذين يرغبون في استخدام موفري هوية المؤسسة مثل Microsoft Azure Active Directory أو Active Directory Federation Services أو Okta أو Ping Federate أو موفري هوية آخرين متوافقين مع SAML تكوين Amazon Redshift لتقديم تسجيل الدخول الأحادي. يمكنك تسجيل الدخول إلى مجموعة Amazon Redshift باستخدام هويات Microsoft Azure Active Directory (AD). وهذا يتيح لك القدرة على تسجيل الدخول إلى Redshift بدون تكرار هويات Azure Active Directory في Redshift.

س: هل يدعم Amazon Redshift المصادقة متعددة العوامل (MFA)؟

نعم. يمكنك استخدام المصادقة متعددة العوامل (MFA) للحصول على أمان إضافي عند المصادقة مع مجموعة Amazon Redshift الخاصة بك.

التوافر الدائم والمتانة

س: ماذا يحدث لتوافر مجموعة مستودع البيانات ومتانة البيانات في حالة فشل عقدة واحدة؟

يكتشف Amazon Redshift بشكل تلقائي العقدة التي فشلت في مجموعة مستودع البيانات ويستبدلها. وفي مجموعات الحوسبة المكثفة (DC) والتخزين المكثف (DS2)، تُخزَّن البيانات على عُقَد الحوسبة لضمان متانة عالية للبيانات. وعند استبدال إحدى العُقَد، يتم تحديث البيانات من النسخة المعكوسة على العقدة الأخرى. لا تتأثر مجموعات RA3 وRedshift serverless بنفس الطريقة لأن البيانات مخزنة في Amazon S3 ويُستخدم المحرك المحلي كمخزن مؤقت للبيانات فقط. وتكون مجموعة مستودع البيانات غير متاحة للاستعلامات والتحديثات إلى أن يتم توفير عقدة بديلة وإضافتها إلى قاعدة البيانات. ويتيح Amazon Redshift العقدة البديلة الخاصة بك بشكل فوري ويقوم بتحميل البيانات التي تصل إليها بشكل أكثر تكرارًا من Amazon S3 أولاً للسماح لك باستئناف عمليات الاستعلام عن البيانات في أسرع وقت ممكن. لا تدعم مجموعات العقد المفردة النسخ المتماثل للبيانات. في حالة فشل محرك أقراص، يتعين عليك استعادة المجموعة من النسخة الاحتياطية الموجودة على S3. نوصي باستخدام عقدتين على الأقل لأغراض الإنتاج.

س: ماذا يحدث لتوافر مجموعة مستودع البيانات الخاصة بي ومتانة البيانات إذا تعطلت منطقة توافر الخدمات (AZ) الخاصة بمجموعة مستودع البيانات؟

إذا كان مستودع بيانات Amazon Redshift الخاص بك من نوعية النشر في منطقة توافر واحدة وأصبحت منطقة التوافر الخاصة بالمجموعة غير متوفرة، فسيقوم Amazon Redshift تلقائيًا بنقل مجموعتك إلى منطقة توافر خدمات (AZ) أخرى من AWS بدون أي فقد للبيانات أو تغييرات في التطبيقات. لتنشيط هذا، يجب عليك تمكين إمكانية الانتقال في إعدادات تكوين مجموعتك.

س: لماذا لي ينبغي استخدام النشر في عدة مناطق توافر في Redshift؟

على عكس عمليات النشر في منطقة توافر واحدة، يمكن للعملاء الآن تحسين توافر Redshift من خلال تشغيل مستودع البيانات في عملية نشر متعددة مناطق التوافر. النشر في عدة مناطق توافر يتيح لك تشغيل مستودع البيانات في عدة مناطق توافر خدمات (AZ) من AWS في وقت واحد ومواصلة العمل في سيناريوهات فشل غير متوقعة. لا يلزم إجراء أي تغييرات في التطبيقات للحفاظ على استمرارية الأعمال حيث إن النشر متعدد مناطق التوافر تتم إدارته كمستودع بيانات واحد بنقطة نهاية واحدة. تعمل عمليات النشر متعدد المناطق على تقليل وقت التعافي من خلال ضمان القدرة على التعافي تلقائيًا وهي مخصصة للعملاء الذين لديهم تطبيقات تحليلات حيوية للأعمال تتطلب أعلى مستويات التوافر والمرونة في حالات فشل منطقة التوافر. يُتيح هذا أيضًا للعملاء تنفيذ حل أكثر توافقًا من خلال توصيات ركيزة الموثوقية في AWS Well-Architected Framework. لمعرفة المزيد حول مناطق التوافر المتعددة في Amazon Redshift، يرجى الرجوع إلى هنا.

س: ما المقصود بـ RPO وRTO؟ ما RPO وRTO المدعومان بالنشر متعدد مناطق التوافر؟

RPO هو اختصار للعبارة Recovery Point Objective التي تعني هدف نقطة الاسترجاع وهو مصطلح لوصف ضمان حداثة البيانات في حالة الفشل. هدف نقطة الاسترجاع (RPO) هو أقصى مقدار مقبول من الوقت منذ آخر نقطة استرجاع للبيانات. يحدد هذا الهدف ما يعتبر فقدانًا مقبولًا في البيانات بين نقطة الاسترجاع الأخيرة وانقطاع الخدمة. تدعم خدمة Redshift Multi-AZ هدف نقطة الاسترجاع (RPO) = 0، ما يعني ضمان حداثة البيانات وتحديثها في حالة حدوث فشل. وجدت اختبارات ما قبل الإطلاق أن هدف نقطة الاسترجاع (RTO) يستغرق في عمليات نشر Amazon Redshift Multi-AZ أقل من 60 ثانية أو أدنى من ذلك بكثير في الحالة غير المتوقعة لفشل منطقة توافر الخدمات (AZ).

س: ما وجه المقارنة بين Redshift Multi-AZ وميزة Redshift Relocation الحالية؟

يجري تمكين الميزة Redshift Relocation افتراضيًا على جميع مجموعات RA3 الجديدة ونقاط النهاية بلا خوادم، ما يسمح بإعادة تشغيل مستودع البيانات في منطقة توافر خدمات أخرى في حالة الانقطاع على نطاق واسع، بدون أي فقدان للبيانات أو تكلفة إضافية. على الرغم من أن الميزة Relocate (الانتقال) هي ميزة مجانية، إلا أن القيود تتمثل في أنها عبارة عن طريقة بذل أفضل الجهود تخضع لتوافر الموارد في منطقة توافر الخدمات التي يتم استرجاعها ويمكن أن يتأثر هدف وقت الاسترجاع (RTO) بالمشكلات الأخرى المتعلقة ببدء مجموعة جديدة. يمكن أن يؤدي ذلك إلى أوقات استرجاع تتراوح بين 10 دقائق و60 دقيقة. تدعم Redshift Multi-AZ متطلبات التوافر العالية من خلال توفير هدف نقطة استرجاع (RTO) منخفض، وتوفر تشغيلاً مستمرًا مضمونًا لأنها لن تخضع لقيود السعة في أثناء استرجاع المجموعة.

الاستعلامات والتحليلات

س: هل Amazon Redshift وRedshift Spectrum متوافقان مع حزمة برامج ذكاء الأعمال وأدوات ETL التي أفضلها؟

نعم، حيث يستخدم Amazon Redshift لغة SQL القياسية في الصناعة ويمكن الوصول إليها باستخدام برامج تشغيل JDBC وODBC القياسية. ويمكنك تنزيل برامج تشغيل JDBC وODBC المُخصَّصة لـ Amazon Redshift من علامة تبويب «Connect Client» في وحدة تحكم Redshift. لقد تحققنا من التكاملات مع بائعي ذكاء الأعمال وETL‏ الذين يملكون شهرة عريضة، ومجموعة منهم يعرضون التجارب المجانية لمساعدتك في بدء تحميل بياناتك وتحليلها. يمكنك أيضًا التوجه إلى AWS Marketplace من أجل نشر وتكوين الحلول المصممة للعمل مع Amazon Redshift خلال دقائق.
يدعم Amazon Redshift Spectrum كل أدوات عملاء Amazon Redshift. يمكن أن تساهم أدوات العملاء في الاتصال بنقطة نهاية مجموعة Amazon Redshift باستخدام اتصالات ODBC أو JDBC. ولا يلزم إجراء أي تغييرات.
ويمكنك استخدام نفس البناء اللغوي للاستعلام بالضبط وامتلاك نفس القدرات اللازمة للوصول إلى الجداول في Redshift Spectrum مثل تلك التي تمتلكها للجداول في وحدات التخزين المحلية في مجموعة Redshift لديك. وتتم الإشارة إلى الجداول الخارجية باستخدام اسم المخطط المعرّف في الأمر CREATE EXTERNAL SCHEMA حيث تم تسجيلها.

س: ما تنسيقات البيانات وتنسيقات الضغط التي يدعمها Amazon Redshift Spectrum؟

يدعم Amazon Redshift Spectrum حاليًا العديد من تنسيقات البيانات مفتوحة المصدر، منها Avro، وCSV، وGrok، وAmazon Ion، وJSON، وORC، وParquet، وRCFile، وRegexSerDe، وSequence، وText، وTSV.
يدعم Amazon Redshift Spectrum حاليًا ضغط Gzip وSnappy.

س: ماذا يحدث إذا كان هناك جدول في وحدة تخزين محلية لدي له نفس اسم جدول خارجي؟

تمامًا كما هو الحال مع الجداول المحلية، يمكنك استخدام اسم المخطط من أجل اختيار ما تعنيه بالضبط من خلال استخدام schema_name.table_name في الاستعلام الخاص بك.

س: أستخدم Hive Metastore من أجل تخزين بيانات التعريف بشأن مخزن بيانات S3 الخاص بي. فهل يمكنني استخدام Redshift Spectrum؟

نعم. أمر CREATE EXTERNAL SCHEMA يدعم Hive Metastores. إننا لا ندعم DDL حاليًا في مقابل Hive Metastore.

س: كيف يمكن أن أحصل على قائمة بكل جداول قواعد البيانات الخارجية التي يتم إنشاؤها في مجموعتي؟

للحصول على تلك المعلومات، يمكنك عمل الاستعلام على جدول النظام SVV_EXTERNAL_TABLES.

س: هل يدعم Redshift القدرة على استخدام تعلّم الآلة مع SQL؟

نعم، تُسهل ميزة Amazon Redshift ML على مستخدمي SQL إنشاء نماذج تعلّم الآلة (ML) وتدريبها ونشرها باستخدام أوامر SQL المعتادة. يتيح لك التعلم الآلي Amazon Redshift الاستفادة من بياناتك في Amazon Redshift باستخدام Amazon SageMaker، وهي خدمة تعلُّم آلي مُدارة بالكامل. تدعم Amazon Redshift التعلم بدون إشراف (K-Means) والتعلم بإشراف (Autopilot، XGBoost، MLP algorithms). كما يمكنك استخدام خدمات الذكاء الاصطناعي اللغوية من AWS لترجمة وتحرير وتحليل حقول النصوص في استعلامات SQL مع وظائف Lambda UDF مسبقة الإعداد - طالع منشور المدونة.

س: هل توفر Amazon Redshift واجهة برمجة تطبيقات (API) للاستعلام عن البيانات؟

تقوم Amazon Redshift بتوفير Data API التي تُمكّنك من الوصول إلى البيانات بدون مجهود من Amazon Redshift مع جميع أنواع التطبيقات المستندة إلى خدمات الويب التقليدية، والأصلية للسحابة، والمستندة إلى حاويات، والتي بلا خوادم وكذلك التطبيقات القائمة على الأحداث. تعمل Data API على تبسيط الوصول إلى Amazon Redshift نظرًا لعدم احتياجك إلى تكوين برامج التشغيل وإدارة اتصالات قاعدة البيانات. أو يمكنك تشغيل أوامر SQL إلى مجموعة Amazon Redshift عن طريق استدعاء نقطة نهاية API مؤمَّنة توفرها Data API. تتولى Data API إدارة اتصالات قاعدة البيانات وتخزين البيانات مؤقتًا. تُعد Data API غير متزامنة، لذا يمكنك استرجاع نتائجك لاحقًا. تُخزَّن نتائج الاستعلام لمدة 24 ساعة.

س: ما أنواع بيانات الاعتماد التي يمكنني استخدامها مع الميزة Amazon Redshift Data API؟

تدعم Data API كلاً من بيانات اعتماد IAM واستخدام مفتاح سري من AWS Secrets Manager. تعمل Data API على توحيد بيانات اعتماد AWS Identity and Access Management (IAM) بحيث يُمكنك استخدام موفِّري الهوية مثل Okta أو Azure Active Directory أو بيانات اعتماد قاعدة البيانات المُخزَّنة في Secrets Manager دون تمرير بيانات اعتماد قاعدة البيانات في مكالمات API.

س: هل يمكنني استخدام Amazon Redshift Data API من AWS CLI؟

نعم، يُمكنك استخدام Data API من AWS CLI باستخدام خيار سطر أوامر aws redshift-data.

س: هل Redshift Data API متكاملة مع خدمات AWS الأخرى؟

يُمكنك استخدام Data API من خدمات أخرى مثل AWS Lambda وAWS Cloud9 وAWS AppSync وAmazon EventBridge.

س: هل يتعين عليَّ أن أدفع بشكل منفصل مقابل استخدام Amazon Redshift Data API؟

كلا، لا توجد رسوم منفصلة لاستخدام Data API.

عمليات تكامل zero-ETL

متى يجب استخدام تكامل zero-etl لـ Amazon Aurora MySQL مع Amazon Redshift؟

يجب عليك استخدام تكامل zero-etl لـ Amazon Aurora MySQL مع Amazon Redshift عندما تحتاج إلى الوصول في الوقت شبه الفعلي إلى بيانات المعاملات. يتيح لك هذا التكامل الاستفادة من تعلّم الآلة (ML) لخدمة Amazon Redshift باستخدام أوامر SQL البسيطة.

ما محركات Amazon Aurora وإصداراتها التي تدعم تكامل zero-ETL؟

يتوفر تكامل zero-etl لـ Amazon Aurora مع Amazon Redshift على إصدار Aurora المتوافق مع MySQL بالنسبة إلى إصدار Aurora MySQL 3.05 (المتوافق مع MySQL 8.0.32) والإصدارات الأحدث في شرق الولايات المتحدة (أوهايو) وشرق الولايات المتحدة (شمال فرجينيا) وغرب الولايات المتحدة (أوريجون) وآسيا والمحيط الهادئ (طوكيو) وآسيا والمحيط الهادئ (سنغافورة) وآسيا والمحيط الهادئ (سيدني) وأوروبا (أيرلندا) وأوروبا (فرانكفورت) وأوروبا (ستوكهولم).

ما الفوائد التي يوفرها تكامل zero-ETL؟

مع تكامل zero-etl لـ Amazon Aurora MySQL مع Amazon Redshift، لا يحتاج العملاء إلى إنشاء مسارات بيانات معقدة وصيانتها لدمج البيانات من مجموعات قاعدة بيانات Aurora الفردية أو المتعددة إلى مجموعة قاعدة بيانات Redshift واحدة وتشغيل التحليلات وتعلّم الآلة في الوقت شبه الفعلي باستخدام Amazon Redshift على أحجام من البيتابايت لبيانات المعاملات من Amazon Aurora.

هل تكامل zero-ETL متوافق مع الإصدار Amazon Aurora بلا خادم v2؟

إن تكامل zero-etl لـ Amazon Aurora MySQL مع Amazon Redshift متوافق مع Amazon Aurora بلا خادم v2. وعند استخدام كل من Aurora بلا خادم وAmazon Redshift بدون خادم، يمكنك إنشاء تحليلات في الوقت شبه الفعلي لبيانات المعاملات بدون الحاجة إلى إدارة أي بنية تحتية لمسارات البيانات.

كيف أمكِّن تكامل zero-ETL؟

يمكنك البدء باستخدام وحدة تحكم Amazon RDS لإنشاء تكامل zero-etl من خلال تحديد مصدر Aurora ووجهة Amazon Redshift. بمجرد إنشاء التكامل، سيُجرى نسخ متماثل لقاعدة بيانات Aurora إلى Amazon Redshift ويمكنك البدء في الاستعلام عن البيانات بمجرد اكتمال مرحلة التأسيس الأولي. لمعرفة المزيد من المعلومات، اقرأ دليل البدء لعمليات تكامل zero-etl لـ Amazon Aurora MySQL مع Amazon Redshift.

كم تبلغ تكلفة تكامل zero-ETL؟

يُقدم تكامل zero-ETL والمعالجة المستمرة لتغييرات البيانات بدون أي رسوم إضافية. إنك تدفع مقابل موارد Amazon RDS وAmazon Redshift الحالية المستخدمة للإنشاء والمعالجة للبيانات المتغيرة المنشأة كجزء من تكامل zero-ETL. قد تتضمن هذه الموارد عمليات الإدخال/الإخراج وسعة التخزين الإضافية المستخدمة من خلال تمكين التسجيل الثنائي المحسّن، بالإضافة إلى تكاليف Snapshot Export لتصدير البيانات الأولية لإنشاء قواعد بيانات Amazon Redshift الخاصة بك، وسعة تخزين Amazon Redshift الإضافية المستخدمة في تخزين البيانات الخاضعة للنسخ المتماثل ونقل البيانات عبر مناطق توافر الخدمات من أجل نقل البيانات من المصدر إلى الوجهة المستهدفة. لمعرفة المزيد من المعلومات، تفضل بزيارة صفحة تسعير Aurora.

النسخ الاحتياطي والاستعادة

س: كيف يقوم Amazon Redshift بعمل النسخ الاحتياطي للبيانات الخاصة بي؟ كيف يمكنني استعادة مجموعتي من نسخة احتياطية؟

تقوم مجموعات Amazon Redshift RA3 وAmazon Redshift Serverless باستخدام التخزين المُدار في Redshift، حيث يكون لديه دائمًا أحدث نسخة من البيانات المتاحة. تعكس مجموعات DS2 وDC2 البيانات على المجموعة لضمان توفر آخر نسخة في حالة الفشل. يتم إنشاء النسخ الاحتياطية على جميع أنواع مجموعات Redshift ويتم الاحتفاظ بها لمدة 24 ساعة وتتوفر على نقاط الاستعادة بلا خوادم على مدار الـ 24 ساعة الماضية.

كما يمكنك إنشاء نسخك الاحتياطية التي يمكن الاحتفاظ بها للأبد. ويمكن إنشاء هذه النسخ الاحتياطية في أي وقت ويمكن تحويل نسخ Amazon Redshift الاحتياطية التلقائية أو نقاط استعادة Amazon Redshift Serverless إلى نسخة احتياطية للمستخدم للاحتفاظ بها لمدة أطول.

يمكن لـ Amazon Redshift أيضًا نسخ النسخ الاحتياطية نسخًا متماثلاً أو نقاط الاستعادة بطريقة غير متزامنة إلى Amazon S3 في منطقة أخرى للتعافي من الكوارث.

في مجموعة DS2 أو DC2، يقتصر تخزين النسخ الاحتياطي المجاني على إجمالي حجم التخزين على العُقد في مجموعة مستودع البيانات، ويسري فقط على مجموعات مستودع البيانات النشطة.

على سبيل المثال، إذا كان إجمالي سعة تخزين مستودع البيانات يبلغ 8 تيرابايت، فسوف نحاول توفير مساحة تخزين للنسخ الاحتياطي مقدارها 8 تيرابايت بدون أي تكلفة إضافية. إذا كنت ترغب في زيادة مدة الاحتفاظ بالنسخة الاحتياطية بما يتجاوز يوم واحد، فيمكنك فعل ذلك باستخدام وحدة إدارة تحكم AWS أو واجهات برمجة تطبيقات Amazon Redshift. للحصول على المزيد من المعلومات بشأن النسخ الاحتياطية التلقائية، يُرجى الرجوع إلى دليل إدارة Amazon Redshift.

يقوم Amazon Redshift بعمل النسخ الاحتياطي للبيانات التي تغيرت، وبالتالي فإن أغلب النسخ الاحتياطية لا تستخدم إلا مساحة ضئيلة للغاية من مساحة تخزين النسخ الاحتياطي الخالية لديك. عندما ترغب في استعادة نسخة احتياطية، يتاح لك الوصول إلى كل النسخ الاحتياطية الآلية في نافذة الاحتفاظ بالنسخ الاحتياطية لديك. وبمجرد أن تختار نسخةً احتياطيةً يتم الاستعادة منها، سوف نقوم بتوفير مجموعة مستودع بيانات جديدة واستعادة بياناتك إليها.

س: كيف يمكنني إدارة الاحتفاظ بالنسخ الاحتياطية التلقائية والنسخ الاحتياطية؟

يمكنك استخدام وحدة إدارة تحكم AWS أو واجهة برمجة تطبيقات ModifyCluster من أجل إدارة الفترة الزمنية التي يتم خلالها الاحتفاظ بالنسخ الاحتياطية التلقائية من خلال تعديل المعلمة RetentionPeriod. إذا كنت ترغب في إيقاف تشغيل النسخ الاحتياطي التلقائي تمامًا، يمكنك إعداد فترة الاحتفاظ على الصفر (هذا الإعداد غير موصى به).

س: ماذا يحدث للنسخ الاحتياطية الخاصة بي إذا قمت بحذف مجموعة مستودع البيانات الخاصة بي؟

عندما تقوم بحذف مجموعة مستودع بيانات، يمكنك تحديد ما إذا كان يتم إنشاء نسخة احتياطية نهائية أم لا عند الحذف. ويتيح ذلك إمكانية استعادة مجموعة مستودع البيانات التي يتم حذفها في وقت لاحق. يتم الاحتفاظ بكل النسخ الاحتياطية اليدوية التي سبق إنشاؤها من مجموعة مستودع البيانات ويتم إصدار الفواتير بشأنها حسب أسعار Amazon S3 القياسية، إلا إذا اخترت حذفها.

المراقبة والصيانة

س: كيف يمكنني مراقبة أداء مجموعة مستودع بيانات Amazon Redshift؟

تتوفر قياسات استخدام الحوسبة، واستخدام التخزين، وحركة مرور القراءة/الكتابة إلى مجموعة مستودع بيانات Amazon Redshift مجانًا عبر وحدة إدارة تحكم AWS أو واجهات برمجة تطبيقات Amazon CloudWatch. يمكنك كذلك إضافة قياسات إضافية مُعرَّفة من قِبل المستخدم من خلال وظيفة القياسات المُخصَّصة لـ Amazon CloudWatch. توفِّر وحدة إدارة تحكم AWS لوحة معلومات مراقبة تساعدك في مراقبة سلامة وأداء كل مجموعاتك. كما يوفر Amazon Redshift معلومات حول أداء الاستعلام والمجموعة عبر وحدة إدارة تحكم AWS. وتتيح لك هذه المعلومات القدرة على رؤية أي من المستخدمين والمجموعات التي تستهلك أكبر قدر من موارد النظام لتشخيص مشكلات الأداء من خلال الاطلاع على خطط الاستعلام وإحصاءات التنفيذ. بالإضافة إلى ذلك، يمكن رؤية استخدام الموارد في كل عقدة حوسبة لديك للتحقق من أن لديك البيانات والاستعلامات المتوازنة بشكل جيد عبر كل العقد.

س: ما المقصود بنافذة الصيانة؟ هل ستبقى مجموعة مستودع البيانات الخاصة بي متاحةً أثناء صيانة البرامج؟

يقوم Amazon Redshift بشكل دوري بتنفيذ الصيانة من أجل تطبيق الإصلاحات والتحسينات والميزات الجديدة على مجموعتك. ويمكنك تغيير نوافذ الصيانة المجدولة من خلال تعديل المجموعة، سواءً برمجيًا أو باستخدام وحدة تحكم Redshift. وخلال نوافذ الصيانة هذه، لا تكون مجموعة Amazon Redshift متاحةً للتشغيل العادي. للحصول على المزيد من المعلومات بشأن نوافذ الصيانة والجداول حسب المنطقة، اطلع على نوافذ الصيانة في دليل إدارة Amazon Redshift.

معرفة المزيد عن تسعير Amazon Redshift

زر صفحة التسعير
هل أنت جاهز للبناء؟
بدء استخدام Amazon Redshift
هل لديك مزيد من الأسئلة؟
اتصل بنا