ما سبب أهمية مثيلات Amazon EC2 Trn2 وخوادم UltraServers؟
صُمِّمَت مثيلات Amazon EC2 Trn2، المدعومة بـ 16 شريحة AWS Trainium2، خصيصًا للذكاء الاصطناعي المولّد وهي أقوى مثيلات EC2 للتدريب ونشر النماذج التي تحتوي على مئات المليارات إلى أكثر من تريليون من المعلمات. توفر مثيلات Trn2 أداء سعريًا أفضل بنسبة 30-40% من الجيل الحالي من مثيلات EC2 P5e وP5en المستندة إلى وحدة معالجة الرسومات (GPU). باستخدام مثيلات Trn2، يمكنك الحصول على أحدث أداء للتدريب والاستدلال مع خفض التكاليف، حتى تتمكن من تقليل أوقات التدريب والتكرار بشكل أسرع وتقديم تجارب في الوقت الفعلي مدعومة بالذكاء الاصطناعي. يمكنك استخدام مثيلات Trn2 لتدريب ونشر النماذج بما في ذلك نماذج اللغة الكبيرة (LLMs) والنماذج متعددة الوسائط ومحولات الانتشار لبناء تطبيقات الذكاء الاصطناعي المولّد من الجيل التالي.
لتقليل أوقات التدريب وتوفير أوقات استجابة فائقة (وقت استجابة لكل رمز مميز) للنماذج الأكثر قدرة وحداثة، قد تحتاج إلى المزيد من الحوسبة والذاكرة أكثر مما يمكن أن يقدمه مثيل واحد. Trn2 UltraServers تستخدم NeuronLink، وهي وحدة التوصيل البيني من شريحة إلى شريحة، لتوصيل 64 شريحة Trainium2 عبر أربع مثيلات Trn2، مما يؤدي إلى مضاعفة عرض النطاق الترددي للحوسبة والذاكرة والشبكات المتاح في عقدة واحدة بمقدار أربعة أضعاف وتقديم أداء مذهل على AWS للتعلم العميق وأعباء العمل للذكاء الاصطناعي المولّد. للاستدلال، تساعد UltraServers في توفير وقت استجابة رائد في الصناعة لإنشاء أفضل التجارب في الوقت الفعلي. بالنسبة للتدريب، تعمل UltraServers على تعزيز سرعة تدريب النموذج وكفاءته من خلال الاتصال الجماعي الأسرع لتوازي النموذج مقارنة بالحالات المستقلة.
يمكنك بسهولة البدء في مثيلات Trn2 وخوادم Trn2 UltraServers مع الدعم الأصلي لأطر تعلم الآلة الشائعة (ML) مثل PyTorch وJAX.
الفوائد
المزايا
شهادات الشركاء والعملاء
فيما يلي بعض الأمثلة عن كيفية تخطيط العملاء والشركاء لتحقيق أهداف أعمالهم باستخدام مثيلات Amazon EC2 Trn2.
-
Anthropic
في Anthropic، يعتمد ملايين الأشخاص على كلود يوميًا في عملهم. نحن نعلن عن تطورين رئيسيين مع AWS: أولاً، «الوضع المحسن الجديد لوقت الاستجابة» لـ Claude 3.5 Haiku والذي يعمل بشكل أسرع بنسبة 60% على Trainium2 عبر Amazon Bedrock. وثانيًا، Project Rainier - مجموعة جديدة تضم مئات الآلاف من رقائق Trainium2 التي تقدم مئات الإكسافلوب، وهو ما يزيد عن خمسة أضعاف حجم مجموعتنا السابقة. سيساعد Project Rainier في دعم كل من أبحاثنا والجيل القادم من التوسع. بالنسبة لعملائنا، هذا يعني المزيد من الذكاء، وانخفاض الأسعار، والسرعات العالية. نحن لا نبني فقط ذكاء اصطناعي أسرع، بل نبني ذكاء اصطناعي جدير بالثقة يمكن تطويره.
Tom Brown، كبير مسؤولي الحوسبة في Anthropic -
Databricks
يمكّن Mosaic AI من Databricks المؤسسات من بناء ونشر أنظمة وكلاء الجودة. تم تصميم هذا النموذج محليًا فوق مخزن البيانات، مما يتيح للعملاء تخصيص نماذجهم بسهولة وأمان باستخدام بيانات المؤسسة وتقديم مخرجات أكثر دقة ومحددة بالمجال. بفضل الأداء العالي لـ Trainium وفعاليتها من حيث التكلفة، يمكن للعملاء توسيع نطاق التدريب النموذجي على Mosaic AI بتكلفة منخفضة. سيكون توفر Trainium2 فائدة كبيرة لشركة Databricks وعملائها حيث يستمر الطلب على Mosaic AI في التوسع عبر جميع شرائح العملاء وحول العالم. Databricks هي إحدى أكبر شركات البيانات والذكاء الاصطناعي في العالم، وهي تخطط لاستخدام TRN2 لتقديم نتائج أفضل وخفض التكلفة الإجمالية للملكية بنسبة تصل إلى 30% لعملائها.
Naveen Rao، نائب رئيس الذكاء الاصطناعي المولّد (VP of Generative AI)، في Databricks -
poolside
في poolside، نحن على استعداد لبناء عالم حيث سيقود الذكاء الاصطناعي غالبية الأعمال ذات القيمة الاقتصادية والتقدم العلمي. نعتقد أن تطوير البرمجيات سيكون أول قدرة رئيسية في الشبكات العصبية التي تصل إلى الذكاء على مستوى الإنسان لأنه المجال الذي يمكننا فيه الجمع بين أساليب البحث والتعلم بشكل أفضل. لتمكين ذلك، نقوم ببناء نماذج التأسيس وواجهة برمجة تطبيقات (API) ومساعد لجلب قوة الذكاء الاصطناعي المولّد إلى أيدي المطورين (أو لوحة المفاتيح). المفتاح الرئيسي لتمكين هذه التكنولوجيا، هو البنية التحتية التي نستخدمها لبناء منتجاتنا وتشغيلها. مع AWS Trainium2، سيتمكن عملاؤنا من توسيع نطاق استخدامهم لـ poolside بنسبة أداء سعرية على عكس مسرعات الذكاء الاصطناعي الأخرى. بالإضافة إلى ذلك، نخطط لتدريب النماذج المستقبلية باستخدام Trainium2 UltraServers مع وفورات متوقعة بنسبة 40% مقارنة بمثيلات EC2 P5.
Eiso Kant، مدير الشؤون التقنية (CTO) والمؤسس المشارك، poolside -
Itaú Unibanco
الغرض من Itaú Unibanco هو تحسين علاقة الناس بالمال، وخلق تأثير إيجابي على حياتهم مع توسيع فرصهم في التحول. في Itaú Unibanco، نعتقد أن كل عميل فريد من نوعه ونركز على تلبية احتياجاته من خلال الرحلات الرقمية السهلة، التي تستفيد من قوة الذكاء الاصطناعي للتكيف باستمرار مع عادات المستهلكين.
لقد اختبرنا AWS Trainium وInferentia في العديد من المهام، بدءًا من الاستدلال القياسي إلى التطبيقات التي تم ضبطها بدقة. لقد مكننا أداء رقائق الذكاء الاصطناعي هذه من تحقيق إنجازات مهمة في بحثنا وتطويرنا. بالنسبة لكل من مهام الاستدلال المجمعة وعبر الإنترنت، شهدنا تحسنًا بمقدار 7 أضعاف السرعة مقارنة بوحدات معالجة الرسومات (GPUs). يؤدي هذا الأداء المحسن إلى التوسع في المزيد من حالات الاستخدام عبر المؤسسة. يفتح أحدث جيل من رقائق Trainium2 ميزات رائدة للذكاء الاصطناعي التوليدي (GenAI) ويفتح الباب للابتكار في Itau.
Vitor Azeka، رئيس علوم البيانات (Head of Data Science) في Itaú Unibanco -
NinjaTech AI
Ninja هو وكيل الذكاء الاصطناعي الشامل لإنتاجية غير محدودة: اشتراك واحد بسيط ووصول غير محدود إلى أفضل نماذج الذكاء الاصطناعي في العالم إلى جانب أفضل مهارات الذكاء الاصطناعي مثل: الكتابة والترميز والعصف الذهني وتوليد الصور والبحث عبر الإنترنت. Ninja عبارة عن منصة فعالة وتقدم «SuperAgent» يستخدم مزيجًا من العوامل بدقة عالمية يمكن مقارنتها (وفي بعض الفئات تتفوق على) نماذج التأسيس الحدودية. تتطلب تقنية Agentic من Ninja أعلى المسرعات أداءً، لتقديم التجارب الفريدة في الوقت الفعلي التي يتوقعها عملاؤنا.
نحن متحمسون للغاية لإطلاق AWS TRN2 لأننا نعتقد أنها ستقدم أفضل تكلفة لكل أداء رمزي وأسرع سرعة ممكنة حاليًا لنموذج التأسيس Ninja LLM الذي يعتمد على Llama 3.1 405B. إنه لأمر مدهش أن نرى زمن الوصول المنخفض لـ Trn2 إلى جانب الأسعار التنافسية والتوافر عند الطلب؛ لا يمكننا أن نكون أكثر حماسًا بشأن وصول Trn2!
Babak Pahlavan، المؤسس والرئيس التنفيذي لشركة NinjaTech AI -
Ricoh
يقوم فريق RICOH لتعلم الآلة بتطوير حلول مكان العمل وخدمات التحول الرقمي المصممة لإدارة وتحسين تدفق المعلومات عبر حلول مؤسستنا.
كان الترحيل إلى مثيلات Trn1 سهلاً ومباشرًا. تمكنا من التدريب المسبق لنموذج اللغة الكبير (LLM) الذي يحتوى على 13 مليار معلمة (13B) في 8 أيام فقط، باستخدام مجموعة من 4096 شريحة Trainium! بعد النجاح الذي شهدناه مع نموذجنا الأصغر، قمنا بضبط LLM جديد وأكبر استنادًا إلى Llama-3-Swallow-70B، وبالاستفادة من Trainium، تمكنا من تقليل تكاليف التدريب بنسبة 50% وتحسين كفاءة الطاقة بنسبة 25% مقارنة باستخدام أحدث أجهزة وحدة معالجة الرسوميات (GPU) في AWS. نحن متحمسون للاستفادة من أحدث جيل من رقائق AWS AI، Trainium2، لمواصلة تزويد عملائنا بأفضل أداء بأقل تكلفة.
Yoshiaki Umetsu، مدير مركز تطوير التكنولوجيا الرقمية (Director, Digital Technology Development Center)، Ricoh -
PyTorch
أكثر ما أعجبني في مكتبة AWS Neuron NxD Inference هو مدى سلاسة دمجها مع نماذج PyTorch. نهج NxD واضح وسهل الاستخدام. تمكن فريقنا من دمج نماذج HuggingFace PyTorch مع الحد الأدنى من التغييرات البرمجية في إطار زمني قصير. كان تمكين الميزات المتقدمة مثل التجميع المستمر وفك التشفير التأملي أمرًا سهلاً. تعمل سهولة الاستخدام هذه على تحسين إنتاجية المطورين، مما يسمح للفرق بالتركيز أكثر على الابتكار وبدرجة أقل على تحديات التكامل.
Hamid Shojanazeri، شريك PyTorch ورئيس قسم الهندسة في Meta -
Refact.ai
تقدم Refact.ai أدوات الذكاء الاصطناعي الشاملة مثل الإكمال التلقائي للكود المدعوم من التوليد المُعزز بالاسترداد (RAG)، مما يوفر اقتراحات أكثر دقة ودردشة تدرك السياق باستخدام نماذج خاصة ومفتوحة المصدر.
شهد العملاء أداءً أعلى بنسبة تصل إلى 20% ورموز أعلى بمقدار 1.5 مرة لكل دولار مع مثيلات EC2 Inf2 مقارنة بمثيلات EC2 G5. تعمل إمكانات الضبط لـ Refact.ai على تعزيز قدرة عملائنا على فهم قاعدة الأكواد والبيئة الفريدة لمؤسساتهم والتكيف معها. نحن متحمسون أيضًا لتقديم إمكانات Trainium2، والتي ستجلب معالجة أسرع وأكثر كفاءة لسير العمل لدينا. ستمكن هذه التكنولوجيا المتقدمة عملائنا من تسريع عملية تطوير البرامج الخاصة بهم، من خلال تعزيز إنتاجية المطورين مع الحفاظ على معايير الأمان الصارمة لقاعدة الأكواد.
Oleg Klimov، الرئيس التنفيذي والمؤسس لشركة Refact.ai -
Karakuri Inc.
تقوم KARAKURI ببناء أدوات الذكاء الاصطناعي لتحسين كفاءة دعم العملاء على شبكة الإنترنت وتبسيط تجارب العملاء. تشمل هذه الأدوات روبوتات الدردشة بالذكاء الاصطناعي المزودة بوظائف الذكاء الاصطناعي المولّد وأدوات مركزية الأسئلة الشائعة وأداة الرد على البريد الإلكتروني، وكلها تعمل على تحسين كفاءة وجودة دعم العملاء. باستخدام AWS Trainium، نجحنا في تدريب دردشة KARAKURI LM 8x7B Chat v0.1. بالنسبة للشركات الناشئة، مثلنا، نحتاج إلى تحسين وقت البناء والتكلفة المطلوبة لتدريب نماذج اللغة الكبيرة (LLMs). بدعم من AWS Trainium وفريق AWS، تمكنا من تطوير المستوى العملي من نموذج اللغة الكبيرة (LLM) في فترة زمنية قصيرة. أيضًا، من خلال اعتماد AWS Inferentia، تمكنا من بناء خدمة استدلال سريعة وفعالة من حيث التكلفة. نحن متحمسون بشأن Trainium2 لأنه سيحدث ثورة في عملية التدريب لدينا، مما يقلل من وقت التدريب بمقدار الضعف ويقود الكفاءة إلى آفاق جديدة!
Tomofumi Nakayama، المؤسس المشارك لشركة Karakuri Inc. -
Stockmark Inc.
من خلال مهمة «إعادة اختراع آلية خلق القيمة والنهوض بالإنسانية»، تساعد Stockmark العديد من الشركات على إنشاء وبناء أعمال مبتكرة من خلال توفير أحدث تقنيات معالجة اللغات الطبيعية. تتطلب خدمة Stockmark الجديدة لتحليل البيانات وجمعها والتي تسمى Anews and SAT، وهي خدمة هيكلة البيانات التي تعمل على تحسين استخدامات الذكاء الاصطناعي المولّد بشكل كبير من خلال تنظيم جميع أشكال المعلومات المخزنة في المؤسسة، إعادة التفكير في كيفية بناء النماذج ونشرها لدعم هذه المنتجات. من خلال 256 مسرّع Trainium، قمنا بتطوير وإصدار stockmark- 13b؛ وهو نموذج لغة كبير يحتوي على 13 مليار معلمة، تم تدريبه مسبقًا من الصفر على مجموعة بيانات يابانية تتكون من 220 مليار رمز. ساعدتنا مثيلات Trn1 على تقليل تكاليف التدريب لدينا بنسبة 20%. من خلال الاستفادة من Trainium، نجحنا في تطوير نماذج اللغة الكبيرة (LLM) يمكنه الإجابة على أسئلة الأعمال الهامة للمحترفين بدقة وسرعة غير مسبوقين. هذا الإنجاز جدير بالملاحظة بشكل خاص نظرًا للتحدي الواسع النطاق الذي تواجهه الشركات في تأمين الموارد الحسابية الكافية لتطوير النماذج. بفضل السرعة المذهلة وخفض التكلفة لمثيلات Trn1، نحن متحمسون لرؤية الفوائد الإضافية التي سيجلبها Trainium2 لسير العمل لدينا والعملاء.
Kosuke Arima، كبير مسؤولي التكنولوجيا والمؤسس المشارك لشركة Stockmark Inc. -
Brave
Brave هو متصفح مستقل ومحرك بحث مخصص لإعطاء الأولوية لخصوصية المستخدم وأمانه. مع أكثر من 70 مليون مستخدم، نقدم وسائل حماية رائدة في الصناعة تجعل الويب أكثر أمانًا وسهولة في الاستخدام. على عكس المنصات الأخرى التي ابتعدت عن الأساليب التي تركز على المستخدم، يظل Brave ملتزمًا بوضع الخصوصية والأمان والراحة أولاً. تشمل الميزات الرئيسية حظر البرامج النصية وأجهزة التتبع الضارة وملخصات الصفحات المدعومة بالذكاء الاصطناعي والمدعومة من نماذج اللغة الكبيرة (LLMs) وخدمات VPN المضمنة والمزيد. نحن نسعى باستمرار لتحسين السرعة والفعالية من حيث التكلفة لخدمات البحث ونماذج الذكاء الاصطناعي. ولدعم ذلك، نحن متحمسون للاستفادة من أحدث إمكانات رقائق AWS AI، بما في ذلك Trainium2، لتحسين تجربة المستخدم مع توسعنا للتعامل مع مليارات طلبات البحث شهريًا.
Subu Sathyanarayana، نائب رئيس قسم الهندسة في شركة Brave Software -
Anyscale
Anyscale هي الشركة التي تقف وراء Ray، محرك الحوسبة بالذكاء الاصطناعي الذي يغذي تعلم الآلة، ومبادرات الذكاء الاصطناعي المولّد للمؤسسات. من خلال المنصة الموحدة التي تعمل بالذكاء الاصطناعي والتي أصدرتها Anyscale وتديرها RayTurbo، يرى العملاء معالجة بيانات أسرع تصل إلى 4.5 مرة، واستدلال دفعي أقل تكلفة بمقدار 10 مرات باستخدام نماذج اللغة الكبيرة (LLMs)، وتحجيم أسرع 5 مرات، وتكرار أسرع 12 مرة، ووفورات في التكاليف بنسبة 50% لاستدلال النماذج عبر الإنترنت من خلال تحسين استخدام الموارد.
في Anyscale، نحن ملتزمون بتمكين المؤسسات بأفضل الأدوات لتوسيع نطاق أعباء عمل الذكاء الاصطناعي بكفاءة وفعالية من حيث التكلفة. من خلال الدعم الأصلي لرقائق AWS Trainium وInferentia، المدعومة بوقت تشغيل RayTurbo الخاص بنا، يمكن لعملائنا الوصول إلى خيارات عالية الأداء وفعالة من حيث التكلفة لتدريب النماذج وتقديمها. نحن متحمسون الآن للانضمام إلى AWS على Trainium2، وفتح فرص جديدة لعملائنا للابتكار بسرعة، وتقديم تجارب الذكاء الاصطناعي التحويلية عالية الأداء على نطاق واسع.
Robert Nishihara، المؤسس المشارك لشركة Anyscale -
Datadog
توفر Datadog، منصة المراقبة والأمان للتطبيقات السحابية، AWS Trainium وInferentia Monitoring للعملاء لتحسين أداء النموذج وتحسين الكفاءة وخفض التكاليف. يوفر تكامل Datadog رؤية كاملة لعمليات تعلم الآلة (ML) وأداء الشريحة الأساسي، مما يتيح حل المشكلات بشكل استباقي وتوسيع البنية التحتية بسلاسة. نحن متحمسون لتوسيع شراكتنا مع AWS لإطلاق AWS Trainium2، مما يساعد المستخدمين على خفض تكاليف البنية التحتية للذكاء الاصطناعي بنسبة تصل إلى 50% وتعزيز التدريب النموذجي وأداء النشر.
Yrieix Garnier، نائب رئيس المنتج (VP of Product Company) في Datadog -
Hugging Face
Hugging Face هي المنصة المفتوحة الرائدة لمنشئي الذكاء الاصطناعي، مع أكثر من 2 مليون نموذج ومجموعة بيانات وتطبيقات الذكاء الاصطناعي التي يشاركها مجتمع يضم أكثر من 5 ملايين باحث وعالم بيانات ومهندسي تعلم آلة ومطوري برامج. لقد تعاوننا مع AWS على مدار العامين الماضيين، مما يسهل على المطورين تجربة مزايا الأداء والتكلفة لـ AWS Inferentia وTrainium من خلال مكتبة Optimum Neuron مفتوحة المصدر، المدمجة في نقاط نهاية الاستدلال في Hugging Face ، والتي تم تحسينها الآن ضمن خدمة HUGS الجديدة للنشر الذاتي، والمتاحة على AWS Marketplace. مع إطلاق Trainium2، سيتمكن مستخدمونا من الوصول إلى أداء أعلى لتطوير النماذج ونشرها بشكل أسرع.
Jeff Boudier، رئيس المنتج (head of Product) في Hugging Face -
Lightning AI
يقدم Lightning AI، مبتكر PyTorch Lightning وLightning Studios، منصة تطوير الذكاء الاصطناعي الأكثر سهولة وشمالًا للذكاء الاصطناعي على مستوى المؤسسات. توفر Lightning أكواد كاملة وأدوات منخفضة الأكواد وغير مشفرة لبناء الوكلاء وتطبيقات الذكاء الاصطناعي وحلول الذكاء الاصطناعي المولّد بسرعة البرق. تم تصميمه لتحقيق المرونة، ويتم تشغيله بسلاسة على السحابة أو على السحابة الخاصة بنا مع الاستفادة من الخبرة والدعم من مجتمع المطورين القوي الذي يزيد عن 3 ملايين مطور.
تقدم Lightning الآن دعمًا محليًا لرقائق AWS AI وTrainium وInferentia، والتي تم دمجها عبر استوديوهات Lightning وأدواتنا مفتوحة المصدر مثل PyTorch Lightning وFabric وLitServe. يمنح هذا المستخدمين قدرة سلسة على التدريب المسبق والضبط الدقيق والنشر على نطاق واسع - مما يؤدي إلى تحسين التكلفة والتوافر والأداء دون الحاجة إلى التبديل مطلقًا، ومزايا الأداء والتكلفة لرقائق AWS AI، بما في ذلك أحدث جيل من رقائق Trainium2، مما يوفر أداءً أعلى بتكلفة أقل.
Luca Antiga، المدير التنفيذي لشركة Lightning AI -
Domino Data Lab
تقوم Domino بتنسيق جميع عناصر علوم البيانات، بما في ذلك البنية التحتية والبيانات والخدمات على AWS عبر البيئات - لتكمل Amazon SageMaker بقدرات الحوكمة والتعاون لدعم فرق علوم بيانات المؤسسة. تتوفر Domino عبر AWS Marketplace في صورة SaaS أو تتم إدارتها ذاتيًا.
يجب على الشركات الرائدة تحقيق التوازن بين التعقيد التقني والتكاليف والحوكمة، وإتقان خيارات الذكاء الاصطناعي الواسعة للحصول على ميزة تنافسية. في Domino، نحن ملتزمون بمنح العملاء إمكانية الوصول إلى التقنيات المتطورة. نظرًا لأن الحوسبة تمثل عقبة أمام الكثير من الابتكارات الرائدة، فإننا فخورون بمنح العملاء إمكانية الوصول إلى Trainium2 حتى يتمكنوا من تدريب ونشر نماذج ذات أداء أعلى وتكلفة أقل وكفاءة أفضل في استخدام الطاقة.
Nick Elprin، الرئيس التنفيذي والمؤسس المشارك لشركة Domino Data Lab
بدء الاستخدام
تفاصيل المنتج
حجم المثيل | متوفر في خوادم EC2 UltraServers | شرائح Trainium2 | مسرّع الذاكرة |
وحدات المعالجة المركزية الافتراضية | الذاكرة (تيرابايت) |
سعة تخزين المثيل (تيرابايت) | عرض نطاق الشبكة (تيرابايت في الثانية) | عرض نطاق EBS (جيجابت في الثانية) |
trn2.48xlarge | لا | 16 | 1.5 تيرابايت | 192 | 2 تيرابايت | أربعة محركات أقراص NVMe SSD بسعة 1.92 تيرابايت لكل منها | 3.2 | 80 |
trn2u.48xlarge | نعم (معاينة) | 16 | 1.5 تيرابايت | 192 | 2 تيرابايت | أربعة محركات أقراص NVMe SSD بسعة 1.92 تيرابايت لكل منها | 3.2 | 80 |