Amazon-EC2-UltraServer

KI-Training und Inferenz im großen Maßstab

Warum Amazon-EC2-UltraServer?

UltraServer von Amazon Elastic Compute Cloud (Amazon EC2) eignen sich hervorragend für Kunden, die die höchste KI-Trainings- und Inferenzleistung für Modelle im Billionen-Parameter-Maßstab benötigen. UltraServer verbinden mehrere EC2-Instances über eine dedizierte Beschleunigerverbindung mit hoher Bandbreite und niedriger Latenz, sodass Sie ein eng gekoppeltes Netz von Beschleunigern für alle EC2-Instances nutzen und auf deutlich mehr Rechenleistung und Speicher zugreifen können als eigenständige EC2-Instances.

EC2-UltraServer eignen sich hervorragend für die größten Modelle, die mehr Speicher und mehr Speicherbandbreite benötigen, als eigenständige EC2-Instances bieten können. Das UltraServer-Design nutzt die Beschleuniger-Konnektivität innerhalb einer Instance, um mehrere Instances zu einem Knoten zu verbinden und so neue Funktionen freizuschalten. UltraServer bieten branchenweit führende Reaktionszeiten und ermöglichen so beste Echtzeit-Erlebnisse. Beim Training steigern UltraServer die Geschwindigkeit und Effizienz des Modelltrainings durch eine schnellere kollektive Kommunikation für Modellparallelität im Vergleich zu eigenständigen Instances. EC2-UltraServer unterstützen EFA-Netzwerke und ermöglichen (wenn sie in EC2-UltraClustern bereitgestellt werden) verteiltes Skalierungstraining auf Zehntausenden von Beschleunigern in einem einzigen blockierungsfreien Netzwerk im Petabit-Bereich. Durch die höhere Leistung sowohl für Trainings als auch für Inferenzen beschleunigen UltraServer Ihre Markteinführungszeit und unterstützen Sie bei der Bereitstellung von Echtzeitanwendungen, die auf den leistungsstärksten Basismodellen der nächsten Generation basieren.

Vorteile

UltraServer ermöglichen effizientes Training und Inferenz von Modellen mit Hunderten von Milliarden bis Billionen von Parametern, indem sie eine größere Anzahl von Beschleunigern mit einer Verbindung mit hoher Bandbreite und niedriger Latenz verbinden, um mehr Rechenleistung und Speicher als eigenständige EC2-Instances bereitzustellen.

UltraServer ermöglichen Echtzeit-Inferenzen für extrem große Modelle, die umfangreiche Speicher- und Speicherbandbreiten-Ressourcen benötigen, die über das hinausgehen, was eine einzelne EC2-Instance bieten kann.

UltraServer ermöglichen im Vergleich zu eigenständigen Instances eine schnellere kollektive Kommunikation für Modellparallelität und helfen Ihnen, Ihre Trainingszeit zu reduzieren.

Funktionen

Sie können Instances auf einem UltraServer starten und eine dedizierte Beschleunigerverbindung mit hoher Bandbreite und niedriger Latenz zwischen diesen Instances nutzen. UltraServer ermöglichen den Zugriff auf eine größere Anzahl von Beschleunigern, die über diese dedizierte Verbindung verbunden sind, und bieten deutlich mehr Rechenleistung und Speicher auf einem einzigen Knoten als eigenständige EC2-Instances.

EC2-UltraServer, die in EC2-UltraClustern bereitgestellt werden, sind mit EFA-Netzwerken im Petabit-Bereich miteinander verbunden, um die Leistung bei verteilten Trainingsworkloads zu verbessern.

Sie können EC2-UltraServer zusammen mit leistungsstarken Speicherlösungen wie Amazon FSx für Lustre verwenden, einem vollständig verwalteten gemeinsamen Speicher, der auf dem beliebtesten parallelen Hochleistungsdateisystem basiert. Mit Amazon Simple Storage Service (Amazon S3) können Sie auch praktisch unbegrenzten kostengünstigen Speicherplatz nutzen.

EC2-UltraServer bauen auf dem AWS Nitro System auf, einer umfangreichen Sammlung von Bausteinen, die viele der herkömmlichen Virtualisierungsfunktionen auf dedizierte Hardware und Software auslagert. Nitro bietet hohe Leistung, hohe Verfügbarkeit und hohe Sicherheit bei gleichzeitiger Reduzierung des Betriebsaufwands für die Virtualisierung.

Unterstützte Instances

Trn2-Instances

Trn2-Instances in einer Trn2-UltraServer-Konfiguration (in der Vorversion verfügbar) werden von AWS-Trainium2-Chips unterstützt und ermöglichen die Skalierung auf bis zu 64 Trainium2-Chips, die mit NeuronLink, der dedizierten Verbindung mit hoher Bandbreite und niedriger Latenz für AWS-KI-Chips, verbunden sind. Trn2-UltraServer bieten eine bahnbrechende Leistung in Amazon EC2 für generatives KI-Training und Inferenz.

Weitere Informationen