Überspringen zum Hauptinhalt

AWS-KI-Chips

AWS Trainium

Trainium – speziell für leistungsstarke, kosteneffiziente KI in großem Maßstab entwickelt

Warum Trainium?

AWS Trainium ist eine Familie von speziell entwickelten KI-Beschleunigern – Trainium1, Trainium2 und Trainium3 – die darauf ausgelegt sind, skalierbare Leistung und Kosteneffizienz für Trainings und Inferenzen für ein breites Spektrum generativer KI-Workloads zu bieten

Die AWS-Trainium-Familie

Trainium1

Der AWS-Trainium-Chip der ersten Generation unterstützt Trn1-Instances von Amazon Elastic Compute Cloud (Amazon EC2), die bis zu 50 % niedrigere Trainingskosten haben als vergleichbare Amazon-EC2-Instances. Viele Kunden, darunter Ricoh, Karakuri, SplashMusic und Arcee AI, erkennen die Leistungs- und Kostenvorteile von Trn1-Instances.

Trainium2

Der AWS-Trainium2-Chip bietet bis zu 4-mal so viel Leistung wie der Trainium der ersten Generation. Trainium2-basierte Amazon-EC2-Trn2-Instances und Trn2-UltraServer wurden speziell für generative KI entwickelt und bieten ein um 30–40 % besseres Preis-Leistungs-Verhältnis als GPU-basierte EC2-, P5e und P5en-Instances. Trn2-Instances verfügen über bis zu 16 Trainium2-Chips, und Trn2-UltraServer verfügen über bis zu 64 Trainium2-Chips, die mit NeuronLink, unserer firmeneigenen Chip-zu-Chip-Verbindung, verbunden sind. Sie können Trn2-Instances und UltraServer verwenden, um die anspruchsvollsten Modelle zu trainieren und bereitzustellen, darunter große Sprachmodelle (LLMs), multimodale Modelle und Diffusionstransformer, um eine breite Palette von Anwendungen für generative KI der nächsten Generation zu erstellen.

Trainium3

Der erste 3-nm-KI-Chip von AWS wurde speziell entwickelt, um die beste Token-Wirtschaftlichkeit für Agentenanwendungen, Reasoning und Videogenerierung der nächsten Generation zu bieten. Der AWS-Trainium3-Chip bietet eine doppelt so hohe Rechenleistung auf 2,52 Petaflops (PFLOPS) an FP8-Berechnungen, erhöht die Speicherkapazität um das 1,5-Fache und die Bandbreite um das 1,7-Fache gegenüber Trainium2 auf 144 GB HBM3e-Speicher und 4,9 TB/s Speicherbandbreite. Trn3-UltraServer, angetrieben durch Trainium3, bieten im Vergleich zu Trn2-UltraServern eine bis zu 4,4-fach höhere Leistung, eine 3,9-fach höhere Speicherbandbreite und eine über 4-mal bessere Energieeffizienz. Trainium3 wurde sowohl für dichte als auch für parallele Workloads von Experten entwickelt. Es bietet erweiterte Datentypen (MXFP8 und MXFP4) und ein verbessertes Gleichgewicht zwischen Speicher und Rechenleistung für Echtzeit-, multimodale und Reasoning-Aufgaben.

Entwickelt für Entwickler

Neue Trainium3-basierte UltraServer wurden für KI-Forscher entwickelt und basieren auf dem AWS Neuron SDK, um bahnbrechende Leistung zu erzielen.

Mit der nativen PyTorch-Integration können Entwickler trainieren und bereitstellen, ohne eine einzige Codezeile zu ändern. Für KI-Leistungsingenieure haben wir einen umfassenderen Zugriff auf Trainium3 ermöglicht, sodass Entwickler die Leistung optimieren, Kernel anpassen und Ihre Modelle noch weiter vorantreiben können. Da Innovation Offenheit fördert, werden wir mit unseren Entwicklern über Open-Source-Tools und -Ressourcen zusammenarbeiten.

Um mehr zu erfahren, besuchen Sie Amazon EC2 Trn3 UltraServers und erkunden Sie das AWS Neuron SDK.

Vorteile

    Trn3-UltraServer verfügen über die neuesten Innovationen in der UltraServer-Technologie zur Hochskalierung, mit NeuronSwitch-v1 für schnellere All-to-All-Kollektive auf bis zu 144 Trainium3-Chips. Trn3-UltraServer bietet bis zu 20,7 TB HBM3e, 706 TB/s Speicherbandbreite und 362 MXFP8-PFLOPs und bietet damit bis zu 4,4-mal mehr Leistung und eine über 4-mal bessere Energieeffizienz als Trn2-UltraServer. Trn3 bietet mit den neuesten 1T+-Parameter-MoE- und Reasoning-Typ-Modellen die höchste Leistung zu den niedrigsten Kosten für Training und Inferenz und ermöglicht im Vergleich zu Trainium2-basierten Instances einen deutlich höheren Durchsatz für GPT-OSS im großen Maßstab.

    Trn2-UltraServer bleiben eine leistungsstarke, kostengünstige Option für generatives KI-Training und Inferenz von Modellen mit bis zu 1T-Parametern. Trn2-Instances verfügen über bis zu 16 Trainium2-Chips, und Trn2-UltraServer verfügen über bis zu 64 Trainium2-Chips, die mit NeuronLink, einer firmeneigenen Chip-zu-Chip-Verbindung, verbunden sind.

    Trn1-Instances verfügen über bis zu 16 Trainium-Chips und liefern bis zu 3 FP8-PFLOPS, 512 GB HBM mit 9,8 TB/s Speicherbandbreite und bis zu 1,6 Tbit/s EFA-Netzwerk.

    Das AWS Neuron SDK hilft Ihnen dabei, die volle Leistung aus Trn3-, Trn2- und Trn1-Instances herauszuholen, sodass Sie sich auf die Entwicklung und Bereitstellung von Modellen und die Verkürzung Ihrer Markteinführungszeit konzentrieren können. AWS Neuron lässt sich nativ in PyTorch Jax und wichtige Bibliotheken wie Hugging Face, vLLM, PyTorch Lightning und andere integrieren. AWS Neuron optimiert sofort einsatzbereite Modelle für verteiltes Training und Inferenz und bietet gleichzeitig tiefe Einblicke für die Profilerstellung und das Debuggen. AWS Neuron lässt sich in Services wie Amazon SageMaker, Amazon SageMaker Hyerpod, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS ParallelCluster und AWS Batch sowie in Services von Drittanbietern wie Ray (Anyscale), Domino Data Lab und Datadog integrieren.

    Um eine hohe Leistung zu erzielen und gleichzeitig die Genauigkeitsziele zu erreichen, unterstützt AWS Trainium eine Reihe von
    Datentypen mit gemischten Genauigkeitsanforderungen wie BF16, FP16, FP8, MXFP8 und MXFP4. Um das schnelle Innovationstempo im Bereich der generativen KI zu unterstützen,
    bieten Trainium2 und Trainium3 Hardwareoptimierungen für 4x Sparsity (16:4), Mikroskalierung und stochastisches
    Runden und dedizierte kollektive Motoren.

    Neuron ermöglicht es Entwicklern, ihre Workloads mithilfe des Neuron Kernel Interface (NKI) für die Kernelentwicklung zu optimieren. NKI stellt das gesamte Trainium ISA zur Verfügung und ermöglicht so die vollständige Kontrolle über die Programmierung auf Befehlsebene, die Speicherzuweisung und die Ausführungsplanung. Entwickler können nicht nur Ihre eigenen Kernel erstellen, sondern auch die Neuron Kernel Library verwenden, die Open Source ist und bereit ist, optimierte Kernel bereitzustellen. Und schließlich bietet Neuron Explore eine vollständige Stack-Transparenz und verbindet den Code von Entwicklern bis hin zu Engines in der Hardware.

Kunden

Kunden wie Anthropic, Decart, Poolside, Databricks, Ricoh, Karakuri, SplashMusic und andere profitieren von den Leistungs- und Kostenvorteilen von Trn1-, Trn2- und Trn3-Instances und UltraServern.

Frühe Anwender von Trn3 erreichen ein neues Maß an Effizienz und Skalierbarkeit für die nächste Generation von groß angelegten generativen KI-Modellen.

Missing alt text value

Meistern Sie Leistung, Kosten und Skalierung von KI

AWS Trainium2 für bahnbrechende KI-Leistung

Kundenberichte zu AWS-KI-Chips