AWS Trainium

Dapatkan performa tinggi untuk pelatihan AI generatif dan deep learning sekaligus mengurangi biaya

Mengapa memilih Trainium?

Chip AWS Trainium adalah rangkaian chip AI yang dirancang khusus oleh AWS untuk pelatihan dan inferensi AI untuk memberikan performa tinggi sekaligus mengurangi biaya.

Chip AWS Trainium generasi pertama mendukung instans Trn1 Amazon Elastic Compute Cloud (Amazon EC2), yang memiliki biaya pelatihan hingga 50% lebih rendah daripada instans Amazon EC2 yang sebanding. Banyak pelanggan, termasuk Databricks, Ricoh, NinjaTech AI, dan Arcee AI, mengakui manfaat performa dan biaya instans Trn1.

Chip AWS Trainium2 memberikan performa hingga 4x dari Trainium generasi pertama. Instans Trn2 EC2 Amazon berbasis Trainium2 dibuat khusus untuk AI generatif dan merupakan instans EC2 paling andal untuk melatih dan melakukan deployment model dengan ratusan miliar hingga triliun+ parameter. Instans Trn2 menawarkan performa sesuai harga 30-40% lebih baik daripada instans EC2 P5e dan P5en berbasis GPU generasi saat ini. Instans Trn2 dilengkapi dengan 16 chip Trainium2 yang saling terhubung dengan NeuronLink, interkoneksi chip-ke-chip milik kami. Anda dapat menggunakan instans Trn2 untuk melatih dan men-deploy model dengan syarat ketat termasuk model bahasa besar (LLM), model multi-modal, dan transformator difusi untuk membangun serangkaian aplikasi AI generatif generasi berikutnya yang beragam. UltraServers Trn2, penawaran EC2 yang benar-benar baru (tersedia dalam pratinjau), cocok untuk model terbesar yang membutuhkan lebih banyak memori dan bandwidth memori daripada yang dapat disediakan oleh instans EC2 mandiri. Desain UltraServer menggunakan NeuronLink untuk menghubungkan 64 chip Trainium2 di empat instans Trn2 menjadi satu simpul, yang membuka kemampuan baru. Kesimpulannya, UltraServers membantu memberikan waktu respons terdepan di industri untuk menciptakan pengalaman waktu nyata terbaik. Untuk pelatihan, UltraServers meningkatkan kecepatan dan efisiensi pelatihan model dengan komunikasi kolektif yang lebih cepat untuk paralelisme model dibandingkan dengan instans mandiri.

Anda dapat memulai pelatihan dan deployment model pada instans Trn2 dan Trn1 dengan dukungan native untuk kerangka kerja machine learning (ML) populer. seperti PyTorch dan JAX.

Manfaat

Trn2 UltraServer dan instans menghadirkan performa terobosan di Amazon EC2 untuk pelatihan dan inferensi AI generatif. Setiap Trn2 UltraServer memiliki 64 chip Trainium2 yang terhubung dengan NeuronLink, interkoneksi chip-ke-chip milik kami, dan memberikan hingga 83,2 petaflop komputasi FP8, 6 TB HBM3 dengan 185 terabyte per detik (TBps) bandwidth memori, dan 12,8 terabit per detik (Tbps) jaringan Elastic Fabric Adapter (EFA). Setiap instans Trn2 memiliki 16 chip Trainium2 yang terhubung dengan NeuronLink dan memberikan hingga 20,8 petaflop komputasi FP8, 1,5 TB HBM3 dengan 46 TBps bandwidth memori, dan 3,2 Tbps jaringan EFA. Instans Trn1 dilengkapi dengan hingga 16 chip Trainium dan memberikan hingga 3 petaflop komputasi FP8, 512 GB HBM dengan 9,8 TBps bandwidth memori, dan hingga 1,6 Tbps jaringan EFA.

AWS Neuron SDK membantu Anda mengeluarkan performa penuh instans Trn2 dan Trn1 sehingga Anda dapat fokus pada pembuatan dan deployment model, serta mempercepat waktu Anda untuk memasarkan. AWS Neuron terintegrasi secara native dengan JAX, PyTorch, dan pustaka penting, seperti Hugging Face, PyTorch Lightning, dan NeMo. AWS Neuron mendukung lebih dari 100.000 model di hub model Hugging Face termasuk model populer, seperti jajaran model Llama Meta dan Stable Diffusion XL. Ini mengoptimalkan model secara langsung untuk pelatihan dan inferensi terdistribusi, sekaligus memberikan wawasan mendalam untuk pembuatan profil dan debugging. AWS Neuron terintegrasi dengan layanan, seperti Amazon SageMaker, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS ParallelCluster, dan AWS Batch, serta layanan pihak ketiga, seperti Ray (Anyscale), Domino Data Lab, dan Datadog.

Untuk memberikan performa tinggi sekaligus memenuhi tujuan akurasi, chip Trainium dioptimalkan untuk FP32, TF32, BF16, FP16, dan tipe data FP8 (cFP8) baru yang dapat dikonfigurasi. Untuk mendukung laju inovasi yang cepat dalam AI generatif, Trainium2 memiliki pengoptimalan perangkat keras untuk 4x ketersebaran (16:4), penskalaan mikro, pembulatan stokastik, dan mesin kolektif khusus.

Antarmuka Kernel Neuron (NKI) memungkinkan akses langsung ke arsitektur set instruksi (ISA) menggunakan lingkungan berbasis Python dengan antarmuka, seperti Triton, yang memungkinkan Anda untuk menciptakan arsitektur model baru dan kernel komputasi yang sangat dioptimalkan yang mengungguli teknik yang ada.

Instans Trn2 dirancang agar tiga kali lebih hemat energi daripada instans Trn1. Instans Trn1 lebih hemat energi hingga 25% daripada instans EC2 komputasi akselerasi yang setara. Instans ini membantu Anda mencapai tujuan keberlanjutan saat melatih model ultra-besar.

Video

Tayangan di balik layar Infrastruktur AI generatif di Amazon
Percepat DL dan berinovasi lebih cepat dengan AWS Trainium
Memperkenalkan Instans Trn1 Amazon EC2 yang ditenagai oleh AWS Trainium