AWS Inferentia

Dapatkan performa tinggi dengan biaya terendah di Amazon EC2 untuk inferensi AI generatif dan deep learning

Mengapa Inferentia?

Akselerator AWS Inferentia didesain oleh AWS untuk memberikan performa tinggi dengan biaya terendah di Amazon EC2 untuk aplikasi inferensi deep learning (DL) dan AI generatif Anda. 

Akselerator AWS Inferentia generasi pertama mendukung instans Inf1 Amazon Elastic Compute Cloud (Amazon EC2), yang menghasilkan throughput hingga 2,3x lebih tinggi dan biaya per inferensi hingga 70% lebih rendah dibandingkan instans Amazon EC2 yang sebanding. Banyak pelanggan, termasuk Finch AI, Sprinklr, Money Forward, dan Amazon Alexa, telah mengadopsi instans Inf1 serta mendapatkan keuntungannya dari sisi performa dan biaya.

Akselerator AWS Inferentia2 memberikan throughput hingga 4x lebih tinggi dan latensi hingga 10x lebih rendah dibandingkan Inferentia. Instans Inf2 Amazon EC2 berbasis Inferentia2 dioptimalkan untuk melakukan deployment model yang semakin kompleks, seperti model bahasa besar (LLM) dan model difusi laten, dalam skala besar. Instans Inf2 merupakan instans pertama yang dioptimalkan inferensi di Amazon EC2 untuk mendukung inferensi terdistribusi penskalaan ke luar dengan konektivitas berkecepatan sangat tinggi di antara akselerator. Banyak pelanggan, termasuk Leonardo.ai, Deutsche Telekom, serta Qualtrics telah mengadopsi instans Inf2 untuk aplikasi DL dan AI generatif mereka. 

SDK AWS Neuron membantu developer melakukan deployment model pada akselerator AWS Inferentia (dan melatihnya di akselerator AWS Trainium). SDK AWS Neuron berintegrasi secara native dengan kerangka kerja yang populer, seperti PyTorch dan TensorFlow, sehingga Anda dapat terus menggunakan kode dan alur kerja yang ada serta berjalan di akselerator Inferentia.

Manfaat Inferentia

Tiap akselerator Inferentia generasi pertama memiliki empat NeuronCore generasi pertama dengan hingga 16 akselerator Inferentia per instans Inf1 EC2. Tiap akselerator Inferentia2 memiliki dua NeuronCore generasi kedua dengan hingga 12 akselerator Inferentia2 per instans Inf2 EC2. Tiap-tiap akselerator Inferentia2 mendukung performa FP16 hingga 190 tera operasi floating per detik (TFLOPS). Inferentia generasi pertama memiliki 8 GB memori DDR4 per akselerator dan dilengkapi dengan memori dalam chip yang berukuran besar. Inferentia2 menawarkan 32 GB HBM per akselerator, yang meningkatkan total memori 4x lebih besar dan bandwidth memori 10x lebih besar dibandingkan Inferentia.
AWS Neuron SDK secara native berintegrasi dengan kerangka kerja ML populer, seperti PyTorch dan TensorFlow. Dengan AWS Neuron, Anda dapat menggunakan kerangka kerja ini untuk melakukan deployment model DL secara optimal pada kedua akselerator AWS Inferentia, dan Neuron dirancang untuk meminimalkan perubahan kode serta keterkaitan dengan solusi khusus vendor. Neuron membantu Anda menjalankan aplikasi inferensi untuk pemrosesan/pemahaman bahasa alami (NLP), terjemahan bahasa, peringkasan teks, pembuatan video dan gambar, pengenalan ucapan, personalisasi, deteksi penipuan, serta banyak lagi di akselerator Inferentia.
Inferentia generasi pertama mendukung tipe data FP16, BF16, dan INT8. Inferentia2 memberikan dukungan tambahan untuk tipe data FP32, TF32, dan FP8 baru yang dapat dikonfigurasi (cFP8) agar developer lebih fleksibel dalam mengoptimalkan performa dan akurasi. AWS Neuron mengambil model FP32 yang memiliki presisi tinggi dan secara otomatis mengubahnya menjadi tipe data dengan presisi lebih rendah sambil mengoptimalkan akurasi dan performa. Autocasting mengurangi waktu masuk pasar dengan menghapus kebutuhan untuk pelatihan ulang presisi rendah.
Inferentia2 menambahkan optimisasi perangkat keras untuk ukuran input yang dinamis dan operator kustom yang ditulis dalam C++. Inferentia2 juga mendukung pembulatan stokastik, suatu cara pembulatan secara probabilistik yang memungkinkan performa tinggi dan akurasi yang lebih tinggi dibandingkan mode pembulatan yang lama.
Instans Inf2 menawarkan performa/watt hingga 50% lebih baik daripada instans Amazon EC2 yang sebanding karena instans Inf2 tersebut dan akselerator Inferentia2 yang mendasarinya dibuat secara khusus untuk menjalankan model DL dalam skala besar. Instans Inf2 membantu Anda mencapai tujuan keberlanjutan saat melakukan deployment model yang sangat besar.

Video

Tayangan di balik layar Infrastruktur AI Generatif di Amazon
Memperkenalkan instans Inf2 Amazon EC2 yang ditenagai oleh AWS Inferentia2
Cara empat pelanggan AWS mengurangi biaya ML dan mendorong inovasi dengan AWS Inferentia