AWS Inferentia

Dapatkan performa tinggi dengan biaya terendah di Amazon EC2 untuk inferensi AI generatif dan deep learning

Mulai chip AWS Inferentia dengan AWS Neuron

Mengapa Inferentia?

Chip AWS Inferentia didesain oleh AWS untuk memberikan performa tinggi dengan biaya terendah di Amazon EC2 untuk aplikasi inferensi deep learning (DL) dan AI generatif Anda.

Chip AWS Inferentia generasi pertama mendukung instans Inf1 Amazon Elastic Compute Cloud (Amazon EC2), yang menghasilkan throughput hingga 2,3x lebih tinggi dan biaya per inferensi hingga 70% lebih rendah dibandingkan instans Amazon EC2 yang sebanding. Banyak pelanggan, termasuk Finch AI, Sprinklr, Money Forward, dan Amazon Alexa, telah mengadopsi instans Inf1 serta mendapatkan keuntungannya dari sisi performa dan biaya.

Chip AWS Inferentia2 memberikan throughput hingga 4x lebih tinggi dan latensi hingga 10x lebih rendah dibandingkan Inferentia. Instans Inf2 Amazon EC2 berbasis Inferentia2 dioptimalkan untuk melakukan deployment model yang semakin kompleks, seperti model bahasa besar (LLM) dan model difusi laten, dalam skala besar. Instans Inf2 merupakan instans pertama yang dioptimalkan untuk inferensi di Amazon EC2 untuk mendukung inferensi penambahan skala terdistribusi dengan konektivitas berkecepatan sangat tinggi di antara chip. Banyak pelanggan, termasuk Leonardo.ai, Deutsche Telekom, serta Qualtrics telah mengadopsi instans Inf2 untuk aplikasi DL dan AI generatif mereka.

SDK AWS Neuron membantu developer melakukan deployment model pada chip AWS Inferentia (dan melatihnya pada chip AWS Trainium). SDK AWS Neuron berintegrasi secara native dengan kerangka kerja yang populer, seperti PyTorch dan TensorFlow, sehingga Anda dapat terus menggunakan kode dan alur kerja yang ada serta menjalankannya di chip Inferentia.

Manfaat AWS Inferentia

Dioptimalkan untuk throughput tinggi dan latensi rendah

Setiap chip Inferentia generasi pertama memiliki empat NeuronCores generasi pertama, dan setiap instans Inf1 EC2 memiliki hingga 16 chip Inferentia. Setiap chip Inferentia2 memiliki dua NeuronCores generasi kedua, dan setiap instans Inf2 EC2 memiliki hingga 12 chip Inferentia2. Setiap chip Inferentia2 mendukung hingga 190 tera operasi floating per detik (TFLOPS) performa FP16. Inferentia generasi pertama memiliki 8 GB memori DDR4 per chip dan dilengkapi dengan memori dalam chip yang berukuran besar. Inferentia2 menawarkan 32 GB HBM per chip, yang meningkatkan total memori 4x lebih besar dan bandwidth memori 10x lebih besar dibandingkan Inferentia.

Dukungan native untuk kerangka kerja ML

AWS Neuron SDK secara native berintegrasi dengan kerangka kerja ML populer, seperti PyTorch dan TensorFlow. Dengan AWS Neuron, Anda dapat menggunakan kerangka kerja ini untuk melakukan deployment model DL secara optimal pada kedua chip AWS Inferentia, dan Neuron dirancang untuk meminimalkan perubahan kode serta keterkaitan dengan solusi khusus vendor. Neuron membantu Anda menjalankan aplikasi inferensi untuk pemrosesan/pemahaman bahasa alami (NLP), terjemahan bahasa, peringkasan teks, pembuatan video dan gambar, pengenalan ucapan, personalisasi, deteksi penipuan, serta banyak lagi di chip Inferentia.

Beragam tipe data dengan casting otomatis

Inferentia generasi pertama mendukung tipe data FP16, BF16, dan INT8. Inferentia2 memberikan dukungan tambahan untuk tipe data FP32, TF32, dan FP8 baru yang dapat dikonfigurasi (cFP8) agar developer lebih fleksibel dalam mengoptimalkan performa dan akurasi. AWS Neuron mengambil model FP32 yang memiliki presisi tinggi dan secara otomatis mengubahnya menjadi tipe data dengan presisi lebih rendah sambil mengoptimalkan akurasi dan performa. Autocasting mengurangi waktu masuk pasar dengan menghapus kebutuhan untuk pelatihan ulang presisi rendah.

Kemampuan DL yang mutakhir

Inferentia2 menambahkan optimisasi perangkat keras untuk ukuran input yang dinamis dan operator kustom yang ditulis dalam C++. Inferentia2 juga mendukung pembulatan stokastik, suatu cara pembulatan secara probabilistik yang memungkinkan performa tinggi dan akurasi yang lebih tinggi dibandingkan mode pembulatan yang lama.

Dibangun untuk keberlanjutan

Instans Inf2 menawarkan performa/watt hingga 50% lebih baik daripada instans Amazon EC2 yang sebanding karena instans tersebut dan chip Inferentia2 yang mendasarinya dibuat secara khusus untuk menjalankan model DL dalam skala besar. Instans Inf2 membantu Anda mencapai tujuan keberlanjutan saat melakukan deployment model yang sangat besar.

Video

Tayangan di balik layar Infrastruktur AI Generatif di Amazon

Memperkenalkan instans Inf2 Amazon EC2 yang ditenagai oleh AWS Inferentia2

Cara empat pelanggan AWS mengurangi biaya ML dan mendorong inovasi dengan AWS Inferentia

Sumber daya

Sempurnakan dan deploy model Llama 2 secara hemat biaya di Amazon SageMaker JumpStart dengan AWS Inferentia dan AWS Trainium

Sempurnakan Llama 2 menggunakan QLoRA dan Deploy di Amazon SageMaker dengan AWS Inferentia2

Maksimalkan performa Stable Diffusion dan kurangi biaya inferensi dengan AWS Inferentia2

Capai performa tinggi dengan biaya terendah untuk inferensi AI generatif menggunakan AWS Inferentia2 dan AWS Trainium di Amazon SageMaker

ByteDance menghemat hingga 60% biaya inferensi sekaligus mengurangi latensi dan meningkatkan throughput menggunakan AWS Inferentia

Cara Amazon Search mengurangi biaya inferensi ML hingga 85% dengan AWS Inferentia

Additional resources

Gunakan AWS Neuron dan mulai gunakan AWS Inferentia dari dalam TensorFlow, PyTorch, atau MXNet

Pelajari selengkapnya

Additional resources

Peta fitur AWS Neuron

Pelajari selengkapnya

Additional resources

Mulai inferensi di AWS Inferentia menggunakan tutorial mudah ini

Pelajari selengkapnya

Mulai menggunakan AWS Inferentia

Mulai membangun di konsol

Tutorial/Sampel Inferensi (Inf2/Trn1)

Pelajari selengkapnya