AWS Inferentia

Ottieni prestazioni elevate a costi più bassi in Amazon EC2 per l'inferenza dell'IA generativa e del deep learning

Perché Inferentia?

Gli acceleratori AWS Inferentia sono progettati da AWS per fornire prestazioni elevate a costi più bassi in Amazon EC2 per le applicazioni di inferenza di deep learning (DL) e IA generativa. 

L'acceleratore AWS Inferentia di prima generazione alimenta le istanze Inf1 di Amazon Elastic Compute Cloud (Amazon EC2), che offrono una velocità di trasmissione effettiva fino a 2,3 volte superiore e un costo per inferenza fino al 70% inferiore rispetto alle istanze Amazon EC2 paragonabili. Molti clienti, tra cui Finch AI, Sprinklr, Money Forward e Amazon Alexa, hanno adottato le istanze Inf1 e si sono resi conto dei vantaggi in termini di prestazioni e costi.

L’acceleratore AWS Inferentia2 offre una velocità di trasmissione effettiva fino a 4 volte superiore e una latenza fino a 10 volte inferiore rispetto a Inferentia. Le istanze Amazon EC2 Inf2 basate su Inferentia2 sono ottimizzate per implementare modelli sempre più complessi, come modelli linguistici di grandi dimensioni (LLM) e modelli a diffusione latente su larga scala. Le istanze Inf2 sono le prime istanze ottimizzate per l'inferenza in Amazon EC2 e supportano l'inferenza distribuita su scala con connettività ad altissima velocità tra gli acceleratori. Molti clienti, tra cui Leonardo.ai, Deutsche Telekom e Qualtrics, hanno adottato istanze Inf2 per le loro applicazioni di DL e IA generativa. 

L'SDK di AWS Neuron aiuta gli sviluppatori a implementare i modelli sugli acceleratori AWS Inferentia e ad addestrarli sugli acceleratori AWS Trainium. Si integra in modo nativo con i framework più diffusi, come PyTorch e TensorFlow, in modo che tu possa continuare a utilizzare il codice e i flussi di lavoro esistenti ed eseguirli sugli acceleratori Inferentia.

Vantaggi di Inferentia

Ogni acceleratore Inferentia di prima generazione dispone di quattro NeuronCore di prima generazione con un massimo di 16 acceleratori Inferentia per ciascuna istanza Inf1 di EC2. Ogni acceleratore Inferentia2 dispone di due NeuronCore di seconda generazione con un massimo di 12 acceleratori Inferentia2 per ciascuna istanza Inf2 di EC2. Ogni acceleratore Inferentia2 supporta fino a 190 tera di operazioni in virgola mobile al secondo (TFLOPS) di prestazioni FP16. Inferentia di prima generazione ha 8 GB di memoria DDR4 per acceleratore e dispone anche di una grande quantità di memoria on-chip. Inferentia2 offre 32 GB di HBM per acceleratore, aumentando la memoria totale di 4 volte e la larghezza di banda della memoria di 10 volte rispetto a Inferentia.
L'SDK AWS Neuron è integrato in modo nativo con framework di ML diffusi come PyTorch e TensorFlow. Con AWS Neuron, è possibile utilizzare questi framework per implementare in modo ottimale i modelli di DL su entrambi gli acceleratori AWS Inferentia e Neuron è progettato per ridurre al minimo le modifiche al codice ed eliminare i legami a soluzioni specifiche del fornitore. AWS Neuron ti aiuta a eseguire le applicazioni di inferenza per l'elaborazione del linguaggio naturale e la comprensione, la traduzione linguistica, il riepilogo dei testi, la generazione di video e immagini, il riconoscimento vocale, la personalizzazione, il rilevamento delle frodi e altro ancora con acceleratori Inferentia.
Inferentia di prima generazione supporta tipi di dati FP16, BF16 e INT8. Inferentia2 aggiunge un supporto aggiuntivo per FP32, TF32 e il nuovo tipo di dati FP8 configurabile (cFP8) per offrire agli sviluppatori una maggiore flessibilità, al fine di ottimizzare prestazioni e precisione. AWS Neuron acquisisce i modelli FP32 ad alta precisione e li converte automaticamente in tipi di dati a bassa precisione, ottimizzando la precisione e le prestazioni. Il lancio automatico riduce il time to market eliminando la necessità di riqualificare i prodotti di precisione inferiore.
Inferentia2 aggiunge ottimizzazioni hardware per dimensioni dinamiche di input e operatori personalizzati scritti in C++. Supporta inoltre l'arrotondamento stocastico, una modalità di arrotondamento probabilistico che consente prestazioni elevate e una maggiore precisione rispetto alle modalità di arrotondamento tradizionali.
Le istanze Inf2 offrono fino al 50% di prestazioni/watt in più rispetto alle istanze Amazon EC2 paragonabili, poiché, insieme agli acceleratori Inferentia2 sottostanti, sono costruite appositamente per eseguire modelli di DL su scala. Le istanze Inf2 ti consentono di raggiungere i tuoi obiettivi di sostenibilità durante l'implementazione di modelli di dimensioni ultra-grandi.

Video

Dietro le quinte, guarda l'infrastruttura di IA generativa di Amazon
Presentazione delle istanze Amazon EC2 Inf2 basate su AWS Inferentia2
In che modo quattro clienti AWS hanno ridotto i costi del machine learning e favorito l'innovazione con AWS Inferentia