Blocchi di capacità Amazon EC2 per ML

Riservare istanze di elaborazione accelerate in UltraClusters Amazon EC2 per eseguire i tuoi carichi di lavoro ML

Inizia a usare i blocchi di capacità EC2

Perché i blocchi di capacità Amazon EC2 per ML?

Con i Blocchi di capacità Amazon Elastic Compute Cloud (Amazon EC2) per ML puoi prenotare facilmente istanze di calcolo accelerate per una data di inizio futura. I Blocchi di capacità supportano le istanze P5en, P5e, P5 e P4d di Amazon EC2, alimentate rispettivamente dalle più recenti GPU NVIDIA H200 Tensor Core, NVIDIA H100 Tensor Core e GPU NVIDIA A100 Tensor Core, nonché le istanze Trn2 e Trn1 basate su AWS Trainium. I blocchi di capacità EC2 sono collocati in Amazon EC2 UltraClusters progettati per carichi di lavoro di machine learning (ML) ad alte prestazioni. È possibile prenotare istanze di calcolo accelerate per un massimo di sei mesi in cluster di dimensioni variabili da una a 64 istanze (512 GPU o 1024 Titanium), così da poter offrire la flessibilità di eseguire una vasta gamma di carichi di lavoro di ML. I blocchi di capacità EC2 si possono prenotare fino a otto settimane in anticipo.

Vantaggi

Pianifica in sicurezza

Pianifica lo sviluppo del machine learning in sicurezza, garantendo la futura capacità disponibile per le istanze a calcolo accelerato.

Connettività di rete a bassa latenza e ad alto throughput

Ottieni una connettività di rete a bassa latenza e ad alto throughput tramite la collocazione in Amazon EC2 UltraClusters per l'addestramento distribuito.

Prestazioni elevate

Ottieni un accesso prevedibile alle istanze a calcolo accelerato con le massime prestazioni in Amazon EC2 per il machine learning.

Casi d'uso

Addestramento o ottimizzazione di modelli ML utilizzando istanze a calcolo accelerato

Ottieni l'accesso ininterrotto alle istanze a calcolo accelerato riservate per completare l'addestramento e l'ottimizzazione dei modelli ML.

Esegui un addestramento dei modelli di IA generativa a basso costo con un'infrastruttura gestita

Basati sui blocchi di capacità, i piani di addestramento flessibili di Amazon SageMaker HyperPod ti aiutano a rispettare le tempistiche e i budget di addestramento dei modelli prenotando ed eseguendo automaticamente i job di addestramento su più blocchi di capacità di calcolo in base ai tuoi requisiti di addestramento.

Ottenere istanze a calcolo accelerato per il tempo necessario a eseguire esperimenti

Esegui esperimenti e crea prototipi che richiedono istanze a calcolo accelerato per brevi periodi.

Pianifica i futuri aumenti della domanda di applicazioni ML

Soddisfa le tue esigenze di crescita, riservando la giusta quantità di capacità per servire i clienti.

NVIDIA

La domanda di calcolo accelerato aumenta in modo esponenziale, in quanto le imprese di tutto il mondo adottano l'IA generativa per rimodellare la propria attività. Grazie ai nuovi blocchi di capacità EC2 per ML di AWS, le aziende di intelligenza artificiale di tutto il mondo possono ora noleggiare H100 non solo un server alla volta, ma su una scala dedicata disponibile esclusivamente su AWS, consentendo loro di addestrare in modo rapido ed economico modelli linguistici di grandi dimensioni e di eseguire l'inferenza nel cloud nel momento del bisogno.

Ian Buck, vicepresidente di Hyperscale e HPC Computing presso NVIDIA
Arcee

Arcee fornisce una piattaforma di intelligenza artificiale che consente lo sviluppo e il progresso di ciò che chiamiamo SLM: modelli linguistici piccoli, specializzati, sicuri e scalabili. I blocchi di capacità Amazon EC2 per ML sono una parte importante del calcolo ML per l'addestramento di SLM su AWS perché ci forniscono un accesso affidabile alla capacità della GPU quando ne abbiamo bisogno. Questo a sua volta significa che sia il nostro team interno che i nostri clienti possono beneficiare della flessibilità. Sapere di poter ottenere un cluster di GPU in un paio di giorni e senza un impegno a lungo termine è stato decisivo.

Mark McQuade, CEO e cofondatore presso Arcee
Amplify Partners

Abbiamo collaborato con diversi fondatori che sfruttano il deep learning e i modelli linguistici di grandi dimensioni per portare sul mercato innovazioni rivoluzionarie. Riteniamo che un accesso prevedibile e tempestivo alla capacità di calcolo della GPU sia fondamentale per consentire ai fondatori non solo di dare rapidamente vita alle loro idee, ma anche di continuare a iterare la loro visione e offrire un valore crescente ai clienti. La disponibilità di un massimo di 512 GPU NVIDIA H100 tramite i blocchi di capacità EC2 è un punto di svolta in un contesto odierno in cui l'offerta è limitata, poiché riteniamo che fornirà alle startup la capacità di calcolo sulle GPU se e quando ne hanno bisogno, senza dover assumere impegni di capitale a lungo termine. Siamo impazienti di supportare i fondatori che si avvalgono di AWS sfruttando i blocchi di capacità delle GPU e il suo portfolio leader del settore che include servizi di machine learning e IA generativa.

Mark LaRosa, partner operativo presso Amplify Partners
Canva

Oggi Canva consente a oltre 150 milioni di utenti attivi mensilmente di creare risorse visive coinvolgenti che possono essere pubblicate ovunque. Abbiamo utilizzato le istanze P4de di EC2 per addestrare modelli multimodali che alimentano nuovi strumenti di IA generativa, consentendo ai nostri utenti di sperimentare idee in modo libero e veloce. Quando cerchiamo di addestrare modelli più grandi, abbiamo bisogno della capacità di scalare in modo prevedibile centinaia di GPU durante le nostre sessioni di addestramento. È straordinario che AWS lanci blocchi di capacità EC2 con supporto per le istanze P5. Ora possiamo ottenere un accesso prevedibile a un massimo di 512 GPU NVIDIA H100 in EC2 UltraClusters a bassa latenza per addestrare modelli ancora più grandi rispetto al passato.

Greg Roodt, Head of Data Platforms presso Canva
Dashtoon

Dashtoon fonde l'intelligenza artificiale all'avanguardia con la creatività per trasformare i narratori in artisti in grado di creare fumetti digitali indipendentemente dalle loro capacità artistiche o conoscenze tecniche, rompendo le barriere tradizionali nella creazione di contenuti illustrati. Più di 80.000 utenti attivi mensilmente (MAU) trascorrono del tempo sulla nostra app per utilizzare fumetti, mentre i nostri creatori generano più di 100.000 immagini al giorno su Dashtoon Studio. Utilizziamo AWS sin dall'inizio, oltre alle istanze P5 di Amazon EC2 per addestrare e ottimizzare modelli multimodali tra cui Stable Diffusion XL, GroundingDino e Segment Anything. Le prestazioni sono migliorate di 3 volte grazie all'utilizzo delle istanze P5 basate su GPU NVIDIA H100, rispetto all'utilizzo di istanze P4d equivalenti basate su GPU NVIDIA A100. I nostri set di dati di addestramento variano in termini di dimensioni e, mentre cerchiamo di scalare il nostro addestramento di modelli, i blocchi di capacità Amazon EC2 per ML ci consentono di soddisfare le nostre esigenze di GPU con tempi di consegna prevedibili e brevi (già dal giorno successivo), contribuendo a ridurre i tempi di rilascio di nuove funzionalità per i nostri utenti. Siamo entusiasti di continuare a utilizzare i blocchi di capacità EC2 per accelerare la nostra innovazione.

Soumyadeep Mukherjee, cofondatrice e Chief Technology Officer presso Dashtoon
Leonardo.Ai

Il nostro team di Leonardo sfrutta l'IA generativa per consentire ai professionisti e agli appassionati creativi di produrre risorse visive che vantano qualità, velocità e coerenza stilistica senza pari. Ci basiamo su una suite di modelli di intelligenza artificiale ottimizzati e su potenti strumenti, che offrono un controllo dettagliato sia prima che dopo la creazione. Sfruttiamo un'ampia gamma di servizi AWS non solo per creare e addestrare i nostri modelli, ma anche per ospitarli e supportare l'utilizzo di milioni di clienti attivi mensilmente. Siamo lieti del lancio dei blocchi di capacità EC2 per ML. Ci consente di accedere in modo flessibile alla capacità della GPU per l'addestramento e la sperimentazione, preservando al contempo la possibilità di passare a diverse istanze EC2 che potrebbero soddisfare meglio i nostri requisiti di calcolo.

Peter Runham, CTO presso Leonardo.Ai
OctoAI

In OctoAI, consentiamo ai costruttori di applicazioni di eseguire, ottimizzare e scalare facilmente l'IA generativa, ottimizzando l'esecuzione dei modelli e utilizzando l'automazione per scalare i servizi e ridurre il carico di progettazione. La nostra capacità di aumentare verticalmente la capacità della GPU per brevi periodi è fondamentale, soprattutto quando lavoriamo con clienti che desiderano scalare rapidamente le loro applicazioni ML da zero a milioni di utenti nell'ambito del lancio dei loro prodotti. I blocchi di capacità EC2 per ML ci consentono di creare in modo prevedibile cluster di GPU di diverse dimensioni, in linea con l'aumento verticale pianificato dai nostri clienti, offrendo al contempo potenziali risparmi sui costi rispetto agli impegni di capacità a lungo termine o all'implementazione on-premise.

Luis Ceze, CEO presso OctoAI
Snorkel

La piattaforma di sviluppo dati IA di Snorkel aiuta le imprese a creare e utilizzare rapidamente l'IA. Ciò include sempre più spesso la distillazione di informazioni da LLM ad alta intensità di calcolo in modelli specialistici più piccoli, che richiedono picchi di calcolo a breve termine durante lo sviluppo. I blocchi di capacità EC2 per ML sono potenzialmente in grado di offrire un notevole miglioramento rispetto alle opzioni esistenti per acquisire capacità GPU. L'accesso garantito alla capacità della GPU a breve termine e le elevate prestazioni di rete degli EC2 UltraClusters sono fattori fondamentali per i flussi di lavoro di sviluppo dell'IA che le aziende devono supportare nel presente e nel futuro.

Braden Hancock, cofondatore e Head of Technology presso Snorkel