Histórias de clientes/Software e Internet/Estados Unidos

2024

Logotipo da Perplexity

Perplexity acelera o treinamento de modelos em 40% com o Amazon SageMaker HyperPod

Saiba como a startup de IA generativa Perplexity treina modelos com mais rapidez e eficiência usando o Amazon SageMaker HyperPod.

Visão geral | Oportunidade | Solução | Resultado | Serviços da AWS usados

Redução de até 40%

no tempo de treinamento

Mais de 100.000 consultas por hora

suportadas

Preservação da

baixa latência

Otimização

da experiência do usuário

Visão geral

Como uma força transformadora, a inteligência artificial (IA) generativa inclui algoritmos de machine learning (ML) capazes de gerar imagens a partir de textos, aprendendo com grandes quantidades de dados. A Perplexity está construindo um dos primeiros mecanismos de resposta conversacional do mundo. Para isso, a empresa usa a IA generativa para ajudar os usuários com respostas relevantes.

Para otimizar a precisão dos modelos, a Perplexity precisava de uma solução robusta e capaz de atender aos requisitos computacionais. Buscando elevar a experiência do usuário, a Perplexity recorreu ao Amazon Web Services (AWS). Ao usar infraestrutura avançada de ML, bibliotecas de treinamento e ferramentas de inferência da AWS, a Perplexity adquiriu a flexibilidade, a performance e a eficiência necessárias para atender a uma base global de usuários em grande escala.

Oportunidade | Usar os serviços da AWS para otimizar a experiência do usuário

Ao contrário dos mecanismos de pesquisa tradicionais, que geralmente entregam anúncios e palavras-chave em vez de resultados relevantes, a solução da Perplexity é otimizada para conectar os usuários ao conhecimento que eles procuram. Aproximadamente 10 milhões de usuários ativos mensais contam com a Perplexity para aprender novos conceitos, resolver desafios e encontrar respostas.

“Usando grandes modelos de linguagem, podemos capturar a compreensão e o raciocínio da linguagem humana em um único modelo. Combinado com os fatos na internet, isso nos ajudou a construir nosso mecanismo de respostas”, relata Aravind Srinivas, CEO e cofundador da Perplexity. “Essencialmente, unimos o índice de pesquisa tradicional (mecanismo de fatos) ao mecanismo de raciocínio (grande modelo de linguagem) para criar o primeiro mecanismo de resposta conversacional do mundo.”

Desde seu lançamento em 2022, a Perplexity usa os principais serviços da AWS, como o Amazon Elastic Compute Cloud (Amazon EC2), que oferece capacidade computacional segura e redimensionável para praticamente qualquer workload, para alimentar os componentes de back-end, front-end e pesquisa do produto. À medida que a Perplexity amadurecia e crescia os modelos de ML, a empresa precisava de uma grande capacidade computacional para atender aos usuários.

A Perplexity conversou com especialistas da AWS e descobriu que o Amazon SageMaker HyperPod, uma infraestrutura criada especificamente para treinamento distribuído em grande escala, atenderia às necessidades de treinamento de modelos em grande escala. O Amazon SageMaker HyperPod é pré-configurado com as bibliotecas de treinamento distribuídas do Amazon SageMaker, otimizadas para processar paralelamente dados personalizados altamente escaláveis e econômicos e modelar trabalhos paralelos de treinamento de aprendizado profundo em velocidades de interconexão que excedem 1.600 Gbps. O Amazon SageMaker HyperPod também evita interrupções ao treinamento do modelo salvando periodicamente os pontos de verificação. Quando uma falha de hardware ocorre durante o treinamento, o serviço da AWS a detecta automaticamente, repara ou substitui a instância defeituosa e retoma o treinamento desde o último ponto de verificação salvo. Isso facilita o treinamento ininterrupto do modelo por semanas ou meses em um ambiente distribuído.

kr_quotemark

Na AWS, o poder está nas mãos do cliente. Você usa apenas os serviços que precisa.”

Aravind Srinivas
CEO e cofundador da Perplexity

Solução | Reduzir o tempo de treinamento do modelo em até 40% com o Amazon SageMaker HyperPod

A AWS ofereceu à Perplexity um teste de um mês para demonstrar as capacidades de treinamento distribuído. Durante o teste, a empresa descobriu as vantagens de usar a AWS. A Perplexity ganhou maior flexibilidade na alocação de recursos. Ela usa diferentes tipos de instâncias do Amazon EC2 e GPUs personalizadas para tarefas específicas.

Para treinar modelos de ML, a Perplexity requer muita memória para processar grandes quantidades de dados e armazenar diferentes gradientes. Ela escolheu as Instâncias P4de do Amazon EC2, que oferecem a mais alta performance e computação para aplicações de treinamento de ML, para treinar seus modelos e atender os requisitos de memória e largura de banda. Ao usar o Amazon SageMaker HyperPod, a Perplexity transfere dados entre diferentes GPUs com muito mais rapidez, o que reduz o tempo de treinamento do modelo de ML em até 40%.

“As bibliotecas paralelas de dados e modelos incorporadas do Amazon SageMaker HyperPod nos ajudaram a otimizar o tempo de treinamento em GPUs e a dobrar o throughput dos treinamentos,” explica Srinivas. Como resultado, nossos experimentos de treinamento são duas vezes mais rápidos. Nossos desenvolvedores podem iterar com mais rapidez, acelerando o desenvolvimento de novas experiências de IA generativa para os clientes. Como o Amazon SageMaker HyperPod monitora automaticamente a integridade do cluster e corrige falhas de GPU, nossos desenvolvedores podem se concentrar na criação de modelos em vez de perderem tempo gerenciando e otimizando a infraestrutura subjacente.”

A meta da Perplexity é oferecer respostas rápidas e precisas às consultas dos usuários, o que requer recursos de inferência quase em tempo real. Usando as Instâncias P5 do Amazon EC2, que oferecem instâncias baseadas em GPU de performance mais alta para aplicações de aprendizado profundo, a Perplexity pode gerar respostas com um throughput muito maior do que antes. A empresa pode lidar com períodos de pico com 10.000 usuários simultâneos e mais de 100.000 consultas por hora, sem comprometer a latência nem afetar a experiência do usuário. A Perplexity também hospeda o modelo Llama 2 disponível publicamente nas Instâncias P5 do Amazon EC2 e usa o Amazon SageMaker HyperPod para ajustar o modelo de código aberto usando os próprios dados. Os modelos de ajuste ajudam a aprimorar a precisão e a relevância das respostas, adaptando o modelo às necessidades do mecanismo de respostas da Perplexity.

Resultado | Promover a IA generativa usando a infraestrutura da AWS e os serviços de IA/ML

Com base nos próprios sucessos, a Perplexity está pronta para abrir novos caminhos em IA generativa. Como parte da estratégia voltada para o futuro, a empresa testará o AWS Trainium, um acelerador de treinamento de ML de alta performance, para melhorar ainda mais o throughput do treinamento. A Perplexity também lançou uma API para oferecer aos usuários acesso aos grandes modelos de linguagem, processados inteiramente na AWS e otimizados pelo Amazon SageMaker HyperPod.

Para expandir a base de conhecimento e oferecer respostas mais precisas aos usuários, a Perplexity também adotou o Amazon Bedrock, um serviço totalmente gerenciado que oferece uma variedade de modelos básicos de alta performance das principais empresas de IA com uma única API. A Perplexity começou a usar o Claude 2 por meio do Amazon Bedrock para incorporar recursos avançados de codificação, matemática e raciocínio ao serviço.

“Na AWS, o poder está nas mãos do cliente”, relata Srinivas. “Você usa apenas os serviços de que precisa. A equipe da AWS sempre nos diz: ‘Faça o que é melhor para seus clientes. Faça o que é melhor para sua empresa.’ Esse alinhamento com os clientes é o que realmente amamos na AWS.”

Sobre a Perplexity

A Perplexity está criando um mecanismo de respostas funcional e conversacional otimizado para ajudar os usuários a encontrar conhecimento, em vez de entregar anúncios e palavras-chave.

Serviços da AWS usados

Amazon SageMaker HyperPod

O AmazonSageMaker HyperPod elimina o trabalho pesado indiferenciado envolvido na criação e na otimização da infraestrutura de machine learning (ML) para o treinamento de modelos de base (FMs), reduzindo o tempo de treinamento em até 40%.

Instâncias P5 do Amazon EC2

As instâncias P5 do Amazon Elastic Compute Cloud (Amazon EC2), equipadas com as mais recentes GPUs NVIDIA H100 Tensor Core, oferecem a mais alta performance no Amazon EC2 para aplicações de aprendizado profundo (DL) e computação de alta performance (HPC).

Instâncias P4de do Amazon EC2

As instâncias P4de são alimentadas por 8 GPUs NVIDIA A100 com 80 GB de memória de GPU HBM2e de alta performance, 2 vezes maior do que as GPUs em nossas instâncias P4d atuais.

Amazon Bedrock

O Amazon Bedrock é um serviço totalmente gerenciado que oferece várias opções de modelos de base (FMs) de alta performance das principais empresas de IA, como AI21 Labs, Anthropic, Cohere, Meta, Stability AI e Amazon, por meio de uma única API, além de um amplo conjunto de recursos necessários para criar aplicações de IA generativa com segurança, privacidade e IA responsável.

Mais histórias de clientes de software e Internet

nenhum item encontrado

1 …

…

Comece a usar o Amazon SageMaker no nível gratuito

Como parte do Nível gratuito da AWS, você pode começar a usar o Amazon SageMaker gratuitamente. Sua avaliação gratuita de dois meses começará no primeiro mês em que você criar seu primeiro recurso do SageMaker.

Saiba mais