Como a Patronus AI ajuda as empresas a aumentar sua confiança na IA generativa

Como estava esse conteúdo?

Nos últimos anos, e especialmente desde o lançamento do ChatGPT em 2022, o potencial transformacional da inteligência artificial generativa (IA) tornou-se inegável para organizações de todos os portes e em uma ampla variedade de setores. A próxima onda de adoção já começou, com as empresas correndo para adotar ferramentas de IA generativa para impulsionar a eficiência e aprimorar as experiências dos clientes. Um relatório da McKinsey de 2023 estimou que a IA generativa poderia agregar anualmente o equivalente a USD 2,6 trilhões a USD 4,4 trilhões em valor à economia global, aumentando o impacto econômico geral da IA em cerca de 15 a 40%, enquanto a última pesquisa com CEOs da IBM constatou que 50% dos entrevistados já estavam integrando a IA generativa em seus produtos e serviços.

No entanto, à medida que a IA generativa se torna cada vez mais popular, clientes e empresas expressam cada vez mais preocupação com sua confiabilidade e segurança. E pode não estar claro por que determinados informações inseridas geram determinados resultados, dificultando para as empresas avaliar os resultados da IA generativa. A Patronus AI, uma empresa fundada pelos especialistas em machine learning (ML) Anand Kannappan e Rebecca Qian, decidiu resolver esse problema. Com sua plataforma automatizada de avaliação e segurança baseada em IA, a Patronus ajuda seus clientes a usar grandes modelos de linguagem (LLMs) com confiança e responsabilidade, minimizando o risco de erros. O objetivo da startup é tornar os modelos de IA mais confiáveis e utilizáveis. “Essa se tornou a grande questão no ano passado. Todas as empresas querem usar modelos de linguagem, mas estão preocupadas com os riscos e até mesmo com a confiabilidade de como funcionam, especialmente em seus casos de uso muito específicos”, explica Anand. “Nossa missão é aumentar a confiança corporativa na IA generativa.”

Colher os benefícios e controlar os riscos da IA generativa

A IA generativa é um tipo de IA que usa ML para gerar novos dados semelhantes aos dados em que foi treinada. Ao aprender os padrões e a estrutura dos conjuntos de dados de entrada, a IA generativa produz conteúdo original: imagens, texto e até linhas de código. As aplicações de IA generativa são alimentadas por modelos de ML pré-treinados em grandes quantidades de dados, principalmente LLMs treinados em trilhões de palavras em uma variedade de tarefas de linguagem natural.

Os benefícios comerciais potenciais são altíssimos. As empresas demonstraram interesse em usar LLMs para aproveitar seus próprios dados internos por meio da recuperação, produzir memorandos e apresentações, melhorar a assistência automatizada por chat e completar automaticamente a geração de código no desenvolvimento de softwares. Anand também aponta para toda a gama de outros casos de uso que ainda não foram concretizados. “Há muitos setores diferentes que a IA generativa ainda não revolucionou. Na verdade, estamos apenas no início de tudo o que estamos vendo até agora.”

À medida que as organizações consideram expandir o uso da IA generativa, a questão da confiabilidade se torna mais urgente. Os usuários querem garantir que seus resultados estejam em conformidade com os regulamentos e as políticas da empresa e, ao mesmo tempo, evitar resultados não seguros ou ilegais. “Para empresas e corporações maiores, especialmente em setores regulamentados”, explica Anand, “há muitos cenários de missão crítica em que elas desejam usar a IA generativa, mas temem que, se um erro acontecer, isso coloque sua reputação em risco ou até mesmo seus próprios clientes em risco”.

A Patronus ajuda os clientes a gerenciar esses riscos e aumentar a confiança na IA generativa, melhorando a capacidade de medir, analisar e experimentar a performance dos modelos em questão. “Na verdade, trata-se de garantir que, independentemente da forma como seu sistema foi desenvolvido, os testes e a avaliação gerais de tudo sejam muito robustos e padronizados”, diz Anand. “E isso é realmente o que está faltando agora: todo mundo quer usar modelos de linguagem, mas não há uma estrutura realmente estabelecida ou padronizada de como testá-los adequadamente de uma maneira muito mais científica.”

Aumentar a confiabilidade e a performance

A plataforma Patronus automatizada permite que os clientes avaliem e comparem a performance de diferentes LLMs em cenários do mundo real, reduzindo assim o risco de resultados indesejados. A Patronus usa novas técnicas de ML para ajudar os clientes a gerar automaticamente conjuntos de testes antagônicos e pontuar e comparar a performance do modelo de linguagem com base na taxonomia interna de critérios da Patronus. Por exemplo, o conjunto de dados FinanceBench é a primeira referência do setor para o performance de LLMs em assuntos financeiros.

“Tudo o que fazemos na Patronus é muito focado em ajudar as empresas a detectar erros no modelo de linguagem de maneira muito mais escalável e automatizada”, diz Anand. Atualmente, muitas grandes empresas estão gastando grandes quantias em equipes internas de garantia de qualidade e consultores externos, que criam manualmente casos de teste e classificam seus resultados de LLMs em planilhas, mas a abordagem baseada em IA da Patronus evita a necessidade de um processo tão lento e caro.

“Como o processamento de linguagem natural (PLN) é bastante empírico, há muito trabalho de experimentação que estamos fazendo para finalmente descobrir quais técnicas de avaliação funcionam melhor”, explica Anand. “Como podemos habilitar esse tipo de coisa em nosso produto para que as pessoas possam aproveitar o valor... entre as técnicas que descobrimos que funcionam melhor, com muita facilidade e rapidez? E como eles podem obter melhorias de performance, não só para seu próprio sistema, como até mesmo para a avaliação desse sistema que eles conseguiram implementar agora por causa da Patronus?”

O resultado é um ciclo virtuoso: quanto mais uma empresa usa o produto e dá feedback por meio do recurso de polegar para cima ou para baixo, melhores se tornam suas avaliações e, como resultado, melhores se tornam os sistemas da própria empresa.

Aumentar a confiança por meio de resultados melhores e maior compreensão

Para liberar o potencial da IA generativa, é essencial melhorar sua confiabilidade e confiabilidade. Os possíveis adotantes em vários setores e casos de uso são regularmente reprimidos, não só pelo fato de que às vezes as aplicações de IA cometem erros, como também pela dificuldade de entender como ou por que um problema ocorreu e como evitar que isso aconteça no futuro.

“O que todo mundo está realmente pedindo é uma maneira melhor de ter muito mais confiança em algo ao lançá-lo em produção”, diz Anand. “E quando você coloca isso na frente dos seus próprios funcionários e até mesmo dos clientes finais, são centenas, milhares ou dezenas de milhares de pessoas, então você quer ter certeza de que esses tipos de desafios sejam limitados o máximo possível. E, para aqueles que chegam a acontecer, você quer saber quando acontecem e por quê”.

Um dos principais objetivos da Patronus é melhorar a compreensibilidade, ou explicabilidade, dos modelos de IA generativa. Isso se refere à capacidade de identificar por que certas saídas de LLMs são do jeito que são e como os clientes podem obter mais controle sobre a confiabilidade delas.

A Patronus incorpora recursos que visam a explicabilidade, principalmente proporcionando aos clientes uma visão direta do motivo pelo qual um caso de teste específico foi aprovado ou reprovado. De acordo com Anand: “Isso é algo que fazemos com explicações em linguagem natural, e nossos clientes nos disseram que gostaram, porque isso lhes dá uma visão rápida que explica por que as coisas falharam, e talvez até sugestões de melhorias sobre como eles podem iterar os valores dos parâmetros de alertas ou de geração, ou até mesmo para fazer um ajuste fino... Nossa explicabilidade está muito focada na avaliação real propriamente dita.”

Contemplando o futuro da IA gerativa com a AWS

Para criar sua aplicação baseada na nuvem, a Patronus trabalhou com a AWS desde o início. A Patronus usa vários serviços diferentes baseados na nuvem: Amazon Simple Queue Service (Amazon SQS) para infraestrutura de filas e Amazon Elastic Compute Cloud (Amazon EC2) para ambientes Kubernetes. A empresa aproveita a personalização e a flexibilidade disponíveis no Amazon Elastic Kubernetes Service (Amazon EKS).

Tendo trabalhado com a AWS por muitos anos antes de ajudar a fundar a Patronus, Anand e sua equipe conseguiram aproveitar sua familiaridade e experiência com a AWS para desenvolver seus produtos e a infraestrutura rapidamente. A Patronus também trabalhou em estreita colaboração com as equipes de soluções focadas em startups da AWS, que têm sido “fundamentais” na configuração de conexões e conversas. “O aspecto focado no cliente [na AWS] é sempre ótimo e nunca subestimamos isso”, diz Anand.

A Patronus agora olha para o futuro com otimismo, tendo sido inundada com interesse e demanda após sua recente inauguração, com um financiamento inicial de USD 3 milhões liderado pela Lightspeed Venture Par tners. A equipe também anunciou recentemente a primeira referência para a performance de LLMs em questões financeiras, algo desenvolvido em conjunto com 15 especialistas do setor financeiro.

“Estamos muito empolgados com o que poderemos fazer no futuro”, diz Anand. “E continuaremos focados na avaliação e nos testes de IA, para poder ajudar as empresas a identificar lacunas nos modelos de linguagem... e a entender como elas podem quantificar a performance e, em última análise, obter produtos melhores nos quais possam criar muito mais confiança no futuro.”

Tudo pronto para aproveitar os benefícios da IA generativa com confiança e confiabilidade? Acesse o Centro de Inovação em IA Generativa da AWS para obter orientação, planejamento, suporte à execução, casos de uso de IA generativa ou qualquer outra solução de sua escolha.

Aditya Shahani

Aditya Shahani is a Startup Solutions Architect focused on accelerating early stage startups throughout their journey building on AWS. He is passionate about leveraging the latest technologies to streamline business problems at scale while reducing overhead and cost.

Bonnie McClure

Bonnie é editora especializada em criar conteúdo acessível e envolvente para todos os públicos e plataformas. Ela se dedica a fornecer orientação editorial abrangente para proporcionar uma experiência de usuário perfeita. Quando ela não está defendendo a vírgula de Oxford, você pode encontrá-la com seus dois cachorros grandes, praticando suas habilidades de costura ou testando novas receitas na cozinha.

Como estava esse conteúdo?