A avaliação de agentes de inteligência artificial (IA) é um dos grandes desafios para empresas que desenvolvem soluções baseadas em modelos de linguagem (LLMs). Com a crescente adoção de agentes conversacionais, garantir qualidade, segurança e eficiência se torna essencial e desafiador, devido a natureza não determinística de sistemas que utilizam IA generativa. Além disso, agentes de IA desempenham papéis críticos em setores como atendimento ao cliente, automação de tarefas e suporte técnico, tornando sua avaliação um fator determinante para o sucesso da tecnologia.
Para a plataforma da Tech4humans, focada na criação e monitoramento de agentes conversacionais, enfrentamos desafios específicos na construção de métricas eficazes para garantir que os agentes de IA ofereçam experiências otimizadas aos usuários. Este artigo explora os principais conceitos e técnicas utilizados no mercado para a avaliação de Agentes baseados em LLMs, detalha as métricas mais relevantes para avaliação e discute os desafios e soluções aplicáveis à nossa realidade.
A avaliação de agentes de IA exige um conjunto abrangente de métricas para medir sua performance em diferentes aspectos. Essas métricas podem ser categorizadas em diferentes grupos:
A avaliação de agentes de IA apresenta diversos desafios, desde a confiabilidade das respostas até a eficiência operacional. O e-book “Mastering AI Agents” destaca algumas das principais dificuldades enfrentadas na implementação e manutenção desses sistemas.
Um dos principais desafios dos agentes de IA é a geração de respostas que não são baseadas em dados reais, levando a informações incorretas ou enganosas. Para mitigar esse problema, é recomendado utilizar métricas como “Embasamento”, que avaliam se a resposta do agente está fundamentada em conhecimento verificável.
Muitos agentes utilizam APIs e sistemas externos para recuperar informações e executar ações, o que pode resultar em falhas quando essas integrações apresentam problemas. Métricas como “Taxa de Sucesso de Execução” e “Precisão dos Parâmetros”, monitoram a saúde das ações que o Agente pode executar durante a sua atuação, identificando pontos de erros, gargalos e sistemas externos falhos.
Outro desafio é garantir que os agentes compreendam e sigam corretamente instruções detalhadas. Muitas vezes, pequenas variações na entrada do usuário podem levar a desvios indesejados no fluxo da conversa. Uma forma de abordar esse problema é através da métrica “Aderência às Instruções”, que avalia a fidelidade do agente ao que foi solicitado. Isso permite ajustes e refinamentos contínuos para melhorar a coerência das respostas.
O uso de testes contínuos e automatizados são essenciais para evitar regressões inesperadas no comportamento dos agentes. A incorporação de testes regressivos automatizados, garantem que novas versões dos Agentes não comprometam funcionalidades existentes. Manter um dataset com interações validadas permite que o desempenho dos agentes seja constantemente monitorado e aprimorado.
Garantir que agentes de IA continuem funcionando adequadamente após a evolução de ferramentas e instruções (prompts) é um dos principais desafios no desenvolvimento e manutenção desses sistemas. Pequenas alterações em modelos de linguagem, configurações ou lógica de execução podem impactar significativamente a performance do agente, gerando respostas inesperadas ou comprometendo fluxos já validados.
Uma abordagem eficaz para mitigar esses riscos é a implementação de testes regressivos baseados em datasets de atendimentos de sucesso. Esses datasets contêm exemplos históricos de interações bem-sucedidas e são utilizados para validar se o agente continua respondendo corretamente aos mesmos cenários após a implementação de novos recursos ou melhorias.
Ao rodar testes automatizados, o sistema pode comparar as respostas do agente antes e depois das alterações, identificando divergências e possíveis regressões. Isso permite que equipes de desenvolvimento ajustem as configurações ou refinem prompts sem comprometer a experiência do usuário. Essa estratégia se torna ainda mais crucial em ambientes de produção, onde mudanças inesperadas podem afetar diretamente a satisfação do cliente.
Uma outra forma de manter testes regressivos é através da criação de roteiros de teste que possam ser seguidos por um LLM, que fará o papel de usuário e se certificará que ao seguir o roteiro especificado, o Agente atinja corretamente o resultado esperado.
A automação de testes é crucial para validar atualizações e facilitar a adoção de um ciclo de melhoria contínua dos agentes de IA. A combinação de testes regressivos bem estruturados e monitoramento ativo garante maior confiabilidade e previsibilidade no desempenho dos agentes conversacionais.
A configuração dos agentes conversacionais na plataforma da tech4.ai segue uma estrutura modular, permitindo personalização e especialização para diferentes necessidades de atendimento. Os principais componentes dessa configuração são:
Sustentando toda esta arquitetura de informação, temos um robusto motor que é responsável por trabalhar o contexto das informações da melhor maneira possível, habilitando e desabilitando habilidades de acordo com o andamento do atendimento. Isso permite que a performance do Agente aumente, evitando contextos longos com instruções desnecessárias ou até mesmo o acesso a habilidades que ainda não podem ser utilizadas de acordo com o fluxo de interação definido.
Porém, após a construção e o uso destes Agentes em operações reais de atendimento, como avaliamos a sua performance e os pontos de melhoria? A Tech4humans desenvolveu um robusto sistema de monitoramento para isso em sua plataforma tech4.ai.
A plataforma oferece um painel de monitoramento completo para agentes conversacionais, projetado para fornecer insights detalhados sobre o desempenho dos agentes, permitindo um ciclo de manutenção e evolução contínuos.
A primeira seção da plataforma apresenta métricas gerais, fornecendo uma visão consolidada sobre o desempenho do agente. Entre os principais indicadores, destacam-se:
Essas métricas possibilitam um overview da saúde e performance do agente.
A plataforma divide as métricas em três categorias principais:
Além das métricas gerais, a plataforma oferece ferramentas de análise detalhada, permitindo compreender o desempenho do agente em diferentes cenários:
Essas funcionalidades garantem um monitoramento granular e facilitam a identificação de pontos de melhoria na atuação do agente.
A avaliação de agentes de IA é um campo complexo e essencial para garantir soluções confiáveis. A natureza não determinística de Agentes de IA que se apoiam em LLMs para planejar e executar ações traz novos desafios para sistemas e métricas de monitoramento.
Parafraseando o que foi dito no curso “Evaluating AI Agents” da Deeplearning.ai, “atualmente esta área está mais no campo da arte do que da ciência”, visto que muitas das métricas se apoiam em técnicas de “LLM as a Judge”, que por sua vez se apoiam em modelos de IA avaliando outros modelos de IA, o que torna a avaliação subjetiva e flexível.
É importante ressaltar que práticas já existentes de mercado, principalmente na área de automação de atendimento ao cliente, continuam relevantes e devem ser incorporadas nesta nova era de Agentes Autônomos.
Está claro que sem processos automatizados e inteligentes para monitorar estes Agentes, será muito difícil entender a real performance destes novos sistemas e principalmente os pontos que precisam ser melhorados.
Por fim, é importante estar atento ao que o mercado e a literatura trazem de novidades em relação a este tema, além de entender diretamente com clientes quais são as dores e a visibilidade que desejam ter em relação às operações de atendimento.
Somos uma startup inovadora com duas áreas de negócios: SaaS e AIaaS. No SaaS, oferecemos soluções avançadas para a hiperautomação de atendimento, facilitando a gestão, automação e acompanhamento de solicitações. No AIaaS, nossa plataforma Tech4.ai capacita empresas a construir e implementar soluções de inteligência artificial com tecnologias open source, garantindo agilidade, governança e alto desempenho.
E acesse, em primeira mão, nossos principais conteúdos diretamente do seu e-mail.