Retry e Fallback: Como Garantir a Confiabilidade de LLMs

Descubra como estratégias de retry e fallback aumentam a confiabilidade de aplicações com LLMs.

Retry e Fallback: Como Garantir a Confiabilidade de LLMs — imagem de capa Toolzz

Retry e Fallback: Como Garantir a Confiabilidade de LLMs

Lucas (CEO Toolzz)
Lucas (CEO Toolzz)
27 de março de 2026

Imagine que você implementou funcionalidades poderosas baseadas em Modelos de Linguagem Grandes (LLMs) e, de repente, 10% das chamadas à API do provedor começam a falhar. Se sua aplicação se conecta diretamente ao provedor, essas falhas impactam diretamente a experiência do usuário. Mas, com uma abordagem inteligente de retry e fallback, a maioria dessas falhas pode ser contornada sem intervenção manual ou alterações no código.

O Problema com Retentativas Simplistas

A estratégia mais básica de retry — “se falhar, tente novamente” — funciona em muitos casos, especialmente quando as falhas são transitórias. No entanto, no contexto de APIs de LLMs, retentativas simples podem ser ineficazes e até prejudiciais. Nem todas as falhas são temporárias; um erro de requisição malformada persistirá em todas as tentativas. Além disso, tentar repetidamente o mesmo provedor não resolve problemas de capacidade. A complexidade aumenta ainda mais com respostas em streaming, onde uma troca para outro provedor no meio da transmissão pode gerar dados inconsistentes. Por fim, a falta de visibilidade sobre as retentativas silenciosas dificulta a identificação e resolução de problemas.

Classificação de Erros: A Chave para a Resiliência

A Toolzz adota uma abordagem abrangente, classificando os erros em três categorias, cada uma acionando uma resposta específica:

Gatilho Ação Comportamento
5xx, 429 Retry, então Fallback Retenta o mesmo provedor uma vez. Se a nova tentativa falhar, passa para o próximo provedor na lista de fallback.
408, 504, timeouts, falhas SSE Fallback Imediato Ignora a retentativa e passa diretamente para o próximo provedor – tentar o mesmo provedor novamente provavelmente não ajudará.
4xx, chave inválida, requisição inválida Retornar o Erro Retorna o erro ao chamador imediatamente. O problema está no lado do cliente e não será resolvido com retentativas ou fallback.

Essa classificação evita o desperdício de tempo com erros irrecuperáveis e garante que o fallback seja utilizado apenas quando há uma chance real de sucesso. Se você busca uma solução robusta para lidar com essas complexidades, conheça a Toolzz e como podemos te ajudar.

O Loop de Execução

Com a classificação de erros implementada, o processo segue um fluxo claro:

  1. Classificação e Ordenação dos Provedores: Antes da primeira requisição, a Toolzz avalia e ordena todos os provedores disponíveis para o modelo solicitado, com base em sua pontuação (detalhes sobre a pontuação abaixo). O provedor com a maior pontuação é selecionado como o primário.
  2. Tentativa no Provedor Primário: A requisição é enviada ao provedor primário. Se a requisição for bem-sucedida, a resposta é retornada e o processo é finalizado.
  3. Classificação da Falha: Se a requisição falhar, o erro é classificado.
    • Retry, então Fallback: O provedor primário é retentado uma vez. Se a segunda tentativa também falhar, o processo avança para a etapa 4.
    • Fallback Imediato: A etapa 4 é executada diretamente.
    • Retornar Erro: O erro é retornado ao cliente.
  4. Tentativa com o Próximo Provedor: A requisição é enviada ao próximo provedor da lista. Cada provedor de fallback recebe apenas uma tentativa.
  5. Esgotamento de Provedores: Se todos os provedores falharem, o último erro e os detalhes de todas as tentativas são retornados.

O provedor primário tem no máximo duas tentativas (inicial + uma retentativa), enquanto cada provedor de fallback recebe apenas uma tentativa. Isso garante que a latência permaneça controlada.

Pontuação dos Provedores: Escolhendo a Melhor Ordem de Fallback

A ordem de fallback não é aleatória. A Toolzz atribui uma pontuação a cada provedor com base em métricas em tempo real coletadas do tráfego recente. Os provedores são classificados pela taxa de sucesso, com os mais confiáveis no topo da lista. O sistema se adapta continuamente, recompensando provedores que se recuperam de incidentes.

Alguns detalhes importantes sobre a pontuação:

  • Métricas Qualificadas por Data Center: O desempenho dos provedores pode variar por região. As métricas são armazenadas por data center para refletir a experiência real dos usuários.
  • Comportamento Fail-Open: Se as métricas não estiverem disponíveis, todos os provedores recebem uma pontuação padrão de 1.0, garantindo que nenhum seja descartado por falta de dados.
  • Desempate Aleatório: Em caso de empate, a ordem é aleatória para distribuir a carga de forma uniforme.
  • Filtros de Provedores Desabilitados: Provedores podem ser desabilitados operacionalmente, mas o filtro é desativado se todos os provedores estiverem desabilitados.

Quer ver na prática?

Solicitar demonstração

O Caso Específico do Streaming

Respostas em streaming introduzem uma restrição: uma vez que o primeiro chunk de dados é enviado ao cliente, a Toolzz não pode mais realizar retentativas ou fallback de forma transparente. Uma troca no meio do streaming resultaria em dados inconsistentes. Portanto:

  • Antes do Primeiro Chunk: O comportamento de retry e fallback é normal.
  • Após o Primeiro Chunk: A resposta é confirmada. Se o provedor falhar, o erro é retornado ao cliente.

Essa é uma decisão deliberada, baseada na premissa de que a maioria das falhas ocorre antes do início do streaming.

BYOK e a Priorização de Chaves

A Toolzz suporta o uso de suas próprias chaves de API (BYOK). Nesses casos, a Toolzz prioriza provedores que utilizam as chaves do cliente, utilizando os provedores gerenciados pela Toolzz como fallback. Caso a organização não possua créditos suficientes na plataforma, apenas os provedores BYOK são utilizados.

Observabilidade Completa

Todas as tentativas de requisição, incluindo retentativas e fallbacks, são registradas para fins de monitoramento. Os logs incluem o provedor utilizado, o erro ocorrido e o tempo de resposta. Esses dados permitem identificar problemas e otimizar o desempenho.

Conclusão

Em ambientes de produção, a resiliência é fundamental. As estratégias de retry e fallback da Toolzz garantem que suas aplicações baseadas em LLMs permaneçam operacionais mesmo diante de falhas de provedores. Com visibilidade completa e automação inteligente, você pode se concentrar em construir experiências incríveis para seus usuários, sem se preocupar com a confiabilidade da infraestrutura. Para entender melhor como a Toolzz pode otimizar a confiabilidade da sua infraestrutura de LLMs, verifique nossos planos e preços.

Veja como é fácil criar sua IA

Clique na seta abaixo para começar uma demonstração interativa de como criar sua própria IA.

Saiba mais sobre este tema

Resumo do artigo

Este artigo explora as estratégias de retry e fallback como mecanismos cruciais para garantir a robustez e a disponibilidade de aplicações que dependem de Modelos de Linguagem Grandes (LLMs). Abordaremos como implementar essas técnicas para mitigar falhas inesperadas nas APIs dos provedores de LLMs, assegurando que a experiência do usuário permaneça fluida e ininterrupta, mesmo diante de problemas de conectividade ou sobrecarga nos serviços externos.

Benefícios

Ao ler este artigo, você irá: 1) Aprender a projetar sistemas resilientes a falhas de LLMs, evitando interrupções no serviço. 2) Descobrir como implementar políticas de retry eficientes para otimizar o uso de recursos. 3) Entender a importância das estratégias de fallback para garantir a continuidade do serviço em cenários críticos. 4) Avaliar diferentes abordagens de monitoramento e alerta para identificar e resolver problemas proativamente. 5) Aprimorar a arquitetura de suas aplicações B2B para lidar com as incertezas inerentes ao uso de LLMs.

Como funciona

O artigo detalha como configurar políticas de retry, incluindo backoff exponencial e jitter, para evitar sobrecarregar as APIs de LLMs após uma falha. Explica como definir estratégias de fallback, como usar modelos menores ou dados em cache, para fornecer uma experiência de usuário aceitável mesmo quando o LLM principal não está disponível. Também aborda a importância do monitoramento contínuo e da implementação de alertas para detectar e responder a falhas em tempo real, garantindo a confiabilidade da aplicação.

Perguntas Frequentes

Como implementar retry com backoff exponencial em chamadas de API de LLMs?

O backoff exponencial aumenta o tempo de espera entre tentativas, evitando sobrecarregar a API. Comece com um intervalo curto (ex: 1 segundo) e duplique a cada falha (ex: 2, 4, 8 segundos), com um limite máximo (ex: 30 segundos). Adicione jitter (um valor aleatório pequeno) para evitar sincronização entre retries.

Qual a diferença entre retry e fallback em aplicações com LLMs?

Retry tenta novamente a mesma operação após uma falha, esperando que o problema seja temporário. Fallback utiliza uma estratégia alternativa (ex: um modelo menor, dados em cache) para fornecer uma resposta, mesmo que não seja a ideal, garantindo a continuidade do serviço.

Quanto custa implementar uma estratégia de fallback para um chatbot com LLM?

O custo varia dependendo da complexidade do fallback. Um fallback simples usando regras predefinidas pode ser barato. Um fallback com um modelo menor de LLM envolve custos de treinamento e hospedagem. Monitoramento e alertas adicionam custos operacionais, mas evitam perdas maiores com indisponibilidade.

Qual o melhor modelo de LLM para usar como fallback em caso de falha do GPT-4?

Modelos menores e mais rápidos, como o GPT-3.5 Turbo ou modelos open-source como o Llama 2, podem ser usados como fallback. A escolha depende do trade-off entre custo, velocidade e qualidade da resposta. Avalie diferentes opções com seus dados de teste para encontrar o melhor equilíbrio.

Como funciona o monitoramento de APIs de LLMs para detectar falhas?

O monitoramento envolve acompanhar métricas como tempo de resposta, taxa de erros e utilização de recursos. Ferramentas de observabilidade podem alertar sobre anomalias. Implemente health checks regulares para verificar se a API está responsiva e com a performance esperada. Utilize logs para diagnosticar a causa de falhas.

Quais são os benefícios de usar uma arquitetura de microsserviços para LLMs?

Microsserviços permitem isolar falhas, escalonar componentes individualmente e atualizar serviços sem afetar toda a aplicação. Cada microsserviço pode ter sua própria estratégia de retry e fallback, aumentando a resiliência geral do sistema. Facilita a implementação de testes e a adoção de novas tecnologias.

Como lidar com erros de rate limiting em APIs de LLMs?

Implemente retry com backoff exponencial para tentar novamente após um tempo. Utilize caching para reduzir o número de chamadas à API. Solicite um aumento no limite de taxa (rate limit) do provedor, se possível. Distribua as chamadas entre diferentes contas ou chaves de API.

Qual o impacto do tempo de resposta de um LLM na experiência do usuário?

Tempos de resposta longos podem frustrar os usuários e levar ao abandono da aplicação. Otimize o LLM e a infraestrutura para minimizar a latência. Utilize streaming para exibir respostas parciais enquanto o LLM processa a requisição. Implemente indicadores de progresso para manter o usuário informado.

Como testar a resiliência de uma aplicação com LLMs usando chaos engineering?

Chaos engineering envolve simular falhas (ex: indisponibilidade da API, erros de rede) para identificar pontos fracos na aplicação. Injete falhas controladas para verificar se as estratégias de retry e fallback estão funcionando corretamente. Automatize os testes para garantir a resiliência contínua.

Como escolher a melhor estratégia de fallback para diferentes tipos de falha em LLMs?

Analise os tipos de falha mais comuns (ex: indisponibilidade, erros de rate limiting, respostas inválidas). Para indisponibilidade, use um modelo de fallback ou cache. Para erros de rate limiting, espere e tente novamente. Para respostas inválidas, tente reformular a pergunta ou usar um modelo diferente.

Mais de 3.000 empresas em todo mundo utilizam nossas tecnologias

Bradesco logo
Itaú logo
BTG Pactual logo
Unimed logo
Mercado Bitcoin logo
SEBRAE logo
B3 logo
iFood logo
Americanas logo
Cogna logo
SENAI logo
UNESCO logo
Anhanguera logo
FDC logo
Unopar logo
Faveni logo
Ser Educacional logo
USP logo

Produtos e Plataformas

Ecossistema de soluções SaaS e Superapp Whitelabel

Plataforma de Educação Corporativa

Área de Membros e LMS whitelabel estilo Netflix

Teste 15 dias

Plataforma de Agentes de IA

Crie sua IA no WhatsApp e treine com seu conteúdo

Teste 15 dias

Crie chatbots em minutos

Plataforma de chatbots no-code

Teste 15 dias

Agentes de IA que fazem ligação

Plataforma de Agentes de Voz no-code

Teste 15 dias

Central de Atendimento com IA

Plataforma de suporte omnichannel

Teste 15 dias

Conheça o Toolzz Vibe

Plataforma de Vibecoding. Crie Automações e Apps com IA em minutos sem programar.

Criar conta FREE

Loja de Agentes de IA

Escolha entre nossos agentes especializados ou crie o seu próprio

Crie sua IA personalizada