Otimizando a Relevância com IA Generativa: Aprendizados do Dropbox Dash
Descubra como a IA generativa pode otimizar a relevância de resultados, reduzir custos e aumentar a confiabilidade operacional.

Otimizando a Relevância com IA Generativa: Aprendizados do Dropbox Dash
5 de abril de 2026
Em um cenário onde a busca por informações precisas e relevantes é crucial, empresas como o Dropbox têm investido em Inteligência Artificial (IA) para aprimorar a experiência do usuário. O Dash, plataforma que centraliza arquivos, mensagens e conhecimento da equipe, depende de um componente fundamental: um sistema de avaliação de relevância que identifica os resultados mais adequados para cada consulta. A otimização desse sistema é um desafio constante, especialmente com a evolução dos modelos de linguagem e a necessidade de equilibrar precisão, custo e confiabilidade.
A Complexidade da Avaliação de Relevância
A avaliação de relevância, à primeira vista, parece simples. Um modelo de IA recebe uma consulta e um documento, e atribui uma pontuação indicando o quão bem o documento responde à necessidade do usuário. No entanto, a implementação em produção é bem mais complexa. Modelos de ponta podem ser caros e lentos, enquanto modelos mais acessíveis podem comprometer a qualidade dos resultados. Além disso, a simples troca de modelos ou ajustes nos prompts podem levar a regressões inesperadas, afetando a confiança no sistema.
Para superar essas dificuldades, o Dropbox adotou uma abordagem sistemática de otimização, utilizando a ferramenta DSPy. DSPy permite otimizar prompts de forma iterativa, com base em métricas claras de desempenho, transformando um processo manual e incerto em um ciclo de melhoria contínua. A chave para o sucesso reside na definição de um objetivo mensurável e na capacidade de adaptar o sistema a diferentes modelos de linguagem.
Quer otimizar seus prompts de IA de forma iterativa? Conheça a Toolzz AI e impulsione a performance dos seus modelos.
Medindo o Alinhamento com Julgamentos Humanos
O primeiro passo para otimizar o sistema de relevância foi definir o que significa "bom" desempenho. O Dropbox utilizou julgamentos humanos como referência, solicitando a anotadores que avaliassem a relevância de documentos em relação a consultas específicas, em uma escala de 1 a 5. Essas avaliações servem como base para comparar o desempenho do modelo de IA, utilizando a métrica Normalized Mean Squared Error (NMSE).
O NMSE quantifica a divergência entre as pontuações do modelo e as avaliações humanas, oferecendo uma medida objetiva de alinhamento. Quanto menor o NMSE, mais próximo o modelo está do julgamento humano. Adicionalmente, o Dropbox monitora a taxa de respostas em formato JSON válido, garantindo que o sistema seja operacionalmente confiável. Afinal, um modelo preciso, mas que gera resultados ilegíveis, é inútil em um ambiente de produção.
Adaptando o Modelo para Escala com DSPy
Inicialmente, o Dropbox utilizava um modelo proprietário de alta performance para avaliar a relevância. No entanto, o custo de executar esse modelo em larga escala era proibitivo. A alternativa era migrar para um modelo de código aberto, como o gpt-oss-120b, que oferecia um bom equilíbrio entre custo e desempenho. O problema é que o prompt otimizado para o modelo original não funcionava bem com o novo modelo.
Foi aí que o DSPy entrou em ação. A ferramenta permitiu adaptar o prompt de forma sistemática, otimizando-o para o gpt-oss-120b e minimizando a perda de qualidade. O DSPy utiliza um processo iterativo, analisando os casos em que o modelo diverge dos julgamentos humanos e gerando feedback para aprimorar o prompt. Esse feedback inclui informações sobre a direção e a magnitude da divergência, bem como as explicações fornecidas pelos anotadores humanos e pelo próprio modelo.
Ao evitar a inclusão de conteúdo específico dos exemplos de treinamento, o DSPy evitou o overfitting e garantiu que o prompt fosse generalizável a novas consultas e documentos. Os resultados foram impressionantes: o NMSE foi reduzido em 45%, e o tempo de adaptação do modelo caiu de semanas para dias.
Quer automatizar a otimização de seus prompts?
Solicitar uma demonstração da Toolzz AIAumentando a Confiabilidade Operacional
Além da precisão, a confiabilidade operacional é crucial para o sucesso de um sistema de avaliação de relevância. O Dropbox identificou que, ao utilizar modelos menores e mais acessíveis, como o gemma-3-12b, a taxa de respostas em formato JSON inválido era alta. Isso comprometia a capacidade do sistema de processar grandes volumes de dados e gerar resultados consistentes.
Novamente, o DSPy foi a solução. A ferramenta foi utilizada para otimizar o prompt de forma a garantir que o modelo gerasse respostas em formato JSON válido em 97% dos casos, sem comprometer a precisão. Isso demonstrou que o DSPy não apenas melhora o alinhamento com os julgamentos humanos, mas também fortalece a robustez do sistema.
Implicações para Empresas
A experiência do Dropbox com a otimização de seu sistema de avaliação de relevância com DSPy oferece valiosas lições para outras empresas que buscam aprimorar seus sistemas de IA. A abordagem iterativa, baseada em métricas claras e feedback contínuo, permite adaptar os modelos a diferentes contextos e garantir resultados consistentes e confiáveis.
Ao investir em ferramentas como o DSPy e adotar uma cultura de otimização contínua, as empresas podem maximizar o potencial da IA generativa, reduzir custos e oferecer experiências mais relevantes e personalizadas aos seus usuários. A escolha do modelo certo é importante, mas a otimização do prompt é fundamental para extrair o máximo de valor da IA.
Com a Toolzz, você pode implementar agentes de IA personalizados para otimizar processos internos e aprimorar a experiência do cliente. A Toolzz oferece uma plataforma completa com diversas soluções de IA, desde chatbots inteligentes até agentes de vendas e suporte. Explore também as soluções da Toolzz Voice para otimizar o atendimento por voz com agentes de IA inteligentes.
Configuração do ToolzzVoice
Veja como configurar agentes de voz e ligações telefônicas com IA no Toolzz Voice.
















