Agent Harness: Dentro ou Fora da Sandbox? Guia para Agentes de IA

Descubra as vantagens e desvantagens de arquiteturas 'inside' e 'outside the sandbox' para agentes de IA.

Agent Harness: Dentro ou Fora da Sandbox? Guia para Agentes de IA — imagem de capa Toolzz

Agent Harness: Dentro ou Fora da Sandbox? Guia para Agentes de IA

Lucas Moraes (CEO Toolzz AI)
Lucas Moraes (CEO Toolzz AI)
17 de abril de 2026

Com a crescente adoção de agentes de IA para automatizar tarefas complexas, a arquitetura subjacente que os impulsiona se torna crucial. Um "agent harness" é o loop que alimenta um LLM, gerenciando prompts, respostas, execuções de ferramentas e feedback contínuo. A principal questão é onde esse harness opera: dentro ou fora de uma "sandbox". Essa escolha impacta diretamente a segurança, a capacidade de resposta a falhas e o potencial do agente. Vamos explorar as nuances de cada abordagem, especialmente no contexto de ambientes multiusuário.

As Duas Arquiteturas

Harness Dentro da Sandbox

Neste modelo, o loop de execução reside no mesmo container que o código que ele manipula. As chamadas para LLMs são feitas de dentro desse container, e as execuções de ferramentas (como comandos bash ou acesso a arquivos) acontecem localmente. Habilidades, memórias e outros dados relevantes são armazenados como arquivos no sistema de arquivos do container. Essa é a abordagem comum em ambientes de desenvolvimento locais, como ao usar o Claude Code em seu laptop, ou em containers remotos. Para desenvolvedores individuais, essa configuração oferece simplicidade e rapidez na implementação.

Harness Fora da Sandbox

Em contraste, o loop de execução opera no seu backend. Quando uma ferramenta precisa ser executada, uma chamada é feita para uma sandbox através de uma API. A sandbox executa a ferramenta e retorna o resultado, sem que o loop principal jamais entre nela. Essa arquitetura oferece maior controle e segurança, especialmente em ambientes colaborativos.

Image 1: Side-by-side architecture diagram. Left: the agent loop and tools both live inside the sandbox, and the LLM call exits through the sandbox boundary. Right: both the agent loop and all the tools live on the backend alongside the credentials. Some tools reach into a separate, narrow sandbox over a tool RPC interface to run bash or touch workspace files.

Tradeoffs

Executar o harness dentro da sandbox oferece simplicidade: um único container, um único processo, um único sistema de arquivos, um único ciclo de vida. É possível reutilizar harnesses prontos com facilidade, e as habilidades e memórias funcionam sem alterações, pois assumem um sistema de arquivos local.

Por outro lado, o harness fora da sandbox desbloqueia funcionalidades que a abordagem interna não permite. Suas credenciais permanecem seguras no backend, longe da sandbox. O loop armazena chaves de API, tokens de usuário e acesso ao banco de dados, enquanto a sandbox contém apenas o ambiente necessário para a execução das tarefas. Isso elimina o risco de fuga de credenciais e simplifica o modelo de permissões.

Além disso, a sandbox pode ser suspensa quando não está em uso, economizando recursos. Uma grande parte do tempo de um agente é gasta em tarefas que não exigem uma sandbox, como raciocínio, chamadas de API, resumo ou espera por processos de CI. Com o harness externo, a sandbox é provisionada apenas quando necessário e suspensa quando o agente está inativo. Essa otimização é impossível quando o harness reside dentro da sandbox.

Sandboxes se tornam recursos gerenciáveis. Se uma sandbox falhar durante uma sessão, uma nova é provisionada automaticamente, garantindo a continuidade do processo. Em ambientes multiusuário, compartilhar habilidades e memórias se torna mais fácil. Em vez de lidar com um sistema de arquivos distribuído, é possível usar um banco de dados compartilhado para armazenar e acessar informações de forma consistente.

Está pensando em implementar Agentes de IA na sua empresa? Conheça a Toolzz e descubra como podemos te ajudar a otimizar seus processos.

No entanto, migrar para uma arquitetura externa exige superar alguns desafios. Harnesses locais prontos para uso podem não funcionar, e a execução durável se torna sua responsabilidade, pois uma sessão de agente pode durar horas e deve sobreviver a implantações. Além disso, o conceito de "sistema de arquivos" se torna abstrato, pois o harness e a sandbox residem em máquinas diferentes.

Nossa Escolha: Fora da Sandbox

Optamos pela arquitetura externa devido aos benefícios em termos de segurança, escalabilidade e gerenciamento de recursos. Para tornar essa abordagem viável, precisamos resolver três desafios principais:

Execução Durável

Um loop de agente é uma função de longa duração, que pode durar minutos ou até horas. Ele precisa sobreviver a implantações contínuas, eventos de escalabilidade e falhas de instância. Manter o loop na memória de um servidor API não é uma solução, pois ele morre na primeira nova versão.

Utilizamos o Inngest para garantir a execução durável. Cada etapa do loop é um evento, e o Inngest faz o checkpoint de cada etapa. Se o servidor reiniciar, o loop retoma de onde parou. Essa solução oferece boa experiência de desenvolvimento, sem a necessidade de gerenciar um cluster.

Ciclo de Vida da Sandbox

O loop fica inativo a maior parte do tempo, durante chamadas de LLM, entre execuções de ferramentas e durante a espera por fluxos de trabalho de CI. Queremos que a sandbox também seja suspensa quando o agente não estiver executando comandos, e retomada instantaneamente quando necessário. O problema é o tempo de inicialização a frio, que pode levar segundos, o que é inaceitável em interações em tempo real.

Implementamos essa funcionalidade com o Blaxel, que oferece retomada da sandbox em 25ms a partir do modo de espera. A sandbox é suspensa quando o agente não está executando um comando e retomada no momento em que é necessário. Essa latência é tão baixa que o agente não percebe a suspensão e retomada da sandbox.

Image 2: Timeline of one agent session. The agent track alternates between LLM thinking, short run-command segments, and a long stretch waiting for a CI workflow. The sandbox track mirrors it: active only during the run-command segments, suspended everywhere else, including the entire CI wait.

O Sistema de Arquivos

Os harnesses modernos não se limitam a comandos bash e LLMs. Eles utilizam habilidades (fragmentos de prompt que o agente lê sob demanda), memórias (anotações que o agente escreve para si mesmo ou para o usuário), subagentes, planos e listas de tarefas. Todos esses componentes assumem um sistema de arquivos local.

Isso funciona bem em um laptop, mas não em uma arquitetura onde o harness está fora da sandbox.

A sandbox é descartável e deve ser tratada como efêmera. Se ela morrer e uma nova for iniciada, qualquer dado gravado em .claude/memory/MEMORY.md se perderá. Manter uma sandbox de longa duração por sessão seria uma solução, mas isso anularia os benefícios da arquitetura externa.

Para resolver esse problema, movemos as memórias e habilidades para um banco de dados. O harness as lê do banco de dados quando o agente as solicita e as grava quando as atualiza.

Uma Interface Única, Dois Backends

Virtualizamos o acesso ao sistema de arquivos. O agente tem uma única ferramenta read, uma única ferramenta write e uma única ferramenta edit. Quando o agente as chama, o harness analisa o caminho e roteia a chamada com base no significado do caminho.

Caminhos sob o workspace são direcionados para a sandbox através de RPC. Caminhos sob os namespaces de habilidades e memórias são direcionados para o banco de dados. Uma gravação em um caminho de memória é uma transação no banco de dados, escopo para a organização. Uma leitura de um caminho de memória também vem do banco de dados, garantindo que duas sessões paralelas na mesma organização vejam a mesma memória instantaneamente.

O agente não percebe a diferença. Para ele, existe um sistema de arquivos, e ele lê e grava arquivos. Alguns desses arquivos residem no Postgres, outros em uma sandbox executada em outro local.

Image 3: A single read/write/edit tool API at the top flows into a path-dispatch router. Paths under /workspace/* route to the sandbox over RPC. Paths under /skills/* and /memory/* route to a Postgres database over SQL. One tool surface, two backends, invisible to the agent.

O Que Ainda é Desafiador

O estado da arte evolui rapidamente. A cada poucas semanas, um novo padrão (subagentes, planos, tarefas em segundo plano) surge no Claude Code ou em plataformas similares, e quase sempre assume um sistema de arquivos local. Estamos constantemente nos adaptando a essas mudanças, mas sempre há um atraso entre o lançamento de uma nova funcionalidade e a sua implementação em nossa camada de virtualização.

Nossa escolha de prefixos de caminho (/skills/, /memory/) pode nos trazer problemas no futuro, pois o layout do Claude Code ainda está em evolução. A alternativa seria expor uma interface diferente, mas nosso objetivo é manter a compatibilidade com a API treinada.

O uso de bash representa um risco. O harness pode interceptar read('/skills/foo.md') porque é uma chamada de ferramenta estruturada, mas o agente também tem uma ferramenta bash, que pode ser usada para executar comandos como grep -r 'foo' /skills/, contornando a camada de virtualização. Mitigamos isso com avisos no prompt e análise de sintaxe bash, mas não é uma solução totalmente segura.

A consistência é o aspecto que ainda não foi totalmente resolvido. Quando duas sessões na mesma organização estão atualizando a memória simultaneamente, o que elas devem ver? A serialização estrita é tentadora, mas pode levar a bloqueios e deadlocks. Atualmente, estamos usando o modelo "último a escrever vence", que funciona bem nos casos que encontramos, mas pode falhar de maneiras previsíveis.

Quer ver na prática?

Solicite uma demonstração

Estamos construindo a Toolzz (líder em Agentes de IA e Educação Corporativa). Nossa experiência em CI/CD nos levou a criar uma plataforma que suporta agentes de IA robustos e escaláveis. Se você busca otimizar seus processos com agentes de IA personalizados, a Toolzz AI oferece a solução ideal. Explore nossos Agentes AI de Suporte para revolucionar seu atendimento ao cliente ou utilize nossos Agentes AI de Vendas para impulsionar suas vendas.

Demonstração LXP

Experimente uma demonstração interativa da nossa plataforma LXP e descubra como podemos transformar o aprendizado na sua organização.

Saiba mais sobre este tema

Resumo do artigo

Este artigo mergulha no universo dos 'agent harnesses', os loops que impulsionam os agentes de IA, e explora a crucial distinção entre operá-los 'dentro' ou 'fora' de uma sandbox. Analisaremos as implicações de cada abordagem para a segurança, a capacidade de resposta e a flexibilidade dos seus agentes. Descubra como a escolha arquitetural impacta diretamente a eficácia e o risco associado à automatização de tarefas complexas com IA.

Benefícios

Ao ler este artigo, você irá: 1) Compreender as vantagens e desvantagens de cada arquitetura (sandbox vs. não-sandbox) para agentes de IA. 2) Avaliar os riscos de segurança e as limitações de cada abordagem. 3) Aprender a projetar um 'agent harness' otimizado para suas necessidades específicas. 4) Descobrir como equilibrar segurança e flexibilidade no desenvolvimento de agentes de IA. 5) Tomar decisões informadas sobre a arquitetura ideal para seus projetos de IA.

Como funciona

O artigo detalha como um 'agent harness' orquestra a interação entre um LLM, prompts, respostas e a execução de ferramentas externas. Exploramos as implicações de executar esse loop dentro de uma sandbox, oferecendo um ambiente controlado e seguro, versus executá-lo fora, permitindo maior flexibilidade e acesso a recursos externos. Analisamos casos de uso específicos e as considerações de segurança associadas a cada abordagem, guiando você na escolha da arquitetura ideal.

Perguntas Frequentes

O que é um 'agent harness' e qual sua função em agentes de IA?

Um 'agent harness' é o loop fundamental que alimenta um agente de IA, orquestrando o fluxo de prompts, respostas, execuções de ferramentas e feedback contínuo. Ele garante que o LLM possa interagir com o mundo externo e executar tarefas complexas de forma autônoma.

Qual a diferença entre executar um agente de IA dentro e fora de uma sandbox?

Executar um agente dentro de uma sandbox significa que suas ações são limitadas a um ambiente controlado, minimizando riscos de segurança. Fora da sandbox, o agente tem maior liberdade, mas também maior potencial para causar danos se mal configurado.

Quais são os principais riscos de segurança ao executar um agente de IA fora de uma sandbox?

Os riscos incluem acesso não autorizado a dados sensíveis, execução de código malicioso, e potencial para causar danos a sistemas externos. É crucial implementar medidas de segurança robustas, como controle de acesso e monitoramento constante.

Como a escolha da arquitetura (sandbox vs. não-sandbox) impacta a capacidade de resposta de um agente de IA?

Uma sandbox pode limitar a capacidade de resposta do agente ao restringir seu acesso a recursos externos, enquanto uma arquitetura fora da sandbox oferece maior flexibilidade para interagir com o mundo real, mas exige maior atenção à segurança.

Quais são os casos de uso mais adequados para agentes de IA executados dentro de uma sandbox?

Casos de uso que envolvem dados sensíveis ou tarefas críticas, como análise de crédito ou detecção de fraudes, são ideais para execução dentro de uma sandbox, garantindo a segurança e a conformidade com regulamentações.

Quais são os casos de uso mais adequados para agentes de IA executados fora de uma sandbox?

Tarefas que exigem alta flexibilidade e acesso a recursos externos, como automação de marketing, pesquisa de informações em tempo real e otimização de campanhas publicitárias, podem se beneficiar de uma arquitetura fora da sandbox.

Como implementar um 'agent harness' seguro e eficiente?

A implementação envolve a definição de um ambiente controlado, a implementação de controle de acesso rigoroso, o monitoramento constante das atividades do agente, e a atualização regular das medidas de segurança para mitigar riscos potenciais.

Qual o impacto da latência na performance de um 'agent harness'?

Alta latência pode degradar significativamente a performance, tornando o agente mais lento e menos responsivo. É crucial otimizar a infraestrutura e o código para minimizar a latência e garantir uma experiência de usuário fluida.

Como monitorar e auditar as ações de um agente de IA?

Implemente logs detalhados de todas as ações do agente, configure alertas para atividades suspeitas, e realize auditorias regulares para identificar e corrigir vulnerabilidades. Utilize ferramentas de monitoramento de segurança para detectar anomalias e responder a incidentes em tempo real.

Como a arquitetura de 'agent harness' se relaciona com a governança de IA?

A arquitetura é fundamental para a governança, pois define os limites e as capacidades do agente, impactando diretamente sua conformidade com regulamentações e políticas internas. Uma arquitetura bem projetada facilita a auditoria e o controle, garantindo o uso ético e responsável da IA.

Mais de 3.000 empresas em todo mundo utilizam nosso SaaS

Bradesco logo
Itaú logo
BTG Pactual logo
Unimed logo
Mercado Bitcoin logo
SEBRAE logo
B3 logo
iFood logo
Americanas logo
Cogna logo
SENAI logo
UNESCO logo
Anhanguera logo
FDC logo
Unopar logo
Faveni logo
Ser Educacional logo
USP logo

Produtos e Plataformas

Ecossistema de soluções SaaS e Superapp Whitelabel

Plataforma de Educação Corporativa

Área de Membros e LMS whitelabel estilo Netflix

Teste 15 dias

Plataforma de Agentes de IA

Crie sua IA no WhatsApp e treine com seu conteúdo

Teste 15 dias

Crie chatbots em minutos

Plataforma de chatbots no-code

Teste 15 dias

Agentes de IA que fazem ligação

Plataforma de Agentes de Voz no-code

Teste 15 dias

Central de Atendimento com IA

Plataforma de suporte omnichannel

Teste 15 dias

Conheça o Toolzz Vibe

Plataforma de Vibecoding. Crie Automações e Apps com IA em minutos sem programar.

Criar conta FREE

Loja de Agentes de IA

Escolha entre nossos agentes especializados ou crie o seu próprio

Crie sua IA personalizada