Nos últimos meses, casos de uso inadequado de IA em rotinas jurídicas reacenderam o debate sobre confiabilidade, integridade documental e supervisão humana. Nesse contexto, um estudo da Microsoft Research traz um alerta importante: ao delegar tarefas documentais a modelos de linguagem, a IA pode degradar silenciosamente o conteúdo com o passar das interações.
O estudo intitulado “LLMs Corrupt Your Documents When You Delegate”, de autoria de Philippe Laban, Tobias Schnabel e Jennifer Neville, demonstra que, quando a IA deixa de ser apenas assistente e passa a operar diretamente sobre documentos, o risco não está só em respostas erradas, mas em uma degradação gradual do próprio material de trabalho.
Para fundamentar essa tese, os pesquisadores criaram o benchmark DELEGATE-52, que simula tarefas delegadas em 52 profissões distintas. A metodologia utilizou o conceito de tarefas reversíveis (round-trip relay), verificando o que ocorre quando a IA recebe um documento inicial, executa tarefas sucessivas e precisa continuar trabalhando sobre o que ela mesma já alterou.
Em termos práticos, isso significa que a IA pode ir inserindo pequenos desvios, omitindo dados relevantes ou reorganizando informações de forma sutil. O problema não é necessariamente um erro grosseiro e imediatamente visível. Muitas vezes, a degradação é silenciosa, acumulativa e difícil de perceber em tempo útil.
Para o Direito, isso é especialmente relevante porque o trabalho jurídico depende de três pilares que a IA não garante sozinha: precisão, rastreabilidade e integridade documental. Em uma petição, um contrato ou um parecer, uma alteração aparentemente pequena pode alterar o sentido de uma cláusula, enfraquecer uma tese ou comprometer a consistência do argumento.
No experimento, os autores não se limitaram a avaliar se a IA ‘acertava’ ou ‘errava’. O foco foi mais sofisticado, porque se propôs a medir o que acontece quando o modelo precisa trabalhar sucessivamente sobre um documento já modificado por ele mesmo. A conclusão foi que a degradação é progressiva, silenciosa e, por isso mesmo, perigosa.
Os resultados do experimento são alarmantes para qualquer operador do Direito que preze pela exatidão. Mesmo modelos de ponta, como o Gemini 3.1 Pro, Claude 4.6 Opus e GPT 5.4, apresentaram um corrompimento aproximado de 25% do conteúdo após apenas 20 interações. Em modelos fora da faixa de ponta, a degradação média saltou para 50%, evidenciando que a tecnologia ainda carece de estabilidade para fluxos de trabalho longos.
O estudo aponta que a corrupção severa ocorreu em 80% das condições simuladas, sendo agravada por documentos maiores, cadeias de interação extensas e a presença de arquivos distratores. Curiosamente, a única exceção relevante de estabilidade foi encontrada em tarefas envolvendo a linguagem Python, o que sugere que a estrutura lógica rígida do código oferece uma resistência que a linguagem natural, base do Direito, não possui.
No experimento principal, os modelos foram avaliados sem ferramentas, isto é, deveriam devolver diretamente os arquivos modificados. Já para testar se o uso de ferramentas poderia reduzir a degradação, os autores criaram um arcabouço agentic básico, com leitura de arquivos, escrita e execução de código. A hipótese era intuitiva, em vez de reescrever documentos inteiros, a IA poderia fazer alterações mais cirúrgicas, por busca e substituição ou por execução programática. Mas os resultados foram os opostos do que se esperava. Os quatro modelos testados performaram pior quando operados com ferramentas do que sem ferramentas, acumulando, ao fim da simulação, uma degradação adicional média de 6%. Mesmo o melhor desempenho, do GPT 5.4, reduziu a diferença para apenas 3%, o que, na prática, ainda significa piora relevante.
Esse resultado ajuda a entender um ponto central do estudo; de que ferramentas, sozinhas, não resolvem o problema da confiabilidade documental. Os autores observam que o uso agentic impõe sobrecarga, porque os modelos precisam acionar de 8 a 12 ferramentas, consumindo de 2 a 5 vezes mais tokens de entrada do que na alternativa sem ferramentas. Além disso, o DELEGATE-52 não foi desenhado para tarefas triviais que pudessem ser resolvidas por um simples programa, como ordenar uma planilha (ele exige compreensão textual e raciocínio sobre documentos, o que limita a eficácia da automação).
Em síntese, sob esse arcabouço básico, os modelos testados não se beneficiaram do uso de ferramentas para editar com precisão tarefas complexas em domínios textuais diversos. E isso é relevante para o operador do Direito já que a manipulação exata do texto é justamente o ponto crítico.
No experimento com variação do tamanho dos documentos, os resultados mostram um efeito cumulativo claro. Quanto maior o documento, maior a degradação. No caso do GPT 5.4, a queda foi gradual quando o material passou de 1 mil para 10 mil tokens, chegando a 59,9% ao final da simulação. Cada acréscimo de 1.000 tokens piorou a capacidade do modelo de preservar o conteúdo em cerca de 0,7% após duas interações, mas em 3,6% após 20 interações. Ou seja, o impacto do tamanho não é linear, ele se amplifica à medida que a interação se prolonga.
Um outro ponto relevante do estudo é o efeito dos documentos distratores. Os autores simularam um ambiente realista em que o sistema recebe não apenas o documento que deve editar, mas também outros arquivos que nem sempre são necessários para a tarefa. Quando esses distratores são removidos, o desempenho melhora em todas as rodadas e em todos os modelos testados. No início da simulação, o ganho é pequeno — algo entre 0,4% e 4% —, mas ele aumenta com o tempo e chega a 2% a 8% ao final. Isso significa que o prejuízo causado por informação irrelevante se acumula ao longo das interações, de modo que testes curtos tendem a subestimar esse impacto em fluxos longos e realistas.
Outro achado central do artigo é que a degradação nem sempre acontece como uma soma de pequenos erros. Ao analisar as interações individuais, os autores mostram que os modelos não falham por uma lenta “morte por mil cortes”, mas por falhas críticas esparsas. Em várias rodadas, a reconstrução fica quase perfeita; em outras, ocorre uma queda brusca, frequentemente de 10 a 30 pontos em uma única ida e volta. Essas falhas críticas respondem por cerca de 80% da degradação total observada. Em modelos mais fortes, o padrão não é eliminar completamente os erros menores, mas apenas adiar o momento em que a falha crítica aparece.
Por fim, o estudo ainda decompõe a degradação entre deleção e corrupção do conteúdo. Nos modelos mais fracos de IA, o problema decorre principalmente de apagar elementos. Já nos modelos de ponta, a perda ocorre mais por alteração indevida do que já estava presente.
Em síntese, o estudo mostra que a confiabilidade da IA em fluxos documentais longos ainda está distante do necessário para uso profissional seguro. A própria pesquisa reconhece limitações relevantes.
É importante destacar que as simulações foram feitas em interações de turno único, com instruções totalmente especificadas, enquanto na prática os usuários costumam refinar pedidos em conversas múltiplas e progressivas, cenário em que a degradação tende a ser ainda maior. Além disso, os parâmetros testados, como tamanho dos documentos, contexto distrator e duração dos fluxos, já foram definidos em patamar conservador, abaixo da escala real de muitos usos jurídicos.
A conclusão dos autores é a seguinte: os modelos atuais não são confiáveis. Mesmo os sistemas de ponta corrompem, em média, cerca de 25% do conteúdo ao longo de fluxos extensos, com erros esparsos, mas severos, que se acumulam silenciosamente. A degradação piora com o aumento do tamanho do documento, da extensão da interação e da presença de contexto irrelevante, e não é resolvida pelo uso de ferramentas agentic.
Para o Direito, a mensagem é direta: a IA pode acelerar tarefas, mas ainda não substitui a supervisão humana rigorosa quando a integridade do documento é o que está em jogo.
Sayoa
nara Georgia Mihalache, advogada pleno no escritório Perman Advogados Associados, onde atua no contencioso cível estratégico, com foco em processos de alta complexidade. Possui sólida formação acadêmica, com pós-graduações em Direito Empresarial, Direito Público, Direito Constitucional e Direito Processual Civil, além de experiência consolidada em litígios de grande repercussão e relevância institucional.
REFERÊNCIA
Laban, Philippe; Schnabel, Tobias; Neville, Jennifer. LLMs Corrupt Your Documents When You Delegate. Microsoft Research, arXiv:2604.15597v1, 17 abr. 2026.
