A IA não entende nada. Ela só pareceu entender o seu caso.

Existe um momento que quase todo advogado que usa IA já viveu. Você cola o texto de uma petição, faz uma pergunta sobre o caso, e a resposta vem tão afinada, tão contextualizada, tão parecida com o que um colega experiente diria, que você baixa a guarda. A sensação é clara: essa ferramenta entendeu.

Um paper publicado em maio de 2026 no arXiv por Adrian de Wynter foi atrás exatamente dessa sensação. E o que ele encontrou deveria estar na parede de todo escritório que usa IA.

O título do paper é propositalmente desconcertante: “If LLMs Have Human-Like Attributes, Then So Does Age of Empires II”. Em tradução direta: se os grandes modelos de linguagem têm atributos humanos, então o videogame Age of Empires II também tem. De Wynter não está fazendo piada. Ele provou isso matematicamente.

O que o pesquisador descobriu

O experimento é simples na descrição, mas pesado nas implicações. De Wynter pegou os mesmos critérios metodológicos que pesquisadores usam para afirmar que LLMs “compreendem linguagem”, “demonstram raciocínio moral” ou “exibem comportamento emergente”, e aplicou esses critérios a uma rede neural treinada dentro do Age of Empires II.

O resultado? Pelo mesmo método, o jogo também “tem” compreensão de linguagem e comportamento moral.

O pesquisador vai além e mostra que qualquer sistema suficientemente complexo satisfaz esses critérios, incluindo peças de LEGO e, sem ironia, a região metropolitana de Boston.

A conclusão é direta: quando um atributo que você mediu aparece em qualquer coisa suficientemente complexa, você não mediu uma propriedade do modelo. Você mediu um defeito do seu método de medição. O que os pesquisadores chamaram de “compreensão” era, na verdade, um artefato de como eles fizeram a pergunta.

Por que isso interessa ao advogado na segunda-feira de manhã

Você não precisa ser pesquisador para cair no mesmo erro. Na prática, a versão jurídica desse problema se parece com isso.

Um advogado trabalista pede ao Claude para analisar um contrato de prestação de serviços com risco de vínculo empregatício. O modelo devolve um texto bem articulado, cita os elementos fáticos relevantes, menciona a Súmula 331 do TST, aponta o risco. O advogado lê, concorda com o diagnóstico, e encaminha a análise para o cliente com pequenas edições.

O que aconteceu ali não foi compreensão. Foi produção estatisticamente coerente de texto baseada em padrões do corpus de treinamento. A diferença pode parecer filosófica, mas tem peso prático em pelo menos três situações.

Quando o contexto é novo. O modelo é bom em padrões conhecidos. Quando o seu caso tem uma combinação de elementos que não aparece com frequência nos dados de treinamento, a coerência do texto não acompanha a qualidade do raciocínio. O output vai continuar soando certo. E pode estar errado.

Quando o erro é silencioso. Diferente de um colega que pode dizer “olha, não tenho certeza sobre isso”, o modelo não sinaliza incerteza de forma confiável. Ele produz o texto mais provável dado o contexto, com o mesmo tom independente de estar ou não pisando em terreno sólido. Jurisprudência que não existe, argumentos que invertem a lógica do caso, lacunas que passam despercebidas, tudo isso pode aparecer com a mesma fluência de uma análise impecável.

Quando você revisa menos porque “ele entendeu”. Esse é o mais perigoso. A suposição de compreensão reduz o olhar crítico. E o olhar crítico é exatamente o que o cliente está pagando.

O que muda na prática

De Wynter propõe o que chama de “hipótese nula de não-unicidade”: trate o modelo como um sistema a ser avaliado por comportamento verificável, com critérios explícitos, até que evidências concretas mostrem outra coisa.

Traduzindo para a rotina do escritório, isso significa parar de avaliar uma ferramenta de IA perguntando “ela é inteligente?” e começar a perguntar: “ela produz resultados consistentes e verificáveis nessa tarefa específica, com esse tipo de documento, com esse nível de complexidade?”

São perguntas diferentes. A primeira não tem resposta útil. A segunda tem, e você consegue respondê-la com dois dias de teste estruturado.

Algumas perguntas concretas que escritórios deveriam conseguir responder sobre as ferramentas que já usam: em que tipo de tarefa o modelo erra mais? Quem revisa o output, com qual critério e em quanto tempo? Quando o modelo produz algo errado, o registro vai para onde? O erro foi identificado antes ou depois de chegar ao cliente?

A maioria dos escritórios não tem resposta para nenhuma dessas perguntas. Não porque sejam descuidados, mas porque começaram a usar a ferramenta a partir da impressão de que ela “entendia”, e nunca precisaram construir os critérios de avaliação.

O que a indústria prefere que você não discuta

Fornecedores de ferramentas de IA têm interesse direto em que você acredite que os modelos “entendem”, “raciocinam” e “decidem”. Essa linguagem vende produto. Ela também cria uma expectativa que nenhum modelo atual consegue cumprir de forma consistente em todas as situações.

De Wynter não está defendendo que você pare de usar IA. Está mostrando que o debate acontece com as perguntas erradas, com critérios que não distinguem um LLM de um jogo medieval, e que isso prejudica quem precisa tomar decisões práticas sobre implementação.

Para escritórios que já usam IA, para gestores jurídicos que precisam orientar equipes, e para advogados que estão avaliando se vale a pena adotar alguma ferramenta, esse paper oferece o argumento técnico mais sólido que circulou recentemente para justificar uma postura mais exigente.

Vale ter em mente na próxima vez que um fornecedor garantir que o modelo dele “entende” contratos ou “raciocina” sobre jurisprudência. E vale lembrar também na próxima vez que você mesmo sentir aquela impressão familiar de que a ferramenta finalmente entendeu o caso.

Ela não entendeu. Ela pareceu entender. A diferença está inteiramente na sua revisão.

Se o seu escritório já usa IA e você quer construir um protocolo de uso que funcione na prática, não só na demonstração, é esse tipo de trabalho que faço em consultorias e treinamentos.

Referência: Adrian de Wynter. “If LLMs Have Human-Like Attributes, Then So Does Age of Empires II.” arXiv:2605.31514, publicado em 29 de maio de 2026. Disponível em: https://arxiv.org/abs/2605.31514

Gustavo Rocha

Consultor em gestão, tecnologia e marketing jurídico

Especialista em Inteligência Artificial aplicada ao Direito e em Privacidade

Professor de Pós-Graduação e coordenador de grupos de estudos na ESA/RS

Membro de comissões da OAB/RS e OAB/SP

Site: http://www.gustavorocha.com | E-mail: gustavo@gustavorocha.com

WhatsApp/Telegram: (51) 98163.3333

A IA não entende nada. Ela só pareceu entender o seu caso.

O que o pesquisador descobriu

Por que isso interessa ao advogado na segunda-feira de manhã

O que muda na prática

O que a indústria prefere que você não discuta

Curtir isso:

Relacionado

Deixe uma respostaCancelar resposta

O que o pesquisador descobriu

Por que isso interessa ao advogado na segunda-feira de manhã

O que muda na prática

O que a indústria prefere que você não discuta

Compartilhe!

Curtir isso:

Relacionado

Deixe uma respostaCancelar resposta

Descubra mais sobre GustavoRocha.com