Essa pergunta aparece com frequência quando começo a trabalhar com advogados e escritórios na adoção de IA. Alguém leu em algum lugar que converter documentos para Markdown melhora os resultados, e agora a dúvida está instalada: será que preciso fazer isso com tudo?
A resposta curta é não. A resposta completa é: depende do que você está fazendo, e na maioria dos casos do dia a dia jurídico, o PDF vai direto mesmo.
Mas tem situações específicas onde a conversão faz diferença real. E entender quais são elas pode te poupar de criar um processo desnecessário e de perder qualidade justamente onde importa.
O que acontece quando você manda um PDF para a IA
Quando você sobe um PDF para o Claude, o ChatGPT ou qualquer ferramenta similar, a IA não “lê” o arquivo como você leria. Ela processa o texto extraído daquele documento. O que conta, na prática, é a qualidade desse texto extraído, não o formato do arquivo em si.
PDF com texto nativo, aquele gerado diretamente por um sistema, Word, editor jurídico, exportação de tribunal, a extração costuma ser boa. A IA lê direto e a análise sai limpa.
O problema aparece em três situações concretas:
PDF de scan ou imagem. Documento digitalizado sem OCR adequado vira uma figura para a IA. Ela pode até tentar processar, mas o resultado vai ser inconsistente. Nesse caso, antes de qualquer coisa, você precisa de uma camada de OCR, não necessariamente de Markdown.
PDF com muito ruído de formatação. Cabeçalho repetido em cada página, rodapé com número de processo, qualificação das partes em blocos, metadados de layout. Tudo isso vai junto para a IA como texto. Em peças longas, isso representa 10 a 15% do conteúdo sendo tokens gastos com estrutura que não agrega para a análise.
PDF complexo com tabelas aninhadas. Planilhas exportadas, laudos com tabelas dentro de tabelas, cálculos de liquidação. A extração de tabelas em PDF é notoriamente ruim na maioria das ferramentas. Markdown estruturado ajuda aqui.
Mas e os tokens? Não fica mais caro usar PDF?
Essa é outra pergunta recorrente. A lógica parece fazer sentido: se Markdown é mais limpo, gasto menos tokens, pago menos, recebo resposta mais rápida.
Na prática, a diferença é pequena para uso pontual. O custo em tokens está no texto que a IA processa, e tanto PDF quanto Markdown chegam a volumes parecidos para um documento equivalente. A diferença real aparece quando você tem um documento muito ruidoso (o caso dos 10 a 15% de overhead que mencionei acima) ou quando você vai consultar o mesmo documento várias vezes em sessões diferentes.
Nesse segundo caso, sim: converter uma vez, salvar o Markdown limpo e reutilizar nas próximas sessões gera economia cumulativa. Mas isso pressupõe um fluxo organizado de reaproveitamento, não conversão aleatória de tudo.
O que faz sentido para o advogado no dia a dia
A rotina de uso de IA no escritório segue um padrão bem definido: pega o documento, manda para a ferramenta, faz a pergunta, fecha. Na sessão seguinte, começa tudo de novo. Não tem reaproveitamento sistemático, não tem pipeline.
Nesse padrão, adicionar uma etapa de conversão manual antes de cada consulta é puro atrito. Cria resistência no uso, adiciona tempo no processo e raramente entrega resultado melhor do que o PDF direto.
O que eu recomendo para quem está começando: manda o PDF. Se a análise voltar estranha, incompleta ou com trechos que claramente faltam, aí você investiga. Pode ser PDF de scan, pode ser formatação muito complexa, pode ser que aquele documento específico precise de tratamento diferente.
A conversão vira padrão quando você identifica um padrão de problema, não como regra preventiva geral.
Quando a conversão realmente vale
Existem três cenários concretos onde converter para Markdown faz diferença prática:
Processos volumosos consultados com frequência. Um processo trabalhista com 600 páginas que você vai analisar ao longo de semanas tem mais valor em Markdown limpo do que em PDF bruto. Você converte uma vez, organiza o documento, remove o ruído, e usa esse arquivo como base para todas as consultas seguintes.
Base de conhecimento do escritório. Se o escritório está construindo um repositório de jurisprudência, teses recorrentes, modelos e referências para alimentar uma ferramenta de IA, Markdown estruturado é o formato certo. Organizado, limpo, fácil de versionar e de integrar com sistemas de busca.
Documentos com tabelas e dados estruturados. Laudos periciais, planilhas de cálculo, demonstrativos financeiros. Quando a informação está em tabela e você precisa que a IA extraia dados específicos, vale o trabalho de converter e garantir que a estrutura chegue intacta.
E via Microsoft, dá para automatizar?
Dá, com ressalvas importantes.
O Power Automate tem conectores que extraem texto de PDF. Funciona para documentos simples. Para documentos jurídicos com formatação densa, o resultado costuma ser texto bruto com quebras de linha aleatórias, parágrafos fundidos e numeração misturada ao conteúdo. Tecnicamente converteu, na prática piorou.
Para fazer isso com qualidade no ecossistema Microsoft, o caminho passa pelo Azure AI Document Intelligence, que é o serviço de extração inteligente de documentos da Microsoft. Ele reconhece layout, tabelas, campos estruturados. A diferença de qualidade é significativa, mas a configuração já é um projeto, não um ajuste rápido.
Para o escritório pequeno ou médio sem equipe técnica, a recomendação prática é usar ferramentas de conversão específicas quando necessário: Adobe Acrobat, Smallpdf, ou extensões do próprio Word para extrair e limpar o conteúdo antes de mandar para a IA.
O que você pode fazer agora
Uma instrução simples resolve o problema de monitoramento sem criar burocracia. Nas configurações da ferramenta de IA que você usa, adicione algo assim:
“Se identificar que a qualidade do documento está comprometendo a análise, avise e sugira o que fazer antes de continuar.”
Isso garante que a IA vai te alertar quando encontrar um documento problemático, sem ficar comentando sobre tokens e formatação em toda análise que você pedir.
O restante você resolve caso a caso, conforme o problema aparecer. Que é exatamente como deve ser.
Gustavo Rocha é consultor em gestão, tecnologia e marketing jurídico. Trabalha com escritórios de advocacia na implementação prática de inteligência artificial no dia a dia jurídico.