Transcrição de audiências judiciais: a IA já entende quem fala — mas ainda não sabe que é o juiz
O VozParaTexto já identifica automaticamente quem está falando em audiências. O que ainda não existe é a estrutura de papéis automática (juiz, advogado, réu). Explicamos o que já funciona e o que vem a seguir.
VozParaTexto
Por que advogados e serventuários usam o VozParaTexto para audiências
Audiências judiciais são, por natureza, conversas entre muitas vozes: o juiz conduz, as partes falam, testemunhas depõem, peritos explicam. Cada fala tem peso jurídico próprio — e registrar tudo isso com fidelidade é parte do trabalho.
O VozParaTexto já é usado por escritórios de advocacia, serventuários da Justiça e assessores jurídicos exatamente para isso: transformar a gravação de uma audiência em texto revisável, pesquisável e citável.
Neste artigo explicamos como a tecnologia funciona, o que ela faz muito bem — e o que ainda estamos construindo.
O que a IA já faz: identifica quem está falando — pelo nome
Quando uma audiência começa, as pessoas se apresentam. O juiz abre a sessão, os advogados se identificam, as testemunhas qualificam. O VozParaTexto aproveita exatamente isso.
Ao transcrever um arquivo com múltiplas vozes, o sistema usa o motor AssemblyAI com diarização automática de falantes — que separa as vozes por características acústicas — e combina isso com o conteúdo da própria fala. Como as pessoas se apresentam no início da audiência, a IA consegue associar a voz ao nome:
Juiz Rodrigues: Declaro aberta a audiência. Identifico as partes presentes. Dr. Marcos Silva, pela parte autora.
Dr. Marcos Silva: Presente, Excelência.
Juiz Rodrigues: E Dra. Ana Ferreira, pela parte ré.
Dra. Ana Ferreira: Presente.
Juiz Rodrigues: A testemunha João Pereira pode se aproximar para qualificação.
A IA não inventa falas, não mistura vozes e mantém a ordem cronológica com timestamps por trecho. O ganho prático é imediato: o texto já sai com os nomes corretos, pronto para revisão.
O que ainda não temos: estrutura automática de audiência
A transcrição funciona muito bem. O que ainda não existe é a etapa seguinte: montar automaticamente a ata estruturada no formato que o Judiciário e os escritórios esperam.
Uma ata de audiência tem convenções específicas — cabeçalho com número do processo, qualificação formal das partes, separação entre instrução e debates, encerramento com despacho. Transformar a transcrição bruta nesse documento formatado ainda exige trabalho manual.
Isso é exatamente o que estamos construindo. Está no nosso roadmap.
Como a transcrição já ajuda na prática
Mesmo sem a formatação automática da ata, a transcrição economiza horas de trabalho. Veja por que:
| Tarefa | Sem transcrição | Com transcrição (hoje) |
|---|---|---|
| Localizar fala de uma pessoa | Ouvir tudo de novo | Ctrl+F no texto |
| Copiar trecho para peça processual | Reouvir + digitar | Copiar e colar |
| Compartilhar com equipe | Enviar o áudio | Enviar o texto indexado |
| Confirmar o que uma testemunha disse | Ouvir o trecho novamente | Buscar pelo nome |
| Revisar com outro advogado do escritório | Sincronizar horários para ouvir juntos | Comentar o documento |
O ganho real é transformar um arquivo de áudio em um documento pesquisável — algo que qualquer sistema de gestão processual ou editor de texto consegue usar diretamente.
Quais formatos de gravação funcionam?
O VozParaTexto aceita praticamente qualquer formato de áudio ou vídeo usado em audiências:
- MP3, WAV, M4A, OGG, FLAC — gravações de celular, gravadores digitais
- MP4, MOV, AVI, MKV — gravações de videoconferências (Zoom, Teams, Google Meet)
- WEBM — exportações diretas de plataformas de videoconferência judicial
O sistema converte automaticamente via FFmpeg antes de processar. Você não precisa fazer nada além de enviar o arquivo.
Quanto tempo leva?
O AssemblyAI processa de forma assíncrona: você envia o arquivo e, quando a transcrição fica pronta, recebe um e-mail de notificação.
Para referência:
- 30 minutos de audiência → resultado em cerca de 3 a 5 minutos
- 2 horas de audiência → resultado em torno de 10 a 15 minutos
- Arquivos grandes (acima de 1h) → processados automaticamente em partes e remontados
Não é necessário ficar com a aba aberta. O sistema avisa quando termina.
E a privacidade dos dados?
Audiências judiciais podem conter informações altamente sensíveis. Por isso:
- Os arquivos são armazenados em Cloudflare R2 com acesso por URL assinada (time-limited), sem exposição pública
- O arquivo original pode ser excluído manualmente a qualquer momento pelo usuário
- Os dados trafegam por HTTPS e não são compartilhados com terceiros
- A IA processa o áudio via AssemblyAI — consulte a política de privacidade da AssemblyAI para detalhes sobre retenção de dados na camada de inferência
Recomendamos verificar com sua OAB ou setor jurídico se o uso de serviços de nuvem externos é compatível com os requisitos de sigilo do caso específico.
O que vem a seguir: geração automática da ata
A próxima etapa é transformar a transcrição em um documento estruturado no formato de ata judicial — com cabeçalho, qualificação das partes, blocos separados por fase da audiência (instrução, debates, despacho) e assinatura eletrônica.
A IA já sabe quem falou. O próximo passo é saber o que fazer com isso.
Quando essa funcionalidade estiver disponível, avisaremos todos os usuários cadastrados primeiro.
Como começar agora
- Crie uma conta gratuita — você ganha 30 minutos por mês, sem cartão
- Envie o arquivo de áudio da sua audiência
- Aguarde o e-mail com a transcrição completa
- Revise e use o texto diretamente na sua peça ou sistema processual
Para volume maior — escritórios que transcrevem audiências diariamente — os planos pagos oferecem de 3h a 20h por mês, com renovação automática.