language Português
Solicitar Orçamento0

Os dados de voz são a matéria-prima dos sistemas de inteligência artificial que processam, reconhecem e sintetizam a fala humana. A qualidade de um modelo de reconhecimento automático de fala, de um sistema de text to speech ou de um assistente virtual com capacidade de resposta vocal depende diretamente da qualidade, diversidade e rigor de anotação dos dados com que foi treinado. Sem bons dados, não há bom modelo.
Na Voices & Media Solutions fornecemos dados de voz para empresas de tecnologia, startups de inteligência artificial e equipas de investigação que desenvolvem ou melhoram sistemas de processamento vocal. A nossa posição única no mercado da língua portuguesa, com cobertura de Portugal, Brasil, Angola, Cabo Verde e Moçambique, torna-nos um parceiro difícil de substituir para quem precisa de dados representativos das variantes do português. Contamos também com vozes nativas em mais de 70 idiomas.

O que são Dados de Voz e Para que Servem

Dados de voz são conjuntos de gravações de fala humana organizados, transcritos e anotados para utilização no treino de modelos de inteligência artificial. Não se trata de gravações avulsas ou de captações de baixa qualidade. Um dataset de voz utilizável para treino de IA precisa de reunir um conjunto de critérios técnicos e linguísticos rigorosos: qualidade de áudio controlada, diversidade de vozes, cobertura de contextos e estilos de fala, transcrições precisas e anotações que permitam ao modelo aprender os padrões relevantes.
Estes dados alimentam três grandes categorias de sistemas: o reconhecimento automático de fala, que converte voz em texto; a síntese de voz, que converte texto em fala; e os modelos de compreensão de linguagem falada, que interpretam o significado do que é dito. Cada uma destas aplicações tem requisitos específicos em termos do tipo de dados necessários.

O Serviço de Dados de Voz que Fornecemos

O nosso serviço foca-se na recolha de dados de voz por encomenda. Quando o cliente precisa de dados com caraterísticas específicas, organizamos todo o processo: definição do perfil dos locutores necessários, criação dos guiões de leitura ou dos cenários de fala espontânea, sessões de gravação em condições controladas e transcrição e anotação do material produzido.
A recolha por encomenda é a solução certa quando o projeto exige um perfil demográfico preciso, um sotaque específico, um domínio temático particular ou um volume de dados que não esteja disponível noutras fontes. É um processo mais demorado do que aceder a datasets pré-existentes, mas garante dados totalmente alinhados com os requisitos do modelo a treinar.

A Nossa Vantagem na Língua Portuguesa

O português é a quinta língua mais falada no mundo, com mais de 260 milhões de falantes nativos distribuídos por três continentes. No entanto, no contexto dos dados de voz para IA, continua a ser uma língua sub-representada, especialmente nas suas variantes africanas. A maioria dos datasets disponíveis cobre o português europeu ou o português do Brasil de forma razoável. Dados representativos do português de Angola, Cabo Verde ou Moçambique são escassos.
A Voices & Media Solutions tem capacidade de fornecer dados de voz em todas as principais variantes do português: europeu, brasileiro, angolano, cabo-verdiano e moçambicano. Esta cobertura resulta de anos de trabalho com locutores nativos de cada região e de uma rede de profissionais de voz espalhados pelos países de língua portuguesa. Para empresas que desenvolvem sistemas de reconhecimento ou síntese de voz em português, esta cobertura é um recurso crítico.

Critérios de Qualidade nos Dados que Fornecemos

A qualidade de um dataset de voz não se mede apenas pelo número de horas de gravação. Os critérios que determinam a utilidade real dos dados para treino de modelos de IA incluem:

  • Qualidade de áudio: gravações em ambiente acusticamente controlado, com equipamento profissional e sem ruído de fundo que comprometa a clareza do sinal.
  • Diversidade de locutores: cobertura de diferentes géneros, faixas etárias, sotaques regionais e perfis de fala para garantir a robustez do modelo.
  • Cobertura de contextos: dados que representem diferentes estilos de fala, desde leitura de texto até fala espontânea e conversacional, conforme os requisitos do modelo.
  • Transcrições rigorosas: texto alinhado com o áudio com precisão ao nível da palavra ou do fonema, consoante o nível de detalhe necessário.
  • Anotações relevantes: metadados sobre o locutor, o contexto de gravação, o estilo de fala e outras variáveis que enriquecem o valor do dataset para treino.

Aplicações dos Dados de Voz

Os dados de voz que fornecemos são utilizados em projetos de natureza muito diversa:

  • Treino de modelos de reconhecimento automático de fala para assistentes virtuais, transcrição automática e interfaces de voz.
  • Desenvolvimento de sistemas de síntese de voz e text to speech com naturalidade melhorada.
  • Investigação académica e científica em linguística computacional e processamento de linguagem natural.
  • Avaliação e benchmarking de modelos de voz existentes.
  • Melhoria de modelos já em produção com dados adicionais orientados para lacunas específicas de desempenho.

Como Trabalhamos: Do Briefing à Entrega

Cada projeto de dados de voz começa por uma conversa técnica. Precisamos de entender o modelo que o cliente pretende treinar, os idiomas e variantes necessários, o volume de dados requerido, o nível de anotação pretendido e o prazo disponível. Com essa informação, apresentamos uma proposta com as opções mais adequadas.

  1. Briefing técnico: definição dos requisitos do dataset em termos de idioma, perfil de locutores, volume, formato de entrega e nível de anotação.
  2. Proposta e validação: apresentação da solução recomendada, com estimativa de volume, prazo e custo. Para recolha por encomenda, inclui o perfil dos locutores e os guiões propostos.
  3. Produção ou curadoria: recolha de dados por encomenda ou seleção e preparação de datasets existentes, com transcrição e anotação conforme os requisitos.
  4. Controlo de qualidade: revisão do material produzido antes da entrega, com verificação de qualidade de áudio, precisão das transcrições e completude das anotações.
  5. Entrega: fornecimento dos dados nos formatos acordados, com documentação técnica do dataset e suporte para integração no pipeline de treino do cliente.

Precisa de Dados de Voz para o Seu Projeto de IA?

Cada projeto tem requisitos diferentes. Alguns precisam de volume. Outros precisam de especificidade linguística. Outros ainda precisam das duas coisas. A nossa equipa técnica está disponível para analisar o que precisa e recomendar a abordagem mais eficiente, seja recolha por encomenda, acesso a datasets existentes ou uma combinação das duas.

Clientes