Os dados de voz são a matéria-prima dos sistemas de inteligência artificial que processam, reconhecem e sintetizam a fala humana. A qualidade de um modelo de reconhecimento automático de fala, de um sistema de text to speech ou de um assistente virtual com capacidade de resposta vocal depende diretamente da qualidade, diversidade e rigor de anotação dos dados com que foi treinado. Sem bons dados, não há bom modelo.
Na Voices & Media Solutions fornecemos dados de voz para empresas de tecnologia, startups de inteligência artificial e equipas de investigação que desenvolvem ou melhoram sistemas de processamento vocal. A nossa posição única no mercado da língua portuguesa, com cobertura de Portugal, Brasil, Angola, Cabo Verde e Moçambique, torna-nos um parceiro difícil de substituir para quem precisa de dados representativos das variantes do português. Contamos também com vozes nativas em mais de 70 idiomas.
Dados de voz são conjuntos de gravações de fala humana organizados, transcritos e anotados para utilização no treino de modelos de inteligência artificial. Não se trata de gravações avulsas ou de captações de baixa qualidade. Um dataset de voz utilizável para treino de IA precisa de reunir um conjunto de critérios técnicos e linguísticos rigorosos: qualidade de áudio controlada, diversidade de vozes, cobertura de contextos e estilos de fala, transcrições precisas e anotações que permitam ao modelo aprender os padrões relevantes.
Estes dados alimentam três grandes categorias de sistemas: o reconhecimento automático de fala, que converte voz em texto; a síntese de voz, que converte texto em fala; e os modelos de compreensão de linguagem falada, que interpretam o significado do que é dito. Cada uma destas aplicações tem requisitos específicos em termos do tipo de dados necessários.
O nosso serviço foca-se na recolha de dados de voz por encomenda. Quando o cliente precisa de dados com caraterísticas específicas, organizamos todo o processo: definição do perfil dos locutores necessários, criação dos guiões de leitura ou dos cenários de fala espontânea, sessões de gravação em condições controladas e transcrição e anotação do material produzido.
A recolha por encomenda é a solução certa quando o projeto exige um perfil demográfico preciso, um sotaque específico, um domínio temático particular ou um volume de dados que não esteja disponível noutras fontes. É um processo mais demorado do que aceder a datasets pré-existentes, mas garante dados totalmente alinhados com os requisitos do modelo a treinar.
O português é a quinta língua mais falada no mundo, com mais de 260 milhões de falantes nativos distribuídos por três continentes. No entanto, no contexto dos dados de voz para IA, continua a ser uma língua sub-representada, especialmente nas suas variantes africanas. A maioria dos datasets disponíveis cobre o português europeu ou o português do Brasil de forma razoável. Dados representativos do português de Angola, Cabo Verde ou Moçambique são escassos.
A Voices & Media Solutions tem capacidade de fornecer dados de voz em todas as principais variantes do português: europeu, brasileiro, angolano, cabo-verdiano e moçambicano. Esta cobertura resulta de anos de trabalho com locutores nativos de cada região e de uma rede de profissionais de voz espalhados pelos países de língua portuguesa. Para empresas que desenvolvem sistemas de reconhecimento ou síntese de voz em português, esta cobertura é um recurso crítico.
A qualidade de um dataset de voz não se mede apenas pelo número de horas de gravação. Os critérios que determinam a utilidade real dos dados para treino de modelos de IA incluem:
Os dados de voz que fornecemos são utilizados em projetos de natureza muito diversa:
Cada projeto de dados de voz começa por uma conversa técnica. Precisamos de entender o modelo que o cliente pretende treinar, os idiomas e variantes necessários, o volume de dados requerido, o nível de anotação pretendido e o prazo disponível. Com essa informação, apresentamos uma proposta com as opções mais adequadas.
Cada projeto tem requisitos diferentes. Alguns precisam de volume. Outros precisam de especificidade linguística. Outros ainda precisam das duas coisas. A nossa equipa técnica está disponível para analisar o que precisa e recomendar a abordagem mais eficiente, seja recolha por encomenda, acesso a datasets existentes ou uma combinação das duas.
Clientes