Tecnologia

A tecnologia da síntese de voz do Vocaloid é uma síntese concatenativa no domínio de frequência, ou seja, cria sons utilizando pequenas amostras gravadas e é necessária a análise de funções matemáticas relacionadas à frequência. As vozes se tornam mais realistas com o uso do vibrato, porém no Vocaloid e Vocaloid 2 não é possível falar/ler textos, fazer vozes roucas ou gritar. Isto se torna possível com Vocaloid-flex e Voceroid.

Domínio da frequência (Fonte: ENSUS)

Sistema

As partes principais do Vocaloid 2 são: software de partitura, biblioteca de vozes e motor de síntese de voz (synthesis engine em inglês). O motor recebe informação da partitura, seleciona amostras da biblioteca e junta elas para produzir uma voz sintetizada. Se um produto do Vocaloid 2 já estiver instalado, o usuário consegue adicionar a biblioteca de outro produto.

Esse sistema está disponível em japonês, coreano e inglês. Ele funciona sozinho (exportando ao WAV - Waveform Audio File Format), como uma aplicação ReWire (um protocolo de software desenvolvido para controle remoto e transferência de dados na edição digital de áudio) ou como uma Virtual Studio Technology (VST - uma interface de software que tem instrumentos virtuais e efeitos) acessível por uma estação de trabalho de áudio digital (DAW - Digital Audio Workstation).

Figura-VST — VST Vital (Fonte: Production Music Live)

Figura-DAW — DAW FL Studio (Fonte: Wood and Fire)

Software de partitura (Score Editor)

O editor de partituras é um editor no estilo piano roll para inserir notas, letras e algumas expressões. Ao inserir letras, o editor converte elas automaticamente em símbolos fonéticos utilizando o dicionário de pronúncia integrado. O usuário pode editar diretamente os símbolos fonéticos de palavras não registradas. O Score Editor oferece vários parâmetros para adicionar expressões às vozes cantadas. O usuário deve usar esses parâmetros para ajustar melhor à melodia sintetizada ao criar as vozes. Este editor é compatível com ReWire e pode ser sincronizado com a DAW. A reprodução em tempo real de músicas com letras predefinidas usando um teclado MIDI também é suportada.

Figura-Score Editor — Mobile VOCALOID Editor (Fonte: Vocaloid-site oficial)

Figura-Teclado MIDI — Teclado MIDI (Fonte: Wikipédia)

Biblioteca de cantores (Singer library)

Cada licença Vocaloid desenvolve a biblioteca de cantores, ou seja, um banco de dados feito de amostras de fragmentos vocais de pessoas reais. O banco de dados inclui todas as combinações possíveis de fonemas do idioma alvo, incluindo dífonos (uma cadeia de dois fonemas diferentes) e vogais sustentadas (sons vocais prolongados), bem como polifonias (múltiplas vozes ou melodias independentes combinadas) com mais de dois fonemas, se necessário. O sistema Vocaloid altera a altura dos fragmentos para que se ajustem à melodia. Para obter sons mais naturais, é necessário armazenar três ou quatro faixas de altura diferentes na biblioteca. O japonês requer 500 dífonos por altura, enquanto o inglês requer 2.500. O japonês possui menos dífonos porque tem menos fonemas e a maioria dos sons silábicos são sílabas abertas terminadas em vogal. Em japonês, existem três padrões de dífonos contendo uma consoante: consoante surda (cordas vocais não vibram), vogal-consoante e consoante-vogal. Por outro lado, o inglês possui muitas sílabas fechadas terminadas em consoante, além de dífonos consoante-consoante e consoante surda. Portanto, é necessário registrar mais dífonos em uma biblioteca de inglês do que em uma de japonês. Devido a essa diferença linguística, uma biblioteca de japonês não é adequada para cantar em inglês fluente.

Motor de síntese (Synthesis engine)

O motor de síntese recebe informações da partitura contidas em mensagens MIDI dedicadas, chamadas Vocaloid MIDI, enviadas pelo editor de partituras. Ele ajusta a altura e o timbre das amostras selecionadas no domínio da frequência e as combina para sintetizar vozes cantadas. Quando o Vocaloid é executado como um VSTi (instrumento musical virtual) acessível a partir da DAW, o plug-in VST incluído ignora o editor de partituras e envia essas mensagens diretamente para o motor de síntese.

Conversão de altura

Como as amostras são gravadas em alturas diferentes, a conversão de altura é necessária ao juntá-las. O motor calcula a altura desejada a partir das notas, do tempo de ataque (elementos como amplitude, frequência e tom) e dos parâmetros de vibrato e, em seguida, seleciona as amostras necessárias da biblioteca.

Ajuste de tempo

Em vozes cantadas, o início da consoante de uma sílaba é pronunciado antes do início da vogal. A posição inicial de uma nota ("note-on") deve ser a mesma do início da vogal, e não o início da sílaba. O Vocaloid mantém a partitura sintetizada na memória para ajustar o tempo das amostras, de modo que o início da vogal ocorra estritamente na posição da nota pressionada. Nenhum ajuste de tempo resultaria em um atraso.

Concatenação de amostras

Ao concatenar as amostras processadas, as descontinuidades são reduzidas espalhando a fase entre as amostras por meio de correção de fase. Isso ajuda a “misturar” as amostras de uma forma mais natural.

Manipulação de timbre

O motor suaviza o timbre em torno da junção das amostras. O timbre de uma sustentação vocal é gerado pela interpolação dos envelopes espectrais (como um som muda em determinado tempo) das amostras. Por exemplo, ao concatenar uma sequência de dífonos "s-e, e, e-t" da palavra inglesa "set", o envelope espectral de um ē sustentado em cada quadro é gerado pela interpolação de ē no final de "s-e" e ē no início de "e-t".

Vídeo sobre envelopes

Transformações

Após a conversão de altura e a manipulação de timbre, o motor realiza transformações como a Fast Fourier Transform (FFT - um algoritmo que converte um sinal de seu domínio original para uma representação no domínio da frequência) para gerar vozes sintetizadas.

Figura-FFT — Fast Fourier Transform (Fonte: DEWESoft)