Avaliação de Qualidade de Síntese de Voz Cross-Lingual
⚠️ Importante: Use fones de ouvido para melhor qualidade de avaliação.
Você participará de uma avaliação de sistemas de síntese de voz. Para cada amostra, você deverá avaliar três aspectos:
Qualidade Geral (MOS): O quão natural e agradável é o áudio sintetizado, considerando clareza, prosódia e ausência de artefatos. (Avalie primeiro sem ouvir a referência)
Similaridade do Falante: O quão similar é a voz sintetizada comparada com a voz de referência do mesmo falante.
Similaridade da Emoção: O quão bem a emoção foi preservada comparando o áudio de referência com o sintetizado.
O teste consiste em 32 amostras e leva aproximadamente 20-25 minutos.
Avaliação de Síntese de Voz
Amostra 1 de 32~20 min restantes
Amostra de Avaliação
-
R
Áudio de Referência (voz e emoção originais)
Use este áudio de referência para avaliar a similaridade do falante e da emoção (questões 2 e 3).
S
Áudio Sintetizado (para avaliar)
1. Qualidade Geral (MOS)
Primeiro, ouça apenas o áudio sintetizado e avalie sua qualidade geral considerando naturalidade, clareza e ausência de artefatos. O áudio de referência aparecerá após sua resposta.
1 - Péssimo3 - Razoável5 - Excelente
2. Similaridade do Falante
Compare a voz do áudio sintetizado com a voz do áudio de referência. Quão similar são as vozes?