As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Controlar o volume, a velocidade e o tom da fala
<prosody>
Os atributos das tags de prosódia são totalmente compatíveis com as vozes TTS padrão. As vozes generativas, neurais e de formato longo oferecem suporte aos rate atributos volume e, mas não oferecem suporte ao pitch atributo. Para vozes generativas, a tag de prosódia só pode ser usada em frases completas.
Para controlar o volume, a velocidade ou o tom da voz selecionada, use a tag prosody.
O volume, a taxa e o tom da fala dependem da voz selecionada. Além das diferenças entre vozes em idiomas diferentes, há diferenças entre vozes individuais falando o mesmo idioma. Por isso, embora os atributos sejam semelhantes em todos os idiomas, há variações nítidas entre idiomas e nenhum valor absoluto estará disponível.
A tag prosody tem três atributos, e cada um deles têm vários valores disponíveis para definir o atributo. Todos os atributos usam a mesma sintaxe:
<prosody attribute="value"></prosody>-
volume-
default: redefine o volume como o nível padrão da voz atual. -
silent,x-soft,soft,medium,loud,x-loud: define o volume como um valor predefinido para a voz atual. -
+ndB,-ndB: altera o volume com relação ao nível atual. Um valor de+0dBsignifica nenhuma alteração,+6dBsignifica aproximadamente o dobro do volume atual e-6dBsignifica aproximadamente metade do volume atual.
Por exemplo, você pode definir o volume para um trecho das seguintes maneiras:
<speak> Sometimes it can be useful to <prosody volume="loud">increase the volume for a specific speech.</prosody> </speak>Ou você pode definir assim:
<speak> And sometimes a lower volume <prosody volume="-6dB">is a more effective way of interacting with your audience.</prosody> </speak> -
-
rate-
x-slow,slow,medium,fastex-fastespecificam o tom para um valor predefinido da voz selecionada. -
n%: uma alteração de porcentagem não negativa na taxa da fala. Por exemplo, um valor de 100% significa nenhuma alteração na taxa da fala, 200% significa que a taxa é o dobro da taxa padrão e 50% que taxa é metade da taxa padrão. Esse valor varia de 20 a 200%.
Por exemplo, você pode definir a taxa da fala para um trecho das seguintes maneiras:
<speak> For dramatic purposes, you might wish to <prosody rate="slow">slow up the speaking rate of your text.</prosody> </speak>Ou você pode definir assim:
<speak> Although in some cases, it might help your audience to <prosody rate="85%">slow the speaking rate slightly to aid in comprehension.</prosody> </speak> -
-
pitch-
default: redefine o tom como o nível padrão da voz atual. -
x-low,low,medium,high,x-high: Define o tom do valor predefinido para a voz atual. -
+n%ou-n%: Ajusta o tom por uma porcentagem relativa. Por exemplo, um valor de+0%significa nenhuma alteração no tom da linha de base,+5%fornece um tom de linha de base um pouco maior e-5%resulta em um tom de linha de base um pouco menor.
Por exemplo, você pode definir o tom para um trecho das seguintes maneiras:
<speak> Do you like sythesized speech <prosody pitch="high">with a pitch that is higher than normal?</prosody> </speak>Ou você pode definir assim:
<speak> Or do you prefer your speech <prosody pitch="-10%">with a somewhat lower pitch?</prosody> </speak> -
A tag <prosody> deve conter pelo menos um atributo, mas pode incluir mais atributos na mesma tag.
<speak> Each morning when I wake up, <prosody volume="loud" rate="x-slow">I speak quite slowly and deliberately until I have my coffee.</prosody> </speak>
Ela também pode ser combinada com tags aninhadas da seguinte forma:
<speak> <prosody rate="85%">Sometimes combining attributes <prosody pitch="-10%">can change the impression your audience has of a voice</prosody> as well.</prosody> </speak>