A dare la Tua App di Apprendimento automatico Alimentato Text-To-Speech con AWS Polly

Se la vostra applicazione ha bisogno di un modo per convertire il testo in parlato a livello di codice per interagire con gli utenti, AWS è un servizio gestito che utilizza la macchina di apprendimento per creare realistici e credibili le voci che migliorare l’esperienza dell’utente in modo significativo.

Neurale Basato Text-to-Speech È Molto Meglio

Possiamo non sottolineare questo abbastanza, neurale text-to-speech (TTS) suoni fluidi e umano, molto simile a Siri o Alexa, e standard di TTS suoni robotici in confronto (anche se, bisogna ammetterlo, ancora abbastanza accettabile).

Ti veramente sentire che per te stesso. Ascoltare questo esempio l’utilizzo di standard di TTS.

Ora ascoltate questo esempio, utilizzando neurale TTS. Si sente la differenza? Le transizioni tra le parole sono molto più agevole di quello che può essere realizzato a livello di programmazione. Quale vuoi mettere di fronte agli utenti?

Con Polly, robotica TTS è una cosa del passato. Come la maggior parte dei servizi AWS, ti verrà addebitato in base al consumo. Il tasso di andare per neurale TTS è di $16 per milioni di caratteri di testo. Se si sta costruendo una conversazione applicazione, le risposte saranno di solito piuttosto breve, che riduce i costi.

AWS Polly, inoltre, supporta lo standard TTS, che è quattro volte più economico e anche utilizzato come una soluzione di ripiego, per alcune lingue che non hanno neurale supporto di sicurezza. È ancora abbastanza buona, anche se non proprio a livello di motore neurale.

È inoltre possibile fornire Polly personalizzati con il lessico, che consente di modificare la pronuncia di alcune parole per personalizzare la risposta che si ottiene, o correggere gli errori con il text to speech engine. È inoltre possibile utilizzare Speech Synthesis Markup Language (SSML) come input, che fornisce un controllo preciso sull’uscita.

Per iniziare, oltre al capo Polly Console. Questo servizio è molto semplice—basta dare Polly il testo che si desidera convertire, selezionare una lingua, quindi selezionare la voce che si desidera utilizzare. È possibile premere il tasto “Ascolta il Discorso” pulsante per visualizzare in anteprima i risultati:

È possibile scaricare il file in formato MP3 da qui, o salvarlo per S3. Se si sta convertendo più di 3000 caratteri, dovrete salvare il file di input per S3.

Naturalmente, l’utilizzo di un servizio come questo dalla console non è utile. Tu sei molto più probabile che desidera accedere a livello di programmazione utilizzando l’API AWS o CLI. Noi ci occuperemo del CLI qui, ma si può leggere la documentazione delle API di Polly di riferimento su come configurarlo.

Aws polly comando contiene tutti i comandi per lavorare con Polly. È possibile ottenere un elenco di tutte le voci di descrivere voci, che è probabile che si desidera passare a jq:

aws polly descrivere-voci | jq ‘.Voci

La sintetizzare-comando vocale converte il testo, dato un paio di opzioni:

aws polly sintetizzare-speech
–output in formato mp3
–voice-id Joanna
–testo “Testo da leggere’
esempio.mp3

Questo download MP3 locale. Se si desidera creare un’attività che legge e scrive da S3, utilizzare start-discorso-di sintesi-attività:

aws polly start-discorso-di sintesi-attività
–motore neurale
–regione-west-1
–end point url “https://polly.us-west-1.amazonaws.com/”
–output in formato mp3
–output-s3-secchio-nome proprio-secchio-nome
–output-s3-chiave-prefisso opzionale/prefisso/percorso/file
–voice-id Joanna
–testo file://text_file.txt

Questa legge l’input da un file di testo sul disco, e le uscite per il secchio si specificare facoltativamente in una cartella specifica.

Se stai pensando di utilizzare Polly per costruire un chatbot, si potrebbe desiderare di guardare in AWS Lex, gestito chatbot servizio che utilizza Polly per la sintesi vocale.