22/05/2019

Dalla fantascienza alla realtà: Google Translatotron

Blog / Novità dal web / Dalla fantascienza alla realtà: Google Translatotron

Quando si usa Google Translate e si clicca sull’icona dell’audio, l’intelligenza artificiale legge quello che è stato scritto e tradotto. Ma quante volte abbiamo riso perché le parole sono pronunciate con degli errori o il tono di voce è piatto e meccanico? Questa ilarità aiuta a tenere separato il mondo delle macchine dalle peculiarità puramente umane. Ma se la tecnologia potesse veramente prendere queste caratteristiche e imitarle in maniera sempre più affine?

Siamo nel 2019, l’anno in cui è ambientato il futuro fantascientifico di uno dei più grandi film della storia, Blade Runner, e la nostra tecnologia sembra fare ogni giorno un passo in più verso la fabbricazione di replicanti. Toccare con mano l’evoluzione tecnologica del mondo reale è affascinante e al tempo stesso disorientante.

via GIPHY

Perché citiamo i replicanti? Perché gli androidi che “hanno visto cose che noi umani non possiamo neanche immaginare” non sono un futuro così lontano.

Dopo aver sviluppato AlphaZero (un algoritmo in grado di studiare le meccaniche di diversi giochi da tavolo, compresi gli scacchi, e di diventare imbattibile da esseri umani e altri software), Google sta lavorando su Translatotron, un sistema in grado di rendere le traduzioni il più possibile in tempo reale, catturando le parole espresse da un interlocutore e fornendo la traduzione all’altro interlocutore.
Fino a qui poco di nuovo, se pensiamo al Translate integrato all’interno di Assistant. Quale dunque la novità quasi fantascientifica di Translatotron? La capacità di imitare il tono di voce dei vicendevoli interlocutori.

Secondo gli studi di Paul Watzlawick, nella sua opera Pragmatica della comunicazione umana, vi sono 5 assiomi fondamentali:

  1. è impossibile non comunicare, anche il banale guardarsi negli occhi o il silenzio comunicano qualcosa;
  2. ogni comunicazione ha una sua metacomunicazione. Non è solo il contenuto di ciò che comunichiamo ad incidere sulla comunicazione nella sua totalità: anche tutta la parte non verbale ad esso legata incide sul senso del messaggio. Tra questi aspetti, fondamentale è il tono di voce;
  3. la punteggiatura influisce anche sul parlato e regola le variazioni dei flussi comunicativi all’interno di una comunicazione;
  4. le comunicazioni possono essere di due tipi, ovvero analogiche (ad esempio le immagini, i segni) e digitali (le parole);
  5. le comunicazioni possono essere di tipo simmetrico, in cui i soggetti che comunicano sono sullo stesso piano (due amici), o di tipo complementare, in cui i soggetti che comunicano non sono sullo stesso piano (una madre con il proprio figlio).

Quando Translatotron riuscirà a replicare il tono di voce di un essere umano e contemporaneamente a tradurre il parlato in un’altra lingua, allora una macchina sarà riuscita a mettere in pratica i primi 3 assiomi della comunicazione individuati da Watzlawick. E noi ci troveremo di fronte al primo prototipo grezzo di replicante.
Rick Deckard, preparati!

via GIPHY

Veniamo a Translatotron in maniera più specifica. Ad oggi la tecnologia di traduzione dal vivo funziona mettendo in sequenza tre processi distinti che, agendo a cascata, possono convertire la comunicazione orale da una lingua ad un’altra in relativamente poco tempo:

  • la macchina interpreta il discorso che registra trasformandolo in testo (da un microfono oppure direttamente da un testo scritto);
  • il testo viene quindi tradotto nella lingua di destinazione;
  • il testo tradotto viene poi inserito in un sistema di sintesi vocale che lo pronuncia ad alta voce (senza intonazione e con quella cadenza meccanica di cui parlavamo poc’anzi).

L’obiettivo di Translatotron è quello di eliminare l’intermediazione testuale realizzando un sistema speech-to-speech. Per farlo, Google – attraverso l’uso delle reti neurali – si baserà su una rete sequence-to-sequence (da sequenza a sequenza) che userà come input lo spettrogramma (ossia la rappresentazione grafica dell’intensità di un suono in funzione del tempo e della frequenza) della voce da tradurre e per output lo spettrogramma della voce tradotta.

Oggi Google Translate agisce come se dovesse ascoltare la frase pronunciata, scriverla tradotta su un pezzo di carta e poi rileggerla. Translatotron osserverà lo spettrogramma della fase da tradurre e ne produrrà un altro che rappresenterà la frase tradotta. In questa maniera Google riuscirà a mantenere il carattere della voce sorgente, rendendola dunque più naturale.

Translatotron è ancora in fase sperimentale, ma il suo successo potrebbe rendere più semplice superare le barriere linguistiche e allo stesso tempo potrebbe addirittura diventare una delle componenti base del cervello dei nostri futuri replicanti.

via GIPHY