Google Traduttore: come funziona il riconoscimento dell'immagine

L’app per iPhone e Android permette di tradurre i testi su cartelloni e manifesti in diverse lingue. Ecco in che modo ci riesce

L’aggiornamento di Google Traduttore che ci consegna un assistente multilingue sempre pronto all’uso è frutto di un algoritmo. Si tratta dell’ennesima prova di quanto l’informatica possa migliorare nel concreto la vita delle persone. Se oggi parliamo di algoritmi ci vengono in mente i vari Google, Facebook e Twitter che li utilizzano per mostrare i migliori risultati di ricerca, i post degli amici o gli hashtag più twittati. Tuttavia lo studio degli algoritmi è molto altro e quello che è alla base di World Lens, la tecnologia che consente a Google Traduttore di leggere i testi stampati su cartelloni, manifesti o volantini e tradurli in un’altra lingua, ne è la prova più evidente.

Ciò che sembra frutto di un magia (“diavoleria” direbbero i nostri nonni) non è altro che l’adattamento di sistemi di apprendimento del linguaggio ad un algoritmo, con procedimenti simili a quelli che permettono a macchine e robot di imparare dalle situazioni “vissute”, implementando la loro intelligenza artificiale. Google ha utilizzato la stessa tecnica per aggiornare la sua app originale con un metodo che genera automaticamente parole sotto le figure, decifrandone il contenuto nella lingua desiderata.

La teoria del vettore

A differenza del metodo classico, in cui vengono prima tradotte singole parole da una lingua all’altra e poi riposizionate in modo da formare un concetto che abbia senso, Google ha lavorato negli anni per tradurre il testo in una maniera totalmente diversa realizzando la ”Neural Image Capture”. L’approccio è quello di tener presente il numero di volte in cui le parole appaiono l'una al fianco dell'altra all’interno di una certa lingua, per poi inserirle in vettori astratti da posizionare in un certo ordine. In questo modo ogni parola viene rappresentata dal suo vettore e ogni frase è una combinazione di vettori. Se si pensa al vettore come un elemento grafico spazialmente definito risulterà più semplice capire come la fotocamera di Google Traduttore che inquadra un testo in realtà stia riprendendo dei vettori da convertire in parole.

Ordine della lingua

Questa nuova rappresentazione permette a Google di arrivare ad un concetto chiave: vettori specifici intrattengono lo stesso rapporto con altri indipendentemente dal linguaggio. Per questo il vettore “madre” dovrebbe trovarsi spesso vicino a “genitore” , “donna” o “famiglia” al di là della lingua di riferimento. Ciò rende la traduzione un problema di spazi tra vettori perché è evidente che se una parola assume posizioni diverse può dare significati diversi. Il metodo usato da Google è di trasformare le frasi in vettori da utilizzare per generare l’equivalente in un’altra lingua.

La tecnica di Google

I ricercatori di Mountain View hanno sviluppato un database di circa 100.000 immagini testuali per insegnare al software ad ordinare i vettori quando si trovano vicini. Ma invece di associare ad ogni immagine solo il suo vettore (ovvero una parola) l’algoritmo studia le relazioni tra i vettori di una lingua, posizionandoli nel modo corretto. L’uso comune di una frase è dunque la caratteristica principale che permette a Word Lens di tradurre correttamente il testo che si trova dinanzi.

Intelligenza artificiale

Questo è uno dei motivi per cui Google Traduttore può essere utilizzato anche in assenza di connessione internet. Il suo algoritmo non preleva informazioni dalla rete, almeno non costantemente, ma è già “allenato” per interpretare i vettori. Inoltre, con il passare del tempo, Google aggiornerà il suo database con una serie sempre maggiore di immagini, così da istruire costantemente l’algoritmo che muove l’app per iOS e Android. Ad oggi Traduttore è in grado di raggiungere un punteggio di 59 nel test visuale Pascal dove la soglia dell’uomo è 69. Presto l’algoritmo ci raggiungerà e forse sarà in grado di superarci e sarà allora che dovremmo cominciare a pensare seriamente a come affrontare un futuro in cui le macchine saranno più intelligenti di noi.

Google Traduttore: come funziona il riconoscimento dell'immagine

L’app per iPhone e Android permette di tradurre i testi su cartelloni e manifesti in diverse lingue. Ecco in che modo ci riesce

Per il dopo Amadeus la Rai sceglie Carlo Conti e non il coraggio di osare

Gli ultimi sondaggi: le intenzioni di voto

La reazione, al rialzo, dei mercati alla «Terza guerra mondiale»

La vera sfida della Rai non è trattenere Amadeus ma sostituirlo al meglio

Quattro romanzi rosa che vi faranno sognare ad occhi aperti

Antonino Caffo

Google Traduttore: come funziona il riconoscimento dell'immagine

L’app per iPhone e Android permette di tradurre i testi su cartelloni e manifesti in diverse lingue. Ecco in che modo ci riesce

I più letti

Per il dopo Amadeus la Rai sceglie Carlo Conti e non il coraggio di osare

Gli ultimi sondaggi: le intenzioni di voto

La reazione, al rialzo, dei mercati alla «Terza guerra mondiale»

La vera sfida della Rai non è trattenere Amadeus ma sostituirlo al meglio

Quattro romanzi rosa che vi faranno sognare ad occhi aperti

Antonino Caffo