Google Traduttore: come funziona il riconoscimento dell'immagine
@Connessioni
Tecnologia

Google Traduttore: come funziona il riconoscimento dell'immagine

L’app per iPhone e Android permette di tradurre i testi su cartelloni e manifesti in diverse lingue. Ecco in che modo ci riesce

L’aggiornamento di Google Traduttore che ci consegna un assistente multilingue sempre pronto all’uso è frutto di un algoritmo. Si tratta dell’ennesima prova di quanto l’informatica possa migliorare nel concreto la vita delle persone. Se oggi parliamo di algoritmi ci vengono in mente i vari Google, Facebook e Twitter che li utilizzano per mostrare i migliori risultati di ricerca, i post degli amici o gli hashtag più twittati. Tuttavia lo  studio degli algoritmi è molto altro e quello che è alla base di World Lens, la tecnologia che consente a Google Traduttore di leggere i testi stampati su cartelloni, manifesti o volantini e tradurli in un’altra lingua, ne è la prova più evidente.

Ciò che sembra frutto di un magia (“diavoleria” direbbero i nostri nonni) non è altro che l’adattamento di sistemi di apprendimento del linguaggio ad un algoritmo, con procedimenti simili a quelli che permettono a macchine e robot di imparare dalle situazioni “vissute”, implementando la loro intelligenza artificiale. Google ha utilizzato la stessa tecnica per aggiornare la sua app originale con un metodo che genera automaticamente parole sotto le figure, decifrandone il contenuto nella lingua desiderata.

La teoria del vettore

A differenza del metodo classico, in cui vengono prima tradotte singole parole da una lingua all’altra e poi riposizionate in modo da formare un concetto che abbia senso, Google ha lavorato negli anni per tradurre il testo in una maniera totalmente diversa realizzando la ”Neural Image Capture”. L’approccio è quello di tener presente il numero di volte in cui le parole appaiono l'una al fianco dell'altra all’interno di una certa lingua, per poi inserirle in vettori astratti da posizionare in un certo ordine. In questo modo ogni parola viene rappresentata dal suo vettore e ogni frase è una combinazione di vettori. Se si pensa al vettore come un elemento grafico spazialmente definito risulterà più semplice capire come la fotocamera di Google Traduttore che inquadra un testo in realtà stia riprendendo dei vettori da convertire in parole.

Ordine della lingua

Questa nuova rappresentazione permette a Google di arrivare ad un concetto chiave: vettori specifici intrattengono lo stesso rapporto con altri indipendentemente dal linguaggio. Per questo il vettore “madre” dovrebbe trovarsi spesso vicino a “genitore” , “donna” o “famiglia” al di là della lingua di riferimento. Ciò rende la traduzione un problema di spazi tra vettori perché è evidente che se una parola assume posizioni diverse può dare significati diversi. Il metodo usato da Google è di trasformare le frasi in vettori da utilizzare per generare l’equivalente in un’altra lingua.

La tecnica di Google

I ricercatori di Mountain View hanno sviluppato un database di circa 100.000 immagini testuali per insegnare al software ad ordinare i vettori quando si trovano vicini. Ma invece di associare ad ogni immagine solo il suo vettore (ovvero una parola) l’algoritmo studia le relazioni tra i vettori di una lingua, posizionandoli nel modo corretto. L’uso comune di una frase è dunque la caratteristica principale che permette a Word Lens di tradurre correttamente il testo che si trova dinanzi.

Intelligenza artificiale

Questo è uno dei motivi per cui Google Traduttore può essere utilizzato anche in assenza di connessione internet. Il suo algoritmo non preleva informazioni dalla rete, almeno non costantemente, ma è già “allenato” per interpretare i vettori. Inoltre, con il passare del tempo, Google aggiornerà il suo database con una serie sempre maggiore di immagini, così da istruire costantemente l’algoritmo che muove l’app per iOS e Android. Ad oggi Traduttore è in grado di raggiungere un punteggio di 59 nel test visuale Pascal dove la soglia dell’uomo è 69. Presto l’algoritmo ci raggiungerà e forse sarà in grado di superarci e sarà allora che dovremmo cominciare a pensare seriamente a come affrontare un futuro in cui le macchine saranno più intelligenti di noi.

I più letti

avatar-icon

Antonino Caffo

Nato un anno prima dell’urlo di Tardelli al Mondiale, dopo una vita passata tra Benevento e Roma torno a Milano nel cui hinterland avevo emesso il primo vagito. Scrivo sul web e per il web da una quindicina di anni, prima per passione poi per lavoro. Giornalista, mi sono formato su temi legati al mondo della tecnologia, social network e hacking. Mi trovate sempre online, se non rispondo starò dormendo, se rispondo e sto dormendo non sono io. "A volte credo che la mia vita sia un continuo susseguirsi di Enigmi" (Guybrush Threepwood, temibile pirata).

Read More