L’obiettivo di Google è quello di poter classificare il massimo possibile delle informazioni disponibili nella rete. Per ottemperare allo scopo, è stato implementato sul motore di ricerca il supporto per ogni tipo di file.
E’ già tempo che su Google è permessa la ricerca all’interno dei file con estensione PDF, a condizione che essi contengano del testo.
Il problema era sito nei documenti PDF contenenti immagini, ma Google ha risolto tramite l’uso di un OCR per convertire le immagini in testo. In questo modo saremo in grado di effettuare ricerche all’interno di documenti digitalizzati che, altrimenti, non sarebbero mai stati indicizzati.
Quelle erano informazioni che, prima, anche se accessibili, non potevano essere interpretate in modo automatica da un computer, per tanto non c’era modo di offrirle tra i risultati di ricerca.
Ecco svelato il motivo per il quale Google seguiva passo passo il progetto OCRopus, del quale ora vediamo i primi risultati.
Volendo immaginare le possibili applicazioni future di questa tecnologia, è possibile che venga utilizzata per migliorare i risultati di Google Immagini che, al momento, dipende dal contesto della pagina in cui sono situate le immagini.
Possiamo vedere un esempio di indicizzazione di questo tipo di documenti nel primo risultato di questa ricerca.