L’Indicizzazione dei contenuti multimediali: il caso CAPTCHA reCAPTCHA e le tecnologie di riconoscimento

Google Deep Dream

L’Indicizzazione dei contenuti multimediali: il caso CAPTCHA reCAPTCHA e le tecnologie di riconoscimento

L’integrazione di contenuti multimediali all’interno dei risultati di ricerca, per quanto ormai molto diffuso, è un fattore di notevole complessità per i motori di ricerca.

 

Basti pensare, ad esempio, che l’interpretazione dei contenuti presentati in questi formati, deriva in gran parte dai metadati associati a questi, come didascalie, tag, descrizioni, dati riguardanti la localizzazione e testo che circonda il dato all’interno di una pagina web, per esempio.

 

Comprendere un video, un audio, un’immagine o un’app, è una questione molto complessa per i motori. Il processo di riconoscimento delle immagini, ad esempio, basa la maggior parte della propria tecnologia sui pattern di riconoscimento, come spiegato nella policy di Google al riguardo, ma anche, e soprattutto, dalle informazioni umane che descrivono il contenuto di quell’immagine.

 

Sistema di riconoscimento facciale

Sistema di riconoscimento facciale

Perché Google ha acquistato reCAPTCHA?

 

Nel 2009, l’acquisto di reCAPTCHA da parte di Google ha posto le basi per la comprensione e la semplificazione della tecnologia CAPTCHA. A ben vedere, ha permesso, con un’acquisizione molto intelligente a livello di business, il raggiungimento dei dati che si celano dietro alla compilazione degli omonimi form e, non di meno, il tagging di porzioni di contenuto illeggibili per i bot, come le immagini.

 

Il motivo per il quale Google ha deciso di acquisire il servizio reCAPTCHA sta proprio nella volontà di migliorare il riconoscimento dei contenuti multimediali.

 

Tutto inizia da Google Print

 

All’avvio del Progetto Biblioteche denominato “Google Print” (dal 2005 Google Libri, Google Books nel suo nome originale), Mountain View si affidava, per lo più, alla capacità della tecnologia OCR di riconoscere correttamente il testo dalle immagini scansionate.

 

Durante la digitalizzazione dell’archivio storico del New York Times, si trovò di fronte alla difficoltà di interpretare alcuni contenuti provenienti dallo stesso giornale, poiché non interpretabili secondo i pattern di riconoscimento precedentemente costruiti e sul quale si basava la tecnologia di riconoscimento dei caratteri.

 

Per questo motivo Google iniziò a utilizzare la tecnologia di reCAPTCHA quando il proprio motore OCR non era in grado di interpretare e tradurre con la dovuta certezza alcuni caratteri o alcune parole. Il processo utilizzato, in estrema sintesi, vedeva l’archiviazione delle parole e dei caratteri costituiti da particolari curvature non decifrabili dalla Intelligenza Artificiale nell’archivio di reCAPTCHA, per poi presentarle negli omonimi e famosissimi form distribuiti attraverso le piattaforme web che utilizzano questo sistema per mettersi al riparo da utilizzi sconsiderati dei sistemi automatici fraudolenti. Il principio di funzionamento era spiegato alla perfezione con il payoff:

 

 

Stop spam.
Read books.

 

 

Questo sistema permise e permette tutt’oggi a Google di sfruttare l’interazione umana e la capacità d’interpretazione degli utenti per decifrare i testi su cui trovava difficoltà con la propria tecnologia.

 

Principio di funzionamento di reCAPTCHA

Principio di funzionamento di reCAPTCHA

 

Come possiamo notare dall’immagine, alcuni testi scansionati presentano delle sbavature e delle curvature rispetto ai caratteri che si pongono come barriera per le tecnologie  di riconoscimento ottico dei caratteri (OCR, Optical Character Recognition); Google supplì utilizzando la tecnologia acquisita per migliorare la digitalizzazione dei libri. Google offriva e offre tutt’oggi un servizio di sicurezza avanzata, in maniera del tutto gratuita, a fronte di un piccolo sforzo da parte del singolo utente, sfruttando così il lavoro umano per favorire i propri progetti.

 

Google abbandona reCAPTCHA e introduce No CAPTCHA reCAPTCHA

 

Da qualche anno a questa parte, Google ha via via abbandonato il reCAPTCHA tradizionale aggiornando il proprio servizio con il nome No CAPTCHA reCAPTCHA. Anche lo scopo di questo servizio è ulteriormente evoluto, andando a sopperire le carenze in termini di Intelligenza Artificiale, lettura dei testi digitalizzati, interpretazione delle immagini, miglioramenti delle mappe e così via dicendo. Come riporta la pagina ufficiale di Google:

 

“reCAPTCHA is a free service that protects your website from spam and abuse. reCAPTCHA uses an advanced risk analysis engine and adaptive CAPTCHAs to keep automated software from engaging in abusive activities on your site. It does this while letting your valid users pass through with ease.

 

reCAPTCHA offers more than just spam protection. Every time our CAPTCHAs are solved, that human effort helps digitize text, annotate images, and build machine learning datasets. This in turn helps preserve books, improve maps, and solve hard AI problems.”

 

Lo scopo di questo aggiornamento è dovuto, in massima parte, alle nuove necessità di riconoscimento, in questo caso di stampo IA.

 

Anche audio e video sono contenuti decisamente complessi da indicizzare

 

Nel campo audio e video, potremo senz’altro considerare le innumerevoli possibilità che le tecnologie di dettatura vocale, sviluppatesi in seguito all’evoluzione del riconoscimento vocale, possono costituire nell’automatizzazione dei processi di apprendimento per queste risorse di contenuto.

 

Per quanto questo tipo di tecnologie abbiano avuto e abbiano tutt’oggi discrete difficoltà nel riconoscimento causate, ad esempio, dalle varianti dialettali di talune lingue e forme espressive, ci sono discrete possibilità che in futuro questo possa essere ulteriormente sviluppato, soprattutto per quelle aziende che oggi dominano il mercato nel campo della voice recognition.

 

Un esempio tra tutti è costituito da YouTube, che in fase di caricamento del video richiede se si vogliano aggiungere dei sottotitoli o che si preferisca lasciare alla tecnologia di YouTube la facoltà di sottotitolare i video con i proprio strumenti automatici. Nel primo caso, i testi forniti aiuteranno Google e YouTube a comprendere via via sempre più informazioni provenienti contenuti multimediali basati sulla corrispondenza tra testo e audio, che saranno poi archiviate nei data center proprietari.

 

La crescente domanda di contenuti multimediali e quindi di complessa indicizzazione, domina il mercato dei motori di ricerca già da qualche tempo e lo notiamo in particolare nella crescita di query imputate su YouTube.

 

I motori di ricerca che non riescono a stare al passo con questa domanda sono destinati a declinare e a perdere una fetta di mercato importante, che può fare il buono o il cattivo tempo soprattutto in materia di ricerca.

 

Il trend di ricerca che osserviamo dalla crescita di richieste specifiche fatte sulle piattaforme di video sharing, si traduce nella necessità di mettere a disposizione contenuto dotato di forte coinvolgimento per gli utenti; tanto che anche Facebook, per restare al passo, ha deciso di perseguire questa strada con evoluzioni particolarmente dedicate al comparto video. Lo stesso Zuckerberg ha affermato che il futuro di Facebook sta proprio nei video.

 

Non solo i video, ma anche i contenuti interattivi che usano tecnologie particolari come JavaScript e AJAX rendono la vita dei motori particolarmente complicata. Sebbene i motori abbiano difficoltà a comprenderne i contenuti e a indicizzarli, queste tecnologie si sono affermate soprattutto nelle comunicazioni a banda larga; per questo motivo mi aspetto che i motori, pur di soddisfare la domanda, continuino a lavorare per migliorare la comprensione di questi linguaggi. Presto vedremo contenuti che cambieranno totalmente la nostra definizione di “interattività”.

 

Per quanto la “fantascienza”, cioè  i grandi avanzamenti futuri dei contenuti multimediali interattivi non siano propriamente attinenti al know-how che un professionista o consulente SEO deve possedere, almeno non nel breve e medio periodo, ritengo che uno sguardo al futuro possa permettere di comprendere, e anticipare, il panorama e i principi secondo i quali i motori si muoveranno negli anni a venire.

 

In copertina una delle bellisime immagini generate dall’applicazione del progetto Google Deep Dream: originale di Kyle McDonald.

Shares