Il colosso del web Yahoo ha messo a disposizione di studenti universitari e ricercatori 13.500 gigabyte (13,5 Tb) di dati utili per la ricerca ricavati dai propri siti web. In questo modo l’azienda americana vuole dare il proprio contributo per aiutare la ricerca accademica nel settore degli algoritmi inerenti all’apprendimento automatico (in inglese machine learning) e al suggerimento di contenuti web importanti, ossia alla personalizzazione dell’esperienza di fruizione dei servizi web.
Sebbene da qualche anno a questa parte la stella di Yahoo sembri un po’ appannata, con risultati finanziari non certo brillanti, soprattutto il suo portale di notizie – Yahoo News – continua a registrare quotidianamente milioni di visite, consentendo all’azienda di raccogliere informazioni specifiche sul comportamento dei singoli utenti per quanto riguarda le loro abitudini di lettura e navigazione sulla Rete. Ed è proprio questo prezioso patrimonio di informazioni (fornite in forma rigorosamente anonima) che Yahoo mette a disposizione di coloro che si occupano della ricerca relativa al miglioramento della qualità e dell’efficacia degli algoritmi di intelligenza artificiale.
In particolare, l’azienda ha deciso di rilasciare i dati di 20 milioni di utenti raccolti sui vari siti ad essa riconducibili nel periodo compreso tra il mese di febbraio e quello di marzo del 2015. I dati coprono 110 miliardi di interazioni uniche, facendo di questo – come ha spiegato con orgoglio la stessa Yahoo – il più grande dataset mai messo a disposizione da un’azienda per fini di ricerca.
A chi ha espresso timori circa il rischio che questa grande mole di dati possa finire in mani “sbagliate” ed essere usata a scopo di profilazione degli utenti o per fini pubblicitari, Yahoo ha risposto in maniera risoluta che le informazioni sono rilasciate solo e soltanto alla community per la ricerca accademica e che in nessun caso saranno concessi a soggetti interessati ad essi per fini commerciali.
Tra le informazioni a disposizione di studenti e ricercatori vi sono dettagli come sesso, età e provenienza geografica degli utenti e i titoli degli articoli che gli algoritmi pensati per la personalizzazione dei servizi propongono agli utenti, con anche brevi riassunti dei contenti degli stessi e dati su quali siano quelli maggiormente cliccati.