Big Data, Huge Plans

L’undici maggio 1997 per la prima volta una macchina batté un grande maestro in un match di scacchi a 6 partite. Si trattava della rivincita tra l’allora campione del mondo Garry Kasparov e il supercomputer IBM Deep Blue, che l’anno precedente aveva già tentato l’impresa, fallendo. Mentre nel match del 1996 Kasparov era riuscito a vincere con facilità, portando a casa 3 partite su 4 e pareggiando le due rimanenti, lo scontro del 1997 fu più avvincente. Arrivati alla sesta partita i due avversari si trovavano entrambi con una vittoria, una sconfitta e tre pareggi: tutto si sarebbe deciso con l’ultima partita.
Tale partita entrò nella storia perché si concluse in meno di un’ora, alla diciannovesima mossa, con una resa da parte di Kasparov ancora nel mediogioco. Il grande maestro russo aveva compiuto un errore nella fase di apertura che consentì a Deep Blue di effettuare un sacrificio di cavallo nella casa e6, aprendo la diagonale h5-e8 ad attacchi successivi e costipando il gioco dell’avversario. Se fosse stato il computer a trovare la mossa vincente attraverso il suo algoritmo di analisi delle posizioni non ci sarebbero stati dubbi sulla sua genialità, ma le cose non andarono così: Deep Blue estrasse 7.Kxe6 dal proprio database di aperture, che conteneva oltre settecentomila match di grandi maestri. Tutte le volte che il sacrificio di cavallo era stato compiuto in quelle condizioni il bianco si era trovato in grande vantaggio. Deep Blue utilizzò la sua fenomenale memoria per estrarre le probabilità che quella determinata mossa fosse più o meno efficace, e la trovò molto efficace.

Image67.Kxe6

 Questa partita passò alla storia per molte buone ragioni e per alcune controversie meno nobili; ma avrebbe meritato ancora più attenzione di quella che le fu data. I media all’epoca si concentrarono in parte sulla performance hardware di Deep Blue (che gli permise di andare enormemente in profondità nell’analisi delle posizioni successive) e in parte sulle proprietà software (che gli consentirono di riconoscere i pattern di gioco ed escludere certi rami di sviluppo), senza rendersi conto che la giocata vincente nell’ultima partita non era dipesa da nessuna di queste due eccellenze. Piuttosto fu l’enorme mole di dati memorizzata nell’opening book di Deep Blue a compiere il miracolo. E, mentre sono assolutamente necessarie capacità hardware e software fuori dal comune per gestire le grandi quantità di informazioni, non furono gli algoritmi a costruire la mossa vincente, ma i dati a suggerirla.
Vediamo un esempio. Utilizzare la forza bruta per cercare la risposta ad un problema scacchistico corrisponde circa a trovarsi in una città sconosciuta e dover trovare una gelateria senza possedere alcuna indicazione e senza poter chiedere aiuto: si dovrà setacciare ogni singola via molto attentamente, una soluzione assai dispendiosa in termini di tempo e di energie. Possedere algoritmi ottimizzati per il riconoscimento delle posizioni dei pezzi consentirebbe invece di scorporare e semplificare la questione strategica, che nel caso della nostra gelateria potrebbe voler dire focalizzarsi sulle persone con in mano un cono o ipotizzare che vicino nel centro della città sia più probabile trovarne – entrambe scorciatoie di tipo euristico, simili a quelle che utilizziamo tutti noi per analizzare situazioni e prendere decisioni. Infine chiederci quali mosse giocate in una determinata posizione siano state più efficaci in passato equivarrebbe a interrogare Google Maps attraverso il nostro smartphone circa l’esatta posizione delle gelaterie.

Se il primo scenario è tipico delle macchine e il secondo delle persone, il terzo è qualcosa di nuovo che unisce la capacità dei computer di memorizzare ed organizzare grandi quantità di informazioni alle nostre doti esplorative, che ci permettono di individuare percorsi dotati di senso al loro interno. Deep Blue era capace di utilizzare tutti e tre gli approcci perché si muoveva in un contesto molto strutturato dove la forza bruta poteva dare risultati in tempi ragionevoli, dove le euristiche strategiche poterono essere formalizzate, e dove i dati erano sufficientemente ordinati da fornire suggerimenti comprensibili. Programmare intelligenze artificiali in grado di raggiungere lo stesso livello di intelligenza nel mondo reale è un traguardo ancora lontano, seppur più vicino ora che nel 1997. Solo che, mentre le ricerche e la divulgazione sull’IA da sempre si concentrano sulle novità software e sulla potenza hardware necessaria per farle girare, i discorsi sui dati sono ancora relegati a settori informatici poco fantasiosi, di stampo fondamentalmente commerciale. Questo articolo si propone di riflettere sulle potenzialità dei grandi ammassi di dati, detti big data, sia nei campi più tradizionali sia in quelli più innovativi.

Funny-Chess-39


I dati parlano

Un giorno del maggio 2011 un arrabbiatissimo signore di mezza età si recava in uno dei punti vendita della catena di supermercati Target, nel Minnesota. Quello che sbraitò al primo addetto clienti che gli capitò a tiro fu una cosa del tipo: “Ho trovato nella cassetta delle lettere questi buoni sconto, indirizzati a mia figlia. Sono per tutine da neonato. State forse cercando di convincerla a rimanere incinta? Ha solo 17 anni, vi siete bevuti il cervello? Voglio parlare con il direttore”. Il direttore non era in sede ma lo richiamò qualche giorno dopo per scusarsi dell’inconveniente. Si ritrovò invece ad ascoltare le scuse di un padre costernato: “Mi dispiace moltissimo per la scenata dell’altro giorno. Ho fatto una chiacchierata con la ragazza e ho scoperto che in casa mia ci sono movimenti cui ero totalmente all’oscuro. Partorirà in agosto”.
Storia sconcertante, vero? Eppure tutti i giorni noi riceviamo pubblicità personalizzate in base ai nostri click su Amazon o ai nostri like su Facebook. La differenza sta nel fatto che il meccanismo di sponsorizzazione dei social network è più intuitivo e tutti noi lo accettiamo semi consapevolmente nel momento in cui vi inseriamo i nostri dati personali. Target è stata capace di utilizzare le informazioni riguardo la sua clientela più sottilmente, e senza il loro diretto consenso. Nei primi mesi del 2010 Target aveva avviato un progetto di ricerca volto a scoprire quali delle clienti fossero incinte in base ai loro pattern di acquisti. Per questo i suoi informatici si erano messi ad esaminare i dati presenti dei database degli acquisti e in particolare quelli relativi alla spesa delle donne iscritte alla lista regali per neonati.  Scoprirono che esse tendevano a comprare integratori alimentari, lozioni e altri prodotti con maggiore regolarità delle altre clienti. Bingo! Immediatamente Target implementò un software in grado di utilizzare i dati sugli acquisiti provenienti dalle carte di credito dei clienti per individuare le donne che più probabilmente si trovavano in stato interessante. A quel punto bastava inviare loro buoni sconto o volantini personalizzati e il gioco era fatto.

Badate bene: la correlazione tra acquisti e gravidanza non è mai stata palese, altrimenti non sarebbe stato necessario utilizzare modelli informatici sofisticati e grandi quantità di dati. È semplice notare l’aumento della vendita di creme solari ad agosto rispetto ad aprile, e anche nel caso vi fossero dubbi basterebbe guardare in qualche carrello dei clienti per chiarirsi le idee. La statistica tradizionale si basa sull’analisi di campioni casuali per confermare ipotesi; essa si chiede cose di questo genere: “Data questa quantità di creme solari comprate su questo numero di clienti in questo periodo dell’anno, e quest’altra quantità di creme solari su quest’altro numero di clienti in quest’altro periodo dell’anno possiamo dire che vi siano differenze significative? Ci sono elementi che possono causare distorsioni? Facciamo un gruppo di controllo?”. La statistica non permette di scoprire niente, solo di confermare idee che derivano da teorie di marketing. L’analisi di tutti i dati, nonostante sembrerebbe proporre solo un cambiamento quantitativo è in realtà significativamente diversa. I ricercatori Target non sapevano cosa stavano cercando e non sapevano se l’avrebbero trovato, i loro dati erano troppo ampi perché il colpo d’occhio o il campionamento casuale potesse mettere in evidenza delle regolarità. Non solo: i dati oltre ad essere tanti erano anche confusi e in più punti contradditori. Alcune delle donne incinte probabilmente compravano gli integratori di magnesio in un altro supermercato o non stavano prendendo affatto integratori di magnesio. Altre donne, decisamente non incinte, probabilmente stavano comprando integratori di magnesio per altri motivi. O non erano donne, ma uomini che utilizzavano la carta della moglie. Nonostante questo, a causa dell’enorme quantità di informazioni a loro disposizione e alla grande quantità di variabili in gioco (non solo integratori al magnesio ma molti altri prodotti caldi) i modelli previsionali di Target risultarono efficaci.

Big-Data

La storia di Target è molto veniale, ma negli ultimi anni esempi riguardo l’utilizzo di interi dataset da parte di imprese di ogni genere si sprecano. Abbiamo visto come Deep Blue abbia trovato che in una data posizione la migliore mossa possibile fosse muovere il cavallo nella casa e6 – una scoperta fatta analizzando le probabilità di vittoria che tale mossa aveva prodotto in una storia settecentomila partite. Oggi esistono programmi che giocano a scacchi utilizzando solo statistiche di questo genere, e lavorano molto bene: una volta che i pezzi si sono ridotti a un massimo di 9 per parte (negli scacchi si parla di finale di partita) tali programmi diventano matematicamente imbattibili. Google Translator utilizza tutti testi caricati in rete in due lingue per calcolare la probabilità che un’espressione corrisponda ad un’altra dati i termini che la circondano. UPS, azienda di trasporti statunitense, nel 2011 ha avviato un programma di analisi dei dati di geolocazione provenienti dai suoi furgoni per individuare le variabili che maggiormente causavano ritardi e incidenti. Questo le ha permesso di ridisegnare i tragitti standard, risparmiando nell’anno successivo ben 11 milioni di litri di gasolio e riducendo le emissioni di 30.000 tonnellate di biossido di carbonio.
Nel 2009 il sindaco di New York Michael Blomberg incaricò l’esperto di big data Mike Flowers di mettere su una squadra per cercare di scoprire quali fossero gli edifici del Bronx a maggior rischio di incendio. Sembra incredibile ma le sovraffollate e decadenti palazzine del quartiere sono uno dei posti più pericolosi del mondo in cui vivere, e non tanto per la criminalità di strada, ma piuttosto per la quantità di incendi selvaggi che scoppiano ogni anno a causa di impianti elettrici malfunzionanti. Il progetto fu considerato ridicolo dalle istituzioni di mezza città, che vedevano nel team di Flowers un mucchio di scocciatori che chiedevano mucchi di inutili informazioni e mai sarebbero riusciti a prevedere gli edifici più a rischio sulla base di esse. Cambiarono idea nel momento in cui il monumentale sistema informatico progettato per analizzare il problema venne messo in moto. Prima dell’analisi dei big data gli ispettori davano seguito alle denunce che ritenevano più preoccupati, ma solo nel 13 per cento dei casi riscontravano condizioni abbastanza gravi da giustificare lo sgombero; ora emettevano ordini di sgombero per oltre il 70 per cento degli edifici che ispezionavano.


Cambio di mentalità

Flowers, interrogato sul suo lavoro di ricerca, ha dichiarato:
“Non mi interessa la causazione, se non quando chiama all’azione. La causazione va bene per la vita comune, qui è molto pericoloso mettersi a parlare di rapporto causale. Non credo che ci sia nessun nesso causale tra la data di deposito della richiesta di pignoramento di un immobile e il rischio di incendio che presenta quell’immobile in base ai suoi precedenti storici. Mi pare un’idea sballata. E nessuno la sosterrebbe. Ci sarà un rapporto causale tra fattori sottostanti, ma io non voglio cercare neanche quelli. Ho bisogno di un data point specifico da analizzare, per valutarne la significatività. Se è significativo agiremo. Se non lo è, non agiremo. Sapete, abbiamo dei problemi concreti da risolvere. Sinceramente in questo momento non posso perdere tempo su cose come causazione.”
Probabilmente se il nostro Deep Blue avesse potuto parlare avrebbe detto una cosa simile circa la mossa numero nove della sesta partita contro Kasparov: «Non mi frega perché è giusta, ma tutti quelli che l’hanno fatta hanno avuto molta più facilità a dare scacco matto, che è quello che mi interessa. Ora devo vincere non interrogarmi su come funziona il mondo».

Sarebbe sbagliato dire che i big data ostacolano l’umano percorso di attribuzione delle cause, in realtà le correlazioni innovative da loro prodotte spesso permettono di intuire nuovi rapporti di causalità e arricchire le nostre teorie. Ma essi dimostrano anche che è possibile agire nel mondo con pragmaticità senza conoscere in dettaglio i fenomeni su cui si va a intervenire. Il programma di analisi dei termini digitati sui motori di ricerca collegati ai sintomi dell’influenza suina, noto come Google Flu Trends, quando fu lanciato nel 2009 permise di individuare le zone più a rischio e di potenziarne tempestivamente le infrastrutture sanitarie senza che fosse necessario conoscere nel dettaglio l’epidemiologia della malattia. Spesso fattualità correlate messe in evidenza dalle analisi sui big data hanno cause sottostanti in comune senza essere direttamente connesse l’una dall’altra, oppure una fa parte di parco-cause dell’altra senza esserne la principale ma co-varia insieme alle compagne invisibili e quindi può fungere da indicatore parziale, fornendo una probabilità in base alla propria intensità. Ancora, una correlazione potrebbe dipendere da un feedback positivo che viene a legare due variabili, che si amplificano a vicenda ma non hanno un rapporto causale gerarchico. Oppure, bisogna sempre tenerlo presente, un apparente collegamento tra variabili potrebbe rivelarsi completamente accidentale (anche se all’aumentare dei dati le correlazioni illusorie solitamente tendono a venire smascherate – motivo per cui il campionamento può rivelarsi estremamente fallace). Niente di tutto questo è in grado di dirci perché al presentarsi di certe condizioni tendono a presentarsene delle altre. Affinché ciò possa avvenire è necessario produrre delle ipotesi consistenti, manipolare una ad una le variabili in gioco, osservare, ripetere le manipolazioni, ragionare sulle conseguenze delle manipolazioni, confrontarsi con colleghi che hanno effettuato studi congruenti e infine incorporare i risultati nelle proprie teorie: un procedimento lungo e difficoltoso, che è in atto da secoli e prende il nome di ricerca scientifica. I big data non ci rivelano perché certi fatti combaciano; piuttosto ci indicano quali di essi combaciano, e più ingrandiremo i nostri dataset, e più automatizzeremo la loro analisi, più le rivelazioni che avremo sul mondo saranno strane e inspiegabili. Diventerà necessario abbandonare i modelli di pensiero basati sul senso comune e sulla causalità diretta per accettare questo nuovo modo di leggere la realtà. Una bella sfida, decisamente.

 Image1Google è capace di disegnare in tempo reale una mappa della gravità delle epidemie di febbre in oltre 50 stati, analizzando solo la frequenza con cui certe parole chiave vengono inserite nel suo motore di ricerca.


Verso il futuro

Nel 1992 Donald Norman, uno scienziato cognitivo, ingegnere ed ergonomo di fama pubblicò un libro seminale che, in barba allo scarso successo editoriale, conteneva alcune idee sorprendenti circa l’integrazione tra design ed innovazione. Intenet era nato da meno di un anno e già lui prevedeva che sarebbe diventato un mezzo di comunicazione e condivisione di dati pervasivo. Il capitolo più rivoluzionario del suo libro (intitolato Turn Signals are the Facial Expressions of Automobiles), si chiamava The Teddy e discuteva le implicazioni sociali che avrebbe avuto un dispositivo personale in grado di registrare tutto quello che avveniva interiormente ed esteriormente al padrone e di essere interrogato in qualsiasi momento sul materiale raccolto. Sebbene all’epoca nessuno fosse altrettanto visionario da ritenere scontato che non troppo tardi ogni individuo avrebbe posseduto un Teddy, ora anche i comuni mortali possono rendersi conto che le tecnologie necessarie affinché questo avvenga sono circa già disponibili. Lasciamo perdere la registrazione delle cognizioni personali che è ancora qualcosa di futuristico, e concentriamoci sulla raccolta di dati audio e sulla loro analisi. Mettiamo che in media ciascuno di noi riceve dati audio significativi per un terzo della giornata. Il peso di una registrazione mp3 di un’ora a 80kps è di 36 megabyte, che moltiplicati per 8 ore fa 288 mega. Un mese di registrazioni corrisponderebbero a circa 9 gigabyte, 103 in un anno, 10 terabyte per una vita lunga 100 anni. Tenendo in conto che nella vita capita assai spesso di dire cose simili e intrattenere conversazioni prive di contenuti  vi sarebbe la possibilità di raggruppare dati ridondanti dminuendo così il peso del nostro file audio, diciamo della metà. Avremmo in mano un file che nel suo momento ultimo peserebbe appena 5 terabyte, che sono già gestibili con facilità dai nostri personal computer.

Ma passiamo alla sostanza. In informatica si parla di data mining riferendosi alla capacità dei software di orientarsi all’interno di enormi quantità di dati, facendo conteggi, raggruppando i contenuti secondo parole chiave, estraendo singoli pacchetti di informazioni, trovando correlazioni e costruendo gerarchie. Google è l’azienda che ha vinto negli anni novanta la corsa all’efficienza nella gestione dei dati web e può essere considerata la regina indiscussa del data mining. Quali sono le capacità critiche di Google? Direi il riconoscimento delle chiavi di ricerca e la capacità di formulare probabilità circa il fatto che un sito possa soddisfare una query  – in base alle preferenze dell’utente, alla popolarità delle pagine, all’associazione di parole simili, al livello dei contenuti web. Capire cosa vuole l’utente da un lato e produrre risultati il più precisi e personalizzati possibile dall’altro è il compito del motore di ricerca, e non è un compito statico: Google impara dei propri errori, diventa più bravo a intuire le sfumature di significato delle ricerche dai termini utilizzati ed organizza le proprie pagine secondo alberi di categorie sempre più complessi. Stiamo parlando di operazioni probabilistiche che creano correlazioni all’interno del più grande database di dati esistente, cioè stiamo parlando di Big Data all’ennesima potenza.

Google si occupa di testi e di ipertesti, perché è di questo è fatto il web. Ma immaginiamo che tutta la sua conoscenza circa gli algoritmi di data mining venga applicata ai file audio, e non file audio qualsiasi ma alle registrazioni della nostra vita di cui stavamo parlando sopra. E immaginiamo di poter interrogare a voce il motore di ricerca del dispositivo che custodisce e manipola le registrazioni, ponendogli domande come “Ti ricordi che tempo c’era lunedì scorso?”, oppure “Quante volte ho visto Jenny ad agosto?”, o ancora “Cosa ha detto l’altro giorno il prof riguardo le pompe sodio-potassio?”.
Un ultimo sforzo di immaginazione. Pensate cosa succederebbe se un software di questo genere fosse implementato sul primo modello di Google Glass. Improvvisamente possiederemmo tutti una memoria estensibile a cui poter accedere con grande facilità, in grado di selezionare e organizzare tutte le informazioni audio (e perché non video?) con cui veniamo in contatto ogni giorno, a cui poter chiedere di fare piccole commissioni per noi e perfino di interfacciarsi con altri software maggiormente specializzati. Sarebbe la più grande rivoluzione dai tempi della scrittura, e potrebbe accadere domani.

Bibliografia
Donald Norman, Turn Signals are the Facial Expressions of Automobiles, 1992
Vikram Jayanti, Game Over: Kasparov and the Machine, 2003
Charles Duhigg, The Power of Habit, 2012
Viktor Mayer-Shonberger & Kenneth Cukier, Big Data, 2013

 

Annunci

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione /  Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione /  Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione /  Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione /  Modifica )

Connessione a %s...