Dai Big Data all’Azienda Digitale: un avanzamento di civiltà. Gratuito.

Di Analytics, Data Mining, Machine Learning ci siamo occupati innumerevoli volte in questo blog: sappiamo, e lo sperimentiamo oramai nella vita quotidiana, che le macchine sono in grado di derivare informazione a partire da altra informazione, di sviluppare un modello cognitivo della realtà che le circonda e di utilizzare questo modello per aiutare l’uomo a prendere decisioni realistiche e vantaggiose per il proprio business.

Quando sentiamo parlare di Analytics, Data Mining, Machine Learning associamo spesso ad un altro termine, di cui oramai abbiamo preso ampia consapevolezza: Big Data. Per molti di noi “Big Data” è poco più che una etichetta, se non addirittura uno slogan. E se “Big Data” è sulla bocca di tutti, poco nota è la storia che sta dietro a queste due paroline inglesi. Una storia mirabolante, che inizia con incredibile regalo fatto da Google al genere umano, nonostante il valore economico impressionante.

Ma andiamo con ordine: l’informatica, in particolare la programmazione dei computer, è una scienza giovanissima che vede le origini nel secondo dopoguerra. Ben presto l’esigenza di avere informazioni sempre pronte e disponibili, e soprattutto aggiornate, ha mostrato in modo chiaro la strada verso la formulazione dell’impianto teorico all’origine delle basi di dati, o database. Erano i primi anni ’70, ma le prime appilcazioni tangibili, su scala industriale, sono apparse solamente da metà degli anni ’80.

La teoria delle basi di dati è robusta: funziona(va) sempre e in tutte le condizioni. Applicandone le fondamenta non esiste problema di business che non sia rappresentabile, modellabile e implementabile mediante un software apposito. Ma giusto trent’anni fa Internet aveva appena visto la luce, e nessuno avrebbe mai immaginato che sarebbe stato adottato da miliardi di persone in tutto il mondo.

E’ qui che inizia il grande viaggio dei Big Data, ed inizia con un regalo. Google, nei primi anni 2000, quando ormai aveva consolidato la propria posizione di dominio nel mercato, anziché tenersi gelosamente il proprio segreto industriale, decide di pubblicare un articolo in cui rivela la propria ricetta segreta: il Google File System.

L’articolo “The Google File System” Sanjay Ghemawat, Howard Gobioff e Shun-Tak Leung iniziano così:

Abbiamo progettato ed implementato il Google File System, un file system scalabile, distribuito per applicazioni che utilizzano dati in modo intensivo, su vasta scala.

L’articolo illustra in dettaglio il segreto industriale alla base della tecnologia con cui Google ospita tutte le informazioni che gestisce e rende ricercabili, nonché accessibili, in tempi rapidi da chiunque, ovunque nel mondo. Stiamo parlando di cifre sbalorditive: nel 2019 l’azienda dichiara di gestire circa 3 miliardi e mezzo di ricerche al giorno, su scala planetaria.

Immaginate la portata del regalo: chiunque voglia, dalla pubblicazione dell’articolo in poi, può utilizzare la stessa tecnologia. E non solo, l’anno successivo Google fa il bis e pubblica un secondo articolo, di portata addirittura superiore:

MapReduce: Simplified Data Processing on Large Clusters, di Jeffrey Dean e Sanjay Ghemawat.

Questi due articoli e le tecnologie sottostanti sono alla base del vero e proprio avanzamento di civiltà rappresentato dai Big Data: se con il primo articolo Google spiega al mondo come ospitare e garantire l’accesso ad una quantità di dati sbalorditiva, con il secondo illustra una modalità di computazione parallela su larga scala e per di più basata su hardware economico.

Esatto, avete capito bene: non più grandi computer tipo HAL 9000 di 2001 Odissea nello spazio, ma raggruppamenti (in gergo, cluster) di computer economici, di quelli che si possono tranquillamente acquistare al centro commerciale. Ma tanti, centinaia, se non migliaia (meglio se potenze di due), che lavorano in parallelo.

Al cuore di MapReduce sta un vero e proprio, nuovo, paradigma di computazione, in due strati: il primo di Mapping, ovvero di assegnazione di operazioni di elaborazione semplificate in parallelo a più componenti applicative, e la seconda di Reduce, ovvero di aggregazione dei risultati suddivisi tra componenti le applicative parallele, in un unico risultato. Quella che presentiamo qui è, ovviamente, una semplificazione: sul paradigma MapReduce torneremo in un articolo apposito.

Ben presto i colossi del web si accorgono che la teoria proposta da Google vale miliardi di dollari, e si accodano nell’adottarla. A titolo di esempio, per farvi capire di cosa stiamo parlando, Amazon utilizza questa tecnologia non solo per vendere a miliardi di utenti, ma per formulare proposte di acquisto mirate. E, indovinate un po’, il sistema di raccomandazione funziona: si stima che Amazon abbia incrementato le vendite di circa il 35%. Dal punto di vista del vil denaro, il risultato netto della adozione di queste tecnologie da parte di Amazon è altrettanto sbaloriditivo: da circa 3 miliardi nel 2007 a poco più di 72 miliardi di dollari nel 2018. Un incremento che non si può neanche stimare in modo lineare: ma addirittura quadratico. Vale a dire, raddoppiano gli anni, quadruplicano le vendite. Per darvi una idea, il PIL del Ghana è di 47 miliardi di dollari.

Direte voi, e dove sta l’avanzamento per l’umanità? A diventare ricchi sono sempre pochi individui. La storia dimostra che non è stata solo una questione di denaro: il CERN utilizza la tecnologia Google per gestire 15 milioni di milardi di byte all’anno ed analizzare, così, i dati risultanti dagli esperimenti del Large Hadron Collider. E i risultati non si sono fatti attendere, oggi con la sensazionale scoperta del Bosone di Higgs, il modello standard delle particelle subatomiche conta 13 particelle.

La magia dietro tutto ciò, sta nel fatto che i Big Data non è solo una collezione di articoli accademici, ma una vera e propria tecnologia, costituita da un intero ecosistema di applicazioni, tutte gratuite e disponibili alla comunità: Apache Hadoop.

I due articoli pubblicati da google non sono mera teoria, ma componenti software, in particolare il Google File System è implementato dallo strato HDFS mentre MapReduce è implementato dalla componente omonima. Va da sé che queste due componenti, da sole, non sono sufficienti per garantire un sistema pienamente funzionante. Ad iniziare dal fatto che i dati vannno prelevati da sistemi esterni e, come abbiamo visto, vengono sempre trasportati in volumi considerevoli. E’ per questo che si parla di Data Ingestion: allo scopo è stato progettato il modulo dedicato, basato su code, Kafka e la controparte che trasferisce queste informazioni nell’ecosistema Big Data, HBASE.

Le risorse fisiche – lo spazio disco – e computazionali -le operazioni di calcolo secondo il paradigma Map Reduce (MapReduce e Spark)- vanno allocate in modo mirato così da non sovraccaricare il sistema: allo scopo provvede lo strato di negoziazione delle risorse costituito dai moduli YARN (Yet Another Resource Negotiator) e MESOS.

I componenti PIG e HIVE provvedono a rendere interrogabili le informazioni raccolte, secondo una modalità che riconduce alle interrogazioni della teoria dei database standard (SQL), nonostante l’intera architettura sia indicata collettivamente proprio con la sigla NoSQL, ad indicare che le “vecchie” teorie sono ormai superate.

Non va dimenticato che l’intero ecosistema si poggia, fisicamente, su un numero di macchine operanti in parallelo, il cluster, che necessita di apposito software di orchestrazione e monitoraggio, perché funzioni con continuità e senza interruzioni. Questo compito è assolto dallo strato superiore: Ambari.

Oggi chiunque, senza distinzioni, può realizzare una architettura parallela acquistando un cluster di macchine relativamente poco costose e costruire le fondamenta della propria azienda digitale, con uno sforzo economico relativamente contenuto. Così ha fatto Facebook (ed ha avuto successo), così ha fatto Netflix (ed ha avuto successo) e così farà il prossimo miliardario, assieme a tutte le più grandi aziende, che stanno intraprendendo i primi passi verso la completa digitalizzazione.

Share
Questa voce è stata pubblicata in Scienza oggi e contrassegnata con , , , , , , , , , , , , , . Contrassegna il permalink.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *