Tecniche di Predictive Analytics per capire perché non si parla più di Ebola

ebolaAd agosto scorso avevamo sollevato seri dubbi sull’epidemia di Ebola, ed  espresso a chiare lettere la nostra posizione: certamente  importante e dal marcato carattere di emergenza ma lontano dal catastastrofico scenario che si voleva dipingere.

Ricapitoliamo brevemente le vicende, ricordando che durante le ferie estive media e stampa alimentavano il fuoco dell’intolleranza soffiando con il vento delle paure a colpi di articoli apocalittici. Ma già una prima analisi del rapporto ufficiale datato giugno 2014 mostrava un andamento grave ma non drammatico. Falle destiante a cadere ad una analisi serena, dati alla mano. Allo scopo, adotteremo opportune tecniche di Predictive Analytics.

Ma torniamo a giugno scorso: il grafico seguente mostra  i numeri del contagio in Guinea, Liberia e Sierra Leone, da fine dicembre 2013 a metà giugno 2014.

ebola_grafico

In un territorio di circa 20 milioni di persone, erano stati riscontrati 618 casi di sospetto virus Ebola, di cui 461 confermati, 107 probabili e 50 sospetti. In queste tre categorie il tasso di mortalità era rispetivamente di 227, 99 e 31. Nei mesi successivi questi numeri sono aumentati praticamente raddoppiando di mese in mese. Intanto i media si scatenavano, parlando di contagio esponenziale, mentre i partiti fortemente radicati nella “pancia del paese”, ne approfittavano per macinare consensi contro le minoranze di ogni genere.

Tra le pochissime voci fuori dal coro, proprio questo blog. Come dicevamo, i fenomeni di contagio non seguono un modello esponenziale, continuando a crescere indefinitamente. Piuttosto uno schema di regressione logistica, che prevede una crescita lenta all’inizio, un andamento in forte crescita e, infine, un processo di stabilizzazione. Una specie di “esse” allungata.

Abbiamo raccolto, ad oggi, il nuovo rapporto sul contagio, aggiornato a febbraio 2015, eccolo qua:

graph1-cumulative-reported-cases

Il grafico illustra in blu i casi di contagio totali in Guinea, in rosso in Liberia ed in verde la Sierra Leone. Cifre sicuramente importanti, come dicevamo, con oltre 11000 casi in Sierra Leone, circa 8700 in Liberia e poco meno di 3000 in Guinea.

Prendiamo allora il caso della Liberia, e verifichiamo se la nostra ipotesi, e cioé che segua un andamento di regressione logistica, sia ragionevole. Raccogliamo quindi i dati per 12 mesi ed elenchiamoli:

MESE    DATO
 201403    8
 201404    8
 201405    13
 201406    13
 201407    107
 201408    391
 201409    1871
 201410    3696
 201411    6525
 201412    7635
 201501    8157
 201502    8745

Si osserva immediatamente che, come nei tipici fenomeni da regressione logistica, il numero di casi si stia stabilizzando.  Così, mentre tra luglio e novembre i casi di contagio raddoppiano mese su mese, nei mesi succcessivi l’aumento si attesta sulle migliaia di unità,  novembre su dicembre, e centinaia nei mesi successivi. Da novembre in poi l’aumento è ancora presente ma in progressiva attenuazione.

Con i dati a disposizione generiamo il modello predittivo illustrato nel grafico a destra. I dati reali sono rappresenti come quadrati, mentre i mesi sono elencati progressivamente dall’1 (marzo 2014) al 12 (febbraio 2015). La sovrapposizione tra dato reale e dato ebola_liberia_projectionsinterpolato è evidente. E’ bene ricordare che esistono opportune metriche di bontà del modello che qui, per motivi di spazio, siamo costretti ad omettere, pur se a malincuore.

Altrettanto evidente è la tendenza alla stabilizzazione: il numero dei casi rilevati tende ad attestarsi intorno ad un valore massimo, stimabile in circa 8700 unità per i mesi a venire. All’occhio esperto appare anche evidente come l’ultimo dato non sia proprio maturo, e non solo perché siamo ancora alle ultime settimane di febbraio, ma possiamo comunque formulare un modello con l’ausilio di appositi accorgimenti.

La tecnica che abbiamo adottato e calcolato grazie al calcolatore Casio ClassPad FX400 è chiaramente troppo complessa per essere riassunta in un solo post. I modelli predittivi sono oggi di grande interesse sia per il loro indiscusso valore per il supporto alle decisioni, che per i modelli di business, e sono inquadrati nel contesto più generale che va sotto la denominazione di Predictive Analytics. Ce ne siamo già occupati nel blog parlando di Bolt e del limite teorico del record mondiale dei 100 metri piani. La redazione di LidiMatematici è chiaramente a disposizione per qualsiasi chiarimento o informazione anche in contesti diversi.

I modelli predittivi si basano sull’assunto che sia possibile estrarre schemi significativi dal passato per ottenere previsioni nel futuro. Previsioni tanto più affidabili quanto maggiore è il numero di dati a disposizione e tanto più prossimo è il futuro che si vuole prevedere.

Applichiamo allora la stessa tecnica, supponendo di non conoscere i dati degli ultimi mesi e costruiamo altri due modelli, uno che si arresta ai dati a disposizione  fino a settembre 2014, e l’altro con i dati a disposizione fino a novembre dello stesso anno. Simuliamo quindi la situazione di aver costruito tre stime successive nel tempo. La figura a destra compara i regressioni_agoredblu_novgreen_fullrisultati di questi modelli, rispettivamente in rosso per settembre 2014 e verde per il novembre 2014. Sovrapponiamo entrambi, per riferimento, alla curva in blu di interpolazione dei dati fino a febbraio 2015.

Tutti e tre i modelli indicano chiaramente la tendenza alla stabilizzazione. Notate come il modello di settembre sottostimi il valore massimo attuale, attestandosi a circa 6800 casi, mentre quello di novembre lo sovrastimi, circa 11400 casi. La differenza tra questi due è che novembre è alimentato con due punti di campionamento in più.

Infine, il modello con tutti i dati a disposzione propone un terzo valore, grosso modo nel mezzo tra i due precedenti, di circa 8700 casi. Le tre analisi, pur nella differenza di valori, concordano essenzialmente nella stabilizzazione, ragionevolmente ipotizzabile in un intorno della decina di migliaia di unità.

Si badi bene, non si parla certo di noccioline, ma di vite umane, è comunque un fenomeno grave. Tuttavia, è bene ricordarlo, che è già più che grave, gravissimo, per le popolazioni africane e non è certamente il caso di acuirne le sofferenze soffiando ancora sul fuoco dell’intolleranza.

Ma, ormai, lo spendibile mediatico è stato già speso e, non essendo mai stata un’emergenza, non serve che se ne parli più. Anzi, meglio dimenticare.

-> Vai al report originale

-> Vai all’articolo di agosto su LidiMatematici

-> Vai al modello di Predictive Analytics applicato alla previsione del record mondiale dei cento metri piani

-> Scrivi alla redazione per saperne di più sul Predictive Analytics e su come può aiutare il tuo business.

 

Share
Questa voce è stata pubblicata in Scienza oggi e contrassegnata con , , , , , , , . Contrassegna il permalink.

3 risposte a Tecniche di Predictive Analytics per capire perché non si parla più di Ebola

  1. Pingback: Un modello predittivo del numero di visitatori: il caso di Lucca Comics & Games | LidiMatematici

  2. Pingback: Decisioni strategiche e Predictive Analytics: un caso d’uso | LidiMatematici

  3. Pingback: Il Data Scientist, mestiere del terzo millennio | LidiMatematici

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *