Data Mining: la palla di vetro del terzo millennio ?

minority-report-pantallasCerto, detto così suona davvero eccessivo, eppure il mito della palla di vetro, dell’indovino, della tecniche di divinazione, mai come oggi è più vivo, palpabile e desiderato. Nulla di magico: piuttosto una disciplina molto seria e scientifica che va sotto il nome collettivo di Data Mining.

Il Data Mining è un processo analitico volto ad esplorare i dati, solitamente disponibili in grandi quantità, tipicamente aziendali o genericamente relativi al mercato, alla ricerca di schemi coerenti, cioé di relazioni sistematiche tra variabili, al fine di stabilire un modello matematico che consenta di prevedere fenomeni di interesse.

Proprio come la “palla di vetro” medioevale, l’obiettivo finale del data mining, nella sua accezione predittiva, è la previsione di fenomeni attesi, quindi nel futuro, sulla base della scoperta, automatica, di schemi osservati nel passato. E’ un processo altamente sistematico, tanto che si basa su una metodologia consolidata, in estrema semplificazione costituita da tre fasi:
1. Esplorazione iniziale
2. Definizione del modello sui dati del passato.
3. Applicazione del modello per la previsione dei dati futuri.

Nella fase di esplorazione i dati vengono raccolti, validati in termini di qualità ed analizzati statisticamente per verificare il contenuto informativo rispetto al fenomeno di interesse. Nella fase di definizione del modello, i dati raccolti nel passato vengono usati per costruire un modello che cerchi di interpretarli, attraverso specifiche funzioni ed algoritmi, al fine di prevedere il fenomeno di interesse. Infine, il modello viene applicato per la previsione dei dati futuri. Torneremo sul tema metodologico parlando in modo più esteso del CRISP-DM, la metodologia adottata internazionalmente per i progetti di Data Mining.

Gli esempi di applicazione industiale del Data Mining, nella sua accezione predittiva che va sotto il nome di Predictive Analytics, sono notevoli. E’ possibile prevedere il guasto di componenti tecnici, la serie storica di incassi e spese, intercettare frodi, identificare luoghi a rischio di crimini, sommosse, eventi catastrofici, stimare il tasso di abbandono dei clienti di compagnie di servizi ed utilità varie, e molto altro. Abbiamo visto un esempio su questo stesso blog tempo addietro, parlando del limite teorico del record mondiale sui 100 metri di Usain Bolt.

L’idea di usare schemi del passato per determinare comportamenti nel futuro non è certo nuova, ed è sicuramente alla base delle decisioni che prendiamo ogni giorno. Ma il Data Mining ha come caratteristica principale il fatto che sono gli stessi algoritmi matematici a scoprire e determinare le relazioni ricorrenti che si trovano all’interno dei dati a disposizione.

Ne vediamo un esempio di applicazione, grazie alle funzioni della calcolatrice Casio FX-CG20, analizzando lo schema del movimento di un pesce che salta tra due acquari. E’ una estrema semplificazione di applicazione di tecniche di Predictive Analytics, ma che rende perfettamente l’idea di come sia possibile costruire un modello basato sulle misurazioni effettuate nel mondo reale, nel passato, per costruire uno schema comportamentale applicabile alla previsione del futuro.

Nell’immagine che segue, il pesce ha appena spiccato il salto tra l’ampolla di sinistra e quellasalto_pesce_1 di destra e sono a disposizione 5 punti di rilevazione, le croci in viola. Va da sé che, in questo caso estremamente semplice, la legge fisica che regola il moto del pesce è pienamente determinata, sappiamo benissimo che la forza di gravità agisce in combinazione con la velocità iniziale del pesce per determinare un moto a forma di parabola.

Ma il tema centrale del Predictive Analytics è proprio questo: se noi ignorassimo la legge del moto, potremmo comunque ricostruirla sulla base delle sole misurazioni effettuate?

Andiamo avanti a raccogliere dati, per avere maggiori informazioni sul comportamento del nostro simpatico pesciolino, ed eccoci qua:

salto_pesce_regress

in questa immagine si vede un modello quadratico, una parabola appunto, che approssima  contemporaneamente sia il comportamento passato che, per estensione, quello futuro. In questo, specialissimo caso, la nostra palla di vetro è data dalla generica equazione di una parabola:

y=ax^2+bx+c

dove a, b e c sono i parametri calcolati come illustrato nell’immagine a destra.

regress_pesce_formulaTrattandosi di modelli, il grado di aderenza al mondo reale è caratterizzato da limitazioni specifiche. In altri termini, la previsione è sempre, intrinsecamente, una approssimazione, che non può e non deve essere esattamente uguale al reale. Cioé, soffre di un errore. Osservando il grafico, l’errore di previsione è dato dalla distanza tra la linea di interpolazione e i punti di rilevazione, rappresentati dalle croci in viola.

Rispetto alla palla di vetro, tuttavia, abbiamo una differenza importantissima: è lo stesso modello predittivo a fornire la misura dell’errore di previsione, rappresentato dai due parametri r^2 ed RMSE. Non è questa la sede per entrare in dettaglio, ci torneremo sicuramente su, ma se l’r^2 tende ad 1 e l’RMSE tende a 0 allora il modello ci sta dicendo che è molto confidente della previsione effettuata. Previsione che, infatti, si dimostra corretta ed il pesce atterra al sicuro nella seconda boccia d’acqua.

Data Mining e Predictive Analytics sono, ad oggi, temi caldi perché consentono di prendere decisioni strategiche operative, tecnologiche e di business che tengono conto anche dei possibili scenari futuri. Tenete a mente queste due parole, ne sentirete parlare per molto a lungo.

-> Vai al post sulla previsione del limite fisico di Bolt

-> Vai all’approfondimento sulla “fisica del cucchiaio” e il moto parabolico

Share
Questa voce è stata pubblicata in Scienza oggi e contrassegnata con , , , , , , , , , . Contrassegna il permalink.

2 risposte a Data Mining: la palla di vetro del terzo millennio ?

  1. Pingback: Un modello predittivo del numero di visitatori: il caso di Lucca Comics & Games | LidiMatematici

  2. Pingback: Decisioni strategiche e Predictive Analytics: un caso d’uso | LidiMatematici

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *