La matematica del pregiudizio

Le nuove figure professionali di Data Scientist svolgono un compito particoalre: sono di fatto “addestratori” di macchine calcolatrici che “imparano”  un modello rappresentativo della realtà.

Fino ad un decennio fa, nel mondo del software prodotto industrialmente non si poteva parlare di un vero e proprio processo di apprendimento, ma di programmazione. L’ “addestratore”, in quel caso, era appunto un programmatore che istruiva il calcolatore ad eseguire una serie di compiti mediante un linguaggio formale, ben strutturato, per la definizione della catena di operazioni da far eseguire alla macchina. Il processo di esecuzione in passaggi successivi, o algoritmo, ancor oggi, è ampiamente in uso nella gran parte della produzione industriale e amatoriale di software.

L’addestramento, tuttavia, è frutto di una sequenza di operazioni radicalmente diverse: la macchina non viene programmata con istruzioni dirette, ma “impara” in autonomia osservando una grande quantità di dati.

Le operazioni eseguite dal Data Scientist non sono mirate, quindi, alla programmazione della macchina, ma alla produzione dei dati con cui questa si “autoaddestra”, alla loro pulizia ed aggregazione in modo da massimizzare l’efficienza del processo di apprendimento, alla esecuzione dell’apprendimento e, infine, alla valutazione dell’apprendimento attraverso un pool di indicatori appositamente progettato.

Torneremo in articoli successivi sul processo di addestramento e sullo standard metodologico industriale che la regolamenta, il CRIPS-DM o Cross Industry Standard Process for Data Mining, concentrandoci in questa sede su un aspetto specifico del processo di apprendimento: poiché le macchine apprendono dai dati, quindi osservando la realtà che le circonda, è possibile che sviluppino una forma “digitale” di distorsione della propria visione della realtà, in altri termini che soffrano di pregiudizio?

E se è così, è possibile misurare il pregiudizio? Esistono dei test statistici che consentono di intercettare l’insorgere del pregiudizio prima ancora che questo insorga?

Il “pregiudizio” delle macchine è un fenomeno definito in modo piuttosto esatto, matematicamente parlando, ed è una caratteristica del processo di apprendimento che il Data Scientist evita accuratamente, rilevandone addirittura in anticipo la possibile insorgenza.

In modo del tutto analogo all’apprendimento umano, il calcolatore si autoaddestra osservando un fenomeno di interesse e, contemporaneamente, altri fenomeni concomitanti. Ad esempio, supponiamo di voler intercettare un crimine prima che venga commesso, la decisione è in questo caso “binaria”, deicidiamo che l’evento in corso sarà un crimine secondo una classificazione in due stasti possibili: SI, è un crimine, NO non è un crimine.

Per prendere questa decisione dobbiamo stabilire un processo globale di rilevazione dei crimini passati e, contemporanamente, di altre caratteristiche correlate al crimine stesso, come ad esempio il luogo ove viene commesso, la nazionalità del soggetto che perpetra l’azione, il colore della pelle, aspetti comportamentali, anagrafici, sociali e così via. Tutte queste informazioni devono essere necessariamente essere rappresentabili mediante un insieme di valori definiti, come ad esempio “32” per l’età, “BIANCA” per il colore della pelle e così via.

Costruiamo quindi un insieme di fatti accaduti nel passato corredati delle variabili che svolgono il ruolo di predittori (sesso, anagrafica, etc) e della variabile obiettivo (crimine SI/NO).

Il processo di costruzione dei predittori è a sua volta piuttosto articolato, e va sotto il nome di Feature Extraction, ovvero di costruzione dei predittori e Feature Selection o di selezione di quel pool di predittori che -effettivamente- concorre con maggior probabilità determinare la variabile obiettivo.

Si conduce quindi l’addestramento su una selezione di dati opportunamente bilanciata tra crimini e non crimini, diciamo per semplicità al 50%, per poi valutare l’addestramento in base alla capacità di prevedere crimini noti ma che non sono stati utilizzati per addestrare il nostro modello predittivo. Sulle tecniche di Bilanciamento e Partizionamento dell’insieme di addestramento o Training Set, nonché su quelle di Valutazione dell’addestramento torneremo in un post successivo per non appesantire troppo la trattazione.

Tutti questi passaggi sono ovviamente cruciali per la costruzione di un processo di addestramento affidabile, ma è sicuramente fondamentale costruire un Traning Set in modo che sia rappresentativo del fenomeno che si vuole studiare.

Sarebbe bello infatti poter addestrare il nostro modello, o poter basare le nostre decisioni sulla totalità dei fatti a disposizione, sfortunatamente questo è impossibile per via della enorme quantità di informazioni che saremmo costretti ad analizzare. Immaginate, ad esempio, di volervi formare una opinione su un certo fatto di cronaca pretendendo, prima, di leggere tutti i giornali e tutti i libri sul tema.

Analoga osservazione vale per l’addestramento dei modelli: siamo costretti a ridurre il pool di informazioni su cui baseremo il nostro Training Set. Anche questo processo, detto di Campionamento, ha una definifizione matematica ed operativa rigorosa.

Quando siamo costretti a campionare siamo necessariamente forzati a scegliere un sottoinsieme di dati, correndo il rischio che questo sottoinsieme non sia sovrapponibile alla totalità dei dati a disposizione o, in altri termini, di ottenere un campione non rappresentativo.

Come facciamo a sapere quando un campione non è rappresentativo? Supponiamo di fornire al nostro modello solamente crimini commessi da persone provenienti da una certa area geografica. I dati così costruiti saranno caratterizzati da un dato di variabilità estremamente basso.

Quando una o più variabili non sono distribuite in modo analogo a quello della popolazione generale il primo effetto immediato è la diminuzione delle statistiche che indicano il grado di dispersione del campione, in altri termini bassa varianza.

Ma che succede se addestriamo il nostro modello su un insieme di dati tutto uguale, con bassa varianza? La macchina imparerà che una delle caratteristiche distintive del predittore, rispetto all’obiettivo, è preminente e produrrà quindi la convinzione che l’essere criminale sia legato alla provenienza da quella specifica area geografica. Questa convinzione è però errata, perché l’addestramento è stato condotto su un sottoinsieme di dati selezionato in modo non rappresentativo della popolazione generale, fenomeno che va sotto il nome di rumore di selezione, o Selection Bias.

Le conseguenze del Selection Bias possono essere piuttosto serie: questa immagine, tratta dallo studio Selection bias, interventions and outcomes for survivors of cardiac arrest, ne mostra un esempio lampante.

In statistica un aggregato di individui aventi caratteristiche simili, è detto coorte. Nello studio si prende una coorte (A) di individui che sono sopravvissuti ad un arresto cardiaco e, di questi, si esamina il rapporto a lungo termine tra il numero di sopravvissuti, di morti per cause non cardiovascolari e per cause cardiovascolari. La coorte viene suddivisa in due ulteriori coorti, di persone che abbiano subito un intervento (B) di cardiochirurgia per impiantare uno stent e che non hanno ricevuto l’impianto (C).

Analizzando gli esiti a lungo termine, si osserva il paradosso per cui la coorte B di individui che ha subito l’impianto di uno stent ha un rapporto tra i morti per cause cardiocircolatorie e morti per cause non cardiocircolatorie di tre volte superiore che non nella coorte C che non ha subito lo stesso intervento. Un apprendimento errato di questo schema porterebbe a pensare che l’impianto di stent aumenti il rischio di morte cardiovascolare: una conclusione  affetta da selection bias perché si basa sulla selezione preventiva di tutti gli individui morti, appunto bassa varianza sulla variabile che indica lo stato di esistenza in vita. Nella popolazione generale questo dato ha invece due stati con un rapporto ben diverso tra di loro.

Bassa varianza e alto selection bias sono fenomeni che vanno “a braccetto” e che precludono con certezza la capacità di previsione del modello, o più generalmente la sua capacità di essere utilizzato nel mondo reale. Un classificatore addestrato su dati che soffrono di selection bias non è utilizzabile sulla popolazione generale perché, tipicamente, sosterrebbe che tutti coloro che vengono da quella area geografica su cui è stata compressa la selezione dei dati di addestramento, sono criminali, tornando al nostro esempio sulla prevenzione del crimine.

I limiti di un modello addestrato in questo modo emergono immediatamente: sottoposto ad un campione generale non riesce a decidere correttamente, o perlomeno riesce a farlo solo in un numero limitato di casi (underfitting).

E’ importante notare che anche una altissima varianza e un bassissimo rumore di selezione non garantistcono che il modello funzioni bene sempre. In questo caso il classificatore che abbiamo addestrato è bravissimo a spiegare i dati di addestramento (overfitting), ma quando viene confrontato con dati reali sbaglia in modo evidente.

Il caso della bassa varianza, selection bias ed underfitting è la classica condizione assimilabile al pregiudizio umano: le convinzioni maturate non sono basate su un rilevamento del dato completo, ma polarizzato da un processo di rilevazione del dato che lo rende distorto, tutto concentrato su una caratteristica specifica.

E’ interessante notare che, in questo senso, il futuro che ci attende lascia intravedere un pericolo. Secondo recenti ricerche, pubblicate su questo stesso blog, il fenomeno del rumore di selezione o pregiudizio umano è ulteriormente rinforzato dal fatto che le persone tendono a rigettare i dati oggettivi che confutano il “pregiudizio” già formato. Viceversa, le macchine non hanno dinamiche interne che le portano a scartare informazioni utili al processo di addestramento.

Si profila, quindi, un futuro in cui le macchine saranno sempre più “intelligenti”, nel senso di saper capitalizzare al massimo la diversità del patrimonio informativo e la grande massa sempre più selettiva nello ricevere dati che confutino il proprio punto di vista.

Ma è proprio la “matematica del pregiudizio” che ci aiuta a capire quando corriamo questo rischio: quando rileviamo informazioni eccessivamente omogenee, monotematica e polarizzate su un aspetto specifico, esattamente come fa il Data Scientist con i propri modelli, dobbiamo inizare a porci qualche domanda.

E, umilmente, agire di conseguenza.

 

-> Vai agli approfondimenti sul Data Mining, Predictive Analytics e Machine Learning

-> Vai allo studio originale sullo Stent

Share
Questa voce è stata pubblicata in Scienza oggi, Teoria e Pratica e contrassegnata con , , , , , , , , . Contrassegna il permalink.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *