Stats checking: quando i dati (riferiti) sono sbagliati

Stats checking intro

Come un ingegnere nota un errore strutturale in un palazzo e pensa “Ma questo non può tenere in piedi!”, così, come statistica, a volte sento affermazioni sui dati (da giornalisti, politici, riviste..) e penso “Ma questa cosa non tiene proprio in piedi!”. Così è nata l’idea per una nuova sezione di questo blog, in cui, partendo da un’affermazione sui dati realmente fatta da qualche personaggio pubblico, provo approfondire perché non tiene in piedi. Dopo aver scritto il primo articolo di Stats checking (lo vedrete molto presto), mi sono resa conto che qualche passaggio sarebbe potuto essere poco comprensibile o fraintendibile. Eccomi qui dunque per spiegare che scopo vuole avere questa sezione e quale scopo, invece, non vuole avere.

Gli articoli ovviamente inizieranno con l’affermazione incriminata, comprensiva di chi l’ha pronunciata, e saranno seguiti dalla spiegazione del perchè quell’affermazione è sbagliata. Quello che non vorrei è che la smentita di una frase singola si trasformi in un atto di accusa nei confronti di chi l’ha pronunciata (tizio ha detto una cosa sbagliata dunque tizio è inaffidabile). Sarebbe un po’ paradossale, infatti, correggere un errore sui dati per commetterne un altro: utilizzare una sola affermazione sbagliata per fare deduzioni sull’affidabilità della persona [per poterlo fare servirebbero un gran numero di affermazioni raccolte e analizzate in maniera non distorta. Io non ho il tempo e i mezzi per poterlo fare, ma Pagella Politica fa proprio questo, e benissimo]. Peraltro ricordiamo sempre, prima di fare i lapidatori, che con i numeri è semplice confondersi.

In questa sezione, l’utilizzo di una frase è in qualche modo un ancora, un hook, un’occasione per entrare nel merito di un dato statistico che evidentemente è stato frainteso, per capire dove si trova l’errore e cosa i numeri effettivamente dicono. A questo proposito, è bene tenere a mente che ci sono due tipi di errori relativi ai dati che possono essere fatti, e che talvolta vanno a braccetto insieme.

Il primo è l‘errore numerico: tizio dice che l’Italia è il primo paese al mondo per consumo di caffè – ad esempio – ma questo non è vero, perché l’Italia è il 7′. A questo proposito ci tengo a sottolineare che l’idea che numeri e percentuali possono essere sparati a caso, tanto sono impossibili da verificare, è assolutamente falsa. La matematica non è un’opinione, e i numeri sono sempre verificabili. Se sono sbagliati, sono sbagliati, e la prima cosa che verificheremo in questo Stats checking è che il numero proposto sia giusto.

Il secondo errore, invece, è l‘errore di interpretazione. Gli errori di interpretazione sono quasi sempre dovuti al fatto che chi parla o scrive non conosce il processo con cui si è arrivati alla definizione del numero di cui sta parlando, ed ignorandolo ne interpreta male il significato. Alcuni dati, ad esempio, vanno commentati con cautela, perché riguardano fenomeni difficili da monitorare e fortemente soggetti ad errori di misurazione. Pensiamo ad esempio a dati su fenomeni sommersi, come il lavoro nero o l’evasione, a ricerche condotte con una numerosità campionaria molto ridotta, a dati soggetti a distorsioni “politiche”, come ad esempio in paesi sottoposti a regime: in casi come questi, tutti i commenti devono essere molto cauti, e alcune conclusioni troppo nette finiscono per essere sbagliate.

Altri dati – e queste sono il vero tallone d’Achille dei commentatori – non rappresentano fenomeni concreti e univocamente determinabili, ma sono definite da indicatori che cercano di individuare confini o di sintetizzare insieme più informazioni. Se dovessi chiedere a ciascuno di voi: “Quanti figli hai?” non avreste dubbi sulla risposta: i figli sono un fenomeno chiaramente definito. Ma se dovessi chiedervi: “Da uno a dieci, qual’è il livello di qualità della scuola elementare che hai frequentato?”, dovreste ripensare a molte cose: alle vostre insegnanti, alla qualità delle lezioni, alla sicurezza dell’edificio, per mettere insieme più informazioni e tirare fuori un numero che più o meno tenga conto di tutto – ad esempio un 7. Spesso nella nostra società abbiamo bisogno di costruire questi delicati indicatori aggregati, per comprendere meglio i fenomeni, per decidere come allocare i fondi che abbiamo (ad esempio, finanziamenti o premi di merito), per prendere decisioni strategiche. Ma quando valutiamo quel numero – il vostro 7 – dobbiamo capire cosa effettivamente indica. Quale peso avete dato alla sicurezza dell’edificio, rispetto alla qualità dell’insegnamento? Avete considerato se ci fosse un servizio di mensa nella vostra valutazione? Comprendere cosa indica effettivamente un indicatore non è semplice, così qualche volta (spesso) si commentano i numeri senza capire cosa c’è dietro: metà della popolazione è povera, gli immigrati ci tolgono il lavoro e l’inquinamento del Fantabosco è maggiore di quello di Città! Ma spesso gli indicatori di cui parliamo stanno dicendo tutt’altro: nella seconda fase del nostro Stats checking verificheremo come andrebbe interpretato quello specifico dato e se sia stato interpretato correttamente.

In conclusione, nella sezione di Stats checking proveremo a partire da dati che sono stati fraintesi per capire dov’è l’errore, cosa dicono realmente i numeri e perché, evitando giudizi affrettati sulla persona, l’ente o la rivista che ha commesso l’errore. Dunque, a prestissimo con il primo articolo!