Breve guida ai dati campionari

Campionamento

 

Ho pensato di scrivere questa breve guida per provare a spiegare in parole molto semplici cosa sono i dati campionari e l’inferenza e perché quando si parla di campionamento è sempre importante fare molta attenzione all’affidabilità dei risultati riportati.

Statistica descrittiva ed inferenziale. Iniziamo da un concetto molto generale: la statistica si divide in due branche fondamentali, la statistica descrittiva e la statistica inferenziale. Nella statistica descrittiva i dati descrivono esattamente il fenomeno di cui si occupano e sono completi. Supponiamo ad esempio che io raccolga una serie di informazioni su tutti gli studenti della Bicocca; se utilizzo questi dati per parlare dell’università Bicocca sto facendo statistica descrittiva. Ma se la mia ambizione è più alta, se voglio partire dai risultati della Bicocca per parlare degli studenti delle università milanesi, o addirittura degli studenti italiani, allora sto facendo statistica inferenziale. L’inferenza entra in campo ogni volta che siamo interessati ad una popolazione (ad esempio gli studenti italiani) ma disponiamo solamente di un sottoinsieme di questa popolazione, un campione (ad esempio gli studenti della Bicocca), per poter studiare il fenomeno che ci interessa.

Perché il campione? Non è difficile intuire che la statistica inferenziale è una cosa molto delicata. Sarebbe bello poter disporre di dati completi su tutti i fenomeni che ci interessano, ma questo molto spesso non è possibile. Le ragioni possono essere molte: una e molto comune è la mancanza di tempo e denaro. Prendiamo ad esempio le informazioni generali sulla popolazione italiana: ogni 10 anni viene effettuato un censimento completo di tutta la popolazione, che richiede una grande quantità di denaro pubblico e la collaborazione di tutti i cittadini; tuttavia non si può pensare di avere informazioni sulla popolazione solo una volta ogni 10 anni: per questa ragione l’Istat conduce altre indagini campionarie tra i censimenti (intercensuarie) verificando la variazione dei risultati ottenuti col censimento. Oltre ai vincoli concreti, come appunto il tempo e il denaro, a volte si decide di ricorre a dati campionari perché non esistono alternative possibili. Prendiamo ad esempio i test su nuovi farmici: non si può pensare di sottoporre tutta la popolazione ad ogni nuovo farmaco prima che venga immesso nel mercato. Necessariamente si ricorre ad un campione, che deve essere il più possibile rappresentativo dell’intera popolazione.

Metodi di campionamento. E’ credo ovvio a questo punto che se si deve ricorrere ad un campione, il campione deve somigliare il più possibile alla popolazione su cui si vorrebbero informazioni. I metodi che assicurano la maggiore rappresentatività di un campione sono principalmente due: una numerosità sufficiente e l’estrazione casuale dei soggetti. Potrebbe sembrare più ragionevole costruire a tavolino un campione simile alla popolazione, e questo in parte viene fatto, tramite la stratificazione del campione, ossia la sua costruzione in modo che alcune determinate caratteristiche siano rappresentate nelle giuste proporzioni (ad esempio, 50% uomini, 50% donne). Tuttavia esagerare con la stratificazione non è una buona idea: infatti la stratificazione pone dei limiti alla casualizzazione, cioè lascia il caso meno libero di agire. La stratificazione permette di considerare soltanto le caratteristiche che appaiono importanti al ricercatore che costruisce il campione; l’estrazione casuale, invece, se il campione è abbastanza grande, fa sì che tutte le caratteristiche della popolazione vengano rappresentate più o meno nella loro giusta proporzione. Più sono i vincoli che la stratificazione impone, meno il caso è lasciato libero di far emergere la struttura sottostante ai fenomeni che studiamo.

Stime e stimatori. Una volta che è stato costruito il campione e sono stati raccolti i dati, è necessario capire se e quanto i dati raccolti sono rappresentativi dell’intera popolazione. A seconda di come è stato costruito il campione la statistica mette a disposizione molti strumenti matematici per controllare le distorsioni nella rappresentatività, ed infine, tramite formule di sintesi chiamate stimatori, produce delle stime, valori presunti nella popolazione d’interesse. Ad esempio un certo numero di disoccupati viene osservato nel campione dell’Istat, costruito in un certo modo, con determinati criteri. Tramite una serie di operazioni viene perciò stimato il numero di disoccupati nella popolazione italiana. A questa stima (cosa spesso dimenticata) viene sempre associato un errore di stima, ossia una misura di quanto la stima è imprecisa, in ragione della struttura del campione e della variabilità del fenomeno osservato. Oltre all’errore di stima viene spesso fornito un intervallo di confidenza, ossia un intervallo di valori all’interno del quale si presume possa trovarsi il vero valore del fenomeno d’interesse. La statistica, dunque, non solo cerca di essere precisa, ma addirittura fa un’autocritica e fornisce da sola una misura del proprio errore!

Inferenze inaffidabili. Tutta questa storia di cui ho parlato richiede molta competenza tecnica, tempo, denaro e una grande conoscenza del calcolo delle probabilità. Supponiamo appunto di essere interessati all’Italia: già solo estrarre casualmente e mettersi in contatto con un campione di almeno qualche migliaio di persone rappresenta una difficoltà tecnica non da poco, a cui va aggiunta la complessità della costruzione matematica di stimatori adeguati e dunque di stime con associati i relativi errori. Per questo molte volte vengono proposte, soprattutto da non statistici, soluzioni molto casalinghe, con ambizioni però un po’ troppo elevate. Il sondaggio d’opinione di un giornale, ad esempio, è una cosa assolutamente degna di rispetto, se i risultati vengono interpretati in maniera descrittiva: il 30% dei lettori di X che hanno risposto alla domanda preferirebbero l’opzione A. Non ha però nessun valore inferenziale! Come si può, partendo da un risultato del genere, dire che 30% degli italiani preferirebbero A? Chi ha interpellato gli italiani? Dove è la garanzia di rappresentatività del campione? Chi risponde ad un sondaggio tendenzialmente ha letto il supporto in cui il sondaggio è pubblicato, dunque appartiene al target degli interessati a quel tipo di giornale. Non c’è casualizzazione (chi risponde si sceglie da sè), non c’è un numero sufficiente e non c’è nessuno sforzo di inferenza. Il problema dunque non è nel sondaggio in sè, legittimo, ma nella ambizione di comunicare i risultati per quello che non sono, ovvero stime sulla popolazione.

I dati su DataLampPost. Per quanto mi riguarda, costruire castelli di ipotesi e riflessioni partendo da dati inaffidabili è semplicemente inutile. Come spero di aver fatto capire, i dati descrittivi o censuari non rappresentano mai un problema: vogliamo parlare degli stipendi dei parlamentari e abbiamo i dati sugli stipendi dei parlamentari, serenità. Ma se vogliamo parlare della crisi dei consumi nel 2013 ed il censimento dei consumi ancora non esiste, allora un problema sull’affidabilità dei dati c’è e bisogna porselo. La mia risposta è che quasi sempre solo i grandi istituti nazionali e internazionali sono in grado di produrre statistiche campionarie affidabili. Per questo tendo a preferire l’Istat, la Banca d’Italia, le Nazioni Unite e così via alle altre fonti, quando i loro dati sono disponibili. Ed in ogni caso cerco di dare un’occhiata tanto al piano campionario quanto ai questionari utilizzati, se sono disponibili. L’arrivo di internet ed il boom degli open data hanno reso pubblica un’enorme mole di dati, per cui il problema dell’affidabilità dei dati campionari è meno frequente che in passato. In ogni caso un occhio al rigore fa sempre bene.