Statistica di base: il percorso per descrivere i dati

Prima ancora di chiederci se un effetto è reale, dobbiamo saper guardare i dati per quello che sono: quante visite, quanto tempo sulla pagina, quante conversioni per canale. È un gesto apparentemente banale, eppure è qui che si gioca la differenza tra chi prende decisioni informate e chi tira a indovinare. La statistica di base è esattamente questo mestiere preliminare: mettere ordine in un mucchio di numeri, descriverli senza tradirli, e cominciare a ragionare sull’incertezza che ogni misura porta con sé. Non è la parte spettacolare — non ci sono ancora i test, né gli esperimenti — ma è la parte senza la quale tutto il resto poggia sul vuoto.

Impararla bene, però, non significa collezionare definizioni sparse. Significa percorrere una strada che parte dal capire come sono fatti i dati che abbiamo davanti, attraversa i modi corretti per riassumerli in pochi numeri sensati, sfiora i primi rudimenti della probabilità — il linguaggio con cui parliamo di ciò che è incerto — e arriva al ponte che porta verso la statistica vera e propria: il passaggio dal campione che osserviamo alla stima di ciò che non vediamo.

Questa pagina è quella strada, ordinata. Non rispieghiamo qui la teoria: ogni tappa è un articolo del blog, e l’ordine in cui li abbiamo messi è l’ordine in cui conviene leggerli. Chi parte da zero può seguirli in sequenza, dal primo all’ultimo; chi ha già qualche base può saltare al gruppo che gli serve. Le tre sezioni che seguono — descrivere i dati, i primi passi nella probabilità, e infine il passaggio dal campione alla stima — sono i tre movimenti di uno stesso percorso, pensato per chi vuole costruirsi le fondamenta prima di affrontare i test e gli A/B test. Cominciamo da dove comincia ogni analisi: dai dati stessi.

Descrivere i dati

Prima di qualsiasi calcolo viene la domanda più trascurata: che tipo di dato abbiamo tra le mani? Un colore, un voto, una temperatura e un fatturato non si trattano allo stesso modo, e confonderli porta a medie che non significano nulla.
Riassumere i dati senza prima averli capiti è il modo più rapido per ottenere numeri precisi e sbagliati.

Le scale di misura sono il punto di partenza non negoziabile. Spiegano la differenza tra dati nominali, ordinali, a intervalli e di rapporto — cioè tra ciò che possiamo solo etichettare, ciò che possiamo ordinare, e ciò su cui ha senso fare somme e medie. È la distinzione che decide quali strumenti potremo usare in tutte le tappe successive: sbagliarla all’inizio significa trascinarsi l’errore fino alla fine.

Le misure di posizione rispondono alla domanda più naturale che facciamo a un insieme di numeri: dov’è il centro? Media, mediana e moda sembrano sinonimi e non lo sono affatto; ciascuna racconta una storia diversa, e scegliere quella giusta — la mediana quando ci sono valori estremi, per esempio — è ciò che separa una sintesi onesta da una fuorviante.

Le misure di dispersione completano il ritratto spostando l’attenzione dal centro alla larghezza. Due insiemi di dati possono avere la stessa media e comportarsi in modo opposto: la varianza e la deviazione standard misurano quanto i valori si allontanano dal centro, ed è proprio questa variabilità — non la media — il cuore di tutto ciò che verrà dopo, dai test agli intervalli di confidenza.

L’indice di Gini chiude la sezione con uno strumento più specifico ma prezioso: misura quanto una grandezza è concentrata o distribuita in modo diseguale. Nato per studiare la disuguaglianza dei redditi, torna utile ogni volta che vogliamo sapere se poche pagine, pochi prodotti o pochi clienti pesano sproporzionatamente sul totale. È un primo assaggio di come un singolo numero possa catturare la forma di un’intera distribuzione.

I primi passi nella probabilità

Descrivere ciò che è già successo è metà del lavoro; l’altra metà è ragionare su ciò che potrebbe succedere. La probabilità è il linguaggio dell’incertezza, e senza un suo abbozzo i test statistici restano formule applicate alla cieca.
Ogni affermazione statistica su un campione è, sotto la superficie, un’affermazione sulla probabilità: imparare a maneggiarla è ciò che rende difendibili le conclusioni.

La probabilità, le permutazioni e le combinazioni sono il primo mattone. Qui si impara a contare in modo ordinato — in quanti modi possono disporsi gli elementi di un insieme, e quando l’ordine conta o non conta — perché calcolare una probabilità significa, quasi sempre, contare i casi favorevoli sui casi possibili. Sembra una digressione combinatoria, ed è invece la base di tutto il ragionamento probabilistico.

Le tabelle di contingenza e la probabilità condizionata portano la probabilità sul terreno concreto dei dati incrociati. Quando mettiamo in relazione due caratteristiche — il canale di provenienza e la conversione, per esempio — la domanda interessante non è quanto è probabile un evento in assoluto, ma quanto è probabile dato un altro. È il concetto che sta dietro a buona parte delle analisi di marketing, e capirlo qui evita errori grossolani più avanti.

Dal campione alla stima

Arriviamo al ponte. Finora abbiamo descritto i dati che abbiamo; ora ci chiediamo cosa possiamo dire, a partire da quel poco, su ciò che non abbiamo misurato — la popolazione intera, l’effetto vero.
Questa sezione raccoglie le tappe che trasformano la statistica descrittiva in qualcosa che guarda oltre il campione, e che apre la porta all’inferenza vera e propria.

Il teorema del limite centrale è il risultato che rende possibile tutto il salto. Spiega perché, mediando tante piccole variazioni casuali, otteniamo quella curva a campana che ricompare ovunque, ed è il motivo per cui possiamo dire qualcosa di sensato su una popolazione enorme guardando un campione modesto. È, allo stesso tempo, l’ultima tappa delle fondamenta e la prima dell’inferenza.

Gli intervalli di confidenza sono la traduzione pratica di quell’idea. Invece di una stima secca — “la media è 3,2” — ci danno un intervallo plausibile per il valore vero, dichiarando onestamente quanta incertezza ci portiamo dietro. Capire come si costruiscono, e soprattutto cosa non vogliono dire, è ciò che separa chi legge un numero da chi lo sa interpretare.

Il campionamento e la dimensione campionaria chiudono il cerchio rispondendo alla domanda più pratica di tutte: quanti dati servono davvero? Raccogliere un campione rappresentativo, e sapere in anticipo quanto deve essere grande per dire qualcosa di solido, è la competenza che distingue un’analisi progettata da una improvvisata — ed è esattamente il punto da cui parte il percorso successivo, quello dell’inferenza.

Da dove cominciare

Se questo è il primo contatto con la materia, il punto d’ingresso è uno solo: le scale di misura e, subito dopo, le misure di posizione. Sono le due tappe da cui tutto il resto prende senso: finché non sappiamo che tipo di dato abbiamo e dove ne cade il centro, ogni calcolo successivo rischia di poggiare sul vuoto. Affrontate le altre fuori sequenza, prima o poi, si torna sempre lì.

Questo è uno dei percorsi tematici che stiamo costruendo per orientarsi tra gli articoli del blog: la statistica di base è il punto di partenza, la cassetta degli attrezzi da cui ogni altro percorso, presto o tardi, finisce per attingere. Il passo naturale successivo, una volta solide le fondamenta, è il percorso dedicato alla statistica inferenziale: è lì che il salto dal campione alla popolazione diventa il mestiere vero e proprio dei test e degli esperimenti.