Statistica inferenziale: il percorso completo, dai test agli A/B test

Ogni volta che guardiamo un numero salire o scendere — le conversioni di una landing, il tempo sulla pagina, il tasso di apertura di una mail — ci poniamo, più o meno consapevolmente, una sola domanda: questo effetto è reale, oppure è solo il caso che si è messo in posa per la foto? La statistica inferenziale nasce esattamente da qui. È l’arte di passare da quel poco che osserviamo — un campione, qualche settimana di dati, due varianti di una pagina — a un’affermazione difendibile su ciò che non possiamo vedere: la realtà di fondo, la popolazione intera, l’effetto vero. Senza questo passaggio la SEO e il marketing restano, come abbiamo scritto altrove, un armamentario di trucchi: si guarda un numero e si decide a naso.

Imparare la statistica inferenziale, però, non significa accumulare formule sparse. Significa percorrere una strada che parte dal capire perché dai campioni si possa inferire qualcosa, attraversa i test che mettono alla prova le nostre ipotesi, impara a cavarsela quando i dati non rispettano le regole del manuale, e arriva fino agli esperimenti controllati — gli A/B test — che restano il modo più pulito di stabilire se una nostra mossa funziona davvero.

Questa pagina è quella strada, ordinata. Non rispieghiamo qui la teoria: ogni tappa è un articolo del blog, e l’ordine in cui li abbiamo messi è l’ordine in cui conviene leggerli. Chi parte da zero può seguirli in sequenza, dal primo all’ultimo; chi ha già delle basi può saltare al gruppo che gli serve. Le quattro sezioni che seguono — le fondamenta, i test classici, i casi in cui i dati non collaborano, e infine la misura e la sperimentazione — sono i quattro movimenti di uno stesso percorso. Cominciamo dalle fondamenta.

Le fondamenta

Prima dei test serve capire su cosa poggiano. Le tre tappe di questa sezione rispondono alle domande di base: perché un campione possa dirci qualcosa sulla popolazione, come si formula un’ipotesi e la si mette alla prova, e come si quantifica l’incertezza di una stima.
Sono i mattoni su cui regge tutto il resto: saltarle significa usare i test senza sapere cosa promettono davvero.

Il teorema del limite centrale è il punto di partenza non negoziabile. Spiega perché, sommando o mediando tante piccole variazioni casuali, otteniamo quella curva a campana che ritorna ovunque in statistica. È il motivo per cui possiamo dire qualcosa di sensato su una popolazione enorme guardando un campione modesto, ed è la base teorica di quasi tutti i test che verranno dopo.

Il test delle ipotesi è la procedura logica con cui trasformiamo la domanda “questo effetto è reale?” in qualcosa di decidibile. Qui si imparano i concetti che torneranno in ogni articolo successivo: ipotesi nulla, p-value, soglia di significatività, e cosa significhi (e cosa non significhi) “rifiutare l’ipotesi nulla”. È la grammatica di tutto il percorso.

Gli intervalli di confidenza completano il quadro spostando l’attenzione dal sì/no del test alla misura dell’incertezza. Invece di una risposta secca, ci danno un intervallo plausibile per il valore vero. Capire come si costruiscono — e soprattutto cosa non vogliono dire — è ciò che separa chi legge un numero da chi lo sa interpretare.

I test classici

Con le fondamenta a posto, si entra nella cassetta degli attrezzi vera e propria. Questa sezione raccoglie i test che si incontrano nel 90% dei casi reali: confrontare due medie, capire se due caratteristiche sono associate, mettere a confronto più gruppi insieme.
Ogni test ha il suo campo d’uso, e la difficoltà non è il calcolo — quello lo fa il software — ma scegliere lo strumento giusto per la domanda giusta.

La distribuzione t e il test delle ipotesi è il primo passo concreto. Quando i campioni sono piccoli e non conosciamo la variabilità vera della popolazione, la curva a campana non basta più: serve la distribuzione t, un po’ più prudente perché tiene conto di quanto poco sappiamo. È il ponte tra la teoria delle fondamenta e i test applicati.

Il t-test per due campioni è probabilmente il test più usato di tutti: serve a stabilire se due gruppi hanno medie davvero diverse. Qui si impara la distinzione cruciale tra campioni dipendenti e indipendenti — la stessa pagina misurata prima e dopo, oppure due pagine diverse — perché sceglierne la versione sbagliata falsa il risultato.

Il test del chi quadrato cambia tipo di dato: non più medie, ma conteggi e categorie. Serve a capire se due caratteristiche sono associate — il canale di provenienza e la conversione, per esempio — oppure se una distribuzione osservata si scosta da quella attesa. È lo strumento d’elezione quando i nostri dati sono tabelle di frequenze.

L’analisi della varianza (ANOVA) estende il confronto a più di due gruppi in un colpo solo. Quando le varianti da testare sono tre, quattro o più, ripetere tanti t-test a coppie è un errore: l’ANOVA è la risposta corretta, e capirne la logica è il passo che porta dai test elementari a quelli più strutturati.

Quando i dati non collaborano

I test classici poggiano su un’assunzione comoda ma fragile: che i dati seguano, almeno all’incirca, la curva a campana. Nella realtà operativa capita spesso che non sia così — distribuzioni storte, valori anomali, scale ordinali.
Questa sezione affronta quel territorio: come riconoscere quando le condizioni dei test parametrici non reggono, e quali strumenti usare al loro posto senza rinunciare al rigore.

Test statistici parametrici e non parametrici è la mappa concettuale di questo bivio. Spiega cosa assume davvero un test parametrico, come si capisce se quelle assunzioni sono soddisfatte, e perché in molti casi reali conviene affidarsi a metodi che non chiedono nulla sulla forma della distribuzione. È il passo che insegna a non applicare un test a occhi chiusi.

Il test di Wilcoxon è l’alternativa concreta al t-test quando i dati non sono normali. Invece dei valori grezzi lavora sui loro ranghi, e questo lo rende robusto agli outlier e alle distribuzioni storte. Sapere quando preferirlo al t-test è una competenza che, nella pratica quotidiana, fa la differenza tra una conclusione solida e una fragile.

Misurare e sperimentare

Arriviamo al cuore operativo: non basta sapere se un effetto esiste, dobbiamo sapere quanto è grande e come progettare un esperimento che lo misuri onestamente.
Questa sezione raccoglie le tappe che portano la statistica inferenziale dentro il lavoro quotidiano di chi fa SEO e marketing — gli A/B test — e include due calcolatori pronti all’uso e l’insidia più sottile in cui si cade dopo aver imparato tutto il resto.

Effect size e power analysis sposta il discorso da “è significativo?” a “quanto conta, e quanti dati mi servono per accorgermene?”. L’effect size misura l’ampiezza reale di un effetto, la power analysis dice quanto campione serve per coglierlo. È il passaggio che distingue un esperimento progettato da uno improvvisato.

La guida ai test statistici per analisi A/B tira le fila di tutto il percorso applicandolo al caso che interessa di più chi lavora nel digitale. Mostra come scegliere il test giusto a seconda del tipo di metrica — conversioni, tempi, valori medi — e collega gli strumenti visti finora a una decisione concreta di marketing.

L’A/B testing è la disciplina degli esperimenti controllati: due varianti, l’assegnazione casuale, il confronto rigoroso. Qui si vede come tutto il percorso — campionamento, ipotesi, test, effect size — converge nel metodo più pulito per stabilire se una modifica funziona davvero invece di affidarsi all’opinione.

Per non rifare i conti a mano ogni volta, due strumenti pratici accompagnano questa fase. Il calcolatore di sample size per A/B test risponde alla domanda da fare prima di lanciare un test: quanti visitatori servono per cogliere una differenza di una certa ampiezza con la certezza voluta. Il calcolatore di significatività per A/B test interviene invece dopo: dati i numeri raccolti, dice se la differenza osservata tra le due varianti è statisticamente solida o compatibile con il caso.

C’è infine un’ultima insidia, e arriva proprio quando crediamo di avere tutto sotto controllo. Il peeking problem mostra come sbirciare i risultati di un A/B test prima della fine — fermandosi appena il dato ci dà ragione — gonfi silenziosamente i falsi positivi, anche se ogni singolo test è fatto a regola d’arte. È la tappa che insegna a diffidare della propria fretta: il momento in cui si decide di guardare conta quanto il risultato che si vede.

Da dove cominciare

Se questo è il primo contatto con la materia, il punto d’ingresso è uno solo: il teorema del limite centrale e, subito dopo, il test delle ipotesi. Sono le due tappe da cui tutto il resto prende senso; affrontate le altre fuori sequenza, prima o poi, si torna sempre lì.

Questo è il primo dei percorsi tematici che stiamo costruendo per orientarsi tra gli articoli del blog. Ne arriveranno altri, dedicati a temi affini — la regressione, le serie storiche, i tranelli dei dati di marketing — pensati come questo: non spiegazioni nuove, ma mappe che mettono in fila ciò che già c’è. La statistica inferenziale, però, viene prima di tutti: è la cassetta degli attrezzi da cui ogni altro percorso, presto o tardi, finisce per attingere.