paologironi blog

Campionamento e Dimensione Campionaria: Quanti Dati Servono?

autore-articoli — Wed, 06 May 2026 14:45:50 +0000

In questo articolo:

Come scegliere chi misurare: i tipi di campionamento
La dimensione campionaria: la matematica dietro la stima
Calcoliamolo in R e Python
Dalla stima all’A/B Testing
Errore campionario vs Bias
Prova tu

Nella vita di tutti i giorni, come nella web analytics, dobbiamo spesso prendere decisioni basate su informazioni incomplete. Quanti dati mi servono per capire se questa modifica alla landing page ha funzionato? Mille visite bastano? Diecimila sono troppe?

Non possiamo quasi mai misurare l’intera popolazione (ad esempio, tutti i futuri visitatori di un sito). Dobbiamo lavorare su un campione. E qui sta l’equilibrio delicato: un campione troppo piccolo porta a conclusioni sbagliate, uno inutilmente grande fa sprecare tempo e risorse. La domanda diventa allora: quanti dati ci servono davvero?

Come scegliere chi misurare: i tipi di campionamento

Prima di capire quanti dati ci servono, dobbiamo capire come raccoglierli. I tre metodi principali sono:

Campionamento casuale semplice: Ogni utente ha esattamente la stessa probabilità di essere scelto. È il gold standard, quello che cerchiamo di ottenere quando randomizziamo gli utenti in un A/B test.
Campionamento stratificato: Dividiamo gli utenti in gruppi (es. traffico Mobile e Desktop) e campioniamo casualmente all’interno di ogni gruppo, rispettando le proporzioni originali. Assicura che nessuna minoranza importante venga ignorata.
Campionamento sistematico: Scegliamo un utente ogni k (es. un utente ogni 10). Facile da implementare, ma insidioso quando nei dati si nasconde una ciclicità (immaginiamo di campionare un utente ogni 7: se prendiamo solo i lunedì, la stima sarà deformata in partenza).

La dimensione campionaria: la matematica dietro la stima

L’intuizione è semplice: più è piccolo l’effetto che cerchiamo (o più i dati sono variabili), più dati ci servono per distinguerlo dal rumore di fondo. Sembra difficile da formalizzare? È più lineare di quanto sembri.

Per calcolare il numero esatto, ci servono tre ingredienti:

Livello di confidenza: Quanto vogliamo essere sicuri? Di solito si usa il 95% (che corrisponde a uno Z-score di 1.96).
Margine di errore (E): L’errore massimo che siamo disposti ad accettare (es. 1% o 0.01).
Proporzione attesa (p): La stima del tasso di conversione. Se non ne abbiamo idea, usiamo 0.5 (50%): è il caso di massima incertezza e darà il campione più grande possibile, quindi la scelta più conservativa.

La formula per stimare una proporzione (come il Conversion Rate) è:

n = (Z² × p(1 – p)) / E²

Calcoliamolo in R e Python

Facciamo un esempio al volo. Vogliamo stimare il Conversion Rate di una nuova pagina con un margine di errore dell’1% (0.01) e un livello di confidenza del 95% (Z = 1.96). Per cautela, impostiamo p = 0.5.

Gli esempi seguono sia in R sia in Python: ognuno scelga il linguaggio con cui ha più familiarità.

Calcoliamo in R:

# Calcolo della dimensione campionaria per una proporzione
Z <- 1.96
p <- 0.5
E <- 0.01

n <- (Z^2 * p * (1-p)) / E^2
print(paste("Dimensione necessaria:", round(n)))
# Output: Dimensione necessaria: 9604

Verifichiamo in Python:

# Calcolo della dimensione campionaria per una proporzione
Z = 1.96
p = 0.5
E = 0.01

n = (Z**2 * p * (1-p)) / E**2
print(f"Dimensione necessaria: {round(n)}")
# Output: Dimensione necessaria: 9604

Come si vede, servono circa 9.604 utenti per avere quella precisione. n.b.: se accettassimo un margine di errore del 2% (E=0.02), il numero crollerebbe a circa 2.401. È l’effetto dell’E al quadrato a denominatore: dimezzare la pretesa di precisione significa dividere per quattro il campione richiesto. Va sempre tenuto bene a mente quando si decide quale margine accettare.

Dalla stima all’A/B Testing

La formula vista finora serve a stimare una singola proporzione. Ma nella pratica quotidiana della CRO (Conversion Rate Optimization) il problema è quasi sempre un altro: confrontare due proporzioni, come in un A/B test.

In quel caso la logica è la stessa, ma la formula si complica perché entrano in gioco due concetti nuovi: l’Effect Size (la minima differenza che vogliamo rilevare) e la Potenza Statistica (come dicono gli anglosassoni, power).

Per evitare di calcolarlo a mano ho preparato un calcolatore interattivo del sample size per A/B test: fa il lavoro sporco al posto nostro e indica anche per quanti giorni far girare il test, dato il traffico medio della pagina.

Errore campionario vs Bias

Va sempre tenuto bene a mente un punto, prima di chiudere. L’errore di campionamento (quello che la formula gestisce) è inevitabile e si riduce aumentando i dati. Ma c’è un nemico molto più insidioso, e nessuna formula lo cattura: il bias.

Se testiamo una pagina solo durante il weekend, possiamo anche raccogliere un milione di visite (errore campionario praticamente nullo), ma il campione non sarà rappresentativo degli utenti infrasettimanali. Dunque: nessuna formula può salvare un campione distorto all’origine. Meglio mille osservazioni ben raccolte di un milione raccolte male.

Prova tu

Una pagina prodotto riceve circa 10.000 impressioni al mese su Google, con un CTR osservato del 3,5%. Vogliamo stimare il vero CTR con un margine di errore di 1 punto percentuale (E = 0,01) e una confidenza del 95%.

Calcola la dimensione campionaria necessaria con la formula vista, prima usando p = 0,5 (caso conservativo) e poi p = 0,035 (CTR osservato).
Confronta i due risultati: di quanto cambia il fabbisogno di dati quando abbiamo una stima ragionevole di p?
Considerando le 10.000 impressioni al mese, in quanti mesi raccogliamo abbastanza dati per soddisfare la stima conservativa?
Se accettassimo un margine del 2% (E = 0,02), come cambierebbe il tempo di raccolta?

Suggerimento: in R basta una funzione minima — sample_size <- function(Z, p, E) ceiling((Z^2 * p * (1-p)) / E^2) — da chiamare due volte con i due valori di p.

Adesso sappiamo come raccogliere un campione adeguato e quanti dati ci servono. Resta una domanda: come usiamo quel campione per confrontare in modo rigoroso due versioni della stessa pagina? È qui che entra in gioco l’A/B testing vero e proprio, ed è il prossimo tassello del percorso.

Per approfondire

Se vuoi approfondire il tema del campionamento, dei bias che possono distorcerlo e della logica dell’inferenza statistica, L’arte della statistica di David Spiegelhalter è il compagno di viaggio più adatto. Spiegelhalter dedica pagine illuminanti a casi reali — sondaggi sbagliati, campioni di convenienza, statistiche che ingannano — e mostra come la matematica del campionamento valga poco senza una riflessione attenta su come i dati vengono raccolti.

Calcolatore Sample Size per A/B Test

autore-articoli — Thu, 05 Mar 2026 11:35:19 +0000

Una delle domande più ricorrenti quando si progetta un A/B test è: quanti utenti mi servono per ottenere un risultato affidabile? La risposta non è un numero magico: dipende da quanto è grande l’effetto che vogliamo rilevare, dal tasso di conversione di partenza e dal livello di certezza statistica che desideriamo raggiungere.

Calcolare in anticipo la dimensione campionaria (sample size) è un passaggio fondamentale per evitare due errori classici: fermare il test troppo presto, dichiarando un vincitore che non c’è, oppure lasciarlo correre troppo a lungo, sprecando traffico e tempo. In altri termini, si tratta di trovare il punto di equilibrio tra risorse e rigore.

Chi ha letto l’articolo sul A/B Testing ricorderà che la power analysis è il metodo statistico che ci permette di determinare questa soglia. E chi ha approfondito gli intervalli di confidenza sa già che livello di significatività e potenza del test non sono concetti astratti, ma leve operative che influenzano direttamente la dimensione del campione.

Il calcolatore qui sotto automatizza questo processo: basta inserire i parametri del proprio test per ottenere immediatamente il numero di osservazioni necessarie per variante e, se si conosce il traffico giornaliero, una stima della durata in giorni.

Il calcolatore

Inseriamo i parametri del nostro A/B test e il calcolatore restituisce istantaneamente la dimensione campionaria necessaria.

Calcolatore Sample Size

Tasso di conversione base (%)

Il conversion rate attuale della variante di controllo

Effetto minimo rilevabile — MDE (% relativo)

L’incremento relativo minimo che consideriamo significativo (es. 20% = da 5% a 6%)

Significatività (α)

Potenza (1−β)

Traffico giornaliero (opzionale)

Visitatori giornalieri totali per stimare la durata del test

Sample size per variante
—

La formula: come funziona il calcolo

Il calcolatore utilizza la formula classica per il confronto tra due proporzioni con un test a due code (two-tailed z-test). Vediamo passo dopo passo come si arriva al risultato.

Partiamo dai parametri che inseriamo:

p₁: il tasso di conversione di base (controllo), espresso come proporzione. Se il nostro CR è del 5%, allora p₁ = 0.05.
p₂: il tasso di conversione atteso per la variante. Se l’effetto minimo rilevabile (MDE) è del 20% relativo, allora p₂ = p₁ × (1 + MDE/100) = 0.05 × 1.20 = 0.06.
α: il livello di significatività, cioè la probabilità di dichiarare un effetto quando non c’è (errore di tipo I). Con α = 0.05 lavoriamo al 95% di confidenza.
1 − β: la potenza del test, cioè la probabilità di rilevare un effetto quando effettivamente esiste. Con potenza 0.80, abbiamo l’80% di probabilità di cogliere l’effetto.

La formula è:

$ n = \frac{\left[z_{\alpha/2} + z_{\beta}\right]^2 \cdot \left[p_1(1-p_1) + p_2(1-p_2)\right]}{(p_1 – p_2)^2} $

Dove z_α/2 e z_β sono i quantili della distribuzione normale standard. Per i valori più comuni:

α = 0.05 → z_α/2 = 1.96
α = 0.01 → z_α/2 = 2.576
β = 0.20 (potenza 0.80) → z_β = 0.842
β = 0.10 (potenza 0.90) → z_β = 1.282

Esempio numerico. Supponiamo di avere un tasso di conversione base del 3% e di voler rilevare un incremento relativo del 20% (cioè passare dal 3% al 3.6%), con α = 0.05 e potenza = 0.80:

p₁ = 0.03, p₂ = 0.036
z_α/2 = 1.96, z_β = 0.842
Numeratore: (1.96 + 0.842)² × [0.03 × 0.97 + 0.036 × 0.964] = 7.849 × 0.0638 = 0.5008
Denominatore: (0.03 − 0.036)² = 0.000036
n = 0.5008 / 0.000036 ≈ 13.911 per variante

Dunque: per rilevare un effetto del 20% relativo su un CR del 3%, servono circa 13.900 osservazioni per variante (quasi 28.000 in totale). Numeri che fanno riflettere: se il nostro sito ha 500 visitatori al giorno, il test durerà circa 56 giorni. È uno dei motivi per cui, nella pratica, molti A/B test su siti a traffico medio richiedono settimane, non giorni.

Come usare il calcolatore

Come scegliere l’MDE. L’effetto minimo rilevabile è il parametro più delicato. Non chiediamoci “quanto vorremmo che migliorasse” ma piuttosto: qual è il miglioramento minimo che giustificherebbe lo sforzo di implementare la modifica? Un MDE del 5% relativo richiede campioni enormi; un MDE del 50% è facile da rilevare ma raramente realistico. La fascia 10-30% è un buon punto di partenza per la maggior parte dei test su conversion rate.

Un dettaglio importante: l’MDE nel calcolatore è relativo, non assoluto. Un MDE del 20% su un CR base del 5% significa che stiamo cercando di rilevare un passaggio dal 5% al 6% (cioè un punto percentuale assoluto, ma il 20% relativo del valore iniziale).

Come stimare il traffico giornaliero. Il traffico da inserire è quello delle pagine coinvolte nel test, non il traffico totale del sito. Se il test riguarda la pagina di checkout e questa riceve 300 visite al giorno, il valore corretto è 300. Possiamo ricavare questo dato dal nostro strumento di analytics (GA4, Matomo o simili) facendo una media degli ultimi 30 giorni per attenuare le oscillazioni giornaliere.

Per approfondire

Il riferimento più completo sulla progettazione rigorosa di esperimenti online è: Trustworthy Online Controlled Experiments di Ron Kohavi, Diane Tang e Ya Xu. Copre sample size, power analysis e molto altro, con decenni di esperienza pratica in Microsoft e Google.

Anomaly detection: come identificare valori anomali nei dati

paolo — Sun, 22 Feb 2026 17:44:31 +0000

Abbiamo avuto modo di esaminare, nel corso di questo percorso, strumenti per descrivere i dati, per testare ipotesi, per costruire modelli. Ma c’è una domanda che precede tutte le altre, e che troppo spesso viene ignorata: questi dati sono affidabili?

In qualsiasi dataset — sessioni giornaliere, click organici, tassi di conversione — possono nascondersi valori che non si comportano come gli altri. Valori che si discostano in modo anomalo dal resto della distribuzione. In statistica li chiamiamo outlier, o valori anomali.

Un punto va chiarito subito: un valore anomalo non è necessariamente un errore. Può essere un errore di misurazione, certo (un tag di tracciamento rotto, un bot che gonfia le sessioni). Ma può anche essere il segnale più importante dell’intero dataset: un aggiornamento dell’algoritmo di Google, un contenuto che diventa virale, un problema tecnico che abbatte il traffico. La questione non è eliminare le anomalie, ma riconoscerle — e poi decidere cosa farne.

In questo articolo esaminiamo tre metodi statistici per identificare i valori anomali, dal più intuitivo al più formale. Per ciascuno vedremo la logica, i limiti e l’applicazione pratica con R.

Di cosa parleremo

Il dataset di lavoro: sessioni simulate con anomalie iniettate
Metodo 1: lo z-score
Metodo 2: IQR e il metodo di Tukey
Metodo 3: il test di Grubbs
Confronto tra i tre metodi
Prova tu
Per approfondire

Il dataset di lavoro

Per rendere le cose concrete, costruiamo un dataset simulato ma realistico: le sessioni giornaliere di un sito web nell’arco di un anno. I dati seguono approssimativamente una distribuzione normale con media 250 e deviazione standard 50, ma con cinque anomalie inserite intenzionalmente — tre cali drastici e due picchi.

Generiamo i dati in R:

set.seed(42)
n <- 365
sessioni <- round(rnorm(n, mean = 250, sd = 50))
sessioni[sessioni < 0] <- 0

# Inietto 5 anomalie realistiche
sessioni[45]  <- 38   # giorno 45: problema tecnico
sessioni[120] <- 580  # giorno 120: articolo virale
sessioni[200] <- 22   # giorno 200: update Google
sessioni[300] <- 510  # giorno 300: menzione su social
sessioni[350] <- 15   # giorno 350: server down

Visualizziamo l’andamento con un semplice grafico temporale:

plot(1:n, sessioni, type = "l", col = "steelblue",
     xlab = "Giorno", ylab = "Sessioni",
     main = "Sessioni giornaliere - un anno di traffico")
abline(h = mean(sessioni), col = "red", lty = 2)

A occhio, qualche picco e qualche calo si nota. Ma dove tracciamo il confine tra variazione naturale e anomalia? Servono criteri oggettivi.

Metodo 1: lo z-score

Abbiamo incontrato lo z-score parlando della distribuzione normale. Lo z-score ci dice quante deviazioni standard un valore dista dalla media:

$
z = \frac{x – \mu}{\sigma} \\
$

dove $x$ è il valore osservato, $\mu$ è la media e $\sigma$ la deviazione standard. Un valore con z-score pari a 2 si trova a due deviazioni standard dalla media; uno con z-score pari a -3 si trova a tre deviazioni standard sotto la media.

Ricordiamo la regola empirica: in una distribuzione normale, circa il 99.7% dei dati cade entro tre deviazioni standard dalla media. Un valore con |z| > 3 è dunque estremamente raro — meno dello 0.3% di probabilità sotto ipotesi di normalità.

Calcoliamo gli z-score per il nostro dataset e identifichiamo le anomalie:

z <- (sessioni - mean(sessioni)) / sd(sessioni)

# Soglia conservativa: |z| > 3
anomalie_z3 <- which(abs(z) > 3)
cat("Giorni anomali (|z| > 3):", anomalie_z3, "\n")
cat("Sessioni:", sessioni[anomalie_z3], "\n")
cat("Z-score:", round(z[anomalie_z3], 2), "\n")

Il risultato:

Giorni anomali (|z| > 3): 45 120 200 300 350
Sessioni: 38 580 22 510 15
Z-score: -3.75 5.92 -4.03 4.67 -4.16

Con la soglia |z| > 3, lo z-score identifica esattamente le cinque anomalie che avevamo inserito. Nessun falso positivo, nessun falso negativo — un risultato quasi perfetto.

Ma attenzione: se abbassiamo la soglia a |z| > 2, le anomalie salgono a 14. Molti di quei valori sono semplicemente dati nella coda della distribuzione, non anomalie reali. La scelta della soglia non è un dettaglio tecnico: è una decisione analitica che dipende da quanto siamo disposti a tollerare falsi allarmi.

C’è un limite importante in questo metodo. Lo z-score assume che i dati seguano (almeno approssimativamente) una distribuzione normale. Se la distribuzione è fortemente asimmetrica — e i dati di traffico web spesso lo sono, con lunghe code a destra — la media e la deviazione standard possono essere distorte proprio dagli outlier che stiamo cercando di individuare. È un circolo vizioso: le anomalie influenzano le statistiche che usiamo per trovarle.

Metodo 2: IQR e il metodo di Tukey

Le misure di posizione — quartili e mediana — ci offrono un approccio che non richiede ipotesi sulla forma della distribuzione. Il metodo di Tukey, dal nome del grande statistico John Tukey, usa l’intervallo interquartile (IQR) come metro di misura.

L’IQR, come abbiamo visto parlando delle misure di variabilità, è la differenza tra il terzo quartile ($Q_3$, il 75-esimo percentile) e il primo quartile ($Q_1$, il 25-esimo percentile). Rappresenta la dispersione del 50% centrale dei dati — la parte “solida” della distribuzione, immune alle code.

La regola di Tukey è semplice: un valore è considerato anomalo se cade al di fuori dei cosiddetti cardini (in inglese fences):

$
\text{anomalia se } x < Q_1 – 1.5 \cdot IQR \quad \text{oppure} \quad x > Q_3 + 1.5 \cdot IQR \\
$

Perché 1.5? Tukey non scelse questo valore a caso. Per una distribuzione normale, i cardini a 1.5 IQR corrispondono approssimativamente a 2.7 deviazioni standard dalla media — una soglia ragionevolmente conservativa che cattura circa lo 0.7% delle osservazioni nelle code. Abbastanza severa da non segnalare troppi falsi positivi, abbastanza sensibile da non lasciarsi sfuggire le anomalie importanti.

Applichiamo il metodo al nostro dataset:

Q1 <- quantile(sessioni, 0.25)
Q3 <- quantile(sessioni, 0.75)
IQR_val <- Q3 - Q1

limite_inf <- Q1 - 1.5 * IQR_val
limite_sup <- Q3 + 1.5 * IQR_val

cat("Q1:", Q1, " Q3:", Q3, " IQR:", IQR_val, "\n")
cat("Limite inferiore:", limite_inf, "\n")
cat("Limite superiore:", limite_sup, "\n")

anomalie_iqr <- which(sessioni < limite_inf | sessioni > limite_sup)
cat("Giorni anomali:", anomalie_iqr, "\n")
cat("Sessioni:", sessioni[anomalie_iqr], "\n")

Il risultato:

Q1: 215  Q3: 282  IQR: 67
Limite inferiore: 114.5
Limite superiore: 382.5
Giorni anomali: 45 59 118 120 200 300 350
Sessioni: 38 100 385 580 22 510 15

Il metodo di Tukey trova 7 anomalie: le nostre 5 iniettate più due valori al confine (il giorno 59 con 100 sessioni e il giorno 118 con 385). Sono davvero anomali? 100 sessioni è effettivamente un valore basso per un sito con media 250, e 385 è alto rispetto ai quartili. La decisione, ancora una volta, spetta all’analista.

R offre un modo elegante per visualizzare le anomalie con il metodo di Tukey — il boxplot:

boxplot(sessioni, main = "Sessioni giornaliere",
        ylab = "Sessioni", col = "lightblue", outline = TRUE)
# I punti oltre i baffi sono le anomalie secondo Tukey

Il grande vantaggio di questo metodo rispetto allo z-score è la robustezza: mediana e quartili non vengono influenzati dagli outlier. Non abbiamo bisogno di assumere che i dati siano normali. Il metodo di Tukey funziona anche con distribuzioni asimmetriche — e per chi lavora con dati web, questa non è una caratteristica da poco.

Il limite: il metodo non distingue tra anomalie “grandi” e “enormi”. Un valore appena fuori dal cardine e uno completamente fuori scala ricevono lo stesso trattamento — sono entrambi “anomali”, punto.

Metodo 3: il test di Grubbs

I primi due metodi si basano su regole empiriche: soglie sullo z-score, soglie sull’IQR. Ma se vogliamo un approccio formale — con un test di ipotesi vero e proprio — possiamo ricorrere al test di Grubbs.

L’idea è questa: prendiamo il valore più estremo del dataset (quello più lontano dalla media) e ci chiediamo se è compatibile con il resto dei dati, oppure se è “troppo” estremo per essere frutto del caso.

Le ipotesi sono:

$H_0$: non ci sono outlier nel dataset
$H_1$: il valore più estremo è un outlier

La statistica del test è:

$
G = \frac{\max |x_i – \bar{x}|}{s} \\
$

dove $\bar{x}$ è la media e $s$ la deviazione standard. In altri termini, $G$ è il massimo z-score in valore assoluto. Il valore critico si ricava dalla distribuzione t di Student con $n-2$ gradi di libertà.

Applichiamo il test in R usando il pacchetto outliers:

library(outliers)

risultato <- grubbs.test(sessioni)
print(risultato)

Il risultato:

Grubbs test for one outlier
data:  sessioni
G = 5.9228, U = 0.9037, p-value = 2.339e-07
alternative hypothesis: highest value 580 is an outlier

Il test identifica 580 (il picco del giorno 120, il nostro “articolo virale”) come outlier, con un p-value praticamente nullo. L’evidenza è schiacciante: quel valore non è compatibile con il resto della distribuzione.

Ma va tenuto bene a mente un limite fondamentale del test di Grubbs: testa un solo outlier alla volta — il più estremo. Se sospettiamo la presenza di anomalie multiple (come nel nostro caso), dobbiamo applicare il test in modo iterativo: rimuovere l’outlier identificato, ricalcolare, testare di nuovo.

Facciamolo:

dati <- sessioni
outlier_trovati <- c()

for(i in 1:5) {
  g <- grubbs.test(dati)
  if(g$p.value < 0.05) {
    # Estraggo il valore outlier dal risultato
    outlier_val <- as.numeric(gsub("[^0-9.]", "",
                     regmatches(g$alternative,
                     regexpr("[0-9.]+", g$alternative))))
    outlier_trovati <- c(outlier_trovati, outlier_val)
    dati <- dati[dati != outlier_val]
    cat("Iterazione", i, "- Outlier:", outlier_val,
        "- p-value:", format(g$p.value, digits = 3), "\n")
  } else {
    cat("Iterazione", i, "- Nessun outlier (p =",
        round(g$p.value, 3), ")\n")
    break
  }
}

Questo approccio iterativo è efficace, ma insidioso: ogni volta che rimuoviamo un valore, cambiamo la distribuzione. La media e la deviazione standard si spostano, e ciò che prima non era anomalo potrebbe diventarlo. È un procedimento da usare con cautela e consapevolezza.

Confronto tra i tre metodi

Abbiamo applicato tre metodi allo stesso dataset. Vediamo cosa ha trovato ciascuno:

Giorno	Sessioni	Evento simulato	Z-score (\|z\|>3)	IQR/Tukey	Grubbs
45	38	Problema tecnico	Si	Si	Si (iter.)
120	580	Articolo virale	Si	Si	Si (1a iter.)
200	22	Update Google	Si	Si	Si (iter.)
300	510	Menzione social	Si	Si	Si (iter.)
350	15	Server down	Si	Si	Si (iter.)
59	100	(nessuno)	No	Si	No
118	385	(nessuno)	No	Si	No

Le cinque anomalie iniettate vengono trovate da tutti e tre i metodi. Il metodo di Tukey è il più sensibile: segnala anche due valori al confine che gli altri metodi lasciano passare. Lo z-score con soglia 3 è preciso ma dipende dall’ipotesi di normalità. Grubbs è il più formale ma richiede l’approccio iterativo per anomalie multiple.

La lezione importante è: non esiste il metodo giusto in assoluto. Esiste il metodo giusto per quei dati e per quella domanda. Nella pratica quotidiana, un approccio sensato è applicare più di un metodo e concentrarsi sui valori che vengono segnalati in modo concorde.

Riassumiamo in R i tre metodi a confronto:

# Creo un riepilogo per ogni giorno
riepilogo <- data.frame(
  giorno = 1:n,
  sessioni = sessioni,
  z_score = round(z, 2),
  anomalia_z = abs(z) > 3,
  anomalia_iqr = sessioni < limite_inf | sessioni > limite_sup
)

# Mostro solo le righe anomale per almeno un metodo
anomale <- riepilogo[riepilogo$anomalia_z | riepilogo$anomalia_iqr, ]
print(anomale)

Prova tu

Un e-commerce ha monitorato il CTR delle proprie pagine prodotto per 30 giorni. Ecco i dati:

ctr <- c(3.2, 2.8, 3.1, 2.9, 3.0, 3.3, 2.7, 3.1, 2.8, 3.0,
         0.4, 3.2, 2.9, 3.1, 2.8, 3.0, 2.9, 7.8, 3.1, 2.7,
         3.0, 3.2, 2.8, 3.1, 2.9, 3.0, 2.8, 3.1, 3.0, 2.9)

Il giorno 11 e il giorno 18 sembrano sospetti. Applica i tre metodi: lo z-score con soglia |z| > 3, il metodo di Tukey e il test di Grubbs. Tutti e tre concordano? Quale dei due valori è più chiaramente anomalo, e perché?

Fin qui abbiamo trattato ogni osservazione come indipendente dalle altre. Abbiamo chiesto: “questo valore è compatibile con la distribuzione complessiva?” Ma i dati di traffico web hanno una struttura temporale: trend, stagionalità, cicli settimanali. Un calo del 30% a dicembre potrebbe essere perfettamente normale per un sito B2B, mentre lo stesso calo a settembre sarebbe allarmante.

Per distinguere un’anomalia reale dalla semplice stagionalità servono strumenti diversi — la decomposizione delle serie storiche in trend, componente stagionale e residuo. Sarà l’argomento di un prossimo articolo.

Per approfondire

Per chi volesse approfondire il tema dei valori anomali e del ragionamento statistico sui dati inattesi, L’arte della statistica di David Spiegelhalter è una lettura che affronta il problema con chiarezza e numerosi esempi dal mondo reale. Si trova qui.

Per una trattazione più formale dei test per outlier (Grubbs, Rosner, Dixon), il manuale Statistica di Newbold, Carlson e Thorne offre la copertura completa con esercizi. Si trova qui.

Statistica bayesiana: come imparare dai dati, un passo alla volta

paolo — Sat, 21 Feb 2026 14:38:18 +0000

Abbiamo avuto modo di esaminare, nel corso dei precedenti articoli, l’inferenza statistica da una prospettiva precisa e coerente: formulare un’ipotesi, raccogliere dati, calcolare un p-value, costruire un intervallo di confidenza. Abbiamo condotto test delle ipotesi, confrontato varianti con l’A/B testing, e visto con il Teorema del Limite Centrale perché tutto questo funziona anche quando i dati non sono normali.

Questo approccio — che si chiama frequentista — ha una logica chiara: il parametro che vogliamo stimare è un valore fisso (anche se sconosciuto), e noi lo “inseguiamo” con i dati. Ma esiste un altro modo di pensare l’incertezza, un modo che permette di aggiornare le nostre convinzioni man mano che arrivano nuovi dati. Si chiama approccio bayesiano, e in questo articolo ne costruiamo le fondamenta.

Partiamo da un esempio concreto. Immaginiamo di aver appena lanciato una campagna di advertising e di non conoscere il vero tasso di click. Abbiamo un’opinione iniziale, basata sull’esperienza (“di solito i tassi di click stanno tra lo 0% e il 20%”), e poi arrivano i dati. L’approccio bayesiano ci permette di combinare la nostra opinione iniziale con i dati osservati per ottenere una stima aggiornata — e di ripetere questo processo ogni volta che arrivano nuove informazioni.

Di cosa parleremo

Due modi di pensare l’incertezza: frequentisti e bayesiani
Il Teorema di Bayes
Esempio numerico: il tasso di click di una campagna ads
L’aggiornamento sequenziale: il posterior di oggi è il prior di domani
Prior informativi e non informativi
Credible interval vs confidence interval
Quando usare l’approccio bayesiano
Prova tu
Per approfondire

Due modi di pensare l’incertezza: frequentisti e bayesiani

Prima di entrare nella meccanica, chiariamo la differenza concettuale tra i due approcci. Non si tratta di una guerra: sono due modi diversi di rispondere alle stesse domande.

	Frequentista	Bayesiano
Il parametro	È un valore fisso (sconosciuto)	È una variabile casuale con una distribuzione
La probabilità	Frequenza relativa di un evento su ripetizioni infinite	Grado di credenza (belief) su un evento
L’incertezza	Espressa tramite intervalli di confidenza	Espressa tramite credible intervals
I dati precedenti	Non entrano nel modello	Si incorporano tramite il prior
Interpretazione dell’IC/CI	“Se ripetessi 100 volte, 95 intervalli conterrebbero il parametro”	“C’è il 95% di probabilità che il parametro sia in questo intervallo”

L’approccio frequentista, quello che abbiamo usato finora, tratta il parametro come un numero fisso e ragiona sulla distribuzione dei dati. L’approccio bayesiano capovolge la prospettiva: tratta i dati come fissi (li abbiamo osservati, non cambiano) e ragiona sulla distribuzione del parametro, cioè su quanto crediamo plausibili i vari valori che il parametro potrebbe assumere.

Il vantaggio pratico del bayesiano è che può incorporare conoscenza pregressa. Se sappiamo qualcosa sul parametro prima di raccogliere i dati (per esperienza, per studi precedenti, per buon senso), possiamo usare quella conoscenza. E poi aggiornarla.

Il Teorema di Bayes

Il cuore dell’approccio bayesiano è una formula che risale al 1763, al reverendo Thomas Bayes. Partiamo dalla probabilità condizionata: la probabilità di A dato B.

Sappiamo dalla teoria della probabilità che:

$
P(A|B) = \frac{P(A \cap B)}{P(B)} \\
$

e simmetricamente:

$
P(B|A) = \frac{P(A \cap B)}{P(A)} \\
$

Da queste due relazioni, ricavando $P(A \cap B)$ dalla seconda e sostituendo nella prima, otteniamo il Teorema di Bayes:

$
P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} \\
$

Fin qui è algebra. La magia avviene quando applichiamo questa formula al nostro problema: stimare un parametro $\theta$ (ad esempio, il tasso di click) a partire dai dati osservati. Il teorema diventa:

$
P(\theta | \text{dati}) = \frac{P(\text{dati} | \theta) \cdot P(\theta)}{P(\text{dati})} \\
$

Ogni pezzo di questa formula ha un nome e un ruolo preciso:

Prior $P(\theta)$: ciò che crediamo sul parametro prima di vedere i dati. È la nostra conoscenza pregressa, il nostro punto di partenza.
Likelihood $P(\text{dati} | \theta)$: quanto i dati osservati sono compatibili con ciascun valore possibile di $\theta$. È la stessa funzione di verosimiglianza che compare anche nell’approccio frequentista.
Posterior $P(\theta | \text{dati})$: ciò che crediamo sul parametro dopo aver visto i dati. È il risultato finale, la nostra conoscenza aggiornata.
Evidence $P(\text{dati})$: la probabilità marginale dei dati. In pratica, è una costante di normalizzazione che fa sì che il posterior sia una distribuzione di probabilità valida.

Poiché l’evidence è costante (non dipende da $\theta$), possiamo scrivere la relazione fondamentale:

$
P(\theta | \text{dati}) \propto P(\text{dati} | \theta) \cdot P(\theta) \\
$

In parole: il posterior è proporzionale al likelihood moltiplicato per il prior. Più dati raccogliamo, più il likelihood “domina” e il posterior si concentra attorno ai valori supportati dai dati. Ma con pochi dati, il prior conta — e conta molto.

Esempio numerico: il tasso di click di una campagna ads

Passiamo alla pratica. Abbiamo lanciato una campagna pubblicitaria: l’annuncio è stato mostrato 100 volte e ha ricevuto 13 click. Qual è il vero tasso di click?

Il prior: non sappiamo quasi nulla, ma per esperienza riteniamo che i tassi di click stiano tipicamente tra lo 0% e il 20%. Modelliamo questa incertezza con una distribuzione uniforme su [0, 0.20].

L’approccio: usiamo una simulazione. Generiamo molti valori plausibili dal prior, simuliamo i dati che ciascun valore produrrebbe, e teniamo solo quelli compatibili con ciò che abbiamo effettivamente osservato (13 click su 100). Ciò che rimane è il posterior.

set.seed(42)

n_samples <- 100000
n_ads_shown <- 100
n_clicks_observed <- 13

# 1. Generiamo campioni dal prior: uniforme tra 0 e 0.20
proportion_clicks <- runif(n_samples, min = 0.0, max = 0.20)

# 2. Per ogni valore di proporzione, simuliamo quanti click otterremmo
n_visitors <- rbinom(n_samples, size = n_ads_shown, prob = proportion_clicks)

# 3. Costruiamo il data frame con prior e dati simulati
prior <- data.frame(proportion_clicks, n_visitors)

# 4. Conditioning: teniamo solo i campioni compatibili con 13 click
posterior <- prior[prior$n_visitors == n_clicks_observed, ]

cat("Campioni nel prior:", nrow(prior), "\n")
cat("Campioni nel posterior:", nrow(posterior), "\n")
cat("Media del posterior:", round(mean(posterior$proportion_clicks) * 100, 1), "%\n")
cat("Mediana del posterior:", round(median(posterior$proportion_clicks) * 100, 1), "%\n")

Risultato: dei 100.000 campioni iniziali, circa 4.700 sopravvivono al conditioning (il numero esatto varia per via della simulazione). La media e la mediana del posterior sono circa il 13.4%: un valore molto vicino ai 13 click su 100 che abbiamo osservato.

Visualizziamo la trasformazione dal prior al posterior:

par(mfrow = c(1, 2))

# Prior
hist(prior$proportion_clicks, breaks = 30, probability = TRUE,
     main = "Prior\n(uniforme 0-20%)",
     col = "lightyellow", xlab = "Tasso di click",
     ylab = "Densità", xlim = c(0, 0.25))

# Posterior
hist(posterior$proportion_clicks, breaks = 30, probability = TRUE,
     main = "Posterior\n(dopo 13/100 click)",
     col = "lightblue", xlab = "Tasso di click",
     ylab = "Densità", xlim = c(0, 0.25))

La differenza è evidente. Il prior è una distribuzione piatta (uniforme): tutti i valori tra 0% e 20% sono considerati ugualmente plausibili. Il posterior, invece, si concentra attorno al 13%, con una forma a campana. I dati hanno "informato" la nostra incertezza.

Il credible interval al 95%:

ci_95 <- quantile(posterior$proportion_clicks, probs = c(0.025, 0.975))
cat("Credible interval al 95%:", round(ci_95[1] * 100, 1), "% -",
    round(ci_95[2] * 100, 1), "%\n")

Il credible interval al 95% è circa 7.7% - 19.1%. Questo significa esattamente ciò che sembra: c'è il 95% di probabilità che il vero tasso di click sia compreso tra il 7.7% e il 19.1%.

Confronto con l'IC frequentista:

prop_test <- prop.test(13, 100, correct = FALSE)
cat("IC frequentista al 95%:", round(prop_test$conf.int[1] * 100, 1), "% -",
    round(prop_test$conf.int[2] * 100, 1), "%\n")

L'IC frequentista al 95% è circa 7.8% - 21.0%. I numeri sono simili, ma l'interpretazione è diversa: l'IC frequentista ci dice che "se ripetessimo il campionamento 100 volte, 95 intervalli conterrebbero il vero parametro". Il credible interval bayesiano ci dice direttamente la probabilità che il parametro sia nell'intervallo. Quest'ultima è l'interpretazione che la maggior parte delle persone crede di dare all'intervallo di confidenza — ma che, nell'approccio frequentista, è tecnicamente scorretta.

L'aggiornamento sequenziale: il posterior di oggi è il prior di domani

Ecco il punto in cui l'approccio bayesiano rivela la sua eleganza. Supponiamo che la campagna continui: dopo altri giorni, abbiamo 150 nuove impression e 20 nuovi click. Come aggiorniamo la nostra stima?

Il principio è semplice: il posterior che abbiamo appena calcolato diventa il nuovo prior. Non dobbiamo ricominciare da zero; partiamo da dove eravamo rimasti.

# Il posterior precedente diventa il nuovo prior
prior_aggiornato <- posterior

# Nuovi dati: 150 impression, 20 click
n_ads_nuovi <- 150
n_clicks_nuovi <- 20

# Simuliamo i dati con le proporzioni del prior aggiornato
n_samples_aggiornato <- nrow(prior_aggiornato)
prior_aggiornato$n_visitors <- rbinom(n_samples_aggiornato,
                                       size = n_ads_nuovi,
                                       prob = prior_aggiornato$proportion_clicks)

# Conditioning: teniamo solo i campioni compatibili con 20 click
posterior_aggiornato <- prior_aggiornato[prior_aggiornato$n_visitors == n_clicks_nuovi, ]

cat("Campioni nel posterior aggiornato:", nrow(posterior_aggiornato), "\n")
cat("Media:", round(mean(posterior_aggiornato$proportion_clicks) * 100, 1), "%\n")

# Nuovo credible interval
ci_aggiornato <- quantile(posterior_aggiornato$proportion_clicks, probs = c(0.025, 0.975))
cat("Credible interval al 95%:", round(ci_aggiornato[1] * 100, 1), "% -",
    round(ci_aggiornato[2] * 100, 1), "%\n")

In totale ora abbiamo osservato 33 click su 250 impression (13.2%). La media del posterior aggiornato è circa il 13.5%, e il credible interval al 95% si è ristretto a circa 9.6% - 17.9% (rispetto al 7.7% - 19.1% precedente). La distribuzione si è "stretta": abbiamo più dati, quindi siamo più sicuri.

Visualizziamo l'evoluzione:

par(mfrow = c(1, 3))

# Prior originale
hist(runif(10000, 0, 0.20), breaks = 30, probability = TRUE,
     main = "1. Prior originale\n(uniforme 0-20%)",
     col = "lightyellow", xlab = "Tasso di click",
     ylab = "Densità", xlim = c(0, 0.25))

# Posterior dopo primi dati (13/100)
hist(posterior$proportion_clicks, breaks = 30, probability = TRUE,
     main = "2. Dopo 13/100 click",
     col = "lightblue", xlab = "Tasso di click",
     ylab = "Densità", xlim = c(0, 0.25))

# Posterior dopo secondi dati (33/250 totali)
hist(posterior_aggiornato$proportion_clicks, breaks = 30, probability = TRUE,
     main = "3. Dopo 33/250 click",
     col = "lightgreen", xlab = "Tasso di click",
     ylab = "Densità", xlim = c(0, 0.25))

Il messaggio visivo è immediato: la distribuzione si sposta e si stringe. Da un'incertezza totale (tutto tra 0% e 20%), passando per una stima ragionevole (centrata sul 13%), arriviamo a una stima più precisa attorno al 13.2%. Più dati raccogliamo, più il posterior si concentra attorno al valore vero.

Questo è l'aggiornamento bayesiano: un processo iterativo in cui l'informazione si accumula. Non buttiamo via niente di ciò che sapevamo prima; lo integriamo con le nuove evidenze.

Prior informativi e non informativi

Negli esempi precedenti abbiamo usato un prior uniforme: "tutti i valori tra 0% e 20% sono ugualmente plausibili". Questo si chiama prior non informativo (o debolmente informativo): non esprime una preferenza forte per nessun valore.

Ma nella pratica spesso sappiamo qualcosa. Se abbiamo già gestito molte campagne pubblicitarie, sappiamo che i tassi di click stanno tipicamente tra il 5% e il 15%, con una concentrazione attorno al 10%. Possiamo esprimere questa conoscenza con un prior informativo, ad esempio una distribuzione centrata su 0.10 con dispersione ridotta.

Confrontiamo i due approcci sugli stessi dati (13 click su 100 impression):

set.seed(42)

n_samples <- 100000
n_ads_shown <- 100
n_clicks_observed <- 13

# --- Prior non informativo: uniforme (0, 0.20) ---
prior_flat <- runif(n_samples, min = 0.0, max = 0.20)
sim_flat <- rbinom(n_samples, size = n_ads_shown, prob = prior_flat)
posterior_flat <- prior_flat[sim_flat == n_clicks_observed]

# --- Prior informativo: centrato su 10%, concentrato tra 5% e 15% ---
# Usiamo una distribuzione beta(20, 180) che ha media ~10% e varianza ridotta
prior_info <- rbeta(n_samples, shape1 = 20, shape2 = 180)
sim_info <- rbinom(n_samples, size = n_ads_shown, prob = prior_info)
posterior_info <- prior_info[sim_info == n_clicks_observed]

# Confronto
cat("=== Prior non informativo (uniforme) ===\n")
cat("Media posterior:", round(mean(posterior_flat) * 100, 1), "%\n")
cat("Credible interval 95%:", round(quantile(posterior_flat, 0.025) * 100, 1), "% -",
    round(quantile(posterior_flat, 0.975) * 100, 1), "%\n\n")

cat("=== Prior informativo (centrato su 10%) ===\n")
cat("Media posterior:", round(mean(posterior_info) * 100, 1), "%\n")
cat("Credible interval 95%:", round(quantile(posterior_info, 0.025) * 100, 1), "% -",
    round(quantile(posterior_info, 0.975) * 100, 1), "%\n")

Il posterior con prior informativo è leggermente "tirato" verso il 10% (la nostra esperienza pregressa), mentre quello con prior uniforme segue più fedelmente i dati. Con 13 click su 100, la differenza è modesta; ma con 5 click su 20, sarebbe molto più marcata.

Visualizziamo:

par(mfrow = c(1, 2))

hist(posterior_flat, breaks = 30, probability = TRUE,
     main = "Posterior con prior\nnon informativo",
     col = "lightyellow", xlab = "Tasso di click",
     ylab = "Densità", xlim = c(0, 0.25))

hist(posterior_info, breaks = 30, probability = TRUE,
     main = "Posterior con prior\ninformativo (10%)",
     col = "lightcoral", xlab = "Tasso di click",
     ylab = "Densità", xlim = c(0, 0.25))

Questa è una proprietà fondamentale dell'inferenza bayesiana: con pochi dati, il prior conta molto; con molti dati, il prior viene "sommerso" dai dati. Se avessimo 10.000 impression e 1.300 click, i due posterior sarebbero praticamente identici, indipendentemente dal prior scelto. I dati, alla lunga, vincono sempre.

Credible interval vs confidence interval

Questo è il punto in cui le strade si separano in modo chiaro. Nell'articolo sugli intervalli di confidenza abbiamo visto un punto fondamentale: l'intervallo di confidenza al 95% non significa che c'è il 95% di probabilità che il parametro sia nell'intervallo. È una proprietà della procedura, non del singolo intervallo.

Il credible interval bayesiano al 95%, invece, significa esattamente quello che sembra: c'è il 95% di probabilità che il parametro si trovi in quell'intervallo. È un'affermazione diretta su ciò che non conosciamo, non un'affermazione sulla procedura.

Rivediamo i numeri del nostro esempio (13 click su 100 impression):

	Frequentista (IC)	Bayesiano (credible interval)
Intervallo	~7.8% - 21.0%	~7.7% - 19.1%
Interpretazione	"Se ripetessimo l'esperimento 100 volte, 95 intervalli conterrebbero il vero parametro"	"C'è il 95% di probabilità che il vero parametro sia in questo intervallo"
Il parametro	È un valore fisso; l'intervallo è casuale	La nostra credenza sul parametro è descritta da una distribuzione
Dipende dal prior?	No	Sì

I numeri sono simili — e questo non è un caso. Con campioni grandi e prior non informativi, i due approcci convergono. Ma l'interpretazione è profondamente diversa, e il credible interval è molto più intuitivo: "c'è il 95% di probabilità che il tasso di click sia tra il 7.7% e il 19.1%" è una frase che chiunque può comprendere e usare per prendere decisioni.

Quando usare l'approccio bayesiano

Non c'è un vincitore assoluto. La scelta dipende dal contesto:

L'approccio bayesiano funziona particolarmente bene quando:

Abbiamo pochi dati ma una conoscenza pregressa ragionevole. Il prior ci permette di ottenere stime sensate anche con campioni piccoli.
Ci serve un aggiornamento continuo: i dati arrivano nel tempo e vogliamo aggiornare la nostra stima progressivamente, senza ricominciare ogni volta da zero.
Vogliamo comunicare l'incertezza in modo diretto. Il credible interval è molto più intuitivo dell'intervallo di confidenza: dire "c'è il 90% di probabilità che il tasso di conversione sia tra il 3% e il 7%" è chiaro anche per chi non ha formazione statistica.

L'approccio frequentista resta preferibile quando:

Servono risultati standardizzati e ripetibili. I test frequentisti non dipendono da scelte soggettive (come il prior), e questo li rende più facili da confrontare e replicare.
Lavoriamo in contesti dove le convenzioni sono stabilite (pubblicazioni scientifiche, report regolamentari).
Abbiamo grandi campioni: con molti dati, i due approcci danno risultati praticamente identici, e il frequentista è spesso più semplice da implementare.

Nella pratica, molti professionisti usano entrambi gli approcci a seconda del contesto. L'A/B testing, ad esempio, può essere condotto in modo frequentista (come abbiamo visto nell'articolo dedicato) o in modo bayesiano — e alcune piattaforme di testing usano proprio l'approccio bayesiano per poter aggiornare i risultati in tempo reale.

Verso la distribuzione Beta

Abbiamo visto come l'aggiornamento bayesiano funzioni con la simulazione: generare campioni, simulare dati, filtrare. È un metodo potente e intuitivo, ma ha un limite pratico: ad ogni passaggio perdiamo campioni. Dopo due aggiornamenti, dei 100.000 campioni iniziali ne rimangono pochi.

La buona notizia è che, per il caso delle proporzioni (tassi di click, tassi di conversione, percentuali di successo), esiste una soluzione analitica elegante. La distribuzione Beta, che abbiamo già incontrato, è la distribuzione naturale per descrivere la nostra incertezza su una proporzione. E quando il prior è una distribuzione Beta e i dati sono binomiali (successo/insuccesso), il posterior è ancora una distribuzione Beta — con parametri aggiornati.

Questo significa che l'intero aggiornamento bayesiano si riduce a una semplice operazione sui parametri, senza bisogno di simulazioni. Ma questa è una storia per il prossimo articolo.

Prova tu

Un e-commerce ha un tasso di conversione storico intorno al 3%. Dopo un redesign della pagina prodotto, su 200 visite si osservano 10 conversioni (5%).

Costruisci un modello bayesiano con prior uniforme tra 0% e 10% (incertezza iniziale: il tasso potrebbe essere qualsiasi valore in quel range).
Usa la simulazione (come nell'esempio dell'articolo) per ottenere il posterior.
Calcola il credible interval al 95%.
Calcola la probabilità che il vero tasso di conversione sia superiore al 3%.

Suggerimento: il codice è quasi identico a quello dell'esempio sulla campagna ads. Cambia il prior (runif(n, 0, 0.10)), il numero di visite (200) e il numero di conversioni osservate (10). Per la domanda 4, conta quanti campioni del posterior sono superiori a 0.03 e dividi per il totale.

Per approfondire

Se vuoi esplorare la statistica bayesiana con un approccio accessibile e sorprendentemente divertente, Bayesian Statistics the Fun Way di Will Kurt è una lettura che consiglio. Kurt riesce a spiegare prior, posterior e aggiornamento bayesiano con esempi concreti che non richiedono una laurea in matematica — e usa R per la parte computazionale, esattamente come facciamo qui. È il libro ideale per chi vuole capire la logica bayesiana prima di affrontare la teoria formale.

A/B Testing: come condurre esperimenti statisticamente validi (e gli errori da evitare)

paolo — Fri, 20 Feb 2026 08:48:38 +0000

Abbiamo avuto modo di esaminare, nel corso dei precedenti articoli, come funziona il test delle ipotesi e come il t-test per due campioni ci permetta di confrontare due gruppi in modo rigoroso. Abbiamo anche costruito intervalli di confidenza, imparato a quantificare l’incertezza delle nostre stime, e visto con il Teorema del Limite Centrale perché tutto questo funziona anche quando i dati non sono normali.

Ma c’è una domanda che, nella realtà operativa di chi fa SEO e marketing, si presenta con una frequenza quasi quotidiana: quale variante funziona meglio? Quale title tag porta più click? Quale landing page converte di più? Quale meta description attira l’attenzione? Non è una domanda accademica: è la domanda che separa le decisioni basate sui dati dalle opinioni travestite da strategie.

La buona notizia è che per rispondere abbiamo già tutti gli strumenti. L’A/B testing non è altro che l’applicazione diretta dei concetti di inferenza statistica che abbiamo costruito passo dopo passo: test delle ipotesi, confronto tra gruppi, significatività. In questo articolo mettiamo tutto insieme.

Di cosa parleremo

Cos’è un A/B test
Formulare correttamente un A/B test
Esempio pratico: conversion rate di due landing page
Gli errori più comuni
Approccio frequentista vs bayesiano
Esempio pratico SEO: meta description A/B test
Prova tu

Cos’è un A/B test

Un A/B test è, nella sua essenza, un esperimento controllato: prendiamo due varianti di qualcosa (una pagina, un titolo, una call-to-action), assegniamo casualmente gli utenti a una delle due varianti, e misuriamo quale produce risultati migliori.

La variante A è il controllo (la versione attuale, quella che stiamo già usando). La variante B è il trattamento (la nuova versione che vogliamo testare). La logica è la stessa di un esperimento scientifico: cambiamo una sola variabile alla volta, manteniamo tutto il resto costante, e osserviamo se il cambiamento produce un effetto misurabile.

Tre elementi rendono un A/B test affidabile. La randomizzazione: gli utenti vengono assegnati a A o B in modo casuale. Questo è fondamentale, perché se mostrassimo A di mattina e B di pomeriggio, ogni differenza osservata potrebbe dipendere dall’orario, non dalla variante. Il gruppo di controllo: senza A come riferimento, non sapremmo se i risultati di B sono buoni o cattivi. E infine una metrica di successo definita in anticipo: CTR, tasso di conversione, tempo sulla pagina. La metrica va scelta prima di raccogliere i dati, non dopo (torneremo su questo punto tra poco).

Ma perché serve la statistica? Perché i dati sono rumorosi. Se la variante A ha un CTR del 5.0% e la variante B del 5.3%, quella differenza è reale o è solo fluttuazione casuale? L’occhio nudo non può distinguere: ci serve un test formale. Ed è esattamente il test per due campioni che abbiamo già visto — applicato a proporzioni anziché a medie.

Formulare correttamente un A/B test

Prima di raccogliere dati, dobbiamo impostare il test in modo rigoroso. Vediamo come.

Scegliere la metrica. La metrica deve essere chiara, misurabile e direttamente collegata all’obiettivo. Per un title tag, la metrica naturale è il CTR (Click-Through Rate). Per una landing page, il tasso di conversione. Per un articolo del blog, magari il tempo medio sulla pagina. Va sempre tenuto bene a mente: una metrica vaga (“la pagina piace di più”) non è una metrica.

Definire le ipotesi. Come in ogni test statistico, partiamo da un’ipotesi nulla e un’ipotesi alternativa:

$H_0$: le due varianti hanno lo stesso effetto (nessuna differenza tra A e B)
$H_1$: le due varianti hanno un effetto diverso (esiste una differenza)

Il test statistico. Quando confrontiamo due proporzioni (come due CTR o due tassi di conversione), il test appropriato è lo z-test per due proporzioni. La logica è la stessa del t-test per due campioni, ma adattata a dati binari (click/non-click, conversione/non-conversione).

La statistica test si calcola così. Prima, calcoliamo la proporzione pooled (combinata), che è la nostra migliore stima della proporzione comune sotto l’ipotesi nulla:

$
\hat{p} = \frac{x_1 + x_2}{n_1 + n_2} \\
$

dove $x_1$ e $x_2$ sono i successi (click, conversioni) nei due gruppi, e $n_1$ e $n_2$ le dimensioni dei campioni.

Poi calcoliamo la statistica z:

$
z = \frac{\hat{p}_1 – \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}} \\
$

Al numeratore c’è la differenza osservata tra le due proporzioni; al denominatore, l’errore standard sotto l’ipotesi nulla. Il rapporto ci dice quante “unità di errore standard” separano le due proporzioni: più è alto, più la differenza è difficile da attribuire al caso.

Esempio: CTR di due title tag

Facciamo un esempio concreto. Abbiamo testato due varianti di title tag per una pagina importante del sito:

Title A (controllo): 1500 impressioni, 75 click → CTR = 5.0%
Title B (trattamento): 1500 impressioni, 105 click → CTR = 7.0%

Il title B sembra migliore, ma la differenza è statisticamente significativa? Calcoliamo passo dopo passo.

Passo 1: la proporzione pooled:

$
\hat{p} = \frac{75 + 105}{1500 + 1500} = \frac{180}{3000} = 0.06 \\
$

Passo 2: l’errore standard:

$
SE = \sqrt{0.06 \times 0.94 \times \left(\frac{1}{1500} + \frac{1}{1500}\right)} = \sqrt{0.0564 \times 0.00133} \approx 0.00867 \\
$

Passo 3: la statistica z:

$
z = \frac{0.07 – 0.05}{0.00867} \approx 2.31 \\
$

Passo 4: il p-value. Per un test a due code, $p \approx 0.021$.

Dunque: il p-value è inferiore a 0.05. Possiamo rifiutare l’ipotesi nulla e concludere che la differenza tra i due title tag è statisticamente significativa. Il title B ha un CTR significativamente più alto.

Calcoliamo lo stesso test in R:

# Dati
n1 <- 1500; x1 <- 75    # Title A
n2 <- 1500; x2 <- 105   # Title B
p1 <- x1 / n1  # 0.05
p2 <- x2 / n2  # 0.07

# Proporzione pooled e z-test
p_pool <- (x1 + x2) / (n1 + n2)
se <- sqrt(p_pool * (1 - p_pool) * (1/n1 + 1/n2))
z <- (p2 - p1) / se
p_value <- 2 * (1 - pnorm(abs(z)))

cat("z =", round(z, 3), "\n")
cat("p-value =", round(p_value, 4), "\n")

Risultato: z = 2.309, p-value = 0.0209.

Esempio pratico: conversion rate di due landing page

Passiamo a un esempio più articolato. Un e-commerce sta testando due varianti della propria landing page:

Pagina A (design attuale): 1000 visitatori, 35 conversioni → tasso di conversione = 3.5%
Pagina B (nuovo design): 1000 visitatori, 58 conversioni → tasso di conversione = 5.8%

La differenza appare sostanziosa (2.3 punti percentuali), ma con questi numeri è sufficiente per escludere il caso?

Verifichiamo in R con prop.test(), che esegue il test per due proporzioni:

risultato <- prop.test(
  x = c(35, 58),
  n = c(1000, 1000)
)

print(risultato)

La funzione restituisce il p-value del test e, cosa molto utile, l’intervallo di confidenza della differenza tra le due proporzioni. In questo caso il p-value è circa 0.019 — inferiore a 0.05, quindi la differenza è statisticamente significativa.

Ma è l’intervallo di confidenza della differenza che ci dà l’informazione più preziosa: non solo se B è meglio di A, ma di quanto, con quale margine di incertezza. Se l’IC della differenza va da circa 0.4 a 4.2 punti percentuali, sappiamo che B è quasi certamente migliore, e il miglioramento si colloca in quell’intervallo. È un’informazione molto più ricca di un semplice “sì, è significativo”.

n.b.: prop.test() applica una correzione di continuità (correzione di Yates) che rende il test leggermente più conservativo. Per campioni grandi la differenza è trascurabile; per campioni piccoli, è una cautela benvenuta.

Gli errori più comuni

L’A/B testing è uno strumento potente, ma insidioso. La facilità con cui si può impostare un test nasconde insidie metodologiche serie. Vediamo le più frequenti.

Fermare il test troppo presto

È la tentazione più forte: dopo pochi giorni, B sembra nettamente migliore di A. Perché aspettare ancora? Perché quei risultati preliminari sono rumore, non segnale.

Il problema ha un nome tecnico: peeking (come dicono gli anglosassoni, “sbirciare”). Ogni volta che guardiamo i dati intermedi e decidiamo se fermarci, aumentiamo la probabilità di un falso positivo. È come lanciare una moneta: se ci fermiamo ogni volta che esce testa tre volte di fila, concluderemo che la moneta è truccata. Ma non lo è — semplicemente, non le abbiamo dato abbastanza lanci.

Come evitarlo: definire prima la dimensione campionaria necessaria e attendere di raggiungere quel numero prima di trarre conclusioni. Nel frattempo, puoi usare il nostro calcolatore di sample size per determinare quanti utenti ti servono prima di avviare il test.

Testare troppe varianti senza correzione

Un altro errore frequente: testare tre, quattro, cinque varianti contemporaneamente (A/B/C/D…) e poi confrontarle tutte a coppie. Il problema è quello delle comparazioni multiple: più confronti facciamo, più è probabile trovare almeno un risultato significativo per puro caso.

Con 5 varianti e 10 confronti a coppie, la probabilità di trovare almeno un falso positivo sale dal 5% a quasi il 40%. Non è un dettaglio: è un errore che invalida l’intero test.

Come evitarlo: se servono confronti multipli, applicare una correzione di Bonferroni (dividere la soglia $\alpha$ per il numero di confronti) o, meglio ancora, limitarsi a testare una variante alla volta.

Ignorare la potenza del test

Il rischio di falso positivo (errore di tipo I, $\alpha$) lo conosciamo bene. Ma c’è un rischio speculare che viene spesso ignorato: il falso negativo (errore di tipo II, $\beta$). Succede quando B è davvero meglio di A, ma il nostro test non riesce a rilevarlo.

La causa più comune? Un campione troppo piccolo. Se abbiamo solo 100 visitatori per variante, il test non ha abbastanza “potenza” per rilevare differenze piccole ma reali. Concluderemo “nessuna differenza significativa” non perché la differenza non esiste, ma perché non avevamo abbastanza dati per vederla.

Come evitarlo: calcolare la dimensione campionaria necessaria prima di avviare il test, in base all’effetto minimo che vogliamo rilevare. È il tema della power analysis: usa il calcolatore di dimensione campionaria per verificare se il tuo test ha abbastanza potenza.

Confondere significatività statistica con significatività pratica

Un p-value basso non significa automaticamente che il risultato sia importante. Con campioni molto grandi, anche differenze microscopiche diventano statisticamente significative. Se testiamo due varianti su 500.000 visitatori, una differenza di CTR dello 0.01% (dal 5.00% al 5.01%) potrebbe risultare significativa. Ma è una differenza operativamente irrilevante.

Attenzione: il p-value risponde alla domanda “la differenza è reale?”, non alla domanda “la differenza è grande abbastanza da interessarci?”. Per quest’ultima serve una misura diversa — l’effect size — che tratteremo in un articolo dedicato.

Approccio frequentista vs bayesiano

Tutto ciò che abbiamo visto finora segue l’approccio frequentista: calcoliamo una statistica test, la confrontiamo con una distribuzione di riferimento, otteniamo un p-value e prendiamo una decisione binaria (rifiutare o non rifiutare $H_0$).

Funziona, e funziona bene. Ma ha dei limiti che nella pratica quotidiana si avvertono. Il p-value non ci dice “di quanto è meglio B rispetto ad A”. Non ci dice “qual è la probabilità che B sia davvero superiore”. E se raccogliamo nuovi dati, non possiamo semplicemente aggiornare il risultato: dobbiamo ricalcolare tutto da capo.

Esiste un approccio alternativo che risponde direttamente alla domanda che in fondo ci interessa di più: qual è la probabilità che B sia meglio di A? È l’approccio bayesiano.

L’idea è questa. Invece di partire da un’ipotesi nulla e cercare di rifiutarla, partiamo da una distribuzione a priori (come dicono gli anglosassoni, prior) che rappresenta la nostra conoscenza iniziale sulla conversione di ciascuna variante. Poi, man mano che raccogliamo dati, aggiorniamo quella distribuzione. Il risultato è una distribuzione a posteriori (posterior) che incorpora sia le nostre conoscenze pregresse sia i dati osservati.

Per tassi di conversione, la distribuzione naturale è la Beta: è definita tra 0 e 1 (come una proporzione) e si aggiorna in modo molto elegante. Se partiamo da un prior $\text{Beta}(\alpha, \beta)$ e osserviamo $s$ successi su $n$ tentativi, il posterior è:

$
\text{Beta}(\alpha + s, \, \beta + n – s) \\
$

Sembra difficile? È facilissimo. Usiamo i dati delle due landing page dell’esempio precedente. Partiamo da un prior non informativo $\text{Beta}(1, 1)$ — che equivale a dire “non sappiamo nulla, qualsiasi valore tra 0 e 1 è ugualmente plausibile”:

Pagina A: 35 conversioni su 1000 → posterior $\text{Beta}(36, \, 966)$
Pagina B: 58 conversioni su 1000 → posterior $\text{Beta}(59, \, 943)$

Calcoliamo in R la probabilità che B sia migliore di A:

set.seed(42)
n_sim <- 100000

# Posterior delle due varianti
post_A <- rbeta(n_sim, shape1 = 36, shape2 = 966)
post_B <- rbeta(n_sim, shape1 = 59, shape2 = 943)

# Probabilita' che B > A
prob_B_meglio <- mean(post_B > post_A)
cat("P(B > A) =", round(prob_B_meglio, 4), "\n")

# Distribuzione della differenza
diff <- post_B - post_A
cat("Differenza mediana:", round(median(diff) * 100, 2), "punti %\n")
cat("IC 95% della differenza:",
    round(quantile(diff, 0.025) * 100, 2), "-",
    round(quantile(diff, 0.975) * 100, 2), "punti %\n")

Il risultato è notevole: la probabilità che B sia meglio di A è superiore al 99%. Ma il vero vantaggio dell’approccio bayesiano è che otteniamo direttamente la distribuzione della differenza: non solo sappiamo se B è meglio, ma di quanto, con un intervallo di credibilità che quantifica la nostra incertezza.

Questa è una differenza sostanziale rispetto all’approccio frequentista. Il p-value ci dice “la differenza è improbabile sotto $H_0$“; il risultato bayesiano ci dice “la probabilità che B sia migliore è del 99%, e il miglioramento si colloca tra circa 0.5 e 4.2 punti percentuali”. Per una decisione operativa, la seconda informazione è spesso più utile.

Una nota importante: l’approccio bayesiano completo merita un articolo dedicato. Qui abbiamo appena scalfito la superficie — il tema dei prior informativi, dei modelli gerarchici e della loro applicazione sistematica è un percorso a sé che affronteremo nella sezione dedicata alla statistica bayesiana.

Esempio pratico SEO: meta description A/B test

Vediamo un ultimo scenario, molto comune nella pratica quotidiana. Abbiamo due varianti di meta description per una pagina chiave del sito. Alternando le due versioni (due settimane ciascuna, per minimizzare effetti stagionali) e consultando i dati di Search Console, otteniamo:

Meta A: 3200 impressioni, 128 click → CTR = 4.0%
Meta B: 3100 impressioni, 155 click → CTR = 5.0%

Verifichiamo in R:

prop.test(c(128, 155), c(3200, 3100))

il p-value è circa 0.064 — superiore alla soglia di 0.05, quindi non possiamo rifiutare l’ipotesi nulla. Anche l’intervallo di confidenza della differenza include lo zero, confermando la non significatività. Un risultato al limite, che ci dice: con questi dati non abbiamo abbastanza evidenza per concludere che la meta B sia davvero migliore.Quale approccio usare? Per un test semplice come questo, l’approccio frequentista con prop.test() è più che sufficiente: abbiamo campioni grandi, la domanda è chiara. L’approccio bayesiano diventa più prezioso quando i campioni sono piccoli, quando vogliamo aggiornare il risultato man mano che arrivano nuovi dati, o quando abbiamo conoscenze pregresse da incorporare (ad esempio, sappiamo che per quel tipo di pagina il CTR è tipicamente tra il 3% e il 7%).

Ma la decisione operativa non deve basarsi solo sul p-value. Dobbiamo chiederci: la differenza (un punto percentuale di CTR in più) è abbastanza grande da giustificare il cambiamento? Con 3000 e più impressioni al mese, un punto percentuale in più significa circa 30 click aggiuntivi. È significativo per il nostro business? Questa è una domanda che la statistica non può risolvere da sola — è una valutazione che spetta a noi.

Prova tu

Un e-commerce sta testando due varianti di call-to-action su una pagina prodotto:

Variante A (“Aggiungi al carrello”): 450 visite, 23 conversioni
Variante B (“Compralo ora”): 430 visite, 31 conversioni

Calcola il tasso di conversione di ciascuna variante
Esegui il test con prop.test(c(23, 31), c(450, 430)) e interpreta il p-value
L’intervallo di confidenza della differenza include lo zero?
Al livello di significatività del 5%, la differenza è statisticamente significativa?

Suggerimento: se il p-value è superiore a 0.05, non possiamo concludere che una variante sia meglio dell’altra — ma questo non significa che siano uguali. Potrebbe semplicemente significare che non abbiamo abbastanza dati. È esattamente il problema della potenza del test di cui abbiamo parlato.

L’A/B testing ci offre un framework rigoroso per prendere decisioni basate sui dati, non sulle intuizioni. Ma come abbiamo visto, un test ben condotto ci dice se c’è una differenza significativa — non ci dice quanto sia grande quell’effetto, né quanti dati ci servano per rilevarlo con sicurezza. Sono le domande dell’effect size e della power analysis, i prossimi strumenti nel nostro percorso. Per la dimensione campionaria, il calcolatore interattivo ti permette di ottenere il numero esatto in tempo reale.

Per approfondire

Se vuoi approfondire la metodologia degli esperimenti online, Trustworthy Online Controlled Experiments di Ron Kohavi, Diane Tang e Ya Xu è il riferimento mondiale sull’A/B testing. Gli autori hanno guidato le piattaforme di sperimentazione di Microsoft, Amazon e LinkedIn — e il libro copre tutto, dal design del test alle insidie che abbiamo visto in questo articolo, fino agli aspetti organizzativi che fanno la differenza tra un test ben condotto e un esercizio sterile.

Per chi vuole esplorare l’approccio bayesiano all’A/B testing (che abbiamo appena introdotto), Bayesian Statistics the Fun Way di Will Kurt è un’introduzione accessibile e sorprendentemente divertente. Spiega prior, posterior e aggiornamento bayesiano con esempi che non richiedono una laurea in matematica — e usa R per la parte computazionale.

Il Teorema del Limite Centrale: perché la statistica funziona (anche quando i dati non sono normali)

paolo — Thu, 19 Feb 2026 14:39:19 +0000

Abbiamo avuto modo di esaminare, nel corso dei precedenti articoli, la distribuzione normale e le sue proprietà. E poi siamo andati avanti: abbiamo costruito intervalli di confidenza, condotto test delle ipotesi, calcolato margini di errore. In tutti questi passaggi, la distribuzione normale era lì, sempre presente, come un filo conduttore silenzioso.

Ma c’è una domanda che forse ci siamo posti senza trovare ancora una risposta soddisfacente: perché la distribuzione normale funziona così bene, anche quando i nostri dati non sono affatto normali? Chi ha detto che il traffico organico, i tassi di conversione o le durate delle sessioni seguano una distribuzione a campana? Nella maggior parte dei casi, non la seguono affatto.

La risposta sta in uno dei risultati più eleganti e potenti di tutta la matematica: il Teorema del Limite Centrale (in inglese Central Limit Theorem, spesso abbreviato in TLC o CLT). È il teorema che, in un certo senso, giustifica l’intera statistica inferenziale.

Di cosa parleremo

Cos’è il Teorema del Limite Centrale
Perché è così importante
Vediamolo con i nostri occhi: una simulazione in R
La regola pratica: quanto deve essere grande n?
Il TLC e l’errore standard
Un esempio pratico: il traffico organico giornaliero
Quando il TLC non basta
Prova tu

Cos’è il Teorema del Limite Centrale

Partiamo dall’enunciato, e poi lo tradurremo in parole semplici.

Il Teorema del Limite Centrale afferma che: se preleviamo campioni sufficientemente grandi da una qualsiasi popolazione con media $\mu$ e deviazione standard $\sigma$ finite, la distribuzione delle medie campionarie sarà approssimativamente normale, indipendentemente dalla forma della distribuzione originale.

Più precisamente, la distribuzione delle medie campionarie $\bar{X}$ tende a:

$
\bar{X} \sim N\left(\mu, \, \frac{\sigma}{\sqrt{n}}\right) \\
$

dove:

$\mu$ è la media della popolazione
$\sigma$ è la deviazione standard della popolazione
$n$ è la dimensione di ciascun campione
$\frac{\sigma}{\sqrt{n}}$ è l’errore standard della media

In termini più chiari e diretti: non importa quanto strana, asimmetrica o bizzarra sia la distribuzione dei nostri dati originali. Se prendiamo tanti campioni e calcoliamo la media di ciascuno, quelle medie si disporranno a formare una campana. Sempre.

Perché è così importante

Va sempre tenuto bene a mente questo punto, perché è la chiave di volta di tutto ciò che abbiamo fatto finora.

Quando calcoliamo un intervallo di confidenza o conduciamo un test delle ipotesi, non lavoriamo con i singoli dati: lavoriamo con le medie campionarie. E il TLC ci garantisce che quelle medie, purché il campione sia abbastanza grande, seguono una distribuzione normale (o approssimativamente tale).

Ecco perché possiamo usare la distribuzione normale e la distribuzione t anche quando i dati originali non sono normali. Non stiamo facendo un’assunzione azzardata: stiamo sfruttando un risultato matematico solido.

In pratica, il TLC è il motivo per cui:

gli intervalli di confidenza funzionano
i test delle ipotesi sono affidabili
possiamo fare inferenza statistica su praticamente qualsiasi tipo di dato

Vediamolo con i nostri occhi: una simulazione in R

La teoria è bella, ma vedere il TLC in azione è un’altra cosa. Costruiamo una simulazione in R che mostra il teorema al lavoro.

Partiamo da una distribuzione decisamente non normale: una distribuzione esponenziale, che è fortemente asimmetrica a destra (pensate alla distribuzione dei tempi di permanenza su un sito: molte visite brevissime, poche molto lunghe).

Simuliamo in R il processo di campionamento ripetuto:

set.seed(42)

# Popolazione: distribuzione esponenziale (media = 1/lambda)
lambda <- 0.5
pop_mean <- 1 / lambda  # media vera = 2

# Simuliamo 10000 campioni di dimensione n
n_campioni <- 10000

# Funzione per calcolare le medie campionarie
simula_medie <- function(n) {
  replicate(n_campioni, mean(rexp(n, rate = lambda)))
}

# Proviamo con tre dimensioni campionarie diverse
medie_n5  <- simula_medie(5)
medie_n30 <- simula_medie(30)
medie_n100 <- simula_medie(100)

# Visualizziamo
par(mfrow = c(2, 2))

# La distribuzione originale (esponenziale)
hist(rexp(10000, rate = lambda), breaks = 50, probability = TRUE,
     main = "Popolazione originale\n(esponenziale)",
     col = "lightcoral", xlab = "Valore", ylab = "Densit\u00e0")

# Medie con n = 5
hist(medie_n5, breaks = 50, probability = TRUE,
     main = "Medie campionarie (n = 5)",
     col = "lightyellow", xlab = "Media", ylab = "Densit\u00e0")
curve(dnorm(x, mean = pop_mean, sd = pop_mean / sqrt(5)),
      add = TRUE, col = "red", lwd = 2)

# Medie con n = 30
hist(medie_n30, breaks = 50, probability = TRUE,
     main = "Medie campionarie (n = 30)",
     col = "lightgreen", xlab = "Media", ylab = "Densit\u00e0")
curve(dnorm(x, mean = pop_mean, sd = pop_mean / sqrt(30)),
      add = TRUE, col = "red", lwd = 2)

# Medie con n = 100
hist(medie_n100, breaks = 50, probability = TRUE,
     main = "Medie campionarie (n = 100)",
     col = "lightblue", xlab = "Media", ylab = "Densit\u00e0")
curve(dnorm(x, mean = pop_mean, sd = pop_mean / sqrt(100)),
      add = TRUE, col = "red", lwd = 2)

Come si vede, il risultato è spettacolare. La popolazione di partenza è completamente asimmetrica (l’esponenziale non assomiglia neanche lontanamente a una campana), eppure:

Con n = 5, le medie cominciano già a somigliare a una normale, anche se resta un po’ di asimmetria
Con n = 30, la distribuzione delle medie è praticamente indistinguibile da una normale
Con n = 100, la sovrapposizione con la curva teorica è quasi perfetta

Basta aumentare la dimensione del campione e la normalità emerge da sola.

La regola pratica: quanto deve essere grande n?

Una domanda legittima: “sufficientemente grande” è un termine piuttosto vago. In pratica, quanto deve essere grande il campione perché il TLC faccia il suo lavoro?

La regola pratica più diffusa è n ≥ 30. Con 30 o più osservazioni, la distribuzione delle medie campionarie è generalmente ben approssimata dalla normale, anche se la distribuzione originale è moderatamente asimmetrica.

Ma attenzione: questa regola ha delle eccezioni.

Se la distribuzione originale è già simmetrica (anche se non normale), bastano campioni più piccoli (anche n = 10-15 può essere sufficiente)
Se la distribuzione originale è fortemente asimmetrica (come nel caso di dati con molti outlier, o distribuzioni esponenziali con parametri estremi), possono servire campioni più grandi (n = 50 o anche di più)

Nella pratica quotidiana della SEO e del marketing digitale, di solito lavoriamo con campioni ben superiori a 30 (centinaia o migliaia di sessioni, click, conversioni), quindi il TLC è quasi sempre dalla nostra parte.

Il TLC e l’errore standard

Il teorema ci dice anche qualcosa di prezioso sulla dispersione delle medie campionarie. La deviazione standard della distribuzione delle medie (cioè l’errore standard) è:

$
SE = \frac{\sigma}{\sqrt{n}} \\
$

Questo ha due conseguenze pratiche importanti:

All’aumentare di n, l’errore standard diminuisce. Più dati raccogliamo, più le nostre medie campionarie si concentrano attorno alla media vera. La relazione è con $\sqrt{n}$, il che significa (come abbiamo già visto con gli intervalli di confidenza) che per dimezzare l’errore standard dobbiamo quadruplicare il campione.
La variabilità della popolazione conta. Se i nostri dati sono molto dispersi (alto $\sigma$), servono campioni più grandi per ottenere stime precise. Un sito con traffico molto variabile richiede più giorni di osservazione per una stima affidabile della media giornaliera.

Verifichiamo in R che l’errore standard osservato corrisponda alla formula teorica:

# Errore standard teorico per n = 30
se_teorico <- pop_mean / sqrt(30)

# Errore standard osservato dalla simulazione
se_osservato <- sd(medie_n30)

cat("SE teorico:", round(se_teorico, 4), "\n")
cat("SE osservato:", round(se_osservato, 4), "\n")
cat("Differenza:", round(abs(se_teorico - se_osservato), 4), "\n")

La corrispondenza è notevole: i due valori praticamente coincidono. Il TLC funziona esattamente come promesso.

Un esempio pratico: il traffico organico giornaliero

Applichiamo il TLC a un caso concreto. Supponiamo di monitorare il traffico organico giornaliero di un sito per un anno (365 giorni). I dati di traffico non sono mai normali: sono asimmetrici a destra (giorni feriali vs weekend, picchi stagionali, anomalie).

Simuliamo in R una situazione realistica:

set.seed(123)

# Simuliamo 365 giorni di traffico (distribuzione log-normale, tipica del web)
traffico <- round(rlnorm(365, meanlog = 6, sdlog = 0.5))

cat("Media traffico giornaliero:", round(mean(traffico)), "visite\n")
cat("Mediana:", round(median(traffico)), "visite\n")
cat("Dev. standard:", round(sd(traffico)), "visite\n")

# Prendiamo campioni di 30 giorni e calcoliamo la media di ciascuno
medie_mensili <- replicate(5000, mean(sample(traffico, 30, replace = TRUE)))

par(mfrow = c(1, 2))

hist(traffico, breaks = 30, probability = TRUE,
     main = "Traffico giornaliero\n(365 giorni)",
     col = "lightcoral", xlab = "Visite", ylab = "Densit\u00e0")

hist(medie_mensili, breaks = 50, probability = TRUE,
     main = "Medie di campioni\nda 30 giorni",
     col = "lightblue", xlab = "Media visite", ylab = "Densit\u00e0")
curve(dnorm(x, mean = mean(traffico), sd = sd(traffico) / sqrt(30)),
      add = TRUE, col = "red", lwd = 2)

# Test di normalit\u00e0 sulle medie
shapiro.test(sample(medie_mensili, 5000))

Il traffico giornaliero è chiaramente asimmetrico (la media è diversa dalla mediana, la distribuzione ha una coda lunga a destra). Ma le medie di campioni da 30 giorni? Perfettamente normali, come il TLC garantisce.

Questo è esattamente il motivo per cui possiamo costruire intervalli di confidenza affidabili per il traffico medio, anche se i singoli giorni hanno una distribuzione tutt’altro che normale.

Quando il TLC non basta

Sarebbe disonesto non menzionare i casi in cui il TLC ha dei limiti. Il teorema richiede che la popolazione abbia media e varianza finite. Ci sono distribuzioni (come la distribuzione di Cauchy) che non hanno una varianza finita, e per queste il TLC non vale.

Nella pratica della SEO e del marketing, questo è raramente un problema: i nostri dati hanno sempre media e varianza finite. Tuttavia, vale la pena ricordare che:

Con distribuzioni fortemente asimmetriche e campioni piccoli (n < 20), l’approssimazione normale può essere insufficiente. In questi casi, meglio usare metodi non parametrici o tecniche di bootstrap
Con proporzioni estreme (molto vicine a 0 o a 1), il TLC per le proporzioni richiede campioni più grandi perché l’approssimazione funzioni. Ne abbiamo già parlato nell’articolo sugli intervalli di confidenza

Prova tu

Un e-commerce registra i seguenti importi degli ordini (in euro) in un mese:

ordini <- c(12, 8, 45, 15, 22, 150, 9, 18, 35, 11,
            14, 200, 7, 19, 28, 13, 55, 10, 16, 95,
            8, 21, 42, 12, 17, 310, 9, 14, 25, 11)

Calcola media e deviazione standard degli ordini. La distribuzione sembra normale?
Usa replicate() e sample() per generare 5000 medie campionarie con n = 10 (campionando con reinserimento)
Disegna l’istogramma delle medie campionarie. Assomiglia a una normale?
Calcola l’errore standard teorico ($\frac{s}{\sqrt{n}}$) e confrontalo con la deviazione standard delle medie simulate

Suggerimento: replicate(5000, mean(sample(ordini, 10, replace = TRUE))) fa quasi tutto il lavoro.

Abbiamo visto come il Teorema del Limite Centrale sia il fondamento nascosto di tutta la statistica inferenziale: è il motivo per cui possiamo costruire intervalli di confidenza, condurre test delle ipotesi e fare previsioni affidabili, anche quando i nostri dati non sono normali. Ma il TLC ci ha anche insegnato che la dimensione del campione è cruciale. Questo ci apre la strada a una domanda molto pratica: quanti dati ci servono? È il problema della dimensione campionaria e del campionamento, temi che affronteremo in un prossimo articolo.

Per approfondire

Se vuoi approfondire il ruolo della distribuzione normale e del Teorema del Limite Centrale nella pratica statistica, L’arte della statistica di David Spiegelhalter è un’ottima compagna di viaggio. Spiegelhalter riesce a spiegare perché la curva a campana compare ovunque — dalle misurazioni fisiche ai sondaggi elettorali — con una chiarezza che non sacrifica mai il rigore.

Intervalli di confidenza: cosa sono, come calcolarli (e cosa NON significano)

paolo — Mon, 16 Feb 2026 14:12:10 +0000

Abbiamo avuto modo di esaminare, nel corso dei precedenti articoli, come funziona il test delle ipotesi e come la distribuzione t ci permetta di lavorare anche quando non conosciamo la deviazione standard della popolazione. In entrambi i casi, ci siamo concentrati su una domanda precisa: “posso rifiutare l’ipotesi nulla, sì o no?”

Ma c’è un’altra domanda, altrettanto importante, che nella pratica quotidiana ci poniamo continuamente: quanto vale, con ragionevole approssimazione, il parametro che sto stimando? Non ci basta sapere se la media è diversa da un certo valore; vogliamo sapere dove si trova, con quale margine di incertezza.

Qui entrano in gioco gli intervalli di confidenza (in inglese confidence intervals, spesso abbreviati in IC o CI), uno degli strumenti più utili e al contempo più fraintesi di tutta la statistica inferenziale.

Di cosa parleremo

Cos’è un intervallo di confidenza
Il grande malinteso: cosa NON è un intervallo di confidenza
Costruire un IC per la media
IC per proporzioni
La relazione tra IC e test delle ipotesi
Livelli di confidenza: 90%, 95%, 99%
Cosa influenza la larghezza dell’IC
Un esempio pratico: IC del CTR organico
Prova tu

Cos’è un intervallo di confidenza

Partiamo da un esempio concreto. Supponiamo di voler conoscere la durata media delle sessioni organiche sul nostro sito. Non possiamo osservare tutte le sessioni che ci saranno mai (sarebbe la “popolazione”); possiamo però osservarne un campione, diciamo le sessioni dell’ultimo mese.

Dal campione calcoliamo una media: ad esempio 2 minuti e 45 secondi. Ma sappiamo bene che questa è una stima puntuale: se prendessimo un altro campione (il mese successivo, per dire), otterremmo un valore leggermente diverso. La stima puntuale, da sola, non ci dice nulla sulla sua precisione.

L’intervallo di confidenza risolve esattamente questo problema. È un intervallo di valori, costruito a partire dai dati campionari, che con un certo livello di fiducia contiene il vero parametro della popolazione.

In termini più chiari e diretti: anziché dire “la durata media è 2:45”, diciamo “siamo ragionevolmente sicuri che la durata media della popolazione si trovi tra 2:30 e 3:00”. Abbiamo scambiato la precisione illusoria di un singolo numero con l’onestà di un intervallo.

Il grande malinteso: cosa NON è un intervallo di confidenza

Va sempre tenuto bene a mente un punto fondamentale, perché qui si annida uno degli errori più diffusi in statistica.

Quando diciamo “intervallo di confidenza al 95%”, non stiamo dicendo che c’è il 95% di probabilità che il parametro della popolazione cada dentro quell’intervallo. Il parametro della popolazione è un valore fisso (anche se sconosciuto): non “cade” da nessuna parte, non è una variabile casuale.

Quello che il 95% significa è questo: se ripetessimo il campionamento molte volte, e per ogni campione calcolassimo un intervallo di confidenza, il 95% di quegli intervalli conterrebbe il vero parametro. È una proprietà della procedura, non del singolo intervallo.

Sembra difficile? Facciamo un esempio al volo. Immaginiamo di lanciare una rete da pesca 100 volte. Se la nostra rete è buona (costruita al 95%), circa 95 volte su 100 catturerà il pesce. Ma una volta che abbiamo lanciato la rete e l’abbiamo tirata su, il pesce o c’è dentro o non c’è: non ha senso dire “c’è il 95% di probabilità che il pesce sia nella rete”. L’intervallo di confidenza è la rete; il parametro è il pesce.

Costruire un IC per la media

Vediamo come si costruisce concretamente un intervallo di confidenza per la media di una popolazione. La formula è:

$
\bar{x} \pm t_{\alpha/2, \, n-1} \cdot \frac{s}{\sqrt{n}} \\
$

dove:

$\bar{x}$ è la media campionaria
$t_{\alpha/2, \, n-1}$ è il valore critico della distribuzione t con $n – 1$ gradi di libertà
$s$ è la deviazione standard campionaria
$n$ è la numerosità del campione
$\frac{s}{\sqrt{n}}$ è l’errore standard della media

Il termine $t_{\alpha/2, \, n-1} \cdot \frac{s}{\sqrt{n}}$ si chiama margine di errore (come dicono gli anglosassoni, margin of error). È la “larghezza del braccio” del nostro intervallo: più è grande, più siamo incerti.

Esempio numerico

Supponiamo di aver misurato la durata media delle sessioni organiche su un campione di 30 giorni. I dati:

Media campionaria: $\bar{x} = 200$ secondi
Deviazione standard campionaria: $s = 12$ secondi
Numerosità: $n = 30$
Livello di confidenza desiderato: 95%

Calcoliamo passo dopo passo.

Passo 1: Troviamo il valore critico $t$. Per un livello di confidenza del 95%, cerchiamo $t_{0.025, \, 29}$ (cioè il valore che lascia il 2.5% nelle code). Con 29 gradi di libertà, $t \approx 2.045$.

Passo 2: Calcoliamo l’errore standard:

$
SE = \frac{s}{\sqrt{n}} = \frac{12}{\sqrt{30}} \approx 2.19 \\
$

Passo 3: Calcoliamo il margine di errore:

$
ME = t \cdot SE = 2.045 \times 2.19 \approx 4.48 \\
$

Passo 4: Costruiamo l’intervallo:

$
200 \pm 4.48 = [195.52, \; 204.48] \\
$

Dunque: siamo ragionevolmente sicuri (al 95%) che la durata media delle sessioni nella popolazione si trovi tra circa 195.5 e 204.5 secondi.

In R

Calcoliamo lo stesso intervallo in R:

n <- 30
xbar <- 200
s <- 12

margin <- qt(0.975, df = n - 1) * s / sqrt(n)

lower <- xbar - margin
upper <- xbar + margin

cat("IC al 95%:", round(lower, 2), "-", round(upper, 2), "\n")
cat("Margine di errore:", round(margin, 2), "\n")

Risultato: IC al 95%: 195.52 – 204.48, con un margine di errore di 4.48 secondi.

IC per proporzioni

Nella realtà operativa della SEO e del marketing digitale, spesso lavoriamo non con medie ma con proporzioni: tassi di conversione, CTR, bounce rate. Per le proporzioni la formula è leggermente diversa.

L’intervallo di confidenza per una proporzione è:

$
\hat{p} \pm z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \\
$

dove:

$\hat{p}$ è la proporzione campionaria (ad esempio, il tasso di conversione osservato)
$z_{\alpha/2}$ è il valore critico della distribuzione normale standard (qui usiamo la $z$ perché con proporzioni e campioni sufficientemente grandi la distribuzione è approssimativamente normale)
$n$ è la numerosità del campione

n.b.: questa formula (detta di Wald) funziona bene quando $n$ è sufficientemente grande e $\hat{p}$ non è troppo vicino a 0 o a 1. Come regola pratica, servono almeno $n \cdot \hat{p} \geq 5$ e $n \cdot (1 – \hat{p}) \geq 5$.

Esempio: IC del tasso di conversione

Una landing page ha ricevuto 500 visite nell’ultimo mese, con 18 conversioni. Il tasso di conversione osservato è:

$
\hat{p} = \frac{18}{500} = 0.036 \quad (3.6\%) \\
$

Calcoliamo l’IC al 95%. Il valore critico $z_{0.025} = 1.96$.

$
SE = \sqrt{\frac{0.036 \times 0.964}{500}} = \sqrt{\frac{0.0347}{500}} \approx 0.0083 \\
$
$
ME = 1.96 \times 0.0083 \approx 0.0163 \\
$
$
IC = [0.036 – 0.0163, \; 0.036 + 0.0163] = [0.0197, \; 0.0523] \\
$

In altri termini: il tasso di conversione reale della pagina si trova, con il 95% di confidenza, tra l’1.97% e il 5.23%.

Questo è di estrema utilità nella pratica. Se qualcuno ci chiede “qual è il conversion rate di quella pagina?”, rispondere “3.6%” è una mezza verità. Rispondere “tra il 2% e il 5.2%” è onesto e informativo.

In R

Costruiamo lo stesso calcolo in R:

n <- 500
successi <- 18
p_hat <- successi / n

se <- sqrt(p_hat * (1 - p_hat) / n)
z <- qnorm(0.975)
margin <- z * se

lower <- p_hat - margin
upper <- p_hat + margin

cat("Proporzione:", round(p_hat, 4), "\n")
cat("IC al 95%:", round(lower, 4), "-", round(upper, 4), "\n")

# oppure, con la funzione integrata:
prop.test(successi, n, conf.level = 0.95)

La funzione prop.test() di R restituisce direttamente l’intervallo di confidenza (usando una correzione di continuità che lo rende leggermente più conservativo).

La relazione tra IC e test delle ipotesi

C’è un legame profondo tra intervalli di confidenza e test delle ipotesi, e capirlo chiarisce entrambi i concetti.

Se un valore ipotizzato cade fuori dall’intervallo di confidenza al 95%, allora il test delle ipotesi a quel valore sarebbe rifiutato con $\alpha = 0.05$. E viceversa: se il valore cade dentro l’IC, non possiamo rifiutare l’ipotesi nulla.

Facciamo un esempio. Torniamo alla nostra durata media delle sessioni: IC al 95% = [195.52, 204.48]. Se qualcuno ipotizza che la durata media sia 190 secondi, possiamo rispondere: “190 cade fuori dal nostro IC al 95%, quindi rifiuteremmo l’ipotesi nulla $H_0: \mu = 190$ con $\alpha = 0.05$“. Se invece l’ipotesi fosse $\mu = 198$, 198 cade dentro l’intervallo, e non potremmo rifiutare.

In un certo senso, l’intervallo di confidenza è più informativo del test delle ipotesi: il test ci dice solo “sì/no”, mentre l’IC ci dice dove si trova il parametro. È come la differenza tra chiedere “sei a Roma?” (test) e chiedere “dove sei?” (IC).

Livelli di confidenza: 90%, 95%, 99%

Il livello di confidenza più usato è il 95%, ma non è l’unico. Vediamo come cambia l’intervallo al variare del livello:

Livello	Valore critico z	IC per il nostro esempio (media)
90%	1.645	[196.40, 203.60]
95%	1.960	[195.52, 204.48]
99%	2.576	[193.36, 206.64]

La regola è semplice: più alta la confidenza, più largo l’intervallo. È il prezzo della sicurezza: se vogliamo essere più certi che l’intervallo contenga il parametro, dobbiamo allargare la rete.

È una scelta di compromesso. Un IC al 99% è quasi certamente corretto, ma è così largo da essere poco utile (“la media è tra 193 e 207 secondi” – e allora?). Un IC al 90% è più stretto e operativamente utile, ma sbaglia più spesso.

Nella pratica quotidiana della SEO e del marketing, il 95% è la convenzione standard. Non c’è nulla di magico in quel numero (come per il famoso $\alpha = 0.05$ nei test delle ipotesi), ma è il compromesso che la comunità scientifica ha adottato, e non ha senso reinventare la ruota.

Cosa influenza la larghezza dell’IC

Tre fattori determinano quanto sarà largo (o stretto) il nostro intervallo:

La dimensione del campione ($n$): più dati abbiamo, più stretto sarà l’IC. Questo è intuitivo: più osservazioni raccogliamo, più precisa diventa la nostra stima. La relazione è con $\sqrt{n}$, il che significa che per dimezzare la larghezza dell’IC dobbiamo quadruplicare il campione.
La variabilità dei dati ($s$): più i dati sono dispersi, più largo sarà l’IC. Se il traffico del sito è molto variabile giorno per giorno, la nostra stima della media sarà meno precisa.
Il livello di confidenza: come visto, più alta la confidenza, più largo l’intervallo.

Dei tre fattori, l’unico su cui abbiamo un controllo diretto è la dimensione del campione. Ecco perché la domanda “quanti dati mi servono?” è così importante. Il calcolatore di sample size per A/B test ti aiuta a rispondere in modo preciso.

Un esempio pratico: IC del CTR organico

Applichiamo tutto questo a un caso reale. Supponiamo di avere una pagina che in Search Console mostra questi dati per l’ultimo mese:

Impressioni: 2000
Click: 140
CTR osservato: $\frac{140}{2000} = 0.07$ (7%)

Costruiamo l’IC al 95% per il CTR:

n <- 2000
click <- 140
ctr <- click / n

se <- sqrt(ctr * (1 - ctr) / n)
z <- qnorm(0.975)

lower <- ctr - z * se
upper <- ctr + z * se

cat("CTR osservato:", round(ctr * 100, 2), "%\n")
cat("IC al 95%:", round(lower * 100, 2), "% -", round(upper * 100, 2), "%\n")

Risultato: CTR osservato 7.00%, IC al 95%: 5.88% – 8.12%.

Questo ci dice qualcosa di importante: quel 7% è una stima ragionevolmente precisa (il margine è di circa un punto percentuale in ogni direzione), grazie alle 2000 impressioni. Se avessimo avuto solo 200 impressioni, l’intervallo sarebbe stato molto più largo e la stima molto meno affidabile.

È un’informazione preziosissima quando facciamo confronti. Se un’altra pagina ha un CTR del 6.5% su un numero simile di impressioni, possiamo già intuire (e con un test formale verificare) che la differenza non è statisticamente significativa: i due intervalli si sovrappongono ampiamente.

Prova tu

Una campagna di email marketing ha prodotto questi risultati nell’ultimo trimestre:

Email inviate: 1200
Aperture: 312
Click nel corpo dell’email: 78

Calcola l’intervallo di confidenza al 95% per il tasso di apertura (open rate)
Calcola l’intervallo di confidenza al 95% per il tasso di click (click rate, sul totale delle email inviate)
Un collega sostiene che “il nostro open rate è del 30%”. Sulla base del tuo IC, questa affermazione è compatibile con i dati?

Suggerimento: usa la formula dell’IC per proporzioni. In R, prop.test(successi, totale) fa tutto il lavoro.

Abbiamo visto come l’intervallo di confidenza trasformi una stima puntuale (un numero solo, illusoriamente preciso) in un’informazione onesta sulla nostra incertezza. Ma una domanda resta aperta: se la larghezza dell’IC dipende dalla dimensione del campione, quanti dati ci servono per ottenere un intervallo sufficientemente stretto da essere utile? È il problema della dimensione campionaria: il calcolatore di sample size ti permette di determinare il numero esatto di osservazioni necessarie per il tuo A/B test.

Per approfondire

Se vuoi approfondire il tema dell’incertezza nelle stime e la logica degli intervalli di confidenza, L’arte della statistica di David Spiegelhalter è una lettura che consiglio. Spiegelhalter — professore a Cambridge e Fellow della Royal Society — ha il dono raro di rendere la statistica accessibile senza banalizzarla, ed è esattamente ciò che serve per capire davvero cosa un intervallo di confidenza ci dice e, soprattutto, cosa non ci dice.

Un’introduzione all’Analisi delle Componenti Principali (PCA)

paolo — Sun, 23 Mar 2025 16:54:08 +0000

L’Analisi delle Componenti Principali (PCA) è una tecnica statistica ampiamente utilizzata per ridurre la complessità di grandi set di dati. Essa mira a diminuire il numero di variabili, trasformando quelle potenzialmente correlate in un insieme più ristretto di variabili non correlate, denominate componenti principali .

Questa metodologia risponde all’esigenza di rappresentare fenomeni complessi, descritti da un elevato numero di variabili, tramite un numero inferiore di variabili che mantengano la maggior parte dell’informazione originale . L’obiettivo primario è quello di massimizzare la varianza catturata da queste nuove componenti, assicurando così una perdita minima di informazioni .

In pratica, la PCA si rivela particolarmente utile quando ci si trova di fronte a dataset con molte variabili che presentano correlazioni tra loro . In tali scenari, l’analisi diretta di tutte le variabili può diventare complessa e difficile da interpretare. La PCA permette di concentrare l’informazione contenuta nelle variabili originali in un numero ridotto di componenti principali, facilitando l’identificazione di pattern e tendenze sottostanti .

Per comprendere meglio il concetto di riduzione della dimensionalità, si può immaginare una città con molte strade interconnesse. La PCA agisce in modo simile a un sistema di pianificazione urbana che identifica le principali arterie di traffico. Concentrandosi su queste “strade principali”, si ottiene una visione chiara della struttura della città e dei suoi flussi di traffico, senza dover analizzare ogni singola via secondaria .

Nel contesto specifico del web marketing e dell’analisi dei dati, la PCA si dimostra uno strumento potente per diverse ragioni. Essa è efficace per visualizzare ed esplorare dataset ad alta dimensionalità, consentendo di identificare facilmente tendenze, modelli o valori anomali . Inoltre, viene comunemente impiegata nella fase di pre-elaborazione dei dati per algoritmi di machine learning, in quanto è in grado di estrarre le caratteristiche più informative da set di dati di grandi dimensioni, preservando le informazioni più rilevanti . Un ulteriore vantaggio è la sua capacità di minimizzare o eliminare la multicollinearità e l’overfitting, problemi frequenti in dataset di web marketing caratterizzati da numerose variabili potenzialmente correlate .

Di cosa parleremo

I Fondamenti Matematici della PCA
Applicazioni Pratiche della PCA in Diversi Settori
Utilizzo Concreto della PCA nel Web Marketing, SEO, SEM e Analisi Dati
Implementare la PCA con R: Esempi Pratici
- Esempio 2: Dati di performance di campagne pubblicitarie
Verifica e Interpretazione dei Risultati della PCA
Conclusione: Sfruttare la PCA per Ottimizzare le Strategie di Web Marketing

I Fondamenti Matematici della PCA

Per comprendere appieno il funzionamento della PCA, è fondamentale familiarizzare con alcuni concetti matematici chiave.

La varianza e la covarianza sono concetti statistici centrali per la PCA .
La varianza misura la dispersione di una singola variabile attorno alla sua media, indicando quanto i suoi valori sono distanti dal valore centrale.
La covarianza, invece, quantifica come due variabili cambiano insieme.
Una covarianza positiva suggerisce che le variabili tendono ad aumentare o diminuire contemporaneamente, mentre una covarianza negativa indica una relazione inversa . L’obiettivo della PCA è individuare componenti che presentino la massima varianza possibile, in quanto una maggiore varianza è spesso associata a una maggiore quantità di informazione . La matrice di covarianza è uno strumento che riassume le covarianze tra tutte le possibili coppie di variabili in un dataset. Gli elementi diagonali di questa matrice rappresentano le varianze di ciascuna variabile, mentre gli elementi non diagonali indicano le covarianze tra le coppie di variabili . Questa matrice è un input cruciale per l’algoritmo PCA, in quanto descrive la struttura delle relazioni lineari tra le variabili.

Gli autovalori e gli autovettori costituiscono il cuore matematico della PCA . In termini semplici, i componenti principali di un dataset sono gli autovettori della sua matrice di covarianza . Un autovettore rappresenta una direzione nello spazio dei dati originali, mentre l’autovalore associato indica la magnitudine della varianza dei dati lungo quella direzione . In altre parole, gli autovettori identificano le direzioni in cui i dati variano maggiormente, e gli autovalori quantificano l’importanza di ciascuna di queste direzioni in termini di varianza spiegata .

La varianza spiegata è una metrica fondamentale per valutare l’importanza di ciascuna componente principale . Essa rappresenta la proporzione della varianza totale dei dati originali che viene catturata da una specifica componente principale. Questa proporzione si calcola dividendo l’autovalore della componente per la somma di tutti gli autovalori .
La varianza spiegata cumulativa indica la quantità totale di varianza catturata da un certo numero di componenti principali, sommandone le proporzioni individuali . Questa metrica è cruciale per determinare quanti componenti principali è necessario conservare per rappresentare adeguatamente i dati senza perdere una quantità significativa di informazione .

Nota a margine: criteri come la regola (o criterio) di Kaiser, che suggerisce di mantenere solo le componenti con autovalori superiori a 1 , e lo scree plot, un grafico degli autovalori ordinati, che aiuta a identificare il “gomito” della curva come punto di taglio , sono utili per guidare la scelta del numero ottimale di componenti principali.

Applicazioni Pratiche della PCA in Diversi Settori

La PCA è una tecnica versatile con un’ampia gamma di applicazioni in diversi settori . In generale, viene impiegata per la riduzione della dimensionalità, la visualizzazione di dati complessi, la rimozione del rumore e l’estrazione di caratteristiche rilevanti per analisi successive o per l’addestramento di modelli di machine learning .

Nel campo dell’elaborazione delle immagini, la PCA è utilizzata per la compressione, riducendo il numero di pixel necessari per rappresentare un’immagine mantenendo le sue caratteristiche essenziali.
In genomica e bioinformatica, aiuta a identificare i geni più critici che determinano variazioni, riducendo la complessità dei dati genomici.
In finanza, la PCA può essere applicata per l’analisi del rischio e l’ottimizzazione del portafoglio, identificando i fattori economici chiave che influenzano la performance degli asset.
Nel settore sanitario, viene utilizzata per l’analisi di immagini mediche come le risonanze magnetiche, per migliorare la visualizzazione e facilitare la diagnosi .
Anche in sicurezza, la PCA trova applicazione nei sistemi biometrici per il riconoscimento delle impronte digitali, estraendo le caratteristiche più rilevanti.
Infine, in climatologia, la tecnica è impiegata per analizzare e interpretare grandi set di dati ambientali .

Per quanto riguarda specificamente l’analisi dei dati e il marketing, la PCA offre diversi vantaggi . Consente di semplificare dataset complessi, ridurre il rumore presente nei dati, estrarre le caratteristiche più significative per ulteriori analisi e migliorare le prestazioni di modelli predittivi. La sua capacità di visualizzare dati ad alta dimensionalità in uno spazio a due o tre dimensioni facilita l’identificazione di pattern, tendenze e outlier, rendendo l’interpretazione dei dati più accessibile .

Utilizzo Concreto della PCA nel Web Marketing, SEO, SEM e Analisi Dati

L’Analisi delle Componenti Principali può essere applicata in modo efficace in diversi ambiti del web marketing, SEO, SEM e analisi dati per ottenere insight significativi e ottimizzare le strategie.

Nell’analisi dei dati di parole chiave, la PCA può essere utilizzata per ridurre la dimensionalità degli embedding di parole o documenti . Un set di dati di parole chiave può essere caratterizzato da numerose metriche come il volume di ricerca, il livello di concorrenza, il costo per clic (CPC) e varie caratteristiche semantiche. Applicando la PCA, è possibile condensare queste molteplici dimensioni in un numero inferiore di componenti principali che catturano i temi o le caratteristiche sottostanti delle parole chiave. Questo può semplificare l’analisi, ad esempio, identificando gruppi di parole chiave con profili di performance simili.

Per l’analisi delle metriche di traffico web, la PCA può aiutare a identificare pattern significativi . Le metriche di traffico come le sessioni, la frequenza di rimbalzo, il tempo trascorso sulla pagina e le conversioni da diverse fonti possono essere analizzate con la PCA per scoprire variabili latenti che guidano la performance del sito web. Ad esempio, potrebbe emergere una componente principale correlata all’engagement degli utenti e una seconda componente legata all’efficacia delle diverse fonti di traffico. Questa comprensione può informare le decisioni sull’allocazione del budget di marketing e sull’ottimizzazione del sito web.

La segmentazione degli utenti in base al comportamento online e ai dati demografici è un’altra area in cui la PCA si rivela preziosa . Analizzando dati utente con molte variabili, come la cronologia degli acquisti, il comportamento di navigazione e le informazioni demografiche, la PCA può identificare raggruppamenti naturali di utenti con caratteristiche simili. Questo consente di creare segmenti di clientela più definiti e di indirizzare le attività di marketing in modo più efficace.

Infine, la PCA può contribuire a migliorare l’analisi delle performance delle campagne pubblicitarie . Le metriche di performance delle campagne, come le impressioni, i clic, le conversioni e il costo per acquisizione, possono essere analizzate per identificare i fattori chiave che determinano il successo delle campagne. Ad esempio, la PCA potrebbe rivelare che una combinazione specifica di creatività dell’annuncio e parametri di targeting è il principale motore delle conversioni, fornendo indicazioni preziose per ottimizzare le strategie delle campagne e migliorare il ritorno sull’investimento.

Implementare la PCA con R: Esempi Pratici

Per implementare la PCA in R, è necessario innanzitutto configurare l’ambiente e caricare le librerie necessarie. Le librerie fondamentali includono stats per le funzioni base di PCA come prcomp() e princomp(), factoextra per la visualizzazione dei risultati, e potenzialmente dplyr e ggplot2 per la manipolazione e la visualizzazione dei dati .

Per illustrare l’applicazione della PCA nel contesto del web marketing, possiamo creare dei set di dati sintetici che simulano scenari reali.

Esempio 1: Dati di posizionamento di parole chiave

Supponiamo di avere un dataset con informazioni su diverse parole chiave, tra cui il volume di ricerca mensile, un punteggio di concorrenza (da 0 a 1), il costo per clic (CPC) medio e la posizione media nella pagina dei risultati di ricerca di Google e Bing. Possiamo creare un dataframe sintetico in R come segue:

# Creazione di dati sintetici per il posizionamento di parole chiave
set.seed(123)
n_keywords <- 100
keywords <- paste0("keyword_", 1:n_keywords)
search_volume <- round(runif(n_keywords, min = 100, max = 10000))
competition <- runif(n_keywords, min = 0.1, max = 0.9)
cpc <- round(rnorm(n_keywords, mean = 2.5, sd = 1), 2)
ranking_google <- round(rnorm(n_keywords, mean = 15, sd = 10), 0)
ranking_bing <- round(rnorm(n_keywords, mean = 12, sd = 8), 0)

keyword_data <- data.frame(
  Keyword = keywords,
  Search_Volume = search_volume,
  Competition = competition,
  CPC = cpc,
  Ranking_Google = ranking_google,
  Ranking_Bing = ranking_bing
)

head(keyword_data)

    Keyword Search_Volume Competition  CPC Ranking_Google Ranking_Bing
1 keyword_1          2947   0.5799912 1.79             37            6
2 keyword_2          7904   0.3662588 2.76             28            6
3 keyword_3          4149   0.4908904 2.25             12            4
4 keyword_4          8842   0.8635791 2.15             20            4
5 keyword_5          9411   0.4863219 1.55             11            9
6 keyword_6           551   0.8122802 2.45             10           15

Esempio 2: Dati di performance di campagne pubblicitarie

Similmente, possiamo creare dati sintetici per le performance di campagne pubblicitarie, includendo metriche come le impressioni, i clic, le conversioni, il costo totale, il Click-Through Rate (CTR) e il Costo per Acquisizione (CPA).

# Creazione di dati sintetici per la performance di campagne pubblicitarie
set.seed(456)
n_campaigns <- 50
campaign_ids <- paste0("campaign_", 1:n_campaigns)
impressions <- round(runif(n_campaigns, min = 1000, max = 100000))
clicks <- round(impressions * runif(n_campaigns, min = 0.01, max = 0.1))
conversions <- round(clicks * runif(n_campaigns, min = 0.005, max = 0.05))
cost <- round(clicks * runif(n_campaigns, min = 0.1, max = 2), 2)
ctr <- round((clicks / impressions) * 100, 2)
cpa <- round(cost / conversions, 2)
cpa[is.nan(cpa)] <- 0 # Gestione dei NaN

campaign_data <- data.frame(
  Campaign_ID = campaign_ids,
  Impressions = impressions,
  Clicks = clicks,
  Conversions = conversions,
  Cost = cost,
  CTR = ctr,
  CPA = cpa
)

head(campaign_data)

  Campaign_ID Impressions Clicks Conversions    Cost  CTR    CPA
1  campaign_1        9866    873          14 1093.32 8.85  78.09
2  campaign_2       21841   1788          20 3360.17 8.19 168.01
3  campaign_3       73563   2866          66 2764.48 3.90  41.89
4  campaign_4       85361   4121          73 1422.12 4.83  19.48
5  campaign_5       79051   3432         133 1623.28 4.34  12.21
6  campaign_6       33864   3064         126 6047.70 9.05  48.00

Una volta creati i dataset, è possibile eseguire la PCA utilizzando la funzione prcomp(). È fondamentale scalare i dati prima di applicare la PCA per evitare che variabili con scale più ampie dominino l’analisi .

# Applicazione della PCA ai dati di posizionamento di parole chiave
pca_keywords <- prcomp(keyword_data[, 2:6], scale. = TRUE)
summary(pca_keywords)

# Applicazione della PCA ai dati di performance di campagne pubblicitarie
pca_campaigns <- prcomp(campaign_data[, 2:7], scale. = TRUE)
summary(pca_campaigns)

Importance of components:
                          PC1    PC2    PC3     PC4    PC5     PC6
Standard deviation     1.7837 1.2229 0.9303 0.49392 0.4250 0.18138
Proportion of Variance 0.5303 0.2492 0.1442 0.04066 0.0301 0.00548
Cumulative Proportion  0.5303 0.7795 0.9238 0.96442 0.9945 1.00000

L’output della funzione summary() fornisce informazioni cruciali come le deviazioni standard delle componenti principali, la proporzione di varianza spiegata da ciascuna componente e la proporzione cumulativa di varianza spiegata. I loadings (o matrice di rotazione), accessibili tramite pca_keywords$rotation e pca_campaigns$rotation, mostrano la correlazione tra le variabili originali e le componenti principali, aiutando a interpretare il significato di ciascuna componente. Gli scores (o coordinate delle componenti), accessibili tramite pca_keywords$x e pca_campaigns$x, rappresentano la proiezione dei dati originali sul nuovo spazio definito dalle componenti principali.

Per visualizzare i risultati, si possono utilizzare lo scree plot e il biplot. Lo scree plot (ottenibile con plot(pca_keywords) e plot(pca_campaigns)) mostra gli autovalori in ordine decrescente e aiuta a identificare il numero ottimale di componenti da conservare. Il biplot (ottenibile con biplot(pca_keywords) e biplot(pca_campaigns)) visualizza sia gli scores delle osservazioni che i loadings delle variabili nel piano definito dalle prime due componenti principali, fornendo una rappresentazione visiva delle relazioni tra osservazioni e variabili .

Verifica e Interpretazione dei Risultati della PCA

Per controllare l’accuratezza del codice R e delle interpretazioni, è consigliabile consultare la documentazione ufficiale delle funzioni prcomp() e princomp() nel pacchetto stats di R, nonché la documentazione della libreria factoextra per le visualizzazioni . Se necessario, è possibile confrontare i risultati con quelli ottenuti utilizzando altri software statistici o risorse online. È importante tenere presente le assunzioni sottostanti alla PCA, come la linearità delle relazioni tra le variabili e la sensibilità alla scala dei dati , nonché l’impatto potenziale degli outlier .

Dare un senso alle componenti principali nel contesto dei dati di web marketing richiede una comprensione del significato delle variabili originali e di come queste contribuiscono a ciascuna componente, come indicato dai loadings . Ad esempio, se nella PCA sui dati di posizionamento delle parole chiave la prima componente principale ha loadings elevati e positivi per il volume di ricerca e il CPC, potrebbe essere interpretata come una misura di “parole chiave ad alto valore potenziale”. L’interpretazione richiede una solida conoscenza del dominio del web marketing.

È importante considerare le limitazioni della PCA. Essa assume relazioni lineari tra le variabili e può comportare una perdita di informazione quando si riduce la dimensionalità.

Per dati con relazioni non lineari, tecniche alternative come t-SNE e UMAP potrebbero essere più appropriate .

Conclusione: Sfruttare la PCA per Ottimizzare le Strategie di Web Marketing

L’Analisi delle Componenti Principali si presenta come uno strumento analitico potente e versatile per l’ottimizzazione delle strategie di web marketing. I vantaggi derivanti dall’utilizzo della PCA in questo ambito sono molteplici. Innanzitutto, la sua capacità di ridurre la dimensionalità di dataset complessi consente di semplificare l’analisi e di focalizzarsi sulle informazioni più rilevanti . In secondo luogo, la PCA permette di identificare pattern sottostanti nei dati che potrebbero non essere evidenti con un’analisi superficiale, rivelando relazioni significative tra diverse metriche di web marketing . Inoltre, l’utilizzo della PCA come fase di pre-elaborazione può migliorare le performance di modelli predittivi, riducendo il rumore e la multicollinearità nei dati . Infine, la possibilità di visualizzare dati ad alta dimensionalità in uno spazio ridotto facilita la comprensione e la comunicazione degli insight derivanti dall’analisi .

Per ulteriori esplorazioni e applicazioni avanzate, si potrebbe considerare l’impiego della PCA come fase preliminare per algoritmi di clustering, al fine di segmentare in modo più efficace parole chiave, utenti o campagne pubblicitarie. L’integrazione della PCA in pipeline di modellazione predittiva potrebbe portare a modelli più robusti e interpretabili. Infine, l’approfondimento di tecniche come la sparse PCA potrebbe essere utile per selezionare in modo intrinseco le variabili più importanti nel contesto del web marketing .

Guida ai Test Statistici per analisi A/B

paolo — Thu, 14 Mar 2024 09:53:42 +0000

I test statistici sono strumenti fondamentali per l’analisi dei dati e la presa di decisioni informate. Scegliere il test appropriato dipende dalle caratteristiche dei dati, dalle ipotesi da testare e dalle assunzioni sottostanti.

In questo blog, ho trattato separatamente, con appositi articoli, ciascuno dei principali test statistici. È infatti decisivo comprendere le condizioni di applicabilità di ciascun test per ottenere risultati affidabili e interpretazioni corrette.

Ciò che mi ripropongo in questo articolo è una “visione d’insieme”, uno accanto all’altro, dei più comuni test che possono trovare applicabilità quotidiana per una moltitudine di analisi relative al mondo del web marketing e per A/B test efficaci. Si tratta di un primo sguardo comparativo, che idealmente dovrebbe spingere al necessario approfondimento per ogni singolo tema, ma che ho voluto corredare di semplicissimi esempi pratici, al fine di stimolare la curiosità del lettore.

I Test di cui tratteremo

Il Test Z
Il Test t di Student
Il Test t di Welch
Il Test del chi-quadrato
L'Analisi della varianza (ANOVA)
Il Test U di Mann-Whitney
Il Test esatto di Fisher
Uno sguardo d'insieme in una tabella
Potrebbe interessarti anche

Il Test Z

Il test Z è un test statistico di ipotesi utilizzato per verificare se la media campionaria differisce in modo significativo dalla media della popolazione, quando la varianza della popolazione è nota e la dimensione del campione è grande (di solito maggiore di 30).

Il test Z si applica quando si soddisfano le seguenti condizioni:

La dimensione del campione è grande (n > 30)
La varianza della popolazione è nota
I dati sono approssimativamente normalmente distribuiti

Il test Z viene utilizzato per determinare se esiste una differenza significativa tra due medie di proporzioni, come ad esempio i tassi di clic. Può essere utilizzato, ad esempio, per verificare se l’introduzione di una nuova funzionalità su un sito web ha portato a un aumento significativo del tasso di conversione.

Caso d’esempio: Un sito di e-commerce vuole testare se una nuova versione del carrello ha migliorato il tasso di conversione. Il tasso di conversione precedente è del 5% con una varianza nota di 0,0025. Dopo aver raccolto un campione di 500 utenti, il nuovo tasso di conversione osservato è del 6%. Verifichiamo se la differenza è statisticamente significativa utilizzando il test Z.

# Tasso di conversione originale
p0 <- 0.05
# Varianza originale
var0 <- 0.0025
# Dimensione del campione
n <- 500
# Tasso di conversione osservato
p1 <- 0.06

# Calcolo del test Z
z <- (p1 - p0) / sqrt(var0/n)
z

[1] 4.472136

Il valore z osservato è 4,47. Assumendo un livello di significatività di 0,05, il valore critico di z è 1,96. Poiché il valore osservato è superiore a 1,96, possiamo respingere l’ipotesi nulla e concludere che la differenza nel tasso di conversione è statisticamente significativa.

Il Test t di Student

Il test t di Student è un test statistico di ipotesi utilizzato per verificare se la media di un campione differisce in modo significativo da un valore ipotetico o se due campioni hanno medie significativamente diverse. Questo test si applica quando la varianza della popolazione non è nota e la dimensione del campione è piccola (di solito minore di 30).

Il test t di Student si applica quando si soddisfano le seguenti condizioni:

La dimensione del campione è piccola (n < 30)
La varianza della popolazione non è nota
I dati sono approssimativamente normalmente distribuiti

Il test t di Student viene utilizzato per confrontare le medie di due gruppi distinti, come ad esempio il tempo medio trascorso sul sito per gli utenti che hanno visto una variante A rispetto a quelli che hanno visto una variante B.

Caso d’esempio: Un’azienda vuole testare se una nuova pagina di destinazione ha un impatto sul tempo medio trascorso sul sito. Viene condotto un esperimento A/B con 20 utenti per ogni gruppo. Il tempo medio trascorso sul sito per il gruppo di controllo è di 3 minuti, mentre per il gruppo di test è di 4 minuti. Verifichiamo se la differenza è statisticamente significativa utilizzando il test t di Student.

# Dati gruppo di controllo
control <- c(2.5, 3.1, 2.8, 3.2, 2.9, 3.5, 3.0, 2.7, 3.3, 2.6, 3.4, 3.1, 2.8, 2.9, 3.2, 3.0, 3.1, 2.7, 3.3, 2.8)

# Dati gruppo di test
test <- c(3.8, 4.2, 3.9, 4.1, 4.3, 3.7, 4.5, 4.0, 3.6, 4.2, 4.1, 3.9, 4.3, 3.8, 4.0, 4.2, 3.7, 4.4, 4.1, 3.9)

# Test t di Student
t.test(test, control, alternative = "greater")

data:  test and control
t = 12.585, df = 37.611, p-value = 2.354e-15
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
 0.900641      Inf
sample estimates:
mean of x mean of y 
    4.035     2.995

Il test t di Student fornisce un valore p inferiore al livello di significatività di 0,05; dunque possiamo respingere l’ipotesi nulla e concludere che la differenza nel tempo medio trascorso sul sito tra i due gruppi è statisticamente significativa.

Il Test t di Welch

Il test t di Welch è una variante del test t di Student che non richiede l’assunzione di uguaglianza delle varianze tra i due campioni. Questo test si applica quando le dimensioni dei campioni e le varianze sono diverse.

Il test t di Welch si applica quando si soddisfano le seguenti condizioni:

Le dimensioni dei campioni sono diverse
Le varianze dei campioni sono diverse
I dati sono approssimativamente normalmente distribuiti

Il test t di Welch viene utilizzato per confrontare le medie di due gruppi distinti, come ad esempio il reddito medio degli utenti che hanno effettuato un acquisto in un sito di e-commerce rispetto a quelli che non hanno effettuato acquisti.

Caso d’esempio: Un’azienda vuole testare se il reddito medio degli utenti che hanno effettuato un acquisto differisce da quello degli utenti che non hanno effettuato acquisti. Viene condotto un esperimento con 30 utenti che hanno effettuato un acquisto e 20 utenti che non hanno effettuato acquisti. Il reddito medio degli utenti che hanno effettuato un acquisto è di $50.000, mentre quello degli utenti che non hanno effettuato acquisti è di $40.000. Verifichiamo se la differenza è statisticamente significativa utilizzando il test t di Welch.

# Dati gruppo di acquirenti
buyers <- c(48000, 52000, 49000, 51000, 47000, 55000, 53000, 50000, 46000, 54000,
            49000, 52000, 51000, 48000, 53000, 47000, 54000, 50000, 49000, 52000,
            48000, 51000, 53000, 47000, 52000, 49000, 50000, 51000, 48000, 53000)

# Dati gruppo di non acquirenti
non_buyers <- c(38000, 42000, 39000, 41000, 37000, 43000, 40000, 39000, 42000, 38000,
                41000, 40000, 39000, 42000, 37000, 41000, 38000, 39000, 40000, 41000)

# Test t di Welch
t.test(buyers, non_buyers, alternative = "greater", var.equal = FALSE)

Welch Two Sample t-test

data:  buyers and non_buyers
t = 17.811, df = 47.626, p-value < 2.2e-16
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
 9556.368      Inf
sample estimates:
mean of x mean of y 
    50400     39850

Il test t di Welch fornisce un valore p pari a 2.2e-16. Poiché questo valore è inferiore al livello di significatività di 0,05, possiamo respingere l’ipotesi nulla e concludere che la differenza nel reddito medio tra gli utenti che hanno effettuato un acquisto e quelli che non hanno effettuato acquisti è statisticamente significativa.

Il Test del chi-quadrato

Il test del chi-quadrato è un test statistico non parametrico utilizzato per verificare se esiste una relazione significativa tra due variabili categoriche o se la distribuzione osservata di una variabile categorica differisce dalla distribuzione attesa.

Il test del chi-quadrato si applica quando si soddisfano le seguenti condizioni:

Le variabili sono categoriche
I campioni sono indipendenti
Le frequenze attese in ogni cella della tabella di contingenza sono maggiori di 5

Il test del chi-quadrato viene utilizzato per analizzare l’associazione tra due variabili categoriche, come ad esempio la relazione tra il genere degli utenti e la preferenza per un determinato prodotto.

Caso d’esempio: Un negozio di abbigliamento vuole capire se c’è una relazione tra il genere degli utenti e la preferenza per una particolare linea di prodotti. Viene condotto un sondaggio su 200 utenti, di cui 100 uomini e 100 donne. I risultati mostrano che 60 uomini e 40 donne preferiscono la linea di prodotti A, mentre 40 uomini e 60 donne preferiscono la linea di prodotti B. Verifichiamo se c’è una relazione significativa tra genere e preferenza utilizzando il test del chi-quadrato.

# Dati osservati
observed <- matrix(c(60, 40, 40, 60), nrow = 2, byrow = TRUE)
rownames(observed) <- c("Uomini", "Donne")
colnames(observed) <- c("Linea A", "Linea B")
observed

##        Linea A Linea B
## Uomini      60      40
## Donne       40      60

# Test del chi-quadrato
chisq.test(observed)

## Pearson's Chi-squared test with Yates' continuity correction

## data:  observed
## X-squared = 7.22, df = 1, p-value = 0.00721

Il test del chi-quadrato fornisce un valore p pari a 0,00721. Poiché questo valore è inferiore al livello di significatività di 0,05, possiamo respingere l’ipotesi nulla e concludere che esiste una relazione significativa tra il genere degli utenti e la preferenza per una particolare linea di prodotti.

L’Analisi della varianza (ANOVA)

L’analisi della varianza (ANOVA) è un test statistico utilizzato per confrontare le medie di tre o più gruppi e determinare se esistono differenze significative tra di essi.

L’analisi della varianza si applica quando si soddisfano le seguenti condizioni:

I dati sono approssimativamente normalmente distribuiti
Le varianze dei gruppi sono uguali (omoschedasticità)
I campioni sono indipendenti

L’analisi della varianza viene utilizzata per confrontare le medie di diverse versioni di un prodotto, di diverse strategie di marketing o di diverse tecniche di vendita.

Caso d’esempio: Un’azienda vuole testare l’efficacia di tre diverse strategie di marketing (A, B e C) sul fatturato medio mensile. Vengono selezionati 15 negozi per ciascuna strategia e il fatturato medio mensile viene registrato per un periodo di 6 mesi. Verifichiamo se esiste una differenza significativa tra le strategie di marketing utilizzando l’analisi della varianza.

# Dati
fatturato_A <- c(120000, 115000, 130000, 125000, 110000, 135000, 118000, 122000, 127000, 115000, 128000, 120000, 124000, 117000, 121000)
fatturato_B <- c(112000, 118000, 110000, 115000, 122000, 108000, 120000, 114000, 116000, 119000, 111000, 117000, 113000, 121000, 109000)
fatturato_C <- c(105000, 110000, 108000, 112000, 107000, 115000, 111000, 109000, 113000, 106000, 108000, 114000, 110000, 112000, 107000)

# Analisi della varianza
anova_result <- aov(c(fatturato_A, fatturato_B, fatturato_C) ~ rep(c("A", "B", "C"), each = 15))
summary(anova_result)

                                 Df    Sum Sq   Mean Sq F value   Pr(>F)    
rep(c("A", "B", "C"), each = 15)  2 1.086e+09 543200000    22.7 2.07e-07 ***
Residuals                        42 1.005e+09  23923810                     
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

L’analisi della varianza fornisce un valore p pari a 2.07e-07. Poiché questo valore è inferiore al livello di significatività di 0,05, possiamo respingere l’ipotesi nulla e concludere che esiste una differenza significativa nel fatturato medio mensile tra le tre strategie di marketing.

Il Test U di Mann-Whitney

Il test U di Mann-Whitney è un test non parametrico utilizzato per confrontare le medie di due gruppi indipendenti quando i dati non soddisfano i requisiti di normalità o di uguaglianza delle varianze richiesti per il test t di Student.

Il test U di Mann-Whitney si applica quando si soddisfano le seguenti condizioni:

I dati non sono normalmente distribuiti
Le varianze dei gruppi non sono uguali
I campioni sono indipendenti

Il test U di Mann-Whitney viene utilizzato per confrontare le medie di due gruppi distinti, come ad esempio i ricavi medi di due diverse campagne pubblicitarie.

Caso d’esempio: Un’azienda vuole confrontare i ricavi medi di due diverse campagne pubblicitarie, A e B. Vengono raccolti i dati sui ricavi di 15 negozi per ciascuna campagna. Verifichiamo se esiste una differenza significativa tra le due campagne utilizzando il test U di Mann-Whitney.

# Dati campagna A
ricavi_A <- c(12000, 15000, 10000, 13000, 11000, 14000, 12500, 13500, 11500, 14500, 12200, 13800, 11800, 12700, 13200)

# Dati campagna B
ricavi_B <- c(11000, 14000, 13000, 12000, 15000, 11500, 13500, 12500, 14500, 11800, 13200, 12700, 14200, 11600, 13800)

# Test U di Mann-Whitney
wilcox.test(ricavi_A, ricavi_B, alternative = "two.sided", correct = FALSE)

	Wilcoxon rank sum test

data:  ricavi_A and ricavi_B
W = 102.5, p-value = 0.6779
alternative hypothesis: true location shift is not equal to 0

Il test U di Mann-Whitney fornisce un valore p pari a 0,6779. Poiché questo valore è superiore al livello di significatività di 0,05, non possiamo respingere l’ipotesi nulla e non possiamo concludere che esista una differenza significativa nei ricavi medi tra le due campagne pubblicitarie.

Il Test esatto di Fisher

Il test esatto di Fisher è un test statistico non parametrico utilizzato per analizzare l’associazione tra due variabili categoriche in tabelle di contingenza 2×2, soprattutto quando le dimensioni campionarie sono piccole.

Il test esatto di Fisher si applica quando si soddisfano le seguenti condizioni:

Le variabili sono categoriche
I campioni sono indipendenti
Le dimensioni campionarie sono piccole (una o più celle della tabella di contingenza hanno valori attesi inferiori a 5)

Il test esatto di Fisher viene utilizzato per analizzare l’associazione tra due variabili categoriche, come ad esempio la relazione tra l’uso di un determinato farmaco e l’insorgenza di un effetto collaterale.

Caso d’esempio: In uno studio clinico su un nuovo farmaco per il trattamento dell’ipertensione, vengono osservati 15 pazienti che hanno assunto il farmaco e 10 pazienti che hanno assunto un placebo. Dei 15 pazienti che hanno assunto il farmaco, 3 hanno sperimentato un effetto collaterale, mentre dei 10 pazienti che hanno assunto il placebo, 1 ha sperimentato l’effetto collaterale. Verifichiamo se c’è un’associazione significativa tra l’assunzione del farmaco e l’insorgenza dell’effetto collaterale utilizzando il test esatto di Fisher.

# Dati
effetto_collaterale <- c(3, 12, 1, 9)
dim(effetto_collaterale) <- c(2, 2)
rownames(effetto_collaterale) <- c("Farmaco", "Placebo")
colnames(effetto_collaterale) <- c("Effetto collaterale", "No effetto collaterale")
effetto_collaterale

        Effetto collaterale No effetto collaterale
Farmaco                   3                      1
Placebo                  12                      9

# Test esatto di Fisher
fisher.test(effetto_collaterale)

	Fisher's Exact Test for Count Data

data:  effetto_collaterale
p-value = 0.6265
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
   0.145667 130.928066
sample estimates:
odds ratio 
  2.183137

Il test esatto di Fisher fornisce un valore p pari a 0,6265. Poiché questo valore è superiore al livello di significatività di 0,05, non possiamo respingere l’ipotesi nulla e non possiamo concludere che esista un’associazione significativa tra l’assunzione del farmaco e l’insorgenza dell’effetto collaterale.

L’Analisi di regressione

L’analisi di regressione è un insieme di tecniche statistiche utilizzate per modellare la relazione tra una variabile dipendente (o di risposta) e una o più variabili indipendenti (o esplicative).

L’analisi di regressione si applica quando si soddisfano le seguenti condizioni:

Esiste una relazione lineare tra la variabile dipendente e le variabili indipendenti
I residui sono normalmente distribuiti e omoschedastici (hanno cioè varianza costante)
Le osservazioni sono indipendenti

L’analisi di regressione viene utilizzata per comprendere l’impatto di diverse variabili indipendenti su una variabile dipendente, come ad esempio l’effetto dell’età, del reddito e del livello di istruzione sul consumo di una determinata categoria di prodotti.

Caso d’esempio: Un’azienda di abbigliamento vuole analizzare l’impatto dell’età, del reddito e del livello di istruzione sul consumo annuale di abbigliamento. Vengono raccolti i dati su un campione di 100 individui. Utilizziamo l’analisi di regressione lineare multipla per modellare la relazione tra il consumo annuale di abbigliamento (variabile dipendente) e l’età, il reddito e il livello di istruzione (variabili indipendenti).

# Dati
consumo <- c(1200, 1500, 2000, 1800, 2200, 1700, 2100, 1900, 1600, 2300, 1400, 1800, 2100, 1700, 2000, 1600, 1900, 2200, 1500, 1800)
eta <- c(25, 35, 42, 30, 38, 28, 45, 33, 27, 40, 22, 31, 39, 26, 37, 24, 32, 41, 29, 36)
reddito <- c(35000, 45000, 60000, 50000, 55000, 40000, 65000, 48000, 38000, 70000, 32000, 46000, 58000, 42000, 52000, 37000, 49000, 62000, 40000, 51000)
istruzione <- c(2, 3, 4, 3, 4, 2, 4, 3, 2, 4, 2, 3, 4, 2, 3, 2, 3, 4, 3, 3)

# Modello di regressione lineare multipla
modello <- lm(consumo ~ eta + reddito + istruzione)
summary(modello)

Call:
lm(formula = consumo ~ eta + reddito + istruzione)

Residuals:
    Min      1Q  Median      3Q     Max 
-261.06  -93.14   39.80   66.26  223.24 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)   
(Intercept) 639.775078 165.734340   3.860  0.00139 **
eta         -13.127175  14.699870  -0.893  0.38509   
reddito       0.030875   0.008645   3.571  0.00255 **
istruzione   34.426950 107.969978   0.319  0.75396   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 128.1 on 16 degrees of freedom
Multiple R-squared:  0.8404,	Adjusted R-squared:  0.8105 
F-statistic: 28.08 on 3 and 16 DF,  p-value: 1.302e-06

Coefficienti: L’output mostra i coefficienti per ogni variabile indipendente nel modello. In questo caso, le variabili indipendenti sono ‘eta’, ‘reddito’ e ‘istruzione’. Il coefficiente di intercetta è 639.775078.
Significatività: La variabile ‘reddito’ è statisticamente significativa al livello di significatività del 5% (poiché il p-value è inferiore a 0.05), mentre le variabili ‘eta’ e ‘istruzione’ non lo sono. Ciò suggerisce che solo il ‘reddito’ ha un impatto significativo sul ‘consumo’.
R-squared: Il valore di R-squared è 0.8404, il che indica che circa l’84% della variazione nel ‘consumo’ può essere spiegata dalle variabili ‘eta’, ‘reddito’ e ‘istruzione’. Tuttavia, il valore di R-squared adjusted è 0.8105, il che suggerisce che quando si tiene conto del numero di variabili indipendenti nel modello, circa l’81% della variazione nel ‘consumo’ può essere spiegata da queste variabili.
F-statistic: Il valore F-statistic è 28.08 con un p-value di 1.302e-06, il che indica che il modello complessivo è statisticamente significativo.

Il modello ci suggerisce che il ‘reddito’ è l’unico predittore significativo del ‘consumo’. Tuttavia, il modello nel suo insieme è significativo e spiega una grande parte della variazione nel ‘consumo’.

Uno sguardo d’insieme in una tabella

Test Statistico	Condizioni di Applicabilità	Vantaggi	Svantaggi
Test Z	Dimensione campione grande (n > 30). Varianza della popolazione nota Dati normalmente distribuiti.	Semplice da calcolare e interpretare. Adatto per grandi campioni.	Richiede la conoscenza della varianza della popolazione. Non adatto per piccoli campioni.
Test t di Student	Dimensione campione piccola (n < 30). Varianza della popolazione sconosciuta. Dati normalmente distribuiti.	Adatto per piccoli campioni. Non richiede la conoscenza della varianza della popolazione.	Presuppone la normalità dei dati.
Test t di Welch	Dimensioni campionarie diverse. Varianze diverse. Dati normalmente distribuiti.	Non richiede l’assunzione di uguaglianza delle varianze.	Presuppone la normalità dei dati.
Test del Chi-quadrato	Variabili categoriche. Campioni indipendenti. Frequenze attese > 5 per cella.	Adatto per variabili categoriche. Non richiede assunzioni sulla distribuzione.	Può essere inaccurato se le frequenze attese sono troppo basse.
ANOVA	Dati normalmente distribuiti. Omoschedasticità (varianze uguali). Campioni indipendenti.	Permette di confrontare più di due gruppi contemporaneamente.	Richiede l’assunzione di normalità e omoschedasticità.
Test U di Mann-Whitney	Dati non normalmente distribuiti. Varianze diverse. Campioni indipendenti.	Non richiede assunzioni sulla distribuzione o l’uguaglianza delle varianze.	Meno potente dei test parametrici se le assunzioni sono soddisfatte.
Test esatto di Fisher	Variabili categoriche. Campioni indipendenti. Piccole dimensioni campionarie.	Accurato per piccoli campioni. Adatto per tabelle di contingenza 2×2.	Non adatto per grandi campioni o tabelle di contingenza più grandi.
Analisi di Regressione	Relazione lineare tra variabili. Residui normalmente distribuiti e omoschedastici. Osservazioni indipendenti.	Permette di modellare la relazione tra variabili. Identifica i predittori significativi.	Richiede assunzioni sui residui e sulla linearità.

Come usare gli Alberi Decisionali per classificare i dati

paolo — Thu, 11 Jan 2024 10:17:41 +0000

Gli Alberi Decisionali sono un tipo di algoritmo di apprendimento automatico che utilizza una struttura ad albero per suddividere i dati in base a delle regole logiche e prevedere la classe di appartenenza di nuovi dati. Sono facili da interpretare e adattabili a diversi tipi di dati, ma possono anche soffrire di problemi come l’overfitting, la complessità e lo sbilanciamento.
Vediamo di capirne un po’ di più e di esaminare un semplice esempio d’uso in R.

Table Of Contents

Gli Alberi Decisionali: un potente strumento di classificazione

Gli Alberi Decisionali: un potente strumento di classificazione

Immagina di essere un medico e di dover diagnosticare una malattia a un paziente basandoti su alcuni sintomi. Come faresti a decidere quale malattia ha il paziente? Potresti usare la tua esperienza, la tua intuizione, o consultare dei manuali. Oppure potresti usare un algoritmo che ti guida passo dopo passo a scegliere la diagnosi più probabile, in base ai dati che hai a disposizione. Questo algoritmo si chiama Albero Decisionale.

Un Albero Decisionale è una struttura grafica che rappresenta una serie di regole logiche per classificare degli oggetti o delle situazioni.
Ogni nodo dell’albero rappresenta una domanda o una condizione, che divide i dati in due o più sottogruppi omogenei.
Ogni ramo rappresenta una possibile risposta o un’azione, che collega un nodo a un altro nodo o a una foglia.
Il nodo iniziale si chiama radice, ed è il punto di partenza dell’albero.
I nodi finali si chiamano foglie, e sono i punti di arrivo dell’albero.
Ogni foglia corrisponde a una classe, ovvero una categoria a cui appartiene l’oggetto o la situazione da classificare.

Gli Alberi Decisionali sono molto usati in ambito scientifico, tecnologico, medico, economico, e sociale, perché hanno diversi vantaggi:

Sono facili da interpretare e da comunicare, anche a persone non esperte.
Sono flessibili e possono adattarsi a diversi tipi di dati, sia numerici che categorici.
Sono robusti e possono gestire dati incompleti, rumorosi, o inconsistenti.
Sono efficienti e richiedono poco tempo e memoria per essere costruiti e applicati.

Tuttavia, gli Alberi Decisionali hanno anche alcuni svantaggi:

Possono essere instabili, ovvero sensibili a piccole variazioni dei dati di partenza, e quindi produrre alberi molto diversi.
Possono essere complessi, ovvero avere molti nodi e rami, e quindi perdere in chiarezza e accuratezza.
Possono essere sbilanciati, ovvero favorire alcune classi rispetto ad altre, e quindi essere poco rappresentativi della realtà.

Per ovviare a questi problemi, esistono diverse tecniche di ottimizzazione e di validazione degli Alberi Decisionali, che permettono di migliorare le loro prestazioni e di valutare la loro affidabilità.

Un semplice esempio di Albero Decisionale in R

Per capire meglio come funzionano gli Alberi Decisionali, vediamo un esempio pratico in linguaggio R.

Per il nostro esempio, useremo il dataset iris, che contiene le misure di lunghezza e larghezza dei sepali e dei petali di 150 fiori di iris, appartenenti a tre specie diverse: setosa, versicolor, e virginica. Il nostro obiettivo è di costruire un Albero Decisionale che ci permetta di classificare un fiore di iris in base alla sua specie, usando le sue misure come variabili esplicative.

Per prima cosa, carichiamo il dataset iris e la libreria rpart, che ci permette di creare gli Alberi Decisionali in R.

# Carichiamo il dataset iris
data(iris)
# Carichiamo la libreria rpart
library(rpart)
# Impostiamo il seme per la riproducibilità
set.seed(123)
# Estraiamo casualmente l'80% delle righe del dataset
train_index <- sample(1:nrow(iris), 0.8*nrow(iris))
# Creiamo il dataset di training
train_data <- iris[train_index, ]
# Creiamo il dataset di test
test_data <- iris[-train_index, ]

Ora, siamo pronti per costruire il nostro Albero Decisionale, usando la funzione rpart. Questa funzione richiede alcuni parametri:

La formula, che specifica la variabile da classificare (in questo caso, Species) e le variabili esplicative (in questo caso, tutte le altre).
Il dataset, che contiene i dati da usare per costruire l’Albero Decisionale (in questo caso, train_data).
Il metodo, che specifica il tipo di classificazione da usare (in questo caso, class, che indica una classificazione categorica).

# Costruiamo l'Albero Decisionale
tree <- rpart(formula = Species ~ ., data = train_data, method = "class")

Per visualizzare il nostro Albero Decisionale, usiamo la funzione plot, che ci permette di disegnare la struttura grafica dell’albero, e la funzione text, che ci permette di aggiungere le etichette dei nodi e dei rami.

# Visualizziamo l'Albero Decisionale
plot(tree, uniform = TRUE, branch=0.8)
text(tree, all=TRUE, use.n = TRUE)

Il risultato è il seguente:

Come possiamo interpretare questo semplicissimo Albero Decisionale? Partiamo dalla radice, che è il nodo in alto. Questo nodo ci dice che la variabile più importante per classificare un fiore di iris è la lunghezza del petalo (Petal.Lenght). Se la larghezza del petalo è minore di 2.45 cm, allora il fiore è della specie setosa. Se invece la larghezza del petalo è maggiore, dobbiamo considerare se la lunghezza del petalo è minore o uguale a 4.75 cm. Se è minore allora il fiore è della specie versicolor. Se invece la lunghezza del petalo è maggiore di 4.75 cm, allora il fiore è della specie virginica.

Come valutare l’accuratezza di un Albero Decisionale

Per valutare l’accuratezza di un Albero Decisionale, dobbiamo confrontare le classi predette dall’albero con le classi reali dei dati di test. Per fare questo, usiamo la funzione predict, che ci permette di applicare l’Albero Decisionale ai dati di test e di ottenere le classi predette.

# Applichiamo l'Albero Decisionale ai dati di test
pred_class <- predict(tree, newdata = test_data, type = "class")

Poi, usiamo la funzione table, che ci permette di creare una tabella di contingenza tra le classi predette e le classi reali.

# Creiamo la tabella di contingenza
table(pred_class, test_data$Species)

Il risultato è il seguente:

	setosa	versicolor	virginica
setosa	10	0	0
versicolor	0	13	0
virginica	0	2	5

Questa tabella ci mostra quante volte l’Albero Decisionale ha predetto correttamente o sbagliato la classe di un fiore di iris. Per esempio, la cella in alto a sinistra ci dice che l’Albero Decisionale ha predetto correttamente che 10 fiori erano della specie setosa. La cella in basso al centro ci dice che l’Albero Decisionale ha sbagliato a predire che 2 fiori erano della specie virginica, quando in realtà erano della specie versicolor.

Per calcolare l’accuratezza di un Albero Decisionale, dobbiamo dividere il numero di predizioni corrette per il numero totale di predizioni. In questo caso, l’accuratezza è:

$ \frac{10 + 13 + 5}{10 + 13 + 5 + 2} = \frac{28}{30} = 0.93\\ $

Questo significa che il nostro Albero Decisionale ha predetto correttamente la specie di un fiore di iris nel 93% dei casi. Questo è un buon risultato, ma potrebbe essere migliorato con alcune tecniche di ottimizzazione, come la potatura o la selezione delle variabili.

La potatura è una tecnica che consiste nel ridurre la complessità di un Albero Decisionale, eliminando alcuni nodi o rami che non contribuiscono significativamente all’accuratezza. Questo può prevenire il problema dell’overfitting, ovvero quando l’Albero Decisionale si adatta troppo ai dati di training e perde la capacità di generalizzare ai dati di test.

La selezione delle variabili è una tecnica che consiste nel scegliere le variabili più rilevanti per la classificazione, eliminando quelle che sono irrilevanti o ridondanti. Questo può migliorare l’accuratezza e la chiarezza dell’Albero Decisionale, riducendo il numero di domande o condizioni da considerare.

Cosa si intende per Overfitting?

L’overfitting è un problema che si verifica quando un modello di apprendimento automatico si adatta troppo ai dati di addestramento, e non riesce a generalizzare bene ai dati nuovi. Questo significa che il modello memorizza le caratteristiche specifiche e il rumore dei dati di addestramento, ma non riesce a catturare la tendenza generale dei dati. Di conseguenza, il modello ha un’alta accuratezza sui dati di addestramento, ma una bassa accuratezza sui dati di test o di validazione. L’overfitting può essere causato da una complessità eccessiva del modello, da un numero insufficiente di dati di addestramento, o da un addestramento troppo lungo.

Cenni ad altri algoritmi di classificazione

Esistono innumerevoli altri algoritmi di classificazione, come ad esempio, la regressione logistica, il k-nearest neighbor, il support vector machine e le reti neurali. Questi algoritmi si basano su principi diversi dagli Alberi Decisionali, come la funzione di probabilità, la distanza, il margine o la trasformazione non lineare dei dati. Alcuni di questi algoritmi possono essere più accurati, flessibili o scalabili degli Alberi Decisionali, ma anche più difficili da interpretare o richiedere più tempo e risorse per essere addestrati e applicati.

Una tecnica che cerca di combinare i vantaggi degli Alberi Decisionali con quelli degli algoritmi di insieme è la Random Forest.

La Random Forest è un metodo che costruisce una collezione di Alberi Decisionali indipendenti e ne calcola la media delle previsioni.
Questo permette di ridurre la varianza e l’overfitting degli Alberi Decisionali, aumentando l’accuratezza e la robustezza del modello. La Random Forest introduce anche un elemento di casualità nella scelta dei dati e delle variabili da usare per costruire gli Alberi Decisionali, rendendo il modello più diversificato e de-correlato.

paologironi blog

Campionamento e Dimensione Campionaria: Quanti Dati Servono?

In questo articolo:

Come scegliere chi misurare: i tipi di campionamento

La dimensione campionaria: la matematica dietro la stima

Calcoliamolo in R e Python

Dalla stima all’A/B Testing

Errore campionario vs Bias

Prova tu

Per approfondire

Calcolatore Sample Size per A/B Test

Indice

Il calcolatore

Calcolatore Sample Size

La formula: come funziona il calcolo

Come usare il calcolatore

Potrebbe interessarti anche

Per approfondire

Anomaly detection: come identificare valori anomali nei dati

Di cosa parleremo

Il dataset di lavoro

Metodo 1: lo z-score

Metodo 2: IQR e il metodo di Tukey

Metodo 3: il test di Grubbs

Confronto tra i tre metodi

Prova tu

Per approfondire

Statistica bayesiana: come imparare dai dati, un passo alla volta

Di cosa parleremo

Due modi di pensare l’incertezza: frequentisti e bayesiani

Il Teorema di Bayes

Esempio numerico: il tasso di click di una campagna ads

L'aggiornamento sequenziale: il posterior di oggi è il prior di domani

Prior informativi e non informativi

Credible interval vs confidence interval

Quando usare l'approccio bayesiano

Verso la distribuzione Beta

Prova tu

Per approfondire

A/B Testing: come condurre esperimenti statisticamente validi (e gli errori da evitare)

Di cosa parleremo

Cos’è un A/B test

Formulare correttamente un A/B test

Esempio: CTR di due title tag

Esempio pratico: conversion rate di due landing page

Gli errori più comuni

Fermare il test troppo presto

Testare troppe varianti senza correzione

Ignorare la potenza del test

Confondere significatività statistica con significatività pratica

Approccio frequentista vs bayesiano

Esempio pratico SEO: meta description A/B test

Prova tu

Per approfondire

Il Teorema del Limite Centrale: perché la statistica funziona (anche quando i dati non sono normali)

Di cosa parleremo

Cos’è il Teorema del Limite Centrale

Perché è così importante

Vediamolo con i nostri occhi: una simulazione in R

La regola pratica: quanto deve essere grande n?

Il TLC e l’errore standard

Un esempio pratico: il traffico organico giornaliero

Quando il TLC non basta

Prova tu

Per approfondire

Intervalli di confidenza: cosa sono, come calcolarli (e cosa NON significano)

Di cosa parleremo

Cos’è un intervallo di confidenza

Il grande malinteso: cosa NON è un intervallo di confidenza

Costruire un IC per la media

Esempio numerico

In R

IC per proporzioni

Esempio: IC del tasso di conversione

In R

La relazione tra IC e test delle ipotesi

Livelli di confidenza: 90%, 95%, 99%

Cosa influenza la larghezza dell’IC

Un esempio pratico: IC del CTR organico

Prova tu