statistics

La distribuzione t di Student e il test delle ipotesi

In un precedente post ho presentato in modo (spero) molto semplice il concetto di test delle ipotesi, un metodo statistico ampiamente utilizzato per determinare la validità di una determinata affermazione basata su un campione di dati.

Negli esempi che ho proposto, tuttavia, ero a conoscenza del valore della deviazione standard, il sigma, della popolazione.
Nella pratica si tratta di un caso abbastanza raro, che mi consente di usare la distribuzione normale, calcolando lo Z-score.

Se invece non conosco il valore del sigma della popolazione, oppure se sto lavorando con piccoli campioni devo ricorrere a un tipo di distribuzione differente, chiamata distribuzione t o distribuzione di Student.

Detta più semplicemente e più chiaramente:

La distribuzione t di Student è una distribuzione di probabilità utilizzata per valutare l’importanza statistica dei risultati in caso di campioni di dimensioni piccole e incertezza sulla varianza.

Di cosa parleremo

Una breve digressione storica
Un esempio vale mille spiegazioni
Un'alternativa alle regioni critiche: guardare al valore p
Stima, margine di errore e intervallo di confidenza: controlliamo il risultato del test delle ipotesi
Il t-test, il calcolo del p-value e l'intervallo di confidenza con R
Un caso pratico: i title tag riscritti rendono di più?
Prova tu
Dalla t a un campione al confronto fra due gruppi
Alcuni link utili e autorevoli per approfondire

Una breve digressione storica

William Sealy Gosset (Student)

Nei primi anni del 1900, il chimico e studioso di statistica William Sealy Gosset, impiegato nel birrificio Guiness (e collaboratore di un gigante della statistica, Karl Pearson), scoprì che quando lavorava con piccolissimi campioni, le distribuzioni della media differivano significativamente dalla distribuzione normale.

Fatto ancora più interessante, al variare delle dimensioni del campione la forma della distribuzione cambiava, e aumentando il campione la distribuzione approssimava via via sempre più la normale.

Non potendo rivelare la sua identità per non favorire i concorrenti, pubblicò i suoi risultati con lo pseudonimo “Studente” e per questo le distribuzioni per campioni di piccole dimensioni sono ora note come “distribuzioni a T di Student”.
Se volete leggere tutta la storia, Wikipedia, come sempre, è una buona fonte.

La distribuzione t è simmetrica rispetto al suo zero, ma risulta più “piatta” della distribuzione normale standardizzata, cosicchè una maggiore parte della sua area è compresa nelle code.

Un campione più numeroso fa sì che la distribuzione t approssimi sempre più fedelmente la distribuzione normale.
Le differenze tra la distribuzione t e la normale sono maggiori quando abbiamo meno gradi di libertà.

Le curve delle distribuzioni t per vari gradi di libertà e comparate con la normale.

Ma cosa intendiamo per gradi di libertà? Il numero di campioni che hanno la “libertà” di cambiare senza modificare la media del campione.

Se il concetto non appare chiaro, si può comunque passare all’utilizzo pratico, perchè i gradi di libertà, fondamentali nel nostro calcolo, sono semplicemente pari alla numerosità del campione meno uno:

df = n -1

dove df = degrees of freedom, gradi di libertà
n = numerosità del campione

Il procedimento per svolgere il test delle ipotesi avvalendosi della distribuzione t ricalca in buona parte quello che abbiamo già visto nel caso del sigma noto e dell’uso della normale.

Stabilisco dunque l’ipotesi nulla, H₀, e l’ipotesi alternativa, H_a.

Per calcolare la statistica del t-test uso la formula:

\( t = \frac{\bar{x} – \mu}{\frac{s}{\sqrt{n}}} \\ \) \( \frac{s}{\sqrt{n}} \ è\ l’errore\ standard\ stimato,\ che\ possiamo\ anche\ indicare\ con\ SE{\bar{x}} \)

Un esempio vale mille spiegazioni

Un’azienda di lampadine ritiene che il proprio prodotto abbia una durata media di almeno 4200 ore.

Viene preso un campione di n=10 lampadine e si riscontra una media di durata del campione pari a 4000 ore.
La deviazione standard del campione è pari a 200 ore.

Quindi, riassumendo:

\( n=10\\ \bar{x}=4000\\ s=200\\ \)

Pongo allora le mie condizioni per effettuare un test:

H₀ ≥ 4200
H_a < 4200

Scelgo un livello di significatività pari al 95% (cioè alpha=0,05).

Nella tabella dei valori critici della distribuzione t andrò a cercare il valore che corrisponde a 9 gradi di libertà (guardo la riga) e alpha 0,05 (incrocio con la colonna).
Tale valore risulta essere 1.833

Rigetteremo allora l’ipotesi nulla qualora il valore t che andiamo a calcolare risulti inferiore a 1.833.

Il valore dell’errore standard è:

\( \frac{s}{\sqrt{n}}=\frac{200}{\sqrt{10}}=\frac{200}{3.16}=63,3 \\ \)

Calcolo t:

\( t=\frac{\bar{x} – \mu}{SE\bar{x}}=\frac{4000-4200}{63,3}=\frac{-200}{63,3}=-3,16\\ \)

Il valore di t cade nell’area critica: si rigetta allora l’ipotesi nulla e si accetta con un livello di significatività del 95% che la durata media delle lampadine sia minore delle 4200 ore dichiarate dal produttore.

Un’alternativa alle regioni critiche: guardare al valore p

Possiamo anche valutare una ipotesi chiedendoci: “Qual è la probabilità di ottenere il valore del test statistico che abbiamo riscontrato se è vera l’ipotesi nulla?“. Questa probabilità è chiamata valore p.

Questa, in effetti, è la strada più comoda da seguire avendo a disposizione strumenti quali una calcolatrice con funzioni statistiche oppure R: l’interpretazione del risultato risulta infatti immediata. Vediamo il nostro esempio.

Il T-Test Con la calcolatrice ti-83

Schiaccio STAT
Poi TESTS e scelgo
2:T-Test e confermo con ENTER
Scelgo STATS e inserisco i dati
Scelgo CALCULATE e confermo con ENTER

Ottengo il valore t=-3.16 e il valore di p=0.00575.

Questo significa che c’è appena una probabilità dello 0,575% che sotto l’ipotesi nulla si verifichi il risultato che abbiamo riscontrato.

p è minore del livello di significatività alpha che abbiamo scelto (p < 0,05).

Dunque, l’ipotesi nulla è da rigettare a favore dell’ipotesi alternativa.

Calcolare il p-value con la calcolatrice Casio FX

Lo stesso calcolo posso eseguirlo semplicemente anche con una calcolatrice scientifica Casio:

MENU
STAT
F3 (TEST)
F2 (t)
F1 (1-s)
DATA: Variable
inserisco i miei dati
Vado con la freccia verso il basso fino ad EXECUTE
F1 (calc)

La calcolatrice mi restituisce il valore di t e di p

Stima, margine di errore e intervallo di confidenza: controlliamo il risultato del test delle ipotesi

Quando una ipotesi è scartata, è certamente utile operare una stima per cercare di capire quale sia il vero valore della media. Nel nostro esempio abbiamo scartato l’affermazione del produttore che le sue lampadine durino in media più di 4200 ore. Ma allora, quanto durano in realtà?

Per calcolare l’intervallo di confidenza, abbiamo bisogno di conoscere 3 cose:

La media del nostro campione
L‘errore standard
Il valore critico

La formula per ottenere l’intervallo di confidenza è:

\( \bar{x}\ \pm \ Margine\ Di\ Errore \\ \)

e il Margine di Errore è:

\( ME\ =\ t\ critico \times\ SE\bar{x} \\ \)

Nel nostro caso:
ME = 1,833 x 63,3 = circa 116

Quindi possiamo dire che il nostro intervallo di confidenza al 95% è tra 3884 e 4116.

Come si può notare, il valore indicato dal produttore, 4200 ore, si trova come ci aspettavamo fuori all’intervallo di confidenza.

L’intervallo di confidenza con la TI-83

Ecco la sequenza di comandi necessaria per calcolare l’intervallo di confidenza:

STAT
TESTS
8TInterval
STATS
inserisco i dati
CALCULATE

L’intervallo di confidenza con la Casio

Questa invece è la sequenza dei comandi sulla mia Casio serie fx:

MENU
STAT
F4 (Intr)
F2 (t)
F1 (1-s)
inserisco i dati
EXECUTE

Il t-test, il calcolo del p-value e l’intervallo di confidenza con R

R è come sempre il nostro migliore alleato, consentendoci di effettuare il test in maniera semplicissima e fornendoci tutte le informazioni utili.
Preparo dunque un vettore che contiene 10 misure che hanno per media 4000 e lo do’ in pasto alla funzione t.test di R, indicando che la media per l’ipotesi nulla, chiamata mu, è 4200, e che l’ipotesi alternativa è che il valore reale sia inferiore – alternative=”less” :

vitalampadine <- c(4100,3900,3800,4200,4000,4100,3900,3800,4200,4000)
t.test(vitalampadine,mu=4200,alternative="less")

R ci fornisce in output tutte le informazioni che ci servono.

Un caso pratico: i title tag riscritti rendono di più?

Gli esempi visti finora ci hanno fatto prendere confidenza con lo strumento; portiamolo ora sul terreno che ci interessa davvero. Immaginiamo di aver riscritto i title tag di dieci pagine e di voler capire se il loro CTR si è mosso rispetto al 3,0% che era la media storica del gruppo. Dieci pagine sono poche, e la varianza della popolazione non la conosciamo: è esattamente la situazione in cui la distribuzione t di Student dà il meglio di sé.

Questi i CTR misurati, in percentuale:

3.8  4.2  3.1  4.9  3.5  4.1  2.9  4.6  3.7  4.4

L’ipotesi nulla è che la media reale sia ancora quel 3,0% di partenza; l’alternativa, che sia cambiata in un senso o nell’altro (restiamo prudenti e usiamo un test a due code). Calcolo il tutto in R con una riga sola:

ctr <- c(3.8, 4.2, 3.1, 4.9, 3.5, 4.1, 2.9, 4.6, 3.7, 4.4)
t.test(ctr, mu = 3.0)

 One Sample t-test

t = 4.5276, df = 9, p-value = 0.001431
95 percent confidence interval:
 3.460337 4.379663
mean of x: 3.92

Leggiamo l’output con calma. La media campionaria è 3,92%, quasi un punto sopra il riferimento. Il valore t è 4,53 con 9 gradi di libertà (i nostri dieci dati meno uno): misura di quante «deviazioni standard stimate» la media osservata disti dal 3,0% ipotizzato. Il p-value è 0,0014, ben sotto la soglia consueta dello 0,05: uno scarto del genere, se la media vera fosse davvero 3,0%, lo vedremmo per puro caso poco più di una volta su mille. La riscrittura, dunque, ha prodotto un effetto difficile da liquidare come rumore.

C’è di più: l’intervallo di confidenza al 95% va da 3,46% a 4,38% e non contiene il 3,0%. È la stessa conclusione del test, vista però da un’altra angolatura — non solo «l’effetto esiste», ma «ecco la forbice plausibile in cui cade il CTR vero». Attenzione però: con dieci sole pagine quella forbice resta larga quasi un punto percentuale; più dati la stringerebbero, ed è una cautela da tenere a mente prima di portare il numero in riunione.

Prova tu

Per fissare il meccanismo, ecco un esercizio con dati verosimili. Abbiamo sette landing page e vogliamo sapere se il loro tasso di conversione si discosta dal 2,5% che ci eravamo dati come obiettivo. Questi i valori, in percentuale:

2.8  3.1  2.4  3.5  2.9  3.3  2.7

Il compito: eseguire un t-test a un campione con t.test(cr, mu = 2.5), leggere il valore t e i gradi di libertà, e dire — guardando p-value e intervallo di confidenza — se lo scostamento dall’obiettivo è statisticamente credibile o se può essere figlio del caso.

Per controllare i conti: la media è 2,96%, il valore t è 3,24 su 6 gradi di libertà, il p-value è 0,018 e l’intervallo di confidenza al 95% va da 2,61% a 3,30%. Poiché l’intervallo non comprende il 2,5%, concludiamo che le sette pagine battono l’obiettivo in modo difficilmente attribuibile al caso — pur con la prudenza che sette dati impongono.

Dalla t a un campione al confronto fra due gruppi

Nota a margine: quando il campione è davvero esiguo (n<30) e non abbiamo motivo di ritenere la popolazione approssimativamente normale, la t di Student va maneggiata con cautela; in questi casi un’alternativa più conservativa è il Teorema di Chebishev.

La distribuzione t di Student ci ha dato un modo per ragionare quando i dati sono pochi e la varianza della popolazione ci è ignota — la situazione, come si è visto, in cui ci troviamo quasi sempre lavorando con dati reali. Finora però abbiamo confrontato un singolo gruppo con un valore di riferimento. La domanda che si affaccia naturale è un’altra: e se i gruppi da mettere a confronto fossero due — la versione A e la versione B di una pagina, il prima e il dopo di un intervento? È esattamente lì che ci porta il passo successivo del percorso, il t-test per due campioni.

Alcuni link utili e autorevoli per approfondire

Per approfondire

La distribuzione t e l’inferenza sulle medie sono trattate in profondità in Statistica di Newbold, Carlson e Thorne, il manuale che consigliamo a chi vuole passare dalla comprensione intuitiva al rigore formale.

paolo

Next La magia del testo nella console: figlet, boxes, lolcat, toilet. »

Previous « Come redirigere gli indirizzi http verso https

Il peeking problem: perché sbirciare l’A/B test gonfia i falsi positivi

Il 21 gennaio 2015 Optimizely — una delle piattaforme di A/B testing più usate al…

2 giorni ago

statistica

Regressione verso la media: l’ottimizzazione SEO che ha funzionato… per caso

Nell'aeronautica militare israeliana, racconta Daniel Kahneman, gli istruttori erano convinti di una cosa: lodare un…

3 giorni ago

statistica

Correlazione: Pearson, Spearman e Kendall (e perché non è causazione)

Chi guarda i dati di un sito lo fa di continuo, spesso senza nemmeno accorgersene,…

6 giorni ago

statistica

Effect size e power analysis: quanto è grande l’effetto (e quanti dati servono)

Abbiamo chiuso l'articolo sul calcolatore di significatività con una promessa. Dicevamo che il p-value risponde…

1 settimana ago

statistica

Calcolatore di Significatività per A/B Test

Il nostro A/B test è arrivato alla fine: la variante B mostra un tasso di…

2 settimane ago

statistica

La biblioteca di Statistica e SEO: i libri che consiglio (e perché)

C'è una domanda che torna, puntuale, ogni volta che pubblico un articolo di questo percorso:…

2 settimane ago

La distribuzione t di Student e il test delle ipotesi

Una breve digressione storica

Un esempio vale mille spiegazioni

Un’alternativa alle regioni critiche: guardare al valore p

Il T-Test Con la calcolatrice ti-83

Calcolare il p-value con la calcolatrice Casio FX

Stima, margine di errore e intervallo di confidenza: controlliamo il risultato del test delle ipotesi

L’intervallo di confidenza con la TI-83

L’intervallo di confidenza con la Casio

Il t-test, il calcolo del p-value e l’intervallo di confidenza con R

Un caso pratico: i title tag riscritti rendono di più?

Prova tu

Dalla t a un campione al confronto fra due gruppi

Alcuni link utili e autorevoli per approfondire

Potrebbe interessarti anche

Per approfondire

Related Posts

Recent Posts

Il peeking problem: perché sbirciare l’A/B test gonfia i falsi positivi

Regressione verso la media: l’ottimizzazione SEO che ha funzionato… per caso

Correlazione: Pearson, Spearman e Kendall (e perché non è causazione)

Effect size e power analysis: quanto è grande l’effetto (e quanti dati servono)

Calcolatore di Significatività per A/B Test

La biblioteca di Statistica e SEO: i libri che consiglio (e perché)

La distribuzione t di Student e il test delle ipotesi

Una breve digressione storica

Un esempio vale mille spiegazioni

Un’alternativa alle regioni critiche: guardare al valore p

Il T-Test Con la calcolatrice ti-83

Calcolare il p-value con la calcolatrice Casio FX

Stima, margine di errore e intervallo di confidenza: controlliamo il risultato del test delle ipotesi

L’intervallo di confidenza con la TI-83

L’intervallo di confidenza con la Casio

Il t-test, il calcolo del p-value e l’intervallo di confidenza con R

Un caso pratico: i title tag riscritti rendono di più?

Prova tu

Dalla t a un campione al confronto fra due gruppi

Alcuni link utili e autorevoli per approfondire

Potrebbe interessarti anche

Per approfondire

Related Posts

Related Post

Recent Posts

Il peeking problem: perché sbirciare l’A/B test gonfia i falsi positivi

Regressione verso la media: l’ottimizzazione SEO che ha funzionato… per caso

Correlazione: Pearson, Spearman e Kendall (e perché non è causazione)

Effect size e power analysis: quanto è grande l’effetto (e quanti dati servono)

Calcolatore di Significatività per A/B Test

La biblioteca di Statistica e SEO: i libri che consiglio (e perché)

Headline