Il test delle ipotesi

Nella vita di tutti i giorni, dobbiamo spesso prendere decisioni basate su informazioni incomplete.

Può darsi ad esempio che si debba decidere se una certa procedura educativa sia più efficace di un’altra, se un nuovo farmaco abbia risultati realmente positivi sull’evoluzione di una malattia, e via dicendo.

Il test delle ipotesi è una procedura statistica che ci consente di porre un quesito sulla base di informazioni campionarie, al fine di raggiungere una decisione statisticamente significativa.

N.B. Nel testo che segue opererò una necessaria semplificazione di una materia abbastanza complessa. Il fine di questa serie di post, infatti, è quello di fornire una introduzione a temi troppo spesso riservati ai soli specialisti. 

Una premessa…

Bisogna capire la differenza tra probabilità e inferenza.

  • Se conosco i dati della popolazione e voglio sapere qual è la probabilità di avere un dato risultato, ci troviamo nel campo della probabilità.
  • Se da un campione cerco di inferire i valori della popolazione, siamo nei territori dell’inferenza.

Ipotesi statistiche

Nel test delle ipotesi abbiamo sempre da “soppesare” due ipotesi. Lo status quo è chiamato ipotesi nulla ed ha simbolo H0

Quello che faremo è di andare a testare l’ipotesi nulla contro un’ipotesi alternativa, a cui diamo il simbolo Ha

N.B. In genere, l’ipotesi alternativa è quella a cui crediamo!

Scegliamo poi un livello di significatività o alpha level α.
Lo standard comune è α = 0.05, cioè un livello di significatività al 95%.
In base all’alpha level possiamo stabilire le regioni critiche.

Se il valore che otteniamo con il nostro test cade in una regione critica, respingeremo l’ipotesi nulla, accogliendo l’ipotesi alternativa.

Errori di I e II tipo

Il risultato raggiunto, ovviamente, non costituisce una certezza.

Il livello di significatività del test (nel nostro primo esempio il 95%) ci indica la probabilità di incorrere in un errore di I tipo, cioè di rifiutare erroneamente l’ipotesi nulla, che era vera, accettando l’ipotesi alternativa.

Come si vede, possiamo determinare il livello di significatività del nostro test, cioè possiamo fissare la probabilità massima con cui accettiamo di rischiare l’errore di I tipo.

Se invece accettiamo come valida l’ipotesi nulla, quando doveva essere rifiutata in quanto falsa, compiamo un errore di II tipo.

Il calcolo della probabilità di incorrere in un errore di tipo II non è così diretto come nel caso dell’errore di tipo I, e dunque non ne parlerò in questa sede.

Una o due code? Questo è il problema…

Il test può essere a 1 coda, ad esempio se l’ipotesi alternativa è che una media sia maggiore della media che rappresenta l’ipotesi nulla:

test ipotesi a una coda
La regione critica – ipotesi a una coda

oppure a 2 code (se l’ipotesi alternativa è che la media che ipotizzo sia diversa dall’ipotesi nulla).

Nell’ipotesi a 2 code avremo 2 regioni critiche ai due estremi della curva, ciascuna delle quali rappresenta un livello α/2:

Le regioni critiche. Ipotesi a due code con livello di significatività del 95%

Riassumiamo per punti

  1. Stabilisco l’ipotesi nulla e l’ipotesi alternativa.
  2. Fisso il livello di significatività (alpha level).
  3. Quale distribuzione usare: normale o t?
  4. Raccolgo e analizzo i dati.
  5. Traggo le conclusioni.

Devo pormi una domanda fondamentale: ma quale distribuzione devo utilizzare?

La risposta può essere trovata guardando al sigma (la deviazione standard o scarto quadratico medio) e la numerosità del campione. Mi chiedo:

Conosco il sigma della popolazione? (nella realtà un caso abbastanza raro…). Ho un campione sufficientemente numeroso (<30) ?

Se la risposta è SI, allora uso la distribuzione normale (e calcolo lo Z-score).

Se la risposta è NO, cioè se non conosco il valore del sigma della popolazione (o se sto lavorando con campioni numericamente esigui), allora userò la distribuzione t o distribuzione di Student.

n.b. quando il campione diventa numeroso, la distribuzione t approssima sempre di più la normale…

C’è bisogno di un esempio

Voglio condurre un test delle ipotesi in una situazione nella quale conosco il sigma della popolazione.

Seguiamo i nostri passaggi.

1 – Stabilisco l’ipotesi nulla e l’ipotesi alternativa

Se:

\( H_{0}: \mu = x \\ H_{a}: \mu \neq X \\ \)

allora siamo di fronte a un test a 2 code. Avremo cioè due zone critiche da considerare.

Se invece:

\( H_{0}: \mu = x \\ H_{a}: \mu > X \\ \)

allora il test è a una coda.

2 – Fisso il livello di significatività (alpha level)

Scegliamo il caso più tipico, un livello di significatività pari al 95%, quindi:

\( \alpha = 0,05 \)

3 – Raccolgo e analizzo i dati

Suppongo di avere raccolgo i dati. Mi chiedo ora quale tipo di distribuzione devo usare per il mio test. La domanda è sempre quella:

Conosco il sigma della popolazione?

Nel mio esempio diciamo di sì, e allora usiamo la normale…

Calcoliamo lo Z-score. Trovo:

\( \sigma_{\bar{x}}= \frac{\sigma}{\sqrt{n}} \\ \)

ora posso trovare Z:

\( Z = \frac{\bar{x} – \mu}{\sigma_{\bar{x}}} \\ \)

4 – Traggo le conclusioni

Mettiamo che il test sia con :

\( H_{0}: \mu = x \\ H_{a}: \mu \neq X \\ \)

quindi a 2 code. Il livello di signifiatività prescelto è il 95%, dunque vado a cercare 2,5% (5%/2) sulla tavola, e trovo il valore 1.96.

n.b. avrei potuto usare R con la funzione: 

qnorm(0.025)

Quindi -1,96 e +1.96 sono i valori critici.

Se il mio Z-score risulta, per esempio, di 2.50, noto immediatamente che il valore risulta compreso nella zona critica. Allora posso rigettare l’ipotesi nulla e accettare quella alternativa.

Scrivo una funzione in R

Mi semplifico la vita e mi preparo una funzione in R, che chiamerò z-test:

z.test = function (x,mu,popvar {
one.tail.p <- NULL
z.score <- round((mean(x)-mu)/(popvar/sqrt(lenght(x))),3)
one.tail.p <- round(pnorm(abs(z.score),lower.tail=FALSE),3)
cat("z=",z.score,"\n","one-tailed probability =",one.tail.p,"\n","two- tailed probability =",2*one.tail.p)
}

Usando una TI-83

Con la TI-83 scelgo:

STAT
TESTS
Z-TEST
STATS

\( \mu_{0} = media \\ \sigma = sigma \\ \bar{x} = media\ del \ mio \ campione \\ n = numero \ campioni \\ \mu \neq \mu_{0} \ se\ il\ mio\ test\ è\ a\ due\ code \\ \\ CALCULATE \\ \)

E se non conosco i dati della poplazione?

Se non conosco il valore del sigma della popolazione, oppure se sto lavorando con piccoli campioni (meno di 30 valori) uso la distribuzione t o distribuzione di Student. Ma questo sarà l”oggetto di un prossimo articolo…

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *