Il t-test per due campioni. Testare una ipotesi per campioni dipendenti o indipendenti

In un precedente post abbiamo parlato del test delle ipotesi per quanto riguarda una singola misura: la media del campione.

Ci sono però numerose situazioni nelle quali si rende necessario fare dell’analisi statistica che riguarda due campioni. Si pensi, a mo’ d’esempio, al caso in cui si voglia studiare la differenza tra uomini e donne rispetto ai risultati di un dato esame.


Possiamo testare una ipotesi riguardante due campioni indipendenti (nel qual caso i campioni non si influenzano reciprocamente) oppure due campioni dipendenti, laddove i campioni sono interrelati.

Lo scopo del t-test a due campioni è quello di determinare quando le medie di due popolazioni sono differenti in modo significativo.

Il test delle ipotesi per campioni indipendenti

Quando testiamo una ipotesi riguardo due campioni indipendenti, in realtà seguiamo un processo molto simile a quello già visto allorchè viene testato un campione casuale. Tuttavia, quando computiamo la statistica del test, dobbiamo calcolare l’Errore Standard stimato della differenza delle medie del campione.

Perchè il test relativo a campioni indipendenti sia valido, occorre che siano rispettate delle precise condizioni:

  • Viene usato un campione casuale per ognuna delle popolazioni;
  • I campioni casuali sono composti ciascuno da osservazioni indipendenti;
  • Ogni campione è indipendente da ogni altro;
  • La distribuzione della popolazione di ogni popolazione deve essere grosso modo normale, oppure la dimensione del campione deve essere sufficientemente ampia.

Consideriamo le ipotesi per il nostro t-test:

H0 : μ1 = μ2
Ha : μ1 ≠ μ2

Si faccia attenzione al fatto che abbiamo due medie di popolazione, infatti testeremo il fatto che le media di due separate popolazioni siano tra loro eguali. In altri termini, avremmo anche potuto scrivere così:

H0 : μ1 – μ2 = 0
Ha : μ1 – μ2 ≠ 0

E’ giunto il momento di vedere come risulta la formula per determinare il valore di t:

\( t=\frac{(\bar{x}_1-\bar{x}_2)-(\mu_1-\mu_2)}{SE_(\bar{x}_1-\bar{x}_2)} \\ \)

dove:

\( \bar{x}_1-\bar{x}_2 \\ \)

è la differenza tra le medie del campione

\( \mu_1-\mu_2 \\ \)

è la differenza tra le medie ipotizzate della popolazione

\( SE_(\bar{x}_1-\bar{x}_2) \\ \)

è l’errore standard della differenza tra le medie del campione.

L’errore standard della differenza tra le medie dei campioni è calcolata così:

\( SE_(\bar{x}_1-\bar{x}_2)=\sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}} \\ \)

Vi e mi risparmio la formula per la determinazione dei gradi di libertà. E’ lunga e all’apparenza abbastanza “spaventosa”. In pratica, da pigro, lascerò che sia la calcolatrice oppure R a computarne il valore, oppure, e questa è la formuletta che mi piace, adotterò un approccio conservativo e andrò a usare il valore n più basso tra i due gruppi meno uno:

df=nil più basso -1

In R il test è di semplice esecuzione. Immaginiamo di avere i nostri dati nei due vettori “femmine” e “maschi”:

t.test(femmine,maschi)
questo nel caso di un test a 2 code

t.test(femmine,maschi,alternative="less")
oppure
t.test(femmine,maschi,alternative="greater")
nel caso di test a una coda

T-test per dati appaiati: il test delle ipotesi per campioni dipendenti.

Il t-test per campioni dipendenti è differente sotto molti aspetti da quello condotto su campioni indipendenti, al punto da essere anche chiamato, in maniera molto significativa, test per dati appaiati.
Nella pratica, in molti casi abbiamo a che fare con un tipo di test molto comune e molto utile: parliamo di pre-test / post-test.

Quali sono le condizioni per svolgere il nostro test? Eccole:

  • Il campione delle differenze è casuale;
  • Le osservazioni appaiate sono indipendenti le une dalle altre;
  • La distribuzione delle differenze della popolazione deve risultare grosso modo normale, oppure la grandezza del campione di osservazioni appaiate deve essere sufficientemente ampio.

Iniziamo dalle nostre ipotesi di partenza:

H0 : δ = 0
Ha : δ ≠ 0

la lettera delta indica “differenza”. Quindi le nostre ipotesi sono che la differenza sia uguale o diversa da 0.
Calcoliamo ora t:

\( t=\frac{\bar{d}-\delta}{SE_\bar{d}} \\ \)
dove \( \bar{d} \) è la media della differenza tra le variabili accoppiate (“paired” in inglese).

\( SE_\bar{d} \) è l’errore standard della differenza per la variabile.

\( s_{d}=\sqrt{\frac{\Sigma(d-\bar{d})^2}{n-1}} \)

e la formula per l’errore standard è: \( SE_\bar{d}=\frac{s_{d}}{\sqrt{n}} \)

E’ arrivato il momento di un esempio

Voglio testare un’ipotesi sugli stessi soggetti, prima e dopo un certo evento.
Se devo condurre un test pre e post sui medesimi soggetti, allora userò un test sulle differenze. Se le due serie di valori sono variabili dipendenti userò la funzione R:

t.test(prima, dopo, paired=TRUE)

e otterrò il valore di p. Se il valore risulterà minore del livello di significatività alpha prescelto, sceglierò l’ipotesi alternativa al posto dell’ipotesi nulla.

In pratica in R:

diff=post$test - post$post_test
hist(diff)

e verifico la normalità delle differenze. Se è ok, proseguo con il test:

t.test(post$test,post$post_test,paired=TRUE)

nel caso di un test a due code. La funzione mi restituisce i valori di t, df e p.
Se p è <0.05 (scegliendo un livello di significatività al 95%, quindi alpha=0.05) rigetto l’ipotesi nulla e accolgo l’ipotesi alternativa.

Se il test fosse a una coda:

t.test(post$test,post$post_test,paired=TRUE,alternative="less")
oppure
t.test(post$test,post$post_test,paired=TRUE,alternative="greater")




Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *