R – paologironi blog

Il t test per due campioni. Come testare una ipotesi per campioni dipendenti o indipendenti

paolo — Tue, 03 Dec 2019 17:34:16 +0000

In un precedente post abbiamo parlato del test delle ipotesi per quanto riguarda una singola misura: la media del campione.

Ci sono però numerose situazioni nelle quali si rende necessario fare dell’analisi statistica che riguarda due campioni. Si pensi, a mo’ d’esempio, al caso in cui si voglia studiare la differenza tra uomini e donne rispetto ai risultati di un dato esame.

Di cosa parleremo

Il test delle ipotesi per campioni indipendenti
T-test per dati appaiati: il test delle ipotesi per campioni dipendenti.
E' arrivato il momento di un esempio
Potrebbe interessarti anche
Per approfondire

Possiamo testare una ipotesi riguardante due campioni indipendenti (nel qual caso i campioni non si influenzano reciprocamente) oppure due campioni dipendenti, laddove i campioni sono interrelati.

Lo scopo del t-test a due campioni è quello di determinare quando le medie di due popolazioni sono differenti in modo significativo.

Il test delle ipotesi per campioni indipendenti

Quando testiamo una ipotesi riguardo due campioni indipendenti, in realtà seguiamo un processo molto simile a quello già visto allorchè viene testato un campione casuale. Tuttavia, quando computiamo la statistica del test, dobbiamo calcolare l’Errore Standard stimato della differenza delle medie del campione.

Perchè il test relativo a campioni indipendenti sia valido, occorre che siano rispettate delle precise condizioni:

Viene usato un campione casuale per ognuna delle popolazioni;
I campioni casuali sono composti ciascuno da osservazioni indipendenti;
Ogni campione è indipendente da ogni altro;
La distribuzione della popolazione di ogni popolazione deve essere grosso modo normale, oppure la dimensione del campione deve essere sufficientemente ampia.

Consideriamo le ipotesi per il nostro t-test:

H₀ : μ₁ = μ₂
H_a : μ₁ ≠ μ₂

Si faccia attenzione al fatto che abbiamo due medie di popolazione, infatti testeremo il fatto che le media di due separate popolazioni siano tra loro eguali. In altri termini, avremmo anche potuto scrivere così:

H₀ : μ₁ – μ₂ = 0
H_a : μ₁ – μ₂ ≠ 0

E’ giunto il momento di vedere come risulta la formula per determinare il valore di t:

\( t=\frac{(\bar{x}_1-\bar{x}_2)-(\mu_1-\mu_2)}{SE_(\bar{x}_1-\bar{x}_2)} \\ \)

dove:

\( \bar{x}_1-\bar{x}_2 \\ \)

è la differenza tra le medie del campione

\( \mu_1-\mu_2 \\ \)

è la differenza tra le medie ipotizzate della popolazione

\( SE_(\bar{x}_1-\bar{x}_2) \\ \)

è l’errore standard della differenza tra le medie del campione.

L’errore standard della differenza tra le medie dei campioni è calcolata così:

\( SE_(\bar{x}_1-\bar{x}_2)=\sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}} \\ \)

Vi e mi risparmio la formula per la determinazione dei gradi di libertà. E’ lunga e all’apparenza abbastanza “spaventosa”. In pratica, da pigro, lascerò che sia la calcolatrice oppure R a computarne il valore, oppure, e questa è la formuletta che mi piace, adotterò un approccio conservativo e andrò a usare il valore n più basso tra i due gruppi meno uno:

df=n_{il più basso} -1

In R il test è di semplice esecuzione. Immaginiamo di avere i nostri dati nei due vettori “femmine” e “maschi”:

t.test(femmine,maschi)
questo nel caso di un test a 2 code

t.test(femmine,maschi,alternative="less")
oppure
t.test(femmine,maschi,alternative="greater")
nel caso di test a una coda

T-test per dati appaiati: il test delle ipotesi per campioni dipendenti.

Il t-test per campioni dipendenti è differente sotto molti aspetti da quello condotto su campioni indipendenti, al punto da essere anche chiamato, in maniera molto significativa, test per dati appaiati.
Nella pratica, in molti casi abbiamo a che fare con un tipo di test molto comune e molto utile: parliamo di pre-test / post-test.

Quali sono le condizioni per svolgere il nostro test? Eccole:

Il campione delle differenze è casuale;
Le osservazioni appaiate sono indipendenti le une dalle altre;
La distribuzione delle differenze della popolazione deve risultare grosso modo normale, oppure la grandezza del campione di osservazioni appaiate deve essere sufficientemente ampio.

Iniziamo dalle nostre ipotesi di partenza:

H₀ : δ = 0
H_a : δ ≠ 0

la lettera delta indica “differenza”. Quindi le nostre ipotesi sono che la differenza sia uguale o diversa da 0.
Calcoliamo ora t:

\( t=\frac{\bar{d}-\delta}{SE_\bar{d}} \\ \)
dove \( \bar{d} \) è la media della differenza tra le variabili accoppiate (“paired” in inglese).

\( SE_\bar{d} \) è l’errore standard della differenza per la variabile.

\( s_{d}=\sqrt{\frac{\Sigma(d-\bar{d})^2}{n-1}} \)

e la formula per l’errore standard è: \( SE_\bar{d}=\frac{s_{d}}{\sqrt{n}} \)

E’ arrivato il momento di un esempio

Voglio testare un’ipotesi sugli stessi soggetti, prima e dopo un certo evento.
Se devo condurre un test pre e post sui medesimi soggetti, allora userò un test sulle differenze. Se le due serie di valori sono variabili dipendenti userò la funzione R:

t.test(prima, dopo, paired=TRUE)

e otterrò il valore di p. Se il valore risulterà minore del livello di significatività alpha prescelto, sceglierò l’ipotesi alternativa al posto dell’ipotesi nulla.

In pratica in R:

diff=post$test - post$post_test
hist(diff)

e verifico la normalità delle differenze. Se è ok, proseguo con il test:

t.test(post$test,post$post_test,paired=TRUE)

nel caso di un test a due code. La funzione mi restituisce i valori di t, df e p.
Se p è <0.05 (scegliendo un livello di significatività al 95%, quindi alpha=0.05) rigetto l’ipotesi nulla e accolgo l’ipotesi alternativa.

Se il test fosse a una coda:

t.test(post$test,post$post_test,paired=TRUE,alternative="less")
oppure
t.test(post$test,post$post_test,paired=TRUE,alternative="greater")

Per approfondire

Per tutti i dettagli formali sul confronto tra campioni — varianze uguali o diverse, campioni appaiati, assunzioni — Statistica di Newbold, Carlson e Thorne resta il riferimento più completo in italiano.

La distribuzione geometrica

paolo — Fri, 14 Sep 2018 13:08:05 +0000

Dopo aver visto in altri post la più famosa distribuzione discreta, la Binomiale, nonchè la distribuzione di Poisson e la distribuzione Beta, è giunto il momento di gettare uno sguardo alla distribuzione geometrica.

Di cosa parleremo

Quanti tentativi servono per avere un primo risultato positivo?
E' giunto il momento degli esempi…
Usiamo R o la TI 83
- lo stesso risultato in R
Potrebbe interessarti anche
Per approfondire

Quanti tentativi servono per avere un primo risultato positivo?

Si usa quando si fanno tentativi indipendenti, ciascuno dei quali può avere come esito il successo o il fallimento, e si è interessati a conoscere quanti tentativi occorrono per avere un primo risultato positivo.

In simboli:

\( X \sim Geo(p) \\ \\ \)

\(X\) è il numero di tentativi necessari per avere un primo risultato positivo.
\(r\) è il numero dei tentativi.
\(P\) è la probabilità di successo nel tentativo.
diciamo poi, come è ovvio, che: q=1-p

Qui viene il bello. Abbiamo infatti: \(\\ P(X=r) = p \times q ^ {r-1} \\ \)

P indica quindi la probabilità che il primo successo avvenga al tentativo numero r.
Continuiamo nel ragionamento:

\(P(X > r) = q ^ {r}\)

il che ci consente di calcolare la probabilità che servano più di r tentativi per avere il primo successo, nonchè:

\(P(X \leq r) = 1 – q ^ {r} \\ \)

che ci aiuta a trovare qual è la probabilità che servano r tentativi o meno per avere il primo successo. Il valore atteso è:

\(E(X) = \frac{1}{P} \\ \)

La varianza è:

\(Var(X) = \frac{q}{P^{2}}\)

E’ giunto il momento degli esempi…

Sappiamo che la probabilità che un pattinatore completi un percorso senza incidenti è 0,4. Quindi:

\( X \sim Geo(0,4) \\ \)

X è il numero di tentativi che il nostro pattinatore deve fare per riuscire a completare un percorso senza alcun incidente.

Siamo pronti ad applicare le nostre nuove conoscenze.

Calcoliamo il numero di tentativi che mi aspetto di fare prima di avere un successo:

\( E(X) = \frac{1}{P}\\\) dunque \(\frac{1}{0,4} = 2,5 \)

La varianza nel numero dei tentativi è presto calcolata:

\( Var(X) \frac{q}{p^{2}} \\ \) cioè \(\frac{0,6}{0,4^{2}} = \frac{0,6}{0,16} = 3,75 \\ \)

La probabilità di aver successo al secondo tentativo, dopo aver fallito il primo…

\( P(X=2) = P \times q = 0,4 \times 0,6 = 0,24 \\\) vale a dire 24%

La probabilità di aver successo in 4 tentativi o meno? Facile!

\(P(X \leq 4) = 1-q^{4} = 1 – 0,6^{4} = 1 – 0,1296 \\ \) Cioè 0,8704

Vale a dire 87%

La probabilità di aver bisogno di più di 4 tentativi? Calcolarla è uno scherzo:

\( P(X > 4) = q^{4} = 0,6^{4}\\ \)

Cioè 0,1296, ossia circa il 13%

Usiamo R o la TI 83

Ora che abbiamo un po’ di formule ben presenti, possiamo lasciare campo alla nostra pigrizia e tirare fuori la TI-83.

Per calcolare la probabilità di aver successo al secondo tentativo, dopo aver fallito il primo mi basterà calcolare:

geometpdf(0.4,2)

e poi ovviamente x 100 se voglio avere il valore percentuale…

Per trovare la probabilità di aver successo in 4 tentativi o meno:

geometcdf(0,4,4)

e poi ovviamente x 100 se voglio avere il valore percentuale…

Per calcolare la probabilità di aver bisogno di più di 4 tentativi:

1-geometcdf(0.4,4)

e poi ovviamente x 100 se voglio avere il valore percentuale…

lo stesso risultato in R

Con P(X=2) e P=0,4

dgeom(1,0.4)

dove 1 è il numero dei fallimenti prima del successo…

P(X<=4) e P=0,4

pgeom(3,0.4)

Tutto molto semplice, molto rapido, molto divertente!

Per approfondire

Le distribuzioni discrete come la geometrica sono trattate con esempi accessibili in Finalmente ho capito la statistica di Maurizio De Pra, una lettura adatta a chi vuole costruirsi le basi senza affrontare un manuale universitario.

Tabelle di contingenza e probabilità condizionata

paolo — Mon, 04 Jun 2018 14:50:36 +0000

Le tabelle di contingenza sono usate per valutare l’interazione tra due variabili categoriche (qualitative). Possono essere chiamate anche tabelle a doppia entrata.

La ricerca di relazioni tra due variabili categoriali è un obiettivo molto comune per i ricercatori. Pensiamo, ad esempio, alla classica domanda che si pongono gli addetti al marketing su chi sia più propenso ad acquistare certe categorie di prodotti, se giovani o anziani oppure uomini o donne…

Di cosa parleremo

Tabelle di contingenza a doppia entrata e distribuzioni marginali
La probabilità condizionata
Dipendenza e indipendenza

Tabelle di contingenza a doppia entrata e distribuzioni marginali

Una tabella a doppia entrata è una tabella che contiene righe e colonne ed aiuta organizzare i dati da variabili categoriali:

Le righe rappresentano le possibili categorie per una variabile qualitativa, ad esempio maschi e femmine.
Le colonne rappresentano le possibili categorie per una seconda variabile qualitativa, ad esempio se piace la pizza oppure no…

Un distribuzione marginale mostra quante risposte complessive ci sono per ogni categoria della variabile. La distribuzione marginale di una variabile può essere determinata guardando alla colonna (o alla riga) “Totale”.

Vediamo un esempio.

N.B. Mi scuso, ma non mi è venuto in mente granchè, dunque ho creato una tabella (con dati fittizi, ovviamente) di rara stupidità, immaginando che le due variabili categoriche riguardino il livello di istruzione e le serie di fantascienza preferite…

Costruisco la tabella in R:

scififan <- matrix(c(44,38,26,53,35,30,58,22,29),ncol=3,byrow=TRUE)
rownames(scififan) <- c("laurea","diploma","istruzione inferiore")
colnames(scififan) <- c("star trek","star wars","doctor who")
scififan <- as.table(scififan)
scififan

e ottengo una cosa di questo tipo:

		star trek   star wars   doctor who
laurea		44	    38		26
diploma         53	    35		30
istr.inferiore	58          22		29

Ricordate? Una distribuzione marginale mostra quante risposte complessive ci sono per ogni categoria della variabile (ai margini, appunto, dove c’è la colonna o la riga Totale…).

posso calcolare i totali di riga in R con:

margin.table(scififan,1)

e di colonna con:

margin.table(scififan,2)

posso anche trovare il “totale dei totali” con:

margin.table(scififan)

Riporto la tabella con i Totali:

	star trek   star wars   doctor who   TOTALE
laurea	44	    38	        26	     108
diploma	53	    35	        30	     118
ist.inf 58	    22	        29	     109
TOTALE	155	    95	        85	     335

Quindi i totali marginali per titolo di studio sono 108 per la laurea, 118 per il diploma, 109 per l’istruzione inferiore.

Allo stesso modo, i totali marginali per tipo di serie fantascientifica sono 155 per star trek, 95 per guerre stellari, 85 per doctor who.

Il totale dei totali deve essere lo stesso per entrambe le direzioni, in questo caso 335.

Avrei potuto anche ottenere una tabella completa a video con riportati i totali con poche righe di codice R:

scififan <- matrix(c(44,38,26,53,35,30,58,22,29),ncol=3,byrow=TRUE)

nomirighe <- c("laurea","diploma","istruzione inferiore")
nomicol<- c("star trek","star wars","doctor who")
dimnames(scififan) <- list(nomirighe,nomicol)

# ora calcolo il totale di colonna usando apply
totcol <- apply(scififan,2,sum)
# aggiungo una riga con i totali di colonna con rbind
scififan2 <- rbind(scififan,totcol)
# calcolo il totale di riga
totrighe <- apply(scififan2,1,sum)
#aggiungo una colonna con i totali di riga
conttable <- cbind(scififan2, totrighe)

#stampo a video la mia tabella
conttable

Posso allora chiedermi (e rispondermi): quale percentuale di laureati ha un debole per doctor who?
Elementare Watson (ah no, quella era un’altra serie…):

26/108 = 0,24 = 24% dei laureati predilige doctor who

E quanti fan di guerre stellari sono diplomati?

35/95 = 0,37 = 37% dei fan di guerre stellari sono tra i diplomati

In R, posso ottenere direttamente le probabilità per riga semplicemente con la funzione:

prop.table(scififan,1)

e il risultato sarà:

                     	
           star trek 	star wars    doctor who
laurea     0.4074074 	0.3518519    0.2407407
diploma    0.4491525 	0.2966102    0.2542373
ist.inf.   0.5321101 	0.2018349    0.2660550

(come si vede i totali di riga danno 1, o 100%)

oppure quelli per colonna con:

prop.table(scififan,2)

e il risultato sarà:

                     	
           star trek   star wars   doctor who
laurea     0.2838710   0.4000000   0.3058824
diploma    0.3419355   0.3684211   0.3529412
istr.inf.  0.3741935   0.2315789   0.3411765

(come si vede i totali di colonna danno 1 o 100%)

Come sempre c’è sempre più di un modo per ottenere il risultato, e posso anche operare installando il pacchetto “gmodels” e usando la funzione CrossTable (lascio all’help in linea di R il compito di mostrare tutte le opzioni del comando…):

install.packages("gmodels")
library(gmodels)
scififan <- matrix(c(44,38,26,53,35,30,58,22,29),ncol=3,byrow=TRUE)
rownames(scififan) <- c("laurea","diploma","istruzione inferiore")
colnames(scififan) <- c("star trek","star wars","doctor who")

CrossTable(scififan, prop.r="false", prop.c="false", prop.t="false",prop.chisq="false")

Bene: a cosa mi serve tutto questo? La risposta è: ad esempio per il calcolo della probabilità condizionata.

La probabilità condizionata

Prima di vedere di cosa si tratta e perchè è un concetto utilissimo nella realtà di tutti i giorni, serve qualche definizione preliminare riguardo la probabilità.

Un evento è qualcosa che accade con uno o più possibili esiti.
Un esperimento è il processo di misurare o fare un’osservazione.

Definizione importante: la probabilità di un evento è il rapporto tra il numero dei casi favorevoli e il numero dei casi possibili

\( P(A) = \frac {numero \ dei \ casi \ favorevoli}{numero \ dei \ casi \ possibili}\\ \)

Ricordiamo poi che:

La probabilità che due eventi accadano non può mai essere maggiore della probabilità che ciascun evento accada separatamente.
Se due eventi possibili, A e B, sono indipendenti, allora la possibilità che accadano entrambi è data dal prodotto delle loro probabilità individuali.
Se un evento può avere un certo numero di esiti possibili diversi e distinti (A,B,C,ecc.), allora la probabilità che accada A oppure B è pari alla somma delle possibilità individuali di A e B, e la somma delle probabilità di tutti gli esiti possibili (A,B,C, ecc.) è pari a 1, cioè al 100%.

La probabilità condizionata di un evento A rispetto a un evento B è la probabilità che si verifichi A, posto che si è verificato B.

La formula è:

\(P(A|B) = \frac {P(A \ and \ B)}{P(B)}\\ \)

Se una probabilità si basa su una variabile è una probabilità marginale, se su due o più variabili si chiama probabilità congiunta.

La probabilità di un evento P(A) è: \(\frac {probabilità \ marginale \ A}{Totale}\\ \)
La probabilità congiunta di due eventi è: \(\frac {P(A \ and \ B)}{Totale}\\ \)
La probabilità condizionale dell’esito A dato il verificarsi della condizione B è: \(\frac {P(A \ and \ B)}{P(B)}\\ \)

In altri termini:

Una probabilità congiunta è la probabilità che qualcuno selezionato da tutto il gruppo abbia due caratteristiche particolari allo stesso tempo. Cioè entrambe le caratteristiche avvengono congiuntamente. Si trova una probabilità congiunta prendendo il valore della cella intersezione di A e B e dividendo per il totale generale.

Per trovare una probabilità condizionale, considero il valore della cella che si trova all’incrocio di A e B e lo divido per il totale marginale di B, cioè della variabile che esprime l’evento che si è verificato.

E’ giunto il momento di un secondo esempio. Prendo i dati da:
Ellis GJ and Stone LH. 1979. Marijuana Use in College: An Evaluation of a Modeling Explanation. Youth and Society 10:323-334.

Lo studio si chiede se è più probabile che uno studente fumi marijuana se i genitori avevano fatto uso di droghe in passato. Ecco la tabella:

				
                   genitori  genitori  Totale
                     uso     non uso	
studente fa uso	   125	     94	       219
studente non uso   85        141       226	
Totale		   210       235       445

Applichiamo le nostre conoscenze per rispondere a queste domande:

Se i genitori hanno fatto uso di droghe leggere in passato, qual è la probabilità che lo stesso faccia il figlio al college?

Si tratta di un caso di probabilità condizionale.
Ricordiamo \(P(A|B) = \frac {P(A \ and \ B)}{P(B)}\\ \), quindi

P(studente usi posto che genitori hanno usato) = 125 / 210 = 0,59 = 59%

2. Uno studente viene estratto a sorte e non usa marijuana. Qual è la probabilità che i suoi genitori ne abbiano fatto uso?

Anche in questo caso mi trovo di fronte a un quesito che chiede una probabilità condizionale. Quindi:

P (genitori ne hanno fatto uso posto che il figlio non usa) = 85 / 226 = 0,376 = 37,6%

3. Qual è la probabilità di estrarre uno studente che non fa uso di marijuana e i cui genitori ne hanno fatto uso in passato?

Si tratta in questo caso di trovare una probabilità congiunta, quindi:

\( \frac {P(A \ and \ B)}{Totale}\\ \), quindi
\( \frac {85}{445} = 0.19\\ \).

La probabilità è del 19% circa.

Dipendenza e indipendenza

Se i risultati di A e B si influenzano a vicenda, diciamo che le due variabili sono in un rapporto di dipendenza.
Viceversa, possiamo dire che le due variabili sono indipendenti.

Mi esprimo in maniera più rigorosa: possiamo affermare che l’evento B è indipendente dall’evento A se:

P(B|A) = P(B)

oppure

P(A|B) = P(A)

qualora non sia così, gli eventi sono tra loro dipendenti.

Dunque:

P(A and B) = P(A) P(B) se e solo se A e B sono eventi indipendenti.
P(A | B) = P(A) e P(B | A) = P(B) se e solamente se A e B sono eventi indipendenti.

Esaminiamo l’indipendenza di variabili categoriche…

Spieghiamoci meglio avvalendoci di un esempio.

Chiamiamo A il fatto che le persone amano o meno il ciclismo.
B invece esprime il fatto che si ami oppure no l’abbacchio al forno. (logico, no?)

Costruisco la mia tabella di contingenza:

                Ok ciclismo    No ciclismo  Totale
Sì abbacchio        95             36        131
No abbacchio        15             19         34
--------------------------------------------------
Totale             110             55        165

Ricordiamoci cosa significa dire che due eventi sono indipendenti. Significa questo:
P(A | B) = P(A)

Ma nel nostro caso vediamo che
P(A) = 66,7%
perchè 110/165 = 0,67

P(A | B) = 72,5%
perchè 95/131 = 0,725

Ricordiamo infatti che
\(P(A|B) = \frac {P(A \ and \ B)}{P(B)}\\ \), quindi
\( \frac {95}{131} = 0.725\\ \).

Dal risultato è chiaro che
\( P(A) \neq P(A|B)\)
i due eventi risultano NON indipendenti, (quindi sono dipendenti).

D’altronde, è noto a tutti che tra amare il ciclismo e l’abbacchio arrosto c’è una chiara dipendenza 🙂

Per approfondire

Tabelle di contingenza, probabilità condizionata e indipendenza sono trattate con rigore in Statistica di Newbold, Carlson e Thorne, il manuale di riferimento per chi vuole approfondire l’inferenza.

R – paologironi blog

Il t test per due campioni. Come testare una ipotesi per campioni dipendenti o indipendenti

Il test delle ipotesi per campioni indipendenti

T-test per dati appaiati: il test delle ipotesi per campioni dipendenti.

E’ arrivato il momento di un esempio

Potrebbe interessarti anche

Per approfondire

La distribuzione geometrica

Quanti tentativi servono per avere un primo risultato positivo?

E’ giunto il momento degli esempi…

Usiamo R o la TI 83

lo stesso risultato in R

Potrebbe interessarti anche

Per approfondire

Tabelle di contingenza e probabilità condizionata

Tabelle di contingenza a doppia entrata e distribuzioni marginali

La probabilità condizionata

Dipendenza e indipendenza

Esaminiamo l’indipendenza di variabili categoriche…

Potrebbe interessarti anche

Per approfondire