statistics

Test non parametrici: il test di Wilcoxon per i dati non normali

Il test di Wilcoxon è un test non parametrico utilizzato per confrontare due campioni indipendenti, o un campione con un valore di riferimento noto.
Il test è utilizzato quando i dati non seguono una distribuzione normale, o quando non si conoscono i parametri della distribuzione.

Il test di Wilcoxon consiste nell’ordinare i dati di entrambi i campioni, e quindi assegnare un punteggio a ciascun valore in base alla posizione nell’ordinamento. I punteggi vengono quindi sommati per ogni campione, e la differenza tra le somme dei punteggi dei due campioni viene confrontata con un valore di riferimento noto, utilizzando la distribuzione di Wilcoxon.
In base al risultato del confronto, si può decidere se accettare o rifiutare l’ipotesi nulla.

Il test di Wilcoxon è spesso utilizzato per confrontare i valori di una variabile continua tra due gruppi. Esiste anche una versione del test chiamata test di Wilcoxon-Mann-Whitney che utilizzato quando si vuole confrontare 2 gruppi con una variabile ordinale o categoriale.

Un esempio pratico sul test di Wilcoxon in R

In questo esempio, vado a generare i dati di esempio per due gruppi, gruppo1 e gruppo2, utilizzando la funzione rnorm() per generare numeri casuali che seguono una distribuzione normale con media 100 e deviazione standard 15 per il primo gruppo e 110 e deviazione standard 15 per il secondo gruppo.

Utilizzo la funzione wilcox.test() per eseguire il test di Wilcoxon, e specifico l’ipotesi alternativa “two.sided” per testare se i due gruppi hanno medie significativamente diverse.

I risultati del test vengono stampati sullo schermo, e includono il valore del test statistico, il valore p, e la conclusione del test. In base al valore p, si può decidere se accettare o rifiutare l’ipotesi nulla.

# Creare i dati di esempio
set.seed(123)
gruppo1 <- rnorm(100, mean = 100, sd = 15)
gruppo2 <- rnorm(100, mean = 110, sd = 15)

# Eseguire il test di Wilcoxon
wilcox_test <- wilcox.test(gruppo1, gruppo2, alternative = "two.sided")

# Visualizzare i risultati del test
print(wilcox_test)

Il livello di significatività più comune utilizzato è del 5% o 0,05. Questo significa che si stabilisce una soglia del 5% al di sopra della quale si considera che l’effetto osservato sia casuale e al di sotto la quale l’effetto osservato è considerato statisticamente significativo. In altre parole, se il valore p ottenuto dal test è inferiore a 0,05, si rifiuta l’ipotesi nulla e si conclude che esiste una differenza significativa tra i campioni.

E’ importante notare che questi valori di soglia sono convenzionali e possono essere modificati in base alle esigenze specifiche dello studio o alla disciplina in cui si sta lavorando.

Risorse per approfondire

Per approfondire

I test non parametrici, Wilcoxon compreso, sono trattati sistematicamente in Statistica di Newbold, Carlson e Thorne, con le condizioni che guidano la scelta tra alternative parametriche e non parametriche.