La distribuzione ipergeometrica

Abbiamo visto che la distribuzione binomiale si basa sull’ipotesi di una popolazione infinita N, condizione che si può realizzare in pratica campionando da una popolazione finita con reintroduzione.

Se ciò non avviene, cioè se operiamo campionando da una popolazione senza reintroduzione dobbiamo avvalerci della distribuzione ipergeometrica. (In realtà, se N è grande la funzione di probabilità di densità ipergeometrica tende alla binomiale).

La distribuzione ipergeometrica si usa per calcolare la probabilità di ottenere un certo numero di successi in una serie di tentativi binari (sì o no), dipendenti e con una probabilità di successo variabile.

La distribuzione ipergeometrica ci consente di rispondere a quesiti del tipo:

Se prendo un campione di dimensione N, in cui M elementi soddisfano determinati requisiti, qual è la probabilità di estrarre x elementi che soddisfano quei requisiti?

Partiamo dalla formula

Esprimo sotto forma di formula la mia distribuzione:

\( f(X|N,M,n)=\frac{C^{N-M}_{n-x}\times C^M_x}{C^N_n} \\ \)

La distribuzione ipergeometrica spiegata con esempi

Sappiamo che un lotto di 30 pezzi contiene 6 pezzi malfunzionanti.
Se prendo un campione di 5 pezzi, quale è la probabilità di trovare esattamente 2 pezzi difettosi?

Scrivo subito i dati:

  • N=30 (il numero di pezzi complessivi del mio lotto)
  • M=6 (i pezzi malfunzionanti complessivi presenti nel lotto)
  • x=2 (voglio sapere la probabilità di trovare 2 pezzi difettosi)
  • n=5 (la grandezza del mio campione)

Vediamo di fare i semplici calcoli, ricordando come si calcolano i coefficienti binomiali:

\( Coefficienti\ binomiali:\frac{n!}{r!(n-r)!}\ quindi:\\ \\ \\ C^M_x=C^6_2=15\\ C^{N-M}_{n-x}=C^{24}_3=2024\\ C^{N}_n=C^{30}_5=142506\\ \frac{15×2024}{142506}=0,21304366\\ \\ \)

Nell’uso quotidiano, posso uso la calcolatrice scientifica Casio per non dover fare tutti i calcoli a mano:

MENU 
STAT
DIST [F5]
D [F6]
H-GEO [F3]
Hpd [F1]

e inserisco i miei dati:

Data: Variable
x: 2
n:5
M:6
N:30

Il risultato è 0.21304366, vale a dire il 21,3%

Vediamo come risolvere lo stesso problema in R:

# Definizione dei parametri della distribuzione ipergeometrica
x <- 2 # voglio sapere la probabilità di trovare 2 pezzi difettosi
n <- 5 # la grandezza del mio campione
M <- 6 # i pezzi malfunzionanti complessivi presenti nel lotto
N <- 30 # il numero di pezzi complessivi del mio lotto

# Calcolo della probabilità con la funzione dhyper
prob <- dhyper(x, M, N - M, n)
prob

e ottengo in output:

[1] 0.2130437

Può mancare un esempio con urna e palline?

Facciamo ora un altro esempio: stimiamo la probabilità che in un’urna con 10 palline bianche e 5 nere, estraendo 4 palline senza reintroduzione, se ne ottengano 3 bianche e 1 nera. Quindi:

  • x=3 Numero di palline bianche estratte
  • n=4 Numero di palline estratte
  • M=5 Numero di palline nere
  • N = 15 Numero totale di palline

Abbiamo visto che in R, è possibile utilizzare la funzione dhyper per calcolare la probabilità di estrarre 3 palline bianche e 1 nera dall’urna descritta.

Ecco il codice R:

# Definizione dei parametri della distribuzione ipergeometrica
x <- 3 # Numero di palline bianche estratte
n <- 4 # Numero di palline estratte
M <- 5 # Numero di palline nere
N <- 15 # Numero totale di palline

# Calcolo della probabilità con la funzione dhyper
prob <- dhyper(x, M, N - M, n)
prob

La probabilità di estrarre 3 palline bianche e 1 nera è quindi 0.07326007, ovvero circa il 7,33%.

Per approfondire il tema della distribuzione ipergeometrica

Sul fronte libri, Finalmente ho capito la statistica di Maurizio De Pra copre le distribuzioni discrete — ipergeometrica compresa — con un linguaggio accessibile e a prezzo contenuto.

paolo

Recent Posts

Il peeking problem: perché sbirciare l’A/B test gonfia i falsi positivi

Il 21 gennaio 2015 Optimizely — una delle piattaforme di A/B testing più usate al…

2 giorni ago

Regressione verso la media: l’ottimizzazione SEO che ha funzionato… per caso

Nell'aeronautica militare israeliana, racconta Daniel Kahneman, gli istruttori erano convinti di una cosa: lodare un…

3 giorni ago

Correlazione: Pearson, Spearman e Kendall (e perché non è causazione)

Chi guarda i dati di un sito lo fa di continuo, spesso senza nemmeno accorgersene,…

6 giorni ago

Effect size e power analysis: quanto è grande l’effetto (e quanti dati servono)

Abbiamo chiuso l'articolo sul calcolatore di significatività con una promessa. Dicevamo che il p-value risponde…

1 settimana ago

Calcolatore di Significatività per A/B Test

Il nostro A/B test è arrivato alla fine: la variante B mostra un tasso di…

2 settimane ago

La biblioteca di Statistica e SEO: i libri che consiglio (e perché)

C'è una domanda che torna, puntuale, ogni volta che pubblico un articolo di questo percorso:…

2 settimane ago