Distribuzioni di probabilità: distribuzioni discrete – La Binomiale

 

Una variabile casuale (o variabile aleatoria, o stocastica) è una variabile che può assumere valori diversi in dipendenza da qualche fenomeno aleatorio. In molti libri di statistica è indicata semplicemente come v.c.
E’ un valore numerico.

Quando valori di probabilità sono assegnati a tutti i possibili valori numerici di una variabile casuale x, il risultato è una distribuzione di probabilità.

In termini ancora più semplici: una variabile casuale è una variabile i cui valori sono associati a una probabilità di essere osservati. L’insieme di tutti i possibili valori di una variabile casuale e le probabilità ad essi associati è chiamato distribuzione di probabilità. La somma di tutte le probabilità è 1.

Variabili discrete e variabili continue

Ci sono due tipologie principali di variabili aleatorie: discrete e continue.

  • Una v.c. discreta può assumere un insieme discreto (finito o numerabile) di numeri reali. Cioè potrei elencare in una tabella tutti i possibili valori con le rispettive probabilità. Un esempio può essere l’esito del lancio di un dado: gli esiti possibili sono 6, ciascuno dei quali ha una probabilità di 1/6 (e la somma di tutte le probabilità, ovviamente, fa 1).

  • Una v.c. continua invece può assumere tutti i valori compresi in un intervallo reale. Vale a dire un numero infinito di valori entro ogni intervallo dato. La probabilità che X sia compresa entro ogni intervallo dato è rappresentata dall’area sottostante la distribuzione di probabilità.
    Nel caso di una variabile casuale continua, le probabilità vengono rappresentate per mezzo di una funzione di densità di probabilità.
    L’area totale sotto la curva (cioè la probabilità totale) vale 1.

A seconda dei casi abbiamo a che fare, quindi, con varie tipologie di distribuzioni. Queste sono le più comuni:

Distribuzioni discrete

Distribuzioni continue


Evento sì o evento no? La variabile casuale di Bernoulli

Consideriamo una prova nella quale ha interesse solo verificare se un certo evento si verificato o meno.
La variabile casuale generata da tale prova assumerà valore 1 se l’evento si è verificato, 0 altrimenti.
Tale v.c. viene detta variabile casuale di Bernoulli.

Una qualunque prova dicotomica può essere rappresentata da una variabile casuale di Bernoulli.

Jakob Bernoulli - la distribuzione binomiale
Questo è il signor Jakob Bernoulli. Su Wikipedia i dettagli per chi fosse interessato…

 
Un po’ di simboli. Indichiamo una v.c. di Bernoulli in questo modo:

\( x \sim Bernoulli(\pi) \\ \)

ha per media:

\( E(x)=\pi \\ \)

e per varianza:

\( V(x)=\pi(1-\pi) \\ \)

Tutte le prove che producono solo 2 possibili risultati generano v.c. di Bernoulli (ad esempio il lancio di una moneta).

Partendo da questo semplice assunto, il passo è brevissimo per arrivare alla Distribuzione Binomiale.


La distribuzione binomiale

Non ho intenzione in questa sede di soffermarmi sugli aspetti concettuali, peraltro molto importanti, per i quali rimando a testi specifici. Quello che mi preme è mostrare in pratica, e in maniera spero chiara, di cosa stiamo parlando. Partiamo da una definizione e poi vediamo le caratteristiche e qualche esempio pratico.

La variabile casuale Binomiale e può essere intesa come una somma di variabili casuali bernoulliane.

Cosa significa? Semplicemente che se ripetiamo, per n volte e nelle stesse condizioni, lo schema dicotomico successo-insuccesso della variabile casuale di Bernoulli, avremo come risultato una sequenza di n sottoprove indipendenti, a ciascuna delle quali possiamo associare una variabile casuale di Bernoulli.

Quali sono le caratteristiche della distribuzione binomiale? Queste:

  • C’è un numero fisso di tentativi (n).
  • Ogni tentativo ha due possibilità: successo o fallimento.
  • La probabilità di successo (p) è la stessa per ogni tentativo.
  • Il risultato di un tentativo non influenza nessun altro (i tentativi sono indipendenti)

Se anche solo una di queste caratteristiche non è presente, niente da fare. No caratteristica, no binomiale…

Cerchiamo ora di capire meglio.

Da un punto di vista pratico, la distribuzione binomiale ci consente di calcolare la probabilità di ottenere r successi in n prove indipendenti.

La probabilità di un certo numero, r, dipende da r stesso, dal numero di “esperimenti” n e dalla probabilità individuale che indichiamo con p

La probabilità di r successi in n esperimenti è data da questa espressione:

\( \frac{n!}{r!(n-r)!} \times p^r (1-p)^{n-r} \)


Sembra difficile, vero? Eppure non lo è (e in pratica si rivela utile e persino divertente!)

NOTA: La parte \( \frac{n!}{r!(n-r)!} \) è detta coefficiente binomiale, e si trova nei libri di testo scritta in questa maniera: \( {n\choose k} \)



Innanzitutto ricordiamo che con il simbolo ! in matematica indichiamo il fattoriale. Come certamente ricorderete, il fattoriale di 3, cioè 3! è:
3 x 2 x 1 =  6, il fattoriale di 4, cioè 4! è:
4 x 3 x 2 x 1 = 24
e via dicendo (non sfuggirà il fatto che il fattoriale cresce molto, molto velocemente all’aumentare del numero…).

Il fattoriale di un numero naturale
indica il prodotto del numero
per tutti i suoi antecedenti


Detto questo, vediamo prima come trovare la media, il centro della nostra distribuzione, e come la varianza. In questo modo, avremo tutto ciò che ci serve per qualche esempio pratico…

Il coefficiente binomiale con la Casio

Per calcolare ad esempio C62

6
CATALOG [Shift-F7]
C [tasto ln]
con la freccia vado fino alla C in grassetto e la scelgo
2
Sullo schermo avrò 6C2
EXE

e otterrò il risultato, 15.

il coefficiente binomiale con la ti 83

6
MATH
freccia fino a PRB
3-nCr
2
ENTER


Media, valore atteso, varianza di una distribuzione binomiale

Chiamiamo x il valore atteso. Quindi posso scrivere il nostro problema in questo modo:

\( x \sim Binomiale(dimensione, p) \)


La media è:

\(E(x) = dimensione \times p\)


La varianza è:

\(Var(x) = dimensione \times p \times (1 – p)\)


Ok, a questo punto urge un esempio.

Calcoliamo la varianza della distribuzione con dimensione n=10 e probabilità individuale p=0.5 (cioè il 50%). Ad esempio, si potrebbe trattare di dieci lanci di monete…

\( x \sim Binomiale(10, 0.5) \\\)

Quindi la varianza sarà:

\(Var (x) = 10 \times 0.5 \times (1 – 0.5) = 2.5 \\\)

La media, naturalmente, risulterà essere:

\(E (x) = 10 \times 0.5 = 5 \\\)


Nota a margine: è intuitivo che se p= 1-p = 0,5 la distribuzione di probabilità risulterà simmetrica. Mentre se p < 0,5 sarà asimmetrica verso destra e se p > 0,5 sarà asimmetrica verso sinistra.

Introduciamo ora il concetto di densità di probabilità, che poi è quello che più spesso useremo in applicazioni reali… E’ quando, ad esempio, vogliamo sapere la probabilità che due lanci su 10 di una moneta diano testa…

Un esempio: calcolo della densità di probabilità

Per spiegare meglio la cosa, prendo un problema da un libro. Ecco il problema:

Se incrocio un topo nero e uno bianco, ho 3/4 di probabilità che il topo nasca nero e 1/4 bianco. Qual è la probabilità che su 7 figli 3 siano bianchi?

Ottimo: scriviamo subito i dati!

  • n = 7
  • r = 3
  • p = 1/4 quindi 0.25

E ora? Faccio i calcoli a mano? Ma sì, ecco:

\( \frac{n!}{r!(n-r)!} \times p^r (1-p)^{n-r} \\ \\\)

quindi

\(\frac{7!}{3!4!} \times 0,25^{3} \times 0,75^{4}= \\
35 \times 0.0049439 = \ 0.173\)


vale a dire 17,3%.

Fare i calcoli a mano è divertente, ma noi siamo pigri e abbiamo a disposizione R, oppure magari sul tavolo la vecchia e fidata TI-83.

In R la densità di probabilità viene computata da una semplice funzione:

dbinom()

Il problema è quindi risolto con la semplice istruzione:

dbinom(3,7,0.25)

che mi dà come risultato 0,173, quindi la soluzione è 17,3%

La TI-83 ci fornisce invece la funzione binompdf, e la soluzione viene trovata con il comando:

binompdf(7,0.25,3)

(sì, l’ordine degli elementi purtroppo è diverso e non bisogna confondersi…)

Se invece utilizzo una calcolatrice Casio, la funzione da utilizzare sarà BinomialPD:

BinomialPD(3,7,0.25)

Esistono dei quesiti altrettanto interessanti, che chiamano in causa altre distribuzioni discrete. Come fare se fossimo interessati a sapere, ad esempio, quanti tentativi devo attendermi di fare prima di potermi aspettare un successo? Oppure, quante volte posso attendermi il verificarsi oppure il non verificarsi di un evento in un dato lasso di tempo?
Si tratta di questiti che chiamano in causa altre tipologie di distribuzione.

Senza reintroduzione? La distribuzione ipergeometrica

La distribuzione binomiale si basa sull’ipotesi di una popolazione infinita N, condizione che si può realizzare in pratica campionando da una popolazione finita con reintroduzione.

Se ciò non avviene, cioè se operiamo campionando da una popolazione senza reintroduzione dobbiamo avvalerci della distribuzione ipergeometrica. (In realtà, se N è grande la funzione di probabilità di densità ipergeometrica tende alla binomiale).

La distribuzione ipergeometrica ci consente di rispondere a quesiti del tipo:

Se prendo un campione di dimensione N, in cui M elementi soddisfano determinati requisiti, qual è la probabilità di estrarre x elementi che soddisfano quei requisiti?

Esprimo sotto forma di formula la mia distribuzione:

\( f(X|N,M,n)=\frac{C^{N-M}_{n-x}\times C^M_x}{C^N_n} \\ \)

Come sempre, il modo migliore di spiegarsi è attraverso un esempio.

Sappiamo che un lotto di 30 pezzi contiene 6 pezzi malfunzionanti.
Se prendo un campione di 5 pezzi, quale è la probabilità di trovare esattamente 2 pezzi difettosi?

I dati:

N=30 (il numero di pezzi complessivi del mio lotto)
x=2 (voglio sapere la probabilità di trovare 2 pezzi difettosi)
M=6 (i pezzi malfunzionanti complessivi presenti nel lotto)
N=5 (la grandezza del mio campione)

Vediamo di fare i semplici calcoli, ricordando come si calcolano i coefficienti binomiali:

\( Coefficienti\ binomiali:\frac{n!}{r!(n-r)!}\ quindi:\\ \\ \\ C^M_x=C^6_2=15\\ C^{N-M}_{n-x}=C^{24}_3=2024\\ C^{N}_n=C^{30}_5=142506\\ \frac{15×2024}{142506}=0,21304366\\ \\ \)


Nell’uso quotidiano, uso la calcolatrice casio per non dover fare tutti i calcoli a mano:

MENU
STAT
DIST [F5]
D [F6]
H-GEO [F3]
Hpd [F1]
e inserisco i miei dati:

Data: Variable
x: 2
n:5
M:6
N:30

il risultato è 0.21304366, vale a dire il 21,3%.


Alcuni testi per approfondire:

       





Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *