Distribuzioni di probabilità: distribuzioni discrete – La Binomiale

 

Una variabile casuale (o variabile aleatoria, o stocastica) è una variabile che può assumere valori diversi in dipendenza da qualche fenomeno aleatorio. In molti libri di statistica è indicata semplicemente come v.c.
E’ un valore numerico.

Quando valori di probabilità sono assegnati a tutti i possibili valori numerici di una variabile casuale x, il risultato è una distribuzione di probabilità.

In termini ancora più semplici: una variabile casuale è una variabile i cui valori sono associati a una probabilità di essere osservati. L’insieme di tutti i possibili valori di una variabile casuale e le probabilità ad essi associati è chiamato distribuzione di probabilità. La somma di tutte le probabilità è 1.

Ci sono due tipologie principali di variabili aleatorie: discrete e continue.

  • Una v.c. discreta può assumere un insieme discreto (finito o numerabile) di numeri reali.
  • Una v.c. continua può assumere tutti i valori compresi in un intervallo reale. (Cioè un numero infinito di valori entro ogni intervallo dato)

Abbiamo quindi varie tipologie di distribuzioni. Tra le più comuni:

Distribuzioni discrete

Distribuzioni continue

  • Normale
  • Uniforme
  • T di Student

Evento sì o evento no? La variabile casuale di Bernoulli

Consideriamo una prova nella quale ha interesse solo verificare se un certo evento si verificato o meno.
La variabile casuale generata da tale prova assumerà valore 1 se l’evento si è verificato, 0 altrimenti.
Tale v.c. viene detta variabile casuale di Bernoulli.

Jakob Bernoulli
Questo è il signor Jakob Bernoulli. Su Wikipedia i dettagli per chi fosse interessato…

 
Un po’ di simboli. Indichiamo una v.c. di Bernoulli in questo modo:

\( x \sim Bernoulli(\pi) \\ \)

ha per media:

\( E(x)=\pi \\ \)

e per varianza:

\( V(x)=\pi(1-\pi) \\ \)

Tutte le prove che producono solo 2 possibili risultati generano v.c. di Bernoulli (ad esempio il lancio di una moneta).

Partendo da questo semplice assunto, il passo è brevissimo per arrivare alla Distribuzione Binomiale.


La distribuzione binomiale

Non ho intenzione in questa sede di soffermarmi sugli aspetti concettuali, peraltro molto importanti, per i quali rimando a testi specifici. Quello che mi preme è mostrare in pratica, e in maniera spero chiara, di cosa stiamo parlando.

Quali sono dunque le caratteristiche della distribuzione binomiale? Queste:

  • C’è un numero fisso di tentativi (n).
  • Ogni tentativo ha due possibilità: successo o fallimento.
  • La probabilità di successo (p) è la stessa per ogni tentativo.
  • Il risultato di un tentativo non influenza nessun altro (i tentativi sono indipendenti)

Se anche solo una di queste caratteristiche non è presente, niente da fare. No caratteristica, no binomiale…

Cerchiamo ora di capire meglio.
La probabilità di un certo numero, r, dipende da r stesso, dal numero di “esperimenti” n e dalla probabilità individuale che indichiamo con p

La probabilità di r successi in n esperimenti è data da questa espressione:

\( \frac{n!}{r!(n-r)!} \times p^r (1-p)^{n-r} \)


Sembra difficile, vero? Eppure non lo è (e in pratica si rivela utile e persino divertente!)

NOTA: La parte \( \frac{n!}{r!(n-r)!} \) è detta coefficiente binomiale, e si trova nei libri di testo scritta in questa maniera: \( {n\choose k} \)



Innanzitutto ricordiamo che con il simbolo ! in matematica indichiamo il fattoriale. Come certamente ricorderete, il fattoriale di 3, cioè 3! è:
3 x 2 x 1 =  6, il fattoriale di 4, cioè 4! è:
4 x 3 x 2 x 1 = 24
e via dicendo (non sfuggirà il fatto che il fattoriale cresce molto, molto velocemente all’aumentare del numero…).

il fattoriale di 3, cioè 3! è 3 x 2 x 1 =  6

Detto questo, vediamo prima come trovare la media, il centro della nostra distribuzione, e come la varianza. In questo modo, avremo tutto ciò che ci serve per qualche esempio pratico…


Media, valore atteso, varianza di una distribuzione binomiale

Chiamiamo x il valore atteso. Quindi posso scrivere il nostro problema in questo modo:

\( x \sim Binomiale(dimensione, p) \)


La media è:

\(E(x) = dimensione \times p\)


La varianza è:

\(Var(x) = dimensione \times p \times (1 – p)\)


Ok, a questo punto urge un esempio.

Calcoliamo la varianza della distribuzione con dimensione n=10 e probabilità individuale p=0.5 (cioè il 50%). Ad esempio, si potrebbe trattare di dieci lanci di monete…

\( x \sim Binomiale(10, 0.5) \\\)

Quindi la varianza sarà:

\(Var (x) = 10 \times 0.5 \times (1 – 0.5) = 2.5 \\\)

La media, naturalmente, risulterà essere:

\(E (x) = 10 \times 0.5 = 5 \\\)


Nota a margine: è intuitivo che se p= 1-p = 0,5 la distribuzione di probabilità risulterà simmetrica. Mentre se p < 0,5 sarà asimmetrica verso destra e se p > 0,5 sarà asimmetrica verso sinistra.

Introduciamo ora il concetto di densità di probabilità, che poi è quello che più spesso useremo in applicazioni reali… E’ quando, ad esempio, vogliamo sapere la probabilità che due lanci su 10 di una moneta diano testa…

Un esempio: calcolo della densità di probabilità

Per spiegare meglio la cosa, prendo un problema da un libro. Ecco il problema:

Se incrocio un topo nero e uno bianco, ho 3/4 di probabilità che il topo nasca nero e 1/4 bianco. Qual è la probabilità che su 7 figli 3 siano bianchi?

Ottimo: scriviamo subito i dati!

  • n = 7
  • r = 3
  • p = 1/4 quindi 0.25

E ora? Faccio i calcoli a mano? Ma sì, ecco:

\( \frac{n!}{r!(n-r)!} \times p^r (1-p)^{n-r} \\ \\\)

quindi

\(\frac{7!}{3!4!} \times 0,25^{3} \times 0,75^{4}= \\
35 \times 0.0049439 = \ 0.173\)


vale a dire 17,3%.

Fare i calcoli a mano è divertente, ma noi siamo pigri e abbiamo a disposizione R, oppure magari sul tavolo la vecchia e fidata TI-83.

In R la densità di probabilità viene computata da una semplice funzione:

dbinom()

Il problema è quindi risolto con la semplice istruzione:

dbinom(3,7,0.25)

che mi dà come risultato 0,173, quindi la soluzione è 17,3%

La TI-83 ci fornisce invece la funzione binompdf, e la soluzione viene trovata con il comando:

binompdf(7,0.25,3)

(sì, l’ordine degli elementi purtroppo è diverso e non bisogna confondersi…)

Esistono però dei quesiti altrettanto interessanti, che chiamano in causa altre distribuzioni discrete. Come fare se fossimo interessati a sapere, ad esempio, quanti tentativi devo attendermi di fare prima di potermi aspettare un successo? Oppure, quante volte posso attendermi il verificarsi oppure il non verificarsi di un evento in un dato lasso di tempo?

La risposta nei prossimi post.

Per il momento, alcuni testi per approfondire

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *