  <?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>R &#8211; paologironi blog</title>
	<atom:link href="https://www.gironi.it/blog/tag/r-it/feed/" rel="self" type="application/rss+xml" />
	<link>https://www.gironi.it/blog</link>
	<description>Appunti sparsi di (retro) informatica, analisi dei dati, statistica, seo, e cose che cambiano</description>
	<lastBuildDate>Thu, 18 Jun 2026 13:31:30 +0000</lastBuildDate>
	<language>it-IT</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	
	<item>
		<title>Il t test per due campioni. Come testare una ipotesi per campioni dipendenti o indipendenti</title>
		<link>https://www.gironi.it/blog/il-t-test-per-due-campioni-testare-una-ipotesi-per-campioni-dipendenti-o-indipendenti/</link>
					<comments>https://www.gironi.it/blog/il-t-test-per-due-campioni-testare-una-ipotesi-per-campioni-dipendenti-o-indipendenti/#comments</comments>
		
		<dc:creator><![CDATA[paolo]]></dc:creator>
		<pubDate>Tue, 03 Dec 2019 17:34:16 +0000</pubDate>
				<category><![CDATA[statistica]]></category>
		<category><![CDATA[pre-post test]]></category>
		<category><![CDATA[R]]></category>
		<category><![CDATA[t-test]]></category>
		<guid isPermaLink="false">https://www.gironi.it/blog/?p=1411</guid>

					<description><![CDATA[In un precedente post abbiamo parlato del test delle ipotesi per quanto riguarda una singola misura: la media del campione. Ci sono però numerose situazioni nelle quali si rende necessario fare dell&#8217;analisi statistica che riguarda due campioni. Si pensi, a mo&#8217; d&#8217;esempio, al caso in cui si voglia studiare la differenza tra uomini e donne &#8230; <a href="https://www.gironi.it/blog/il-t-test-per-due-campioni-testare-una-ipotesi-per-campioni-dipendenti-o-indipendenti/" class="more-link">Leggi tutto<span class="screen-reader-text"> "Il t test per due campioni. Come testare una ipotesi per campioni dipendenti o indipendenti"</span></a>]]></description>
										<content:encoded><![CDATA[
<p class="wp-block-paragraph">In un <a href="https://www.gironi.it/blog/la-distribuzione-t-e-il-test-delle-ipotesi/" target="_blank" rel="noreferrer noopener">precedente post</a> abbiamo parlato del test delle ipotesi per quanto riguarda una singola misura: la media del campione.</p>



<p class="wp-block-paragraph">Ci sono però numerose situazioni nelle quali si rende necessario fare dell&#8217;analisi statistica che riguarda due campioni. Si pensi, a mo&#8217; d&#8217;esempio, al caso in cui si voglia studiare la differenza tra uomini  e donne rispetto ai risultati di un dato esame.</p>



<span id="more-1411"></span>


				<div class="wp-block-uagb-table-of-contents uagb-toc__align-left uagb-toc__columns-1  uagb-block-5439fb09 wp-block-uagb-table-of-contents uagb-toc__align-left uagb-toc__columns-undefined uagb-block-a1ccdc27     "
					data-scroll= "1"
					data-offset= "30"
					style=""
				>
				<div class="uagb-toc__wrap">
						<div class="uagb-toc__title">
							Di cosa parleremo						</div>
																						<div class="uagb-toc__list-wrap ">
						<ol class="uagb-toc__list"><li class="uagb-toc__list"><a href="#il-test-delle-ipotesi-per-campioni-indipendenti" class="uagb-toc-link__trigger">Il test delle ipotesi per campioni indipendenti</a><li class="uagb-toc__list"><a href="#t-test-per-dati-appaiati-il-test-delle-ipotesi-per-campioni-dipendenti" class="uagb-toc-link__trigger">T-test per dati appaiati: il test delle ipotesi per campioni dipendenti.</a><li class="uagb-toc__list"><a href="#e-arrivato-il-momento-di-un-esempio" class="uagb-toc-link__trigger">E&#039; arrivato il momento di un esempio</a><li class="uagb-toc__list"><a href="#potrebbe-interessarti-anche" class="uagb-toc-link__trigger">Potrebbe interessarti anche</a><li class="uagb-toc__list"><a href="#per-approfondire" class="uagb-toc-link__trigger">Per approfondire</a></ol>					</div>
									</div>
				</div>
			


<hr class="wp-block-separator has-css-opacity"/>



<p class="wp-block-paragraph">Possiamo testare una ipotesi riguardante due campioni <strong>indipendenti</strong> (nel qual caso i campioni non si influenzano reciprocamente) oppure due campioni <strong>dipendenti</strong>, laddove i campioni sono interrelati.</p>



<p class="has-light-gray-background-color has-background wp-block-paragraph">Lo scopo del t-test a due campioni è quello di determinare quando le medie di due popolazioni sono differenti in modo significativo.</p>



<h3 class="wp-block-heading">Il test delle ipotesi per campioni indipendenti</h3>



<p class="wp-block-paragraph">Quando testiamo una ipotesi riguardo due campioni indipendenti, in realtà seguiamo un processo molto simile a quello già visto allorchè viene testato un campione casuale. Tuttavia, quando computiamo la statistica del test, dobbiamo calcolare l&#8217;<strong>Errore Standard stimato della differenza delle medie  del campione</strong>.</p>



<p class="wp-block-paragraph">Perchè il test relativo a campioni indipendenti sia valido, occorre che siano rispettate delle precise condizioni:</p>



<ul class="wp-block-list">
<li>Viene usato un campione casuale per ognuna delle popolazioni;</li>



<li>I campioni casuali sono composti ciascuno da osservazioni indipendenti;</li>



<li>Ogni campione è indipendente da ogni altro;</li>



<li>La distribuzione della popolazione di ogni popolazione deve essere grosso modo normale, oppure la dimensione del campione deve essere sufficientemente ampia.</li>
</ul>



<p class="wp-block-paragraph">Consideriamo le ipotesi per il nostro t-test:</p>



H<sub>0</sub> : μ<sub>1</sub> = μ<sub>2</sub>
<br>
H<sub>a</sub> : μ<sub>1</sub> ≠ μ<sub>2</sub>
<br><br>



<p class="wp-block-paragraph">Si faccia attenzione al fatto che abbiamo due medie di popolazione, infatti testeremo il fatto che le media di due separate popolazioni siano tra loro eguali. In altri termini, avremmo anche potuto scrivere così:</p>



H<sub>0</sub> : μ<sub>1</sub> &#8211; μ<sub>2</sub> = 0
<br>
H<sub>a</sub> : μ<sub>1</sub> &#8211; μ<sub>2</sub> ≠ 0
<br><br>



<p class="wp-block-paragraph">E&#8217; giunto il momento di vedere come risulta la formula per determinare il valore di <em>t</em>:</p>



\(
t=\frac{(\bar{x}_1-\bar{x}_2)-(\mu_1-\mu_2)}{SE_(\bar{x}_1-\bar{x}_2)}
\\
\)



<p class="wp-block-paragraph">dove:</p>



\(
\bar{x}_1-\bar{x}_2 \\
\)



<p class="wp-block-paragraph">è la differenza tra le medie del campione</p>



\(
\mu_1-\mu_2 \\
\)



<p class="wp-block-paragraph">è la differenza tra le medie ipotizzate della popolazione</p>



\(
SE_(\bar{x}_1-\bar{x}_2) \\
\)



<p class="wp-block-paragraph">è l&#8217;errore standard della differenza tra le medie del campione.</p>



<p class="wp-block-paragraph">L&#8217;errore standard della differenza tra le medie dei campioni è calcolata così:</p>



\(
SE_(\bar{x}_1-\bar{x}_2)=\sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}} \\
\)



<p class="wp-block-paragraph">Vi e mi risparmio la formula per la determinazione dei gradi di libertà. E&#8217; lunga e all&#8217;apparenza abbastanza &#8220;spaventosa&#8221;. In pratica, da pigro, lascerò che sia la calcolatrice oppure R a computarne il valore, oppure, e questa è la formuletta che mi piace, adotterò un approccio conservativo e andrò a usare il valore n più basso tra i due gruppi meno uno:</p>



<i>df</i>=n<sub>il più basso</sub> -1
<br><br>



<p class="wp-block-paragraph">In R il test è di semplice esecuzione. Immaginiamo di avere i nostri dati nei due vettori &#8220;femmine&#8221; e &#8220;maschi&#8221;:</p>



<pre class="wp-block-preformatted">t.test(femmine,maschi)
questo nel caso di un test a 2 code

t.test(femmine,maschi,alternative="less")
oppure
t.test(femmine,maschi,alternative="greater")
nel caso di test a una coda</pre>



<h3 class="wp-block-heading">T-test per dati appaiati: il test delle ipotesi per campioni dipendenti.</h3>



<p class="wp-block-paragraph">Il t-test per campioni dipendenti è differente sotto molti aspetti da quello condotto su campioni indipendenti, al punto da essere anche chiamato, in maniera molto significativa, test per <strong><em>dati appaiati</em></strong>. <br>Nella pratica, in molti casi abbiamo a che fare con un tipo di test molto comune e molto utile: parliamo di <strong><em>pre-test</em> / <em>post-test</em></strong>.</p>



<p class="wp-block-paragraph">Quali sono le condizioni per svolgere il nostro test? Eccole:</p>



<ul class="wp-block-list">
<li>Il campione delle differenze è casuale;</li>



<li>Le osservazioni appaiate sono indipendenti le une dalle altre;</li>



<li>La distribuzione delle differenze della popolazione deve risultare grosso modo normale, oppure la grandezza del campione di osservazioni appaiate deve essere sufficientemente ampio.</li>
</ul>



<p class="wp-block-paragraph">Iniziamo dalle nostre ipotesi di partenza:</p>



H<sub>0</sub> : δ = 0
<br>
H<sub>a</sub> : δ ≠ 0
<br><br>



<p class="wp-block-paragraph">la lettera delta indica &#8220;differenza&#8221;. Quindi le nostre ipotesi sono che la differenza sia uguale o diversa da 0.<br>Calcoliamo ora t:</p>



\(
t=\frac{\bar{d}-\delta}{SE_\bar{d}} \\
\)
<br>
dove
\(
\bar{d}
\)
è la media della differenza tra le variabili accoppiate (&#8220;paired&#8221; in inglese).<br><br>
\(
SE_\bar{d}
\)
è l&#8217;errore standard della differenza per la variabile.<br><br>
\(
s_{d}=\sqrt{\frac{\Sigma(d-\bar{d})^2}{n-1}}
\)
<br><br>
e la formula per l&#8217;errore standard è:
\(
SE_\bar{d}=\frac{s_{d}}{\sqrt{n}}
\)



<h3 class="wp-block-heading">E&#8217; arrivato il momento di un esempio</h3>



<p class="wp-block-paragraph">Voglio testare un&#8217;ipotesi sugli stessi soggetti, prima e dopo un certo evento.<br>Se devo condurre un test pre e post sui medesimi soggetti, allora userò un test sulle differenze. Se le due serie di valori sono variabili dipendenti userò la funzione R:</p>



<pre class="wp-block-preformatted">t.test(prima, dopo, paired=TRUE)</pre>



<p class="wp-block-paragraph">e otterrò il valore di p. Se il valore risulterà minore del livello di significatività alpha prescelto, sceglierò l&#8217;ipotesi alternativa al posto dell&#8217;ipotesi nulla.</p>



<p class="wp-block-paragraph">In pratica in R:</p>



<pre class="wp-block-preformatted">diff=post$test - post$post_test
hist(diff)</pre>



<p class="wp-block-paragraph">e verifico la normalità delle differenze. Se è ok, proseguo con il test:</p>



<pre class="wp-block-preformatted">t.test(post$test,post$post_test,paired=TRUE)</pre>



<p class="wp-block-paragraph">nel caso di un test a due code. La funzione mi restituisce i valori di<em> t</em>, <em>df</em> e <em>p</em>.<br>Se p è &lt;0.05 (scegliendo un livello di significatività al 95%, quindi alpha=0.05) rigetto l&#8217;ipotesi nulla e accolgo l&#8217;ipotesi alternativa.</p>



<p class="wp-block-paragraph">Se il test fosse a una coda:</p>



<pre class="wp-block-preformatted">t.test(post$test,post$post_test,paired=TRUE,alternative="less")
oppure
t.test(post$test,post$post_test,paired=TRUE,alternative="greater")</pre>


<!-- internal-links-section -->
<h3>Potrebbe interessarti anche</h3>
<ul>
<li><a href="https://www.gironi.it/blog/ab-testing/">A/B Testing: come condurre esperimenti statisticamente validi (e gli errori da evitare)</a></li>
<li><a href="https://www.gironi.it/blog/intervalli-di-confidenza/">Intervalli di confidenza: cosa sono, come calcolarli (e cosa NON significano)</a></li>
</ul>


<hr class="wp-block-separator has-alpha-channel-opacity"/>



<h3 class="wp-block-heading">Per approfondire</h3>



<p class="wp-block-paragraph">Per tutti i dettagli formali sul confronto tra campioni &mdash; varianze uguali o diverse, campioni appaiati, assunzioni &mdash; <a href="https://www.amazon.it/dp/8891910651?tag=consulenzeinf-21&#038;ascsubtag=il-t-test-per-due-campioni-testare-una-ipotesi-per-campioni-dipendenti-o-indipendenti" rel="nofollow sponsored noopener" target="_blank"><em>Statistica</em></a> di Newbold, Carlson e Thorne resta il riferimento pi&ugrave; completo in italiano.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://www.gironi.it/blog/il-t-test-per-due-campioni-testare-una-ipotesi-per-campioni-dipendenti-o-indipendenti/feed/</wfw:commentRss>
			<slash:comments>1</slash:comments>
		
		
			</item>
		<item>
		<title>La distribuzione geometrica</title>
		<link>https://www.gironi.it/blog/la-distribuzione-geometrica/</link>
					<comments>https://www.gironi.it/blog/la-distribuzione-geometrica/#comments</comments>
		
		<dc:creator><![CDATA[paolo]]></dc:creator>
		<pubDate>Fri, 14 Sep 2018 13:08:05 +0000</pubDate>
				<category><![CDATA[statistica]]></category>
		<category><![CDATA[distribuzione]]></category>
		<category><![CDATA[probabilità]]></category>
		<category><![CDATA[R]]></category>
		<category><![CDATA[Ti-83]]></category>
		<guid isPermaLink="false">https://www.gironi.it/blog/?p=863</guid>

					<description><![CDATA[Dopo aver visto in altri post la più famosa distribuzione discreta, la Binomiale, nonchè la distribuzione di Poisson e la distribuzione Beta, è giunto il momento di gettare uno sguardo alla distribuzione geometrica. Quanti tentativi servono per avere un primo risultato positivo? Si usa quando si fanno tentativi indipendenti, ciascuno dei quali può avere come &#8230; <a href="https://www.gironi.it/blog/la-distribuzione-geometrica/" class="more-link">Leggi tutto<span class="screen-reader-text"> "La distribuzione geometrica"</span></a>]]></description>
										<content:encoded><![CDATA[
<p class="wp-block-paragraph">Dopo aver visto in  altri post la più famosa distribuzione discreta, la <a href="https://www.gironi.it/blog/distribuzioni-di-probabilita-distribuzioni-discrete-la-binomiale/" target="_blank" data-type="post" data-id="807" rel="noreferrer noopener">Binomiale</a>, nonchè la <a href="https://www.gironi.it/blog/la-distribuzione-di-poisson/" target="_blank" data-type="post" data-id="898" rel="noreferrer noopener">distribuzione di Poisson</a> e la <a href="https://www.gironi.it/blog/la-distribuzione-beta-spiegata-semplice/" target="_blank" data-type="post" data-id="2429" rel="noreferrer noopener">distribuzione Beta</a>, è giunto il momento di gettare uno sguardo alla <em><strong>distribuzione geometrica</strong></em>.</p>


				<div class="wp-block-uagb-table-of-contents uagb-toc__align-left uagb-toc__columns-1  uagb-block-34c6f9c1 wp-block-uagb-table-of-contents uagb-toc__align-left uagb-toc__columns-undefined uagb-block-426590d5     "
					data-scroll= "1"
					data-offset= "30"
					style=""
				>
				<div class="uagb-toc__wrap">
						<div class="uagb-toc__title">
							Di cosa parleremo<br>						</div>
																						<div class="uagb-toc__list-wrap ">
						<ol class="uagb-toc__list"><li class="uagb-toc__list"><a href="#quanti-tentativi-servono-per-avere-un-primo-risultato-positivo" class="uagb-toc-link__trigger">Quanti tentativi servono per avere un primo risultato positivo?</a><li class="uagb-toc__list"><a href="#e-giunto-il-momento-degli-esempi" class="uagb-toc-link__trigger">E&#039; giunto il momento degli esempi&#8230;</a><li class="uagb-toc__list"><a href="#usiamo-r-o-la-ti-83" class="uagb-toc-link__trigger">Usiamo R o la TI 83</a><ul class="uagb-toc__list"><li class="uagb-toc__list"><a href="#lo-stesso-risultato-in-r" class="uagb-toc-link__trigger">lo stesso risultato in R</a></li></ul><li class="uagb-toc__list"><a href="#potrebbe-interessarti-anche" class="uagb-toc-link__trigger">Potrebbe interessarti anche</a><li class="uagb-toc__list"><li class="uagb-toc__list"><a href="#per-approfondire" class="uagb-toc-link__trigger">Per approfondire</a></ol>					</div>
									</div>
				</div>
			


<h2 class="wp-block-heading"><strong>Quanti tentativi servono per avere un primo risultato positivo</strong>?</h2>



<p class="wp-block-paragraph">Si usa quando si fanno tentativi indipendenti, ciascuno dei quali può avere come esito il successo o il fallimento, e <strong>si è interessati a conoscere quanti tentativi occorrono per avere un primo risultato positivo</strong>.</p>



<p class="wp-block-paragraph">In simboli:</p>



\( X \sim Geo(p) \\ \\ \)



<div style="height:20px" aria-hidden="true" class="wp-block-spacer"></div>



<span id="more-863"></span>



<ul>
<li>\(X\) è il numero di tentativi necessari per avere un primo risultato positivo.</li>
<li>\(r\) è il numero dei tentativi.</li> 
<li>\(P\) è la probabilità di successo nel tentativo.</li>
<li>diciamo poi, come è ovvio, che: q=1-p</li>
</ul>
Qui viene il bello. Abbiamo infatti:



\(\\ P(X=r) = p \times q ^ {r-1} \\ \)



<p class="wp-block-paragraph"> <strong>P indica quindi la probabilità che il primo successo avvenga al tentativo numero r.</strong> <br>Continuiamo nel ragionamento:</p>



\(P(X &gt; r) = q ^ {r}\)



<p class="wp-block-paragraph"><strong>il che ci consente di calcolare la probabilità che servano più di r tentativi per avere il primo successo</strong>, nonchè:</p>



\(P(X \leq r) = 1 &#8211; q ^ {r} \\ \)



<p class="wp-block-paragraph">che ci aiuta a trovare qual è la probabilità che servano r tentativi o meno per avere il primo successo. Il valore atteso è:</p>



\(E(X) = \frac{1}{P} \\ \)



<p class="wp-block-paragraph">La <strong>varianza</strong> è:</p>



\(Var(X) = \frac{q}{P^{2}}\)



<h2 class="wp-block-heading">E&#8217; giunto il momento degli esempi&#8230;</h2>



<p class="wp-block-paragraph">Sappiamo che la probabilità che un pattinatore completi un percorso senza incidenti è 0,4. Quindi:</p>



\( X \sim Geo(0,4) \\ \)



<p class="wp-block-paragraph">X è il numero di tentativi che il nostro pattinatore deve fare per riuscire a completare un percorso senza alcun incidente.<br><br>Siamo pronti ad applicare le nostre nuove conoscenze. </p>



<div class="wp-block-uagb-image uagb-block-8b76cff8 wp-block-uagb-image--layout-default wp-block-uagb-image--effect-static wp-block-uagb-image--align-none"><figure class="wp-block-uagb-image__figure"><img decoding="async" srcset="https://www.gironi.it/blog/wp-content/uploads/2023/04/Firefly_anice-skater-glides-on-the-rink-ring.-The-ice-is-covered-in-numbers-representing-probabilities._art_42785-1024x745.jpg " src="https://www.gironi.it/blog/wp-content/uploads/2023/04/Firefly_anice-skater-glides-on-the-rink-ring.-The-ice-is-covered-in-numbers-representing-probabilities._art_42785-1024x745.jpg" alt="rappresentazione di fantasia dell'esempio del pattinatore per spiegare la distribuzione geometrica" class="uag-image-2995" title="" loading="lazy"/></figure></div>



<p class="wp-block-paragraph">Calcoliamo il numero di tentativi che mi aspetto di fare prima di avere un successo:</p>



<p>\( E(X) = \frac{1}{P}\\\)
dunque 
\(\frac{1}{0,4} = 2,5	
\)</p>



<p class="wp-block-paragraph">La varianza nel numero dei tentativi è presto calcolata:</p>



\( Var(X) \frac{q}{p^{2}} \\ \)
cioè
\(\frac{0,6}{0,4^{2}} = \frac{0,6}{0,16} = 3,75 \\
	\)



<p class="wp-block-paragraph">La probabilità di aver successo al secondo tentativo, dopo aver fallito il primo&#8230;</p>



<p>\( P(X=2) = P \times q = 0,4 \times 0,6 = 0,24 \\\) 
vale a dire 24%</p>



<p class="wp-block-paragraph">La probabilità di aver successo in 4 tentativi o meno? Facile!</p>



\(P(X \leq 4) = 1-q^{4} = 1 &#8211; 0,6^{4} = 1 &#8211; 0,1296 \\ \)
Cioè 0,8704
<br><br>
Vale a dire 87%



<p class="wp-block-paragraph">La probabilità di aver bisogno di più di 4 tentativi? Calcolarla è uno scherzo:</p>



\( P(X &gt; 4) = q^{4} = 0,6^{4}\\ \)
<p>
Cioè 0,1296, ossia circa il 13%	
</p>



<hr class="wp-block-separator has-css-opacity"/>



<h2 class="wp-block-heading">Usiamo R o la TI 83</h2>



<p class="wp-block-paragraph">Ora che abbiamo un po&#8217; di formule ben presenti, possiamo lasciare campo alla nostra pigrizia e tirare fuori la TI-83.</p>



<p class="wp-block-paragraph">Per calcolare la probabilità di aver successo al secondo tentativo, dopo aver fallito il primo mi basterà calcolare:</p>



<pre class="wp-block-preformatted">geometpdf(0.4,2) </pre>



<p class="wp-block-paragraph">e poi ovviamente x 100 se voglio avere il valore percentuale…</p>



<p class="wp-block-paragraph">Per trovare la probabilità di aver successo in 4 tentativi o meno:</p>



<pre class="wp-block-preformatted">geometcdf(0,4,4)</pre>



<p class="wp-block-paragraph">e poi ovviamente x 100 se voglio avere il valore percentuale…</p>



<p class="wp-block-paragraph">Per calcolare la probabilità di aver bisogno di più di 4 tentativi:</p>



<pre class="wp-block-preformatted">1-geometcdf(0.4,4)</pre>



<p class="wp-block-paragraph">e poi ovviamente x 100 se voglio avere il valore percentuale…</p>



<h4 class="wp-block-heading">lo stesso risultato in R</h4>



<p class="wp-block-paragraph">Con P(X=2) e P=0,4</p>



<pre class="wp-block-preformatted">dgeom(1,0.4)</pre>



<p class="wp-block-paragraph">dove 1 è il numero dei fallimenti prima del successo&#8230;</p>



<p class="wp-block-paragraph">P(X&lt;=4) e P=0,4</p>



<pre class="wp-block-preformatted">pgeom(3,0.4)</pre>



<p class="wp-block-paragraph">Tutto molto semplice, molto rapido, molto divertente!</p>


<!-- internal-links-section -->
<h3>Potrebbe interessarti anche</h3>
<ul>
<li><a href="https://www.gironi.it/blog/teorema-del-limite-centrale/">Il Teorema del Limite Centrale: perché la statistica funziona (anche quando i dati non sono normali)</a></li>
</ul>


<hr class="wp-block-separator has-alpha-channel-opacity"/>



<h3 class="wp-block-heading">Per approfondire</h3>



<p class="wp-block-paragraph">Le distribuzioni discrete come la geometrica sono trattate con esempi accessibili in <a href="https://www.amazon.it/dp/8867319396?tag=consulenzeinf-21&#038;ascsubtag=la-distribuzione-geometrica" rel="nofollow sponsored noopener" target="_blank"><em>Finalmente ho capito la statistica</em></a> di Maurizio De Pra, una lettura adatta a chi vuole costruirsi le basi senza affrontare un manuale universitario.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://www.gironi.it/blog/la-distribuzione-geometrica/feed/</wfw:commentRss>
			<slash:comments>1</slash:comments>
		
		
			</item>
		<item>
		<title>Tabelle di contingenza e probabilità condizionata</title>
		<link>https://www.gironi.it/blog/tabelle-di-contingenza-e-probabilita-condizionata/</link>
					<comments>https://www.gironi.it/blog/tabelle-di-contingenza-e-probabilita-condizionata/#respond</comments>
		
		<dc:creator><![CDATA[paolo]]></dc:creator>
		<pubDate>Mon, 04 Jun 2018 14:50:36 +0000</pubDate>
				<category><![CDATA[statistica]]></category>
		<category><![CDATA[probabilità]]></category>
		<category><![CDATA[R]]></category>
		<guid isPermaLink="false">https://www.gironi.it/blog/?p=709</guid>

					<description><![CDATA[Le tabelle di contingenza sono usate per valutare l&#8217;interazione tra due variabili categoriche (qualitative). Possono essere chiamate anche tabelle a doppia entrata. La ricerca di relazioni tra due variabili categoriali è un obiettivo molto comune per i ricercatori. Pensiamo, ad esempio, alla classica domanda che si pongono gli addetti al marketing su chi sia più &#8230; <a href="https://www.gironi.it/blog/tabelle-di-contingenza-e-probabilita-condizionata/" class="more-link">Leggi tutto<span class="screen-reader-text"> "Tabelle di contingenza e probabilità condizionata"</span></a>]]></description>
										<content:encoded><![CDATA[
<p class="wp-block-paragraph">Le <strong>tabelle di contingenza</strong> sono usate per valutare l&#8217;<strong>interazione tra due variabili categoriche</strong> (qualitative). Possono essere chiamate anche tabelle a doppia entrata.</p>



<p class="wp-block-paragraph">La ricerca di relazioni tra due variabili categoriali è un obiettivo molto comune per i ricercatori. Pensiamo, ad esempio, alla classica domanda che si pongono gli addetti al marketing su chi sia più propenso ad acquistare certe categorie di prodotti, se giovani o anziani oppure uomini o donne&#8230;</p>



<span id="more-709"></span>


				<div class="wp-block-uagb-table-of-contents uagb-toc__align-left uagb-toc__columns-1  uagb-block-96baf063 wp-block-uagb-table-of-contents uagb-toc__align-left uagb-toc__columns-undefined uagb-block-0803e460     "
					data-scroll= "1"
					data-offset= "30"
					style=""
				>
				<div class="uagb-toc__wrap">
						<div class="uagb-toc__title">
							Di cosa parleremo						</div>
																						<div class="uagb-toc__list-wrap ">
						<ol class="uagb-toc__list"><li class="uagb-toc__list"><a href="#tabelle-di-contingenza-a-doppia-entrata-e-distribuzioni-marginali" class="uagb-toc-link__trigger">Tabelle di contingenza a doppia entrata e distribuzioni marginali</a><li class="uagb-toc__list"><a href="#la-probabilità-condizionata" class="uagb-toc-link__trigger">La probabilità condizionata</a><li class="uagb-toc__list"><a href="#dipendenza-e-indipendenza" class="uagb-toc-link__trigger">Dipendenza e indipendenza</a><ul class="uagb-toc__list"><li class="uagb-toc__list"><a href="#esaminiamo-lindipendenza-di-variabili-categoriche" class="uagb-toc-link__trigger">Esaminiamo l&#039;indipendenza di variabili categoriche&#8230;</a><li class="uagb-toc__list"><li class="uagb-toc__list"><a href="#potrebbe-interessarti-anche" class="uagb-toc-link__trigger">Potrebbe interessarti anche</a><li class="uagb-toc__list"><li class="uagb-toc__list"><a href="#per-approfondire" class="uagb-toc-link__trigger">Per approfondire</a></ul></ol>					</div>
									</div>
				</div>
			


<hr class="wp-block-separator has-css-opacity"/>



<h2 class="wp-block-heading">Tabelle di contingenza a doppia entrata e distribuzioni marginali</h2>



<p class="wp-block-paragraph">Una <strong>tabella a doppia entrata </strong>è una tabella che contiene righe e colonne ed&nbsp; aiuta organizzare i dati da variabili categoriali:</p>



<ul class="wp-block-list">
<li>Le <strong>righe</strong> rappresentano le possibili categorie per una variabile qualitativa, ad esempio maschi e femmine.</li>



<li>Le <strong>colonne</strong> rappresentano le possibili categorie per una seconda variabile qualitativa, ad esempio se piace la pizza oppure no&#8230;</li>
</ul>



<p class="wp-block-paragraph">Un <strong>distribuzione marginale</strong> mostra quante risposte complessive ci sono per ogni categoria della variabile. La distribuzione marginale di una variabile può essere determinata guardando alla colonna (o alla riga) &#8220;Totale&#8221;.</p>



<p class="wp-block-paragraph">Vediamo un esempio.</p>



<p class="wp-block-paragraph">N.B. <em>Mi scuso, ma non mi è venuto in mente granchè, dunque ho creato una tabella (con dati fittizi, ovviamente) di rara stupidità, immaginando che le due variabili categoriche riguardino il livello di istruzione e le serie di fantascienza preferite&#8230;</em></p>



<p class="wp-block-paragraph">Costruisco la tabella in R:</p>



<pre class="wp-block-preformatted">scififan &lt;- matrix(c(44,38,26,53,35,30,58,22,29),ncol=3,byrow=TRUE)
rownames(scififan) &lt;- c("laurea","diploma","istruzione inferiore")
colnames(scififan) &lt;- c("star trek","star wars","doctor who")
scififan &lt;- as.table(scififan)
scififan
</pre>



<p class="wp-block-paragraph">e ottengo una cosa di questo tipo:</p>



<pre class="wp-block-preformatted">		star trek   star wars   doctor who
laurea		44	    38		26
diploma         53	    35		30
istr.inferiore	58          22		29
</pre>



<div class="wp-block-uagb-image uagb-block-54d87be9 wp-block-uagb-image--layout-default wp-block-uagb-image--effect-static wp-block-uagb-image--align-none"><figure class="wp-block-uagb-image__figure"><img decoding="async" srcset="https://www.gironi.it/blog/wp-content/uploads/2023/03/26e3bb37-2a8f-4f6c-9e5d-fddf6a1bb60f-1024x1024.jpeg " src="https://www.gironi.it/blog/wp-content/uploads/2023/03/26e3bb37-2a8f-4f6c-9e5d-fddf6a1bb60f-1024x1024.jpeg" alt="Immagine di fantasia sul dataset usato per parlare delle tabelle di contingenza e probabilità condizionata" class="uag-image-2967" title="" loading="lazy"/></figure></div>



<p class="wp-block-paragraph">Ricordate? Una <strong>distribuzione marginale</strong> mostra quante risposte complessive ci sono per ogni categoria della variabile (ai margini, appunto, dove c’è la colonna o la riga Totale…).</p>



<p class="wp-block-paragraph">posso calcolare i totali di riga in R con:</p>



<pre class="wp-block-preformatted">margin.table(scififan,1)
</pre>



<p class="wp-block-paragraph">e di colonna con:</p>



<pre class="wp-block-preformatted">margin.table(scififan,2)
</pre>



<p class="wp-block-paragraph">posso anche trovare il &#8220;totale dei totali&#8221; con:</p>



<pre class="wp-block-preformatted">margin.table(scififan)
</pre>



<p class="wp-block-paragraph">Riporto la tabella con i Totali:</p>



<pre class="wp-block-preformatted">	star trek   star wars   doctor who   <strong>TOTALE</strong>
laurea	44	    38	        26	     <strong>108</strong>
diploma	53	    35	        30	     <strong>118</strong>
ist.inf 58	    22	        29	    <strong> 109</strong>
<strong>TOTALE	155	    95	        85	     335
</strong></pre>



<p class="wp-block-paragraph">Quindi i totali marginali per titolo di studio sono 108 per la laurea, 118 per il diploma, 109 per l&#8217;istruzione inferiore.</p>



<p class="wp-block-paragraph">Allo stesso modo, i totali marginali per tipo di serie fantascientifica sono 155 per star trek, 95 per guerre stellari, 85 per doctor who.</p>



<p class="wp-block-paragraph">Il totale dei totali deve essere lo stesso per entrambe le direzioni, in questo caso 335.</p>



<p class="wp-block-paragraph">Avrei potuto anche ottenere una tabella completa a video con riportati i totali con poche righe di codice R:</p>



<pre class="wp-block-preformatted">scififan &lt;- matrix(c(44,38,26,53,35,30,58,22,29),ncol=3,byrow=TRUE)

nomirighe &lt;- c("laurea","diploma","istruzione inferiore")
nomicol&lt;- c("star trek","star wars","doctor who")
dimnames(scififan) &lt;- list(nomirighe,nomicol)

# ora calcolo il totale di colonna usando apply
totcol &lt;- apply(scififan,2,sum)
# aggiungo una riga con i totali di colonna con rbind
scififan2 &lt;- rbind(scififan,totcol)
# calcolo il totale di riga
totrighe &lt;- apply(scififan2,1,sum)
#aggiungo una colonna con i totali di riga
conttable &lt;- cbind(scififan2, totrighe)

#stampo a video la mia tabella
conttable</pre>



<p class="wp-block-paragraph">Posso allora chiedermi (e rispondermi): quale percentuale di laureati ha un debole per doctor who?<br>Elementare Watson (ah no, quella era un’altra serie…):</p>



<p class="wp-block-paragraph"><strong>26/108 = 0,24 = 24% dei laureati predilige doctor who</strong></p>



<p class="wp-block-paragraph">E quanti fan di guerre stellari sono diplomati?</p>



<p class="wp-block-paragraph"><strong>35/95 = 0,37 = 37% dei fan di guerre stellari sono tra i diplomati</strong></p>



<p class="wp-block-paragraph">In R, posso ottenere direttamente le probabilità per riga semplicemente con la funzione:</p>



<pre class="wp-block-preformatted">prop.table(scififan,1)
</pre>



<p class="wp-block-paragraph">e il risultato sarà:</p>



<pre class="wp-block-preformatted">                     	
           star trek 	star wars    doctor who
laurea     0.4074074 	0.3518519    0.2407407
diploma    0.4491525 	0.2966102    0.2542373
ist.inf.   0.5321101 	0.2018349    0.2660550
</pre>



<p class="wp-block-paragraph">(come si vede i totali di riga danno 1, o 100%)</p>



<p class="wp-block-paragraph">oppure quelli per colonna con:</p>



<pre class="wp-block-preformatted">prop.table(scififan,2)
</pre>



<p class="wp-block-paragraph">e il risultato sarà:</p>



<pre class="wp-block-preformatted">                     	
           star trek   star wars   doctor who
laurea     0.2838710   0.4000000   0.3058824
diploma    0.3419355   0.3684211   0.3529412
istr.inf.  0.3741935   0.2315789   0.3411765
</pre>



<p class="wp-block-paragraph">(come si vede i totali di colonna danno 1 o 100%)</p>



<p class="wp-block-paragraph">Come sempre c&#8217;è sempre più di un modo per ottenere il risultato, e posso anche operare installando il pacchetto &#8220;gmodels&#8221; e usando la funzione CrossTable (lascio all&#8217;help in linea di R il compito di mostrare tutte le opzioni del comando&#8230;):</p>



<pre class="wp-block-preformatted">install.packages("gmodels")
library(gmodels)
scififan &lt;- matrix(c(44,38,26,53,35,30,58,22,29),ncol=3,byrow=TRUE)
rownames(scififan) &lt;- c("laurea","diploma","istruzione inferiore")
colnames(scififan) &lt;- c("star trek","star wars","doctor who")

CrossTable(scififan, prop.r="false", prop.c="false", prop.t="false",prop.chisq="false")</pre>



<p class="wp-block-paragraph">Bene: a cosa mi serve tutto questo? La risposta è: ad esempio per il calcolo della <strong>probabilità condizionata</strong>.</p>



<h2 class="wp-block-heading">La probabilità condizionata</h2>



<p class="wp-block-paragraph">Prima di vedere di cosa si tratta e perchè è un concetto utilissimo nella realtà di tutti i giorni, serve qualche definizione preliminare riguardo la probabilità.</p>



<p class="wp-block-paragraph">Un evento è qualcosa che accade con uno o più possibili esiti.<br>Un esperimento è il processo di misurare o fare un’osservazione.</p>



<p class="wp-block-paragraph"><strong>Definizione importante: <em><a href="https://www.gironi.it/blog/probabilita-permutazioni-e-combinazioni/" target="_blank" data-type="post" data-id="2731" rel="noreferrer noopener">la probabilità di un evento è il rapporto tra il numero dei casi favorevoli e il numero dei casi possibili</a></em></strong></p>


\( P(A) = \frac {numero \ dei \ casi \ favorevoli}{numero \ dei \ casi \ possibili}\\ \)



<p class="wp-block-paragraph">Ricordiamo poi che:</p>



<ul class="wp-block-list">
<li>La probabilità che due eventi accadano non può mai essere maggiore della probabilità che ciascun evento accada separatamente.</li>



<li>Se due eventi possibili, A e B, sono indipendenti, allora la possibilità che accadano entrambi è data dal prodotto delle loro probabilità individuali.</li>



<li>Se un evento può avere un certo numero di esiti possibili diversi e distinti (A,B,C,ecc.), allora la probabilità che accada A oppure B è pari alla somma delle possibilità individuali di A e B, e la somma delle probabilità di tutti gli esiti possibili (A,B,C, ecc.) è pari a 1, cioè al 100%.</li>
</ul>



<p class="wp-block-paragraph">La <strong>probabilità condizionata</strong> di un evento A rispetto a un evento B è la probabilità che si verifichi A, posto che si è verificato B.</p>



<p class="wp-block-paragraph">La formula è:</p>


\(P(A|B) = \frac {P(A \ and \ B)}{P(B)}\\ \)



<p class="wp-block-paragraph">Se una probabilità si basa su <strong>una variabile</strong> è una <strong>probabilità marginale</strong>, se su <strong>due o più variabili</strong> si chiama <strong>probabilità congiunta</strong>.</p>



<ul class="wp-block-list">
<li>La <strong>probabilità di un evento</strong> P(A) è: \(\frac {probabilità \ marginale \ A}{Totale}\\ \)</li>



<li>La <strong>probabilità congiunta di due eventi</strong> è: \(\frac {P(A \ and \ B)}{Totale}\\ \)</li>



<li>La <strong>probabilità condizionale</strong> dell&#8217;esito A dato il verificarsi della condizione B è: \(\frac {P(A \ and \ B)}{P(B)}\\ \)</li>
</ul>



<p class="wp-block-paragraph">In altri termini:</p>



<p class="wp-block-paragraph">Una <strong>probabilità congiunta</strong> è la probabilità che qualcuno selezionato da tutto il gruppo abbia due caratteristiche particolari allo stesso tempo. Cioè entrambe le caratteristiche avvengono congiuntamente. Si trova una probabilità congiunta prendendo il valore della cella intersezione di A e B e dividendo per il totale generale.</p>



<p class="wp-block-paragraph">Per trovare una <strong>probabilità condizionale</strong>, considero il valore della cella che si trova all&#8217;incrocio di A e B e lo divido per il totale marginale di B, cioè della variabile che esprime l&#8217;evento che si è verificato.</p>



<hr class="wp-block-separator has-css-opacity"/>



<p class="wp-block-paragraph">E’ giunto il momento di un secondo esempio. Prendo i dati da:<br><em>Ellis GJ and Stone LH. 1979. Marijuana Use in College: An Evaluation of a Modeling Explanation. Youth and Society 10:323-334.</em></p>



<p class="wp-block-paragraph">Lo studio si chiede se è più probabile che uno studente fumi marijuana se i genitori avevano fatto uso di droghe in passato. Ecco la tabella:</p>



<pre class="wp-block-preformatted">				
                   genitori  genitori  <strong>Totale</strong>
                     uso     non uso	
studente fa uso	   125	     94	       <strong>219</strong>
studente non uso   85        141       <strong>226</strong>	
<strong>Totale		   210       235       445
</strong></pre>



<p class="wp-block-paragraph">Applichiamo le nostre conoscenze per rispondere a queste domande:</p>



<ol class="wp-block-list">
<li><strong><em>Se i genitori hanno fatto uso di droghe leggere in passato, qual è la probabilità che lo stesso faccia il figlio al college?</em></strong></li>
</ol>



<p class="wp-block-paragraph">Si tratta di un caso di probabilità condizionale.<br> Ricordiamo \(P(A|B) = \frac {P(A \ and \ B)}{P(B)}\\ \), quindi</p>



<p class="wp-block-paragraph">P(<em>studente usi posto che genitori hanno usato</em>) = 125 / 210 = 0,59 = 59%</p>



<p class="wp-block-paragraph">2. <strong><em>Uno studente viene estratto a sorte e non usa marijuana. Qual è la probabilità che i suoi genitori ne abbiano fatto uso?</em></strong></p>



<p class="wp-block-paragraph">Anche in questo caso mi trovo di fronte a un quesito che chiede una probabilità condizionale. Quindi:</p>



<p class="wp-block-paragraph">P (<em>genitori ne hanno fatto uso posto che il figlio non usa</em>) = 85 / 226 = 0,376 = 37,6%</p>



<p class="wp-block-paragraph">3. <em><strong>Qual è la probabilità di estrarre uno studente che non fa uso di marijuana e i cui genitori ne hanno fatto uso in passato?</strong></em></p>



<p class="wp-block-paragraph">Si tratta in questo caso di trovare una probabilità congiunta, quindi:</p>



<p class="wp-block-paragraph">\( \frac {P(A \ and \ B)}{Totale}\\ \), quindi&nbsp; <br>\( \frac {85}{445} = 0.19\\ \).</p>



<p class="wp-block-paragraph">La probabilità è del 19% circa.</p>



<h2 class="wp-block-heading">Dipendenza e indipendenza</h2>



<p class="wp-block-paragraph">Se i risultati di A e B si influenzano a vicenda, diciamo che <strong>le due variabili sono in un rapporto di dipendenza</strong>.<br>Viceversa, possiamo dire che le due variabili sono indipendenti.</p>



<p class="wp-block-paragraph">Mi esprimo in maniera più rigorosa: possiamo affermare che l&#8217;evento B è indipendente dall&#8217;evento A se:</p>



<p class="wp-block-paragraph">P(B|A) = P(B)</p>



<p class="wp-block-paragraph">oppure</p>



<p class="wp-block-paragraph">P(A|B) = P(A)</p>



<p class="wp-block-paragraph">qualora non sia così, gli eventi sono tra loro dipendenti.</p>



<p class="wp-block-paragraph">Dunque:</p>



<ul class="wp-block-list">
<li>P(A and B) =&nbsp; P(A) P(B) se e solo se A e B sono eventi indipendenti.</li>



<li>P(A | B) = P(A) e P(B | A) = P(B) se e solamente se A e B sono eventi indipendenti. </li>
</ul>



<h3 class="wp-block-heading">Esaminiamo l&#8217;indipendenza di variabili categoriche&#8230;</h3>



<p class="wp-block-paragraph">Spieghiamoci meglio avvalendoci di un esempio.</p>



<p class="wp-block-paragraph">Chiamiamo A il fatto che le persone amano o meno il ciclismo.<br>B invece esprime il fatto che si ami oppure no l&#8217;abbacchio al forno. (logico, no?)</p>



<p class="wp-block-paragraph">Costruisco la mia tabella di contingenza:</p>



<pre class="wp-block-preformatted">                Ok ciclismo    No ciclismo  <strong>Totale</strong>
Sì abbacchio        95             36        <strong>131</strong>
No abbacchio        15             19         <strong>34</strong>
--------------------------------------------------
<strong>Totale             110             55        165</strong>
</pre>



<p class="wp-block-paragraph">Ricordiamoci cosa significa dire che due eventi sono indipendenti. Significa questo:<br>P(A | B) = P(A)</p>



<p class="wp-block-paragraph">Ma nel nostro caso vediamo che<br>P(A) = 66,7%<br>perchè 110/165 = 0,67</p>



<p class="wp-block-paragraph">P(A | B) = 72,5%<br>perchè 95/131 = 0,725</p>



<p class="wp-block-paragraph">Ricordiamo infatti che&nbsp; <br>\(P(A|B) = \frac {P(A \ and \ B)}{P(B)}\\ \), quindi&nbsp; <br>\( \frac {95}{131} = 0.725\\ \). </p>



<p class="wp-block-paragraph">Dal risultato è chiaro che <br>\( P(A) \neq P(A|B)\)<br>i due eventi risultano NON indipendenti, (quindi sono dipendenti). </p>



<p class="wp-block-paragraph">D&#8217;altronde, è noto a tutti che tra amare il ciclismo e l&#8217;abbacchio arrosto c&#8217;è una chiara dipendenza 🙂</p>


<!-- internal-links-section -->
<h3>Potrebbe interessarti anche</h3>
<ul>
<li><a href="https://www.gironi.it/blog/statistica-bayesiana/">Statistica bayesiana: come imparare dai dati, un passo alla volta</a></li>
</ul>


<hr class="wp-block-separator has-alpha-channel-opacity"/>



<h3 class="wp-block-heading">Per approfondire</h3>



<p class="wp-block-paragraph">Tabelle di contingenza, probabilit&agrave; condizionata e indipendenza sono trattate con rigore in <a href="https://www.amazon.it/dp/8891910651?tag=consulenzeinf-21&#038;ascsubtag=tabelle-di-contingenza-e-probabilita-condizionata" rel="nofollow sponsored noopener" target="_blank"><em>Statistica</em></a> di Newbold, Carlson e Thorne, il manuale di riferimento per chi vuole approfondire l&#8217;inferenza.</p>

]]></content:encoded>
					
					<wfw:commentRss>https://www.gironi.it/blog/tabelle-di-contingenza-e-probabilita-condizionata/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
	</channel>
</rss>
