  <?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>regressione &#8211; paologironi blog</title>
	<atom:link href="https://www.gironi.it/blog/tag/regressione-it/feed/" rel="self" type="application/rss+xml" />
	<link>https://www.gironi.it/blog</link>
	<description>Appunti sparsi di (retro) informatica, analisi dei dati, statistica, seo, e cose che cambiano</description>
	<lastBuildDate>Thu, 18 Jun 2026 13:21:25 +0000</lastBuildDate>
	<language>it-IT</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	
	<item>
		<title>Multicollinearità, eteroschedasticità, autocorrelazione: tre concetti dai nomi difficili (spiegati semplici)</title>
		<link>https://www.gironi.it/blog/multicollinearita-eteroschedasticita-autocorrelazione/</link>
					<comments>https://www.gironi.it/blog/multicollinearita-eteroschedasticita-autocorrelazione/#respond</comments>
		
		<dc:creator><![CDATA[paolo]]></dc:creator>
		<pubDate>Sun, 17 Oct 2021 16:35:46 +0000</pubDate>
				<category><![CDATA[statistica]]></category>
		<category><![CDATA[autocorrelazione]]></category>
		<category><![CDATA[errore]]></category>
		<category><![CDATA[eteroschedasticità]]></category>
		<category><![CDATA[multicollinearità]]></category>
		<category><![CDATA[omoschedasticità]]></category>
		<category><![CDATA[regressione]]></category>
		<category><![CDATA[serie temporali]]></category>
		<guid isPermaLink="false">https://www.gironi.it/blog/?p=2404</guid>

					<description><![CDATA[Nel corso dei vari post, e in particolar in quelli riferiti all&#8217;analisi di regressione, all&#8217;analisi della varianza e alle serie temporali, abbiamo incontrato dei termini che sembrano fatti appositamente per spaventare il lettore. Lo scopo di questi miei articoli è proprio quello di spiegare con semplicità i concetti chiave, al di là dell&#8217;apparente complessità (è &#8230; <a href="https://www.gironi.it/blog/multicollinearita-eteroschedasticita-autocorrelazione/" class="more-link">Leggi tutto<span class="screen-reader-text"> "Multicollinearità, eteroschedasticità, autocorrelazione: tre concetti dai nomi difficili (spiegati semplici)"</span></a>]]></description>
										<content:encoded><![CDATA[
<p class="wp-block-paragraph">Nel corso dei vari post, e in particolar in quelli riferiti all&#8217;<a href="https://www.gironi.it/blog/lanalisi-di-regressione-multipla-spiegata-semplice/" target="_blank" data-type="post" data-id="2225" rel="noreferrer noopener">analisi di regressione</a>, all&#8217;<a href="https://www.gironi.it/blog/lanalisi-della-varianza-anova-spiegata-semplice/" target="_blank" data-type="post" data-id="2342" rel="noreferrer noopener">analisi della varianza</a> e alle <a href="https://www.gironi.it/blog/analisi-delle-serie-storiche0-e-previsioni-di-serie-temporali-in-r-con-il-metodo-holt-winters/" target="_blank" data-type="post" data-id="1496" rel="noreferrer noopener">serie temporali</a>, abbiamo incontrato dei termini che sembrano fatti appositamente per spaventare il lettore. <br>Lo scopo di questi miei articoli è proprio quello di spiegare con semplicità i concetti chiave, al di là dell&#8217;apparente complessità (è ciò che avrei tanto voluto quando ero studente, anzichè confrontarmi con testi dalla forma volutamente &#8211; e inutilmente &#8211; involuta) . <br>E&#8217; giunto dunque il momento di spendere qualche parola per tre importantissimi concetti che ricorrono assai spesso nelle analisi statistiche, e che dunque devono essere ben compresi. La realtà è molto, molto più chiara rispetto all&#8217;apparente complessità, dunque&#8230; nessuna paura!</p>



<span id="more-2404"></span>


				<div class="wp-block-uagb-table-of-contents uagb-toc__align-left uagb-toc__columns-1  uagb-block-d89388c6      "
					data-scroll= "1"
					data-offset= "30"
					style=""
				>
				<div class="uagb-toc__wrap">
						<div class="uagb-toc__title">
							Di cosa parleremo						</div>
																						<div class="uagb-toc__list-wrap ">
						<ol class="uagb-toc__list"><li class="uagb-toc__list"><a href="#la-multicollinearità" class="uagb-toc-link__trigger">La multicollinearità</a><ul class="uagb-toc__list"><li class="uagb-toc__list"><a href="#come-ridurre-il-problema" class="uagb-toc-link__trigger">Come ridurre il problema?</a></li></ul></li><li class="uagb-toc__list"><a href="#eteroschedasticità" class="uagb-toc-link__trigger">Eteroschedasticità</a><li class="uagb-toc__list"><a href="#autocorrelazione" class="uagb-toc-link__trigger">Autocorrelazione</a><ul class="uagb-toc__list"><li class="uagb-toc__list"><a href="#ma-come-faccio-a-verificare-la-presenza-di-autocorrelazione" class="uagb-toc-link__trigger">Ma come faccio a verificare la presenza di autocorrelazione?</a></li></ul></li></ul><li class="uagb-toc__list"><a href="#per-approfondire" class="uagb-toc-link__trigger">Per approfondire</a></ol>					</div>
									</div>
				</div>
			


<h2 class="wp-block-heading">La multicollinearità</h2>



<p class="wp-block-paragraph">Se mi avete seguito nel corso dei vari post, ricorderete forse che abbiamo citato questo termine approcciando l&#8217;analisi di regressione.</p>



<p class="has-light-gray-background-color has-background wp-block-paragraph">Parliamo di <strong>multicollinearità</strong> quando <strong>esiste una forte correlazione tra due o più variabili esplicative del nostro modello di correlazione</strong>.</p>



<p class="wp-block-paragraph">Quello della multicollinearità è un problema piuttosto insidioso, perchè può inficiare la validità dell&#8217;analisi di regressione, <strong>pur in presenza di un valore del <a href="https://www.gironi.it/blog/regressione-lineare-semplice/#il-coefficiente-di-determinazione-r2" target="_blank" rel="noreferrer noopener">coefficiente di determinazione</a> R<sup>2</sup>  elevato</strong>, e quindi apparentemente significativo.<br>Se esiste multicollinearità, è difficile isolare l&#8217;effetto che le variabili dipendenti hanno sulla variabile indipendente, e i coefficienti che abbiamo stimato con il metodo dei minimi quadrati possono risultare statisticamente non significanti.</p>



<h5 class="wp-block-heading"><strong>Come ridurre il problema?</strong></h5>



<p class="wp-block-paragraph">Abbiamo una serie di possibilità:</p>



<ul class="wp-block-list">
<li>Usando una maggior quantità di dati. Cioè ampliando la dimensione del nostro campione.</li>



<li>Trasformando la relazione funzionale.</li>



<li>Utilizzando informazioni a priori.</li>



<li>Escludendo una delle variabili che mostrano di essere fortemente collineari.</li>
</ul>



<h2 class="wp-block-heading">Eteroschedasticità</h2>



<p class="wp-block-paragraph">Beh, questo termine sembra fatto apposta per spaventare. Se volete rafforzare in qualcuno la convinzione (il pregiudizio) circa l&#8217;intrinseca, spaventosa complessità della statistica, questa è la parola magica da utilizzare! 🙂<br><br>Sorpresa: il concetto, invece, non è poi così complicato. </p>



<p class="has-light-gray-background-color has-background wp-block-paragraph"><strong>Eteroschedasticità</strong> in pratica significa <strong>dispersione ineguale</strong>. <br>Si riferisce al caso in cui la <strong>varianza del termine che costituisce l&#8217;errore non sia costante per tutti i valori della variabile indipendente</strong>. </p>



<p class="wp-block-paragraph">Nell&#8217;analisi di regressione l&#8217;eteroschedasticità è un problema, perché <strong>la regressione dei minimi quadrati ordinari presuppone che tutti i residui siano tratti da una popolazione che ha una varianza costante (<em>omoschedasticità</em>)</strong>.<br>L&#8217;omoschedasticità è dunque il contrario della eteroschedasticità&#8230;</p>



<p class="wp-block-paragraph">Ritorniamo per un attimo all&#8217;argomento della regressione: l&#8217;assunzione di eteroschedasticità presuppone che gli errori nelle previsioni di Y siano circa gli stessi, a tutti i livelli di X, in grandezza e dimensione.</p>



<h2 class="wp-block-heading">Autocorrelazione</h2>



<p class="wp-block-paragraph">Abbiamo parlato di autocorrelazione nel <a href="https://www.gironi.it/blog/analisi-delle-serie-storiche0-e-previsioni-di-serie-temporali-in-r-con-il-metodo-holt-winters/" target="_blank" rel="noreferrer noopener">lungo post sull&#8217;analisi delle serie temporali</a>, vedendo anche un esempio pratico. </p>



<p class="wp-block-paragraph">Volendo dare una definizione del caso più comune, possiamo dire che</p>



<p class="has-light-gray-background-color has-background wp-block-paragraph">si ha autocorrelazione positiva di primo ordine, allorchè il termine che rappresenta l&#8217;errore di un periodo è correlato positivamente con lo stesso termine del periodo immediatamente precedente.</p>



<p class="wp-block-paragraph">Nelle serie temporali è uno scenario abbastanza comune e dà luogo a errori tipici di distorsione, con conseguenti risultati di test statistici e intervalli di confidenza scorretti.</p>



<p class="wp-block-paragraph">L&#8217;autocorrelazione, che è detta anche in alcuni testi <strong>correlazione seriale</strong>, può anche essere di ordine più elevato (è di secondo grado se l&#8217;errore di un periodo è correlato con lo stesso termine di due periodi precedenti, ecc.), ed essere anche negativa.</p>



<h5 class="wp-block-heading">Ma come faccio a verificare la presenza di autocorrelazione?</h5>



<p class="wp-block-paragraph">Nel mio post sull&#8217;analisi delle serie temporali abbiamo sfruttato la preziosa funzione acf() di R, e parlato del <a href="https://en.wikipedia.org/wiki/Ljung%E2%80%93Box_test" target="_blank" rel="noreferrer noopener">test di Ljung-Box</a>. <br>Un modo &#8220;classico&#8221; di operare, prevede la verifica della presenza di autocorrelazione usando la <a href="https://it.wikipedia.org/wiki/Statistica_di_Durbin-Watson" target="_blank" rel="noreferrer noopener">statistica di Durbin-Watson</a>, computando il valore <em>d</em> e confrontandolo ai valori dell&#8217;apposita tabella al livello di significatività voluto, in genere del 5% o dell&#8217;1%.</p>



<p class="wp-block-paragraph">In presenza di autocorrelazione le <strong>stime</strong> ottenute con il metodo dei minimi quadrati ordinari sono ancora consistenti e non risultano affette da errore sistemico, ma gli <strong>errori tipici </strong>dei parametri stimati della regressione sono purtroppo interessati da errori sistemici, potendo dare luogo a test statistici e intervalli di confidenza inesatti.</p>



<p class="wp-block-paragraph">Un metodo per correggere l&#8217;autocorrelazione positiva di primo ordine (la più comune) è dato dal metodo a due stati di Durbin, che non tratteremo in questa sede ma che sarà probabilmente oggetto di un approfondimento futuro.</p>



<hr class="wp-block-separator has-alpha-channel-opacity"/>



<h3 class="wp-block-heading">Per approfondire</h3>



<p class="wp-block-paragraph">I tre problemi di cui abbiamo parlato sono trattati in profondit&agrave; in <a href="https://www.amazon.it/dp/8891906190?tag=consulenzeinf-21&#038;ascsubtag=multicollinearita-eteroschedasticita-autocorrelazione" rel="nofollow sponsored noopener" target="_blank"><em>Introduzione all&#8217;econometria</em></a> di Stock e Watson, con i test diagnostici e i rimedi per ciascuno.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://www.gironi.it/blog/multicollinearita-eteroschedasticita-autocorrelazione/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>La regressione lineare semplice: correlazione, R² e un caso studio in R</title>
		<link>https://www.gironi.it/blog/regressione-lineare-semplice/</link>
					<comments>https://www.gironi.it/blog/regressione-lineare-semplice/#respond</comments>
		
		<dc:creator><![CDATA[paolo]]></dc:creator>
		<pubDate>Tue, 25 Aug 2020 06:31:33 +0000</pubDate>
				<category><![CDATA[statistica]]></category>
		<category><![CDATA[coefficiente di determinazione]]></category>
		<category><![CDATA[correlazione]]></category>
		<category><![CDATA[grafico dispersione]]></category>
		<category><![CDATA[r di pearson]]></category>
		<category><![CDATA[regressione]]></category>
		<category><![CDATA[residui]]></category>
		<category><![CDATA[scatterplot]]></category>
		<guid isPermaLink="false">https://www.gironi.it/blog/?p=1807</guid>

					<description><![CDATA[Abbiamo avuto modo di esaminare nel corso dei precedenti post concetti come la media o lo scarto quadratico medio, capaci di descrivere una singola variabile. Si tratta di statistiche che rivestono una grande importanza; tuttavia, nella pratica quotidiana, capita sovente di dover indagare le relazioni tra due o più variabili. Ecco dunque emergere nuovi concetti &#8230; <a href="https://www.gironi.it/blog/regressione-lineare-semplice/" class="more-link">Leggi tutto<span class="screen-reader-text"> "La regressione lineare semplice: correlazione, R² e un caso studio in R"</span></a>]]></description>
										<content:encoded><![CDATA[
<p class="wp-block-paragraph">Abbiamo avuto modo di esaminare nel corso dei precedenti post concetti come la media o lo scarto quadratico medio, capaci di descrivere una singola variabile. Si tratta di statistiche che rivestono una grande importanza; tuttavia, nella pratica quotidiana, capita sovente di<strong> dover indagare le relazioni tra due o più variabili</strong>. Ecco dunque emergere nuovi concetti chiave: la <strong>correlazione</strong> e l&#8217;<strong>analisi di regressione</strong>.</p>



<p class="wp-block-paragraph">La correlazione e l&#8217;analisi della regressione sono strumenti assai utilizzati durante l&#8217;analisi dei nostri set di dati.<br>Implicano la <strong>stima della relazione tra una variabile dipendente e una o più variabili indipendenti</strong>.</p>



<span id="more-1807"></span>



<div style="border: 1px solid #ccc;padding: 1.2em 1.5em;margin: 1.5em 0;border-radius: 6px">
<h3 style="margin-top: 0">Di cosa parleremo</h3>
<ul>
<li><a href="#la-regressione-semplice">La regressione semplice</a></li>
<li><a href="#coefficiente-correlazione-pearson">Il coefficiente di correlazione r di Pearson</a></li>
<li><a href="#coefficiente-determinazione-r2">Il coefficiente di determinazione r&sup2;</a></li>
<li><a href="#equazione-di-regressione">Troviamo l&#8217;equazione di regressione</a></li>
<li><a href="#caso-studio-ads-conversioni">Un caso studio: spesa pubblicitaria e conversioni</a></li>
<li><a href="#valori-anomali-punti-influenza">Valori anomali e punti di influenza</a></li>
<li><a href="#assunzioni-del-modello">Le assunzioni del modello</a></li>
<li><a href="#analisi-dei-residui">Analisi dei residui</a></li>
<li><a href="#difficolta-pratiche">Le difficolt&agrave; pratiche</a></li>
<li><a href="#altri-coefficienti-correlazione">Altri coefficienti di correlazione</a></li>
<li><a href="#prova-tu">Prova tu</a></li>
</ul>
</div>



<h2 class="wp-block-heading" id="la-regressione-semplice">La Regressione semplice</h2>



<p class="wp-block-paragraph">Possiamo considerare la <strong>regressione</strong> come un metodo idoneo a ricercare una relazione matematica che esprima un legame tra un carattere y (la <em><strong>variabile dipendente </strong></em><em><strong>o variabile responso</strong></em>) ed un carattere x (<em><strong>variabile indipendente </strong></em><em><strong>o variabile predittiva</strong></em>).</p>



<p class="wp-block-paragraph"><strong>Il primo passo utile per indagare qualitativamente l&#8217;eventuale dipendenza fra due variabili x e y consiste sempre nel disegnare un grafico, chiamato diagramma di dispersione (<em>scatterplot</em>).</strong></p>



<p class="wp-block-paragraph">Poniamo in ascissa i dati relativi a una delle due variabili, in ordinata quelli relativi all&#8217;altra variabile e rappresentiamo con dei punti le singole osservazioni. Ricordiamo infatti che i grafici a dispersione confrontano due variabili.</p>



<p class="wp-block-paragraph">Se esiste una relazione semplice fra le due variabili, il diagramma dovrebbe mostrarla!</p>



<p class="wp-block-paragraph">Usiamo dei valori di esempio e lasciamo a R il compito di tracciare a video il nostro diagramma di dispersione.</p>



<p class="wp-block-paragraph">Riporto in un file csv dei dati di fantasia relativi a una ipotetica correlazione tra la temperatura ambientale registrata nella mia città e le vendite di gelati. Chiamo il file <em>gelati.csv</em> e lo salvo come pure testo in una cartella qualsiasi del mio filesystem (nel mio esempio in <em>tmp/gelati.csv</em>). Il file avrà questo contenuto:</p>



<pre class="wp-block-preformatted">temperatura,gelati
25,58
30,70
29,61
26,53
25,48
28,66
24,47
22,47
20,40
18,29
22,33</pre>



<p class="wp-block-paragraph">Ora apro R Studio e carico il mio dataset:</p>



<pre class="wp-block-preformatted">gelati &lt;- read.csv("/tmp/gelati.csv")</pre>



<p class="wp-block-paragraph">Poi traccio il grafico scatterplot per vedere se la figura è compatibile con una ipotesi di regressione lineare:</p>



<pre class="wp-block-preformatted">plot(gelati)</pre>



<figure class="wp-block-image size-large is-resized"><img fetchpriority="high" decoding="async" src="https://www.gironi.it/blog/wp-content/uploads/2020/08/diagramma-a-dispersione.png" alt="Scatterplot" class="wp-image-1810" width="641" height="405" srcset="https://www.gironi.it/blog/wp-content/uploads/2020/08/diagramma-a-dispersione.png 855w, https://www.gironi.it/blog/wp-content/uploads/2020/08/diagramma-a-dispersione-300x189.png 300w" sizes="(max-width: 709px) 85vw, (max-width: 909px) 67vw, (max-width: 984px) 61vw, (max-width: 1362px) 45vw, 600px" /><figcaption>il diagramma a dispersione che rappresenta le variabili temperatura e numero di gelati venduti.</figcaption></figure>



<p class="wp-block-paragraph">Il diagramma mostra una evidente correlazione di tipo lineare, con tendenza ascendente.</p>



<h2 class="wp-block-heading" id="coefficiente-correlazione-pearson">Il coefficiente di correlazione r di Pearson</h2>



<p class="wp-block-paragraph">Esistono in statistica svariati tipi di coefficienti di correlazione.<strong> Qualora la relazione da indagare sia tra due <a href="https://www.gironi.it/blog/i-dati-scale-di-misura/" class="rank-math-link">variabili di tipo intervallo oppure rapporto</a> (si tratta quindi di variabili di tipo quantitativo, numeriche), il più noto e il più usato è certamente il coefficiente di correlazione di Pearson</strong>, generalmente indicato con la lettera <em>r</em>.</p>



<p class="wp-block-paragraph">Uso il linguaggio R (da non confondere con il coefficiente <em>r</em>) per un esempio pratico con il coefficiente di correlazione di Pearson. <br>La funzione da utilizzare è cor():</p>



<pre class="wp-block-preformatted">cor(gelati$temperatura,gelati$gelati)

[1] 0.9320279</pre>



<p class="wp-block-paragraph">Come si vede la correlazione in questo esempio è davvero molto forte.</p>



<p class="wp-block-paragraph"><em><strong>r</strong></em> infatti è un <strong>valore standardizzato e va da +1 a -1</strong>. Più si allontana da zero e si avvicina a 1 (o a -1 in caso di correlazione negativa), più è forte la correlazione.</p>



<p class="has-light-gray-background-color has-background wp-block-paragraph">Se r è positivo la correlazione è positiva, cioè y aumenta all’aumentare di x .<br>Se r è negativo, y diminuisce all’aumentare di x.</p>



<p class="wp-block-paragraph">Ma quando posso dire che una correlazione è forte o molto forte e quando moderata o addirittura nulla? La risposta è&#8230;dipende 🙂<br>Non esiste una risposta standard. In maniera molto arbitraria possiamo dire che in genere una correlazione sotto a 0.20 (o per meglio dire, tra -0.2 e +0.2) è considerata molto debole, tra 0.2 e 0.5 (o tra -0.2 e -0.5) moderata, tra 0.5 e 0.8 (o tra -0.5 e -0.8) piuttosto forte. Correlazioni superiori a 0.8 o inferiori a -0.8, molto forti, sono in realtà abbastanza rare.</p>



<p class="wp-block-paragraph"><strong><em>ATTENZIONE 1</em></strong> : <strong>La cosa in realtà più importante è che l&#8217;evidenza di una relazione tra due variabili non implica necessariamente la presenza di un rapporto di causa effetto tra le due variabili. E&#8217; un punto della massima importanza, che va sempre tenuto bene a mente. </strong>Entrambe le variabili che nel mio studio mostrano una fortissima correlazione possono in realtà dipendere da una terza variabile, o da molte altre variabili, che costituiscono la reale causa. Trovare e calcolare la correlazione tra due variabili è relativamente semplice, trovare e soprattutto provare un rapporto di causa ed effetto è estremamente complesso!</p>



<p class="wp-block-paragraph"><strong><em>ATTENZIONE 2:</em></strong> Un altro punto che vorrei sottolineare è che <strong>il coefficiente di correlazione r di Pearson misura la correlazione lineare </strong>tra due variabili. Questo significa che due variabili possono mostrare una correlazione apparente nulla (<em>r</em> circa 0) eppure essere correlate, ad esempio mostrando una <strong>correlazione di tipo curvilineo</strong>. Un classico esempio di scuola riguarda la correlazione tra il livello di stress e la prestazione in una prova di esame. Un leggero stress infatti contribuisce a migliorare la prestazione, ma superata una certa soglia risulta del tutto dannoso, portando a un decadimento del risultato. In questo caso, l&#8217;analisi in termini di r e di correlazione lineare porterebbe a scartare una correlazione invece esistente.</p>



<div class="wp-block-group bordo has-light-gray-background-color has-background"><div class="wp-block-group__inner-container is-layout-flow wp-block-group-is-layout-flow">
<p><b>E ora on po&#8217; di matematica (ma davvero poca)</b></p>



<p class="wp-block-paragraph">Il coefficiente di correlazione di Pearson per una popolazione, date due variabili X e Y, si indica con la lettera greca rho ed è dato da:</p>



<div class="wp-block-group"><div class="wp-block-group__inner-container is-layout-flow wp-block-group-is-layout-flow">
\(
\\
\rho_{X,Y}=\frac{COV(X,Y)}{\sigma_X \sigma_Y}
\\
\)



<p>dove:<br>
<ul>
<li>COV indica la covarianza</li>
<li>&sigma;<sub>X</sub> è la <a href="https://www.gironi.it/blog/statistica-descrittiva-misure-di-dispersione-o-variabilita/#sqm">deviazione standard</a> di X</li>
<li>&sigma;<sub>Y</sub> è la <a href="https://www.gironi.it/blog/statistica-descrittiva-misure-di-dispersione-o-variabilita/#sqm">deviazione standard</a> di Y</li>
</p>



<p class="wp-block-paragraph">Per calcolare la covarianza della popolazione (che, ricordiamo, è una misura <em>non standardizzata</em> della direzione e della forza della relazione tra gli elementi di due popolazioni):</p>



\(
\sigma_{XY}=\frac{\sum\limits_{i=1}^n (X_i-\mu_x)(Y_i-\mu_y)}{n}
\\
\)



<p class="wp-block-paragraph">dove:</p>



<ul>
<li>μ<sub>x</sub> è la media della popolazione per x</li>
<li>μ<sub>y</sub> è la media della popolazione per y</li>
<li>n è il numero di elementi in entrambe le variabili</li>
<li>i è l&#8217;indice che va da 1 a n</li>
<li>X<sub>i</sub> è un singolo elemento della popolazione x</li><li>Y<sub>i</sub> è un singolo elemento della popolazione y</li></ul>



<p class="wp-block-paragraph"><strong>Attenzione</strong>: per calcolare i valori per quanto riguarda una popolazione stimata, basterà usare al denominatore sempre <em>n-1</em>.<br>Di default R usa sempre deviazione standard campionaria, quindi il valore calcolato della <em>r di Pearson</em> sarà sempre calcolato con <em>n-1</em> al denominatore.</p>



<p class="wp-block-paragraph"><strong>Tiro fuori la calcolatrice &#8211; o carta e penna &#8211; e faccio un po&#8217; di conti&#8230;</strong></p>



<p class="wp-block-paragraph">questa è la mia tabella, che ho completato computando i vari valori:</p>



<table border=1 style="font-size:11px!important">
<tr> <th>  </th> <th> temperatura </th> <th> gelati </th> <th> x<sub>i</sub>-X </th> <th> y<sub>i</sub>-Y </th> <th> (x<sub>i</sub>-X)-(y<sub>i</sub>-Y)</th>  </tr>
  <tr> <td align="right"> 1 </td> <td align="right">  25 </td> <td align="right">  58 </td> <td align="right"> 0.55 </td> <td align="right"> 7.82 </td> <td align="right"> 4.26 </td> </tr>
  <tr> <td align="right"> 2 </td> <td align="right">  30 </td> <td align="right">  70 </td> <td align="right"> 5.55 </td> <td align="right"> 19.82 </td> <td align="right"> 109.90 </td> </tr>
  <tr> <td align="right"> 3 </td> <td align="right">  29 </td> <td align="right">  61 </td> <td align="right"> 4.55 </td> <td align="right"> 10.82 </td> <td align="right"> 49.17 </td> </tr>
  <tr> <td align="right"> 4 </td> <td align="right">  26 </td> <td align="right">  53 </td> <td align="right"> 1.55 </td> <td align="right"> 2.82 </td> <td align="right"> 4.36 </td> </tr>
  <tr> <td align="right"> 5 </td> <td align="right">  25 </td> <td align="right">  48 </td> <td align="right"> 0.55 </td> <td align="right"> -2.18 </td> <td align="right"> -1.19 </td> </tr>
  <tr> <td align="right"> 6 </td> <td align="right">  28 </td> <td align="right">  66 </td> <td align="right"> 3.55 </td> <td align="right"> 15.82 </td> <td align="right"> 56.08 </td> </tr>
  <tr> <td align="right"> 7 </td> <td align="right">  24 </td> <td align="right">  47 </td> <td align="right"> -0.45 </td> <td align="right"> -3.18 </td> <td align="right"> 1.45 </td> </tr>
  <tr> <td align="right"> 8 </td> <td align="right">  22 </td> <td align="right">  47 </td> <td align="right"> -2.45 </td> <td align="right"> -3.18 </td> <td align="right"> 7.81 </td> </tr>
  <tr> <td align="right"> 9 </td> <td align="right">  20 </td> <td align="right">  40 </td> <td align="right"> -4.45 </td> <td align="right"> -10.18 </td> <td align="right"> 45.36 </td> </tr>
  <tr> <td align="right"> 10 </td> <td align="right">  18 </td> <td align="right">  29 </td> <td align="right"> -6.45 </td> <td align="right"> -21.18 </td> <td align="right"> 136.72 </td> </tr>
  <tr> <td align="right"> 11 </td> <td align="right">  22 </td> <td align="right">  33 </td> <td align="right"> -2.45 </td> <td align="right"> -17.18 </td> <td align="right"> 42.17 </td> </tr>
   </table>



<p class="wp-block-paragraph">La somma dei valori dell&#8217;ultima colonna è 456.0909.</p>



<p class="wp-block-paragraph">Posso quindi calcolare la covarianza dividendo per n-1 = 10, quindi:<br>456.0909/10 = 45.60909</p>



<p class="wp-block-paragraph">Calcolando le deviazioni standard campionarie per X e Y, trovo i valori:</p>



<p class="wp-block-paragraph">S<sub>x</sub> = 3,751363<br>S<sub>y</sub> = 13,04468</p>



<p class="wp-block-paragraph">Quindi S<sub>x</sub> * S<sub>y</sub> = 48,9353299</p>



<p class="wp-block-paragraph">Ultimo passaggio. <strong>Posso calcolare r</strong>:</p>



<p class="wp-block-paragraph">45,60909 / 48,9353299 = 0,9320278435</p>



<p class="wp-block-paragraph">che come si vede coincide perfettamente con il valore fornito dalla funzione cor() di R.</p>
</div></div>
</div></div>



<h2 class="wp-block-heading" id="coefficiente-determinazione-r2">Il coefficiente di determinazione r<sup>2</sup></h2>



<p class="wp-block-paragraph">Elevando <em><strong>r</strong></em> al quadrato otteniamo il <strong>coefficiente di determinazione</strong>.</p>



<p class="wp-block-paragraph">Nel nostro caso il coefficiente di determinazione r<sup>2 </sup>sarà:</p>



<pre class="wp-block-preformatted">R-squared = 0.86868</pre>



<p class="wp-block-paragraph">ma cosa significa questo numero?</p>



<p class="wp-block-paragraph">r<sup>2</sup> ci segnala in quale misura la nostra equazione di regressione riproduce la varianza dei dati.<br>Detta in altri termini, quanta parte della variazione della variabile responso è spiegata dalla variabile predittiva. Più è accurata l’equazione di regressione, più il valore di r<sup>2 </sup>tende a 1.</p>



<p class="wp-block-paragraph">La funzione <em>cor()</em> in R consente di ottenere facilmente i valori di correlazione calcolati attraverso tutti questi metodi, come si vede facilmente dalla sintassi della funzione:</p>



<pre class="wp-block-preformatted">cor(x, y = NULL, use = "everything", method = c("pearson", "kendall", "spearman"))</pre>



<h2 class="wp-block-heading" id="equazione-di-regressione">Troviamo l’equazione di regressione</h2>



<p class="wp-block-paragraph">Il nostro scopo è quello di ottenere l’equazione di regressione, e trattandosi di una regressione lineare la forma tipica sarà:</p>



<pre class="wp-block-preformatted">y = mx + b</pre>



<p class="wp-block-paragraph">m indica la pendenza della retta nel grafico, e si chiama <strong>coefficiente di regressione</strong>.</p>



<p class="wp-block-paragraph">b è il punto in cui la retta interseca l’asse delle y, e si chiama <strong>intercetta</strong>.</p>



<p class="wp-block-paragraph">Ricordiamo sempre che la retta di regressione lineare è la retta che meglio si adatta ai dati forniti. Idealmente, vorremmo ridurre al minimo le distanze di tutti i punti dati dalla linea di regressione. Queste distanze sono chiamate <strong>errore </strong>e sono anche note come <strong>valori residui</strong>. Una buona linea avrà piccoli residui.</p>



<p class="wp-block-paragraph">Adattiamo la linea di regressione ai punti dati in un grafico a dispersione utilizzando il <strong>metodo dei</strong><strong> minimi quadrati</strong>.</p>



<p class="wp-block-paragraph">I calcoli non sono difficili (non riporto in questa sede il procedimento), ma la procedura può essere tediosa. Per questo, tutte le calcolatrici scientifiche evolute e molti fogli elettronici e programmi forniscono procedure che ci semplificano la vita.<br>Usando R, il processo è ancora più agevole.</p>



<p class="wp-block-paragraph">Procedo calcolando i parametri della retta di regressione:</p>



<pre class="wp-block-preformatted"># calcolo i parametri della retta di regressione
lm(gelati$gelati ~ gelati$temperatura)


Call: lm(formula = gelati$gelati ~ gelati$temperatura) 
Coefficients: 
(Intercept) gelati$temperatura 
-29.074     3.241</pre>



<p class="wp-block-paragraph">Dunque la mia retta avrà equazione:</p>



<pre class="wp-block-preformatted"><strong>y = 3,241x - 29,074</strong></pre>



<p class="wp-block-paragraph">E’ giunto il momento di tracciare di nuovo il diagramma a dispersione, sovrapponendo la linea di regressione che ho appena trovato:</p>



<pre class="wp-block-preformatted"># disegno lo scatterplot
plot(gelati$temperatura,gelati$gelati, main="Scatterplot e linea di regressione",xlab="temperatura", ylab="gelati")

# e traccio la linea di regressione in rosso
abline(lm(gelati$gelati ~ gelati$temperatura),col="red",lwd=2)</pre>



<figure class="wp-block-image size-large is-resized"><img decoding="async" src="https://www.gironi.it/blog/wp-content/uploads/2020/08/regressione-lineare.png" alt="Regressione lineare: linea di regressione semplice" class="wp-image-1816" width="641" height="405" srcset="https://www.gironi.it/blog/wp-content/uploads/2020/08/regressione-lineare.png 855w, https://www.gironi.it/blog/wp-content/uploads/2020/08/regressione-lineare-300x189.png 300w" sizes="(max-width: 709px) 85vw, (max-width: 909px) 67vw, (max-width: 984px) 61vw, (max-width: 1362px) 45vw, 600px" /><figcaption>la linea di regressione sovrapposta al diagramma a dispersione.</figcaption></figure>



<h2 class="wp-block-heading" id="caso-studio-ads-conversioni">Un caso studio: spesa pubblicitaria e conversioni</h2>



<p class="wp-block-paragraph">Il dataset dei gelati ci ha accompagnato fin qui, ma portiamo ora la regressione nel territorio che ci interessa davvero: il marketing. Abbiamo dodici settimane di campagne Google Ads, e per ogni settimana conosciamo la spesa (in euro) e le conversioni registrate. La domanda &egrave; quella che ogni cliente, prima o poi, ci rivolge: <strong>se aumento il budget, quante conversioni in pi&ugrave; posso aspettarmi?</strong></p>



<pre class="wp-block-preformatted">spesa,conversioni
120,15
150,14
95,11
180,22
210,20
160,18
140,13
250,26
190,17
230,25
110,13
175,16</pre>



<p class="wp-block-paragraph">Stimo il modello in R:</p>



<pre class="wp-block-preformatted">dati &lt;- read.csv("/tmp/ads.csv")
modello &lt;- lm(conversioni ~ spesa, data = dati)
summary(modello)

Coefficients:
            Estimate Std. Error t value Pr(&gt;|t|)
(Intercept)  1.93098    2.22949   0.866    0.407
spesa        0.09295    0.01284   7.240 2.79e-05 ***

Multiple R-squared:  0.8398,    Adjusted R-squared:  0.8238</pre>



<p class="wp-block-paragraph">Leggiamo i risultati con calma, perch&eacute; ogni numero ha qualcosa da dirci.</p>



<p class="wp-block-paragraph">La <strong>pendenza</strong> vale 0.093: per ogni euro di spesa in pi&ugrave;, il modello stima 0.093 conversioni aggiuntive. In termini pi&ugrave; chiari e diretti: <strong>una conversione ogni 11 euro circa</strong>. Il suo p-value (2.79e-05) ci dice che la relazione &egrave; tutto fuorch&eacute; casuale.</p>



<p class="wp-block-paragraph">L&#8217;<strong>intercetta</strong> vale 1.93: sarebbero le conversioni attese a spesa zero. Ma attenzione al suo p-value (0.407): non &egrave; statisticamente diversa da zero. Il modello, in altri termini, non ha dati a sufficienza per dirci quanto convertiremmo senza campagne &mdash; logico, visto che non abbiamo nemmeno una settimana a spesa zero nel dataset. Le previsioni fuori dall&#8217;intervallo osservato (95&ndash;250 euro) restano terreno scivoloso.</p>



<p class="wp-block-paragraph">L&#8217;<strong>R<sup>2</sup> vale 0.84</strong>: la spesa spiega l&#8217;84% della variabilit&agrave; delle conversioni settimanali. Il restante 16% &egrave; tutto ci&ograve; che il modello non vede: stagionalit&agrave;, qualit&agrave; degli annunci, concorrenza, giorni di pioggia.</p>



<p class="wp-block-paragraph">A questo punto la previsione &egrave; un giochetto da ragazzi. Quante conversioni a 200 euro di spesa? Calcolo in R:</p>



<pre class="wp-block-preformatted">predict(modello, data.frame(spesa = 200))
# 20.52</pre>



<p class="wp-block-paragraph"><strong>Un avvertimento, prima di portare questo numero in una riunione.</strong> La regressione descrive un&#8217;<em>associazione</em>, non dimostra una causa. Se il budget veniva alzato proprio nelle settimane di domanda alta (saldi, stagionalit&agrave;), parte di quella pendenza appartiene alla domanda, non alle campagne. Per stabilire un nesso causale serve un esperimento controllato &mdash; ed &egrave; esattamente il mestiere dell&#8217;<a href="https://www.gironi.it/blog/ab-testing/">A/B testing</a>.</p>



<h2 class="wp-block-heading" id="valori-anomali-punti-influenza">Valori anomali e punti di influenza</h2>



<p class="wp-block-paragraph">Un valore anomalo è un&#8217;osservazione estrema che non si adatta alla correlazione generale o al modello di regressione. In pratica, nel nostro grafico vedremo che tali valori anomali, qualora esistano, saranno molto lontani dalla linea di regressione nella direzione y.<br>L&#8217;inclusione di un valore anomalo può influenzare la pendenza e l&#8217;intercetta y della retta di regressione.</p>



<p class="wp-block-paragraph">Quando si esamina un grafico a dispersione e si calcola l&#8217;equazione di regressione, vale la pena considerare se le osservazioni anomale debbano essere incluse o meno. Potrebbe infatti trattarsi di errori nei dati – e allora sarebbero da escludere – ma anche di valori “reali”, e in tal caso si tratta di informazioni della massima importanza per l’analista.</p>



<p class="wp-block-paragraph"><strong>Ma quando possiamo parlare di valori anomali?</strong> Non esiste una regola fissa quando si cerca di decidere se includere o meno un valore anomalo nell&#8217;analisi di regressione. Questa decisione dipende dalla dimensione del campione, da quanto è estremo il valore anomalo e dalla normalità della distribuzione.<br><br>Per i dati univariati, si può utilizzare una <strong>regola empirica basata sull’<a href="https://www.gironi.it/blog/statistica-descrittiva-misure-di-posizione/" class="rank-math-link">intervallo interquartile IQR</a></strong> per determinare se un punto è o meno un valore anomalo.<br><br>Procediamo in questo modo:</p>



<ul class="wp-block-list"><li>Calcoliamo l’intervallo interquartile per i nostri dati.</li><li>Moltiplichiamo l’intervallo interquartile (IQR) per 1,5.</li><li>Aggiungiamo 1,5 x (IQR) al terzo quartile.<br>Qualsiasi numero maggiore del valore trovato è un dato estremo sospetto.</li><li>Sottraiamo 1,5 x (IQR) dal primo quartile. Qualsiasi numero inferiore è un dato estremo sospetto.</li></ul>



<hr class="wp-block-separator"/>



<p class="wp-block-paragraph">Un <strong>punto influente</strong>  è un punto che, se rimosso, produce un notevole cambiamento nella stima del modello. <strong>Un punto influente può essere o meno un valore anomalo (<em>outlier</em>)</strong>.</p>



<p class="wp-block-paragraph">Il comando influence.measures() fornisce tutta una serie di utili misure di influenza: dfbeta, dffit, covratio, distanza di Cook e punti di <em>leverage</em> di tutte le osservazioni:</p>



<pre class="wp-block-preformatted"># misuro punti di influenza
influence.measures(lm(gelati$gelati ~ gelati$temperatura))</pre>



<h2 class="wp-block-heading" id="assunzioni-del-modello">Le assunzioni del modello</h2>



<p class="wp-block-paragraph">Perchè il modello di regressione lineare possa risultare effettivamente utilizzabile, devono essere rispettate alcune assunzioni:</p>



<ul class="wp-block-list"><li><strong>Distribuzione normale degli errori</strong>: gli errori devono avere, per ogni valore di X, una distribuzione normale.</li><li><strong>Omoschedasticità</strong>: la variabilità degli errori è costante per ciascun valore di X.</li><li><strong>Indipendenza degli errori</strong>: gli errori devono essere indipendenti per ciascun valore di X (è importante soprattutto per osservazioni nel corso del tempo, nelle quali deve essere verificato che non sia presente autocorrelazione).</li></ul>



<p class="has-dark-gray-color has-light-gray-background-color has-text-color has-background wp-block-paragraph">Occorre dunque effettuare specifici test del modello, e <strong>tutti devono dare esito positivo per far sì che il modello di stima possa essere considerato corretto</strong>. <br>Se anche uno solo dei test dà esito negativo (<em>non normalità dei residui</em>, <em>eteroschedasticità</em>, <em>correlazione seriale</em>) il metodo di stima attraverso i minimi quadrati non va bene.</p>



<h2 class="wp-block-heading" id="analisi-dei-residui">Analisi dei residui</h2>



<p class="wp-block-paragraph">Il <strong>residuo</strong> è uguale alla differenza tra valore osservato e il valore previsto di Y.</p>



<ul class="wp-block-list"><li>Per stimare la capacità di adattamento ai dati della retta di regressione è opportuna un&#8217;analisi grafica tramite un grafico di dispersione dei residui (in ordinata) e dei valori di X (nelle ascisse).<br>   </li><li>Per verificare le assunzioni posso valutare il <strong>grafico dei residui rispetto a X</strong>: questo ci consente di stabilire se la variabilità degli errori varia a seconda dei valori di X, confermando o meno l’<strong>assunzione di omoschedasticità</strong>.<br>   </li><li>Per verificare la linearità occorre tracciate il grafico dei residui, in ordinata, rispetto ai valori previsti, in ascissa. I punti dovrebbero essere distribuiti in modo simmetrico intorno ad una linea orizzontale con intercetta uguale a zero. Andamenti diversi indicano la presenza di non linearità.</li></ul>



<p class="wp-block-paragraph"></p>



<pre class="wp-block-preformatted"># guardo la distribuzione dei residui.
# deve essere bilanciata sopra e sotto la linea di zero.
lmgelati &lt;- lm(gelati$gelati ~ gelati$temperatura)
plot (lmgelati$residual ~ lmgelati$fitted, ylab="Residui",
xlab="Fitted")
abline(h=0)</pre>



<figure class="wp-block-image size-large is-resized"><img decoding="async" src="https://www.gironi.it/blog/wp-content/uploads/2020/08/linearita-residui.png" alt="grafico linearità residui" class="wp-image-1830" width="641" height="405" srcset="https://www.gironi.it/blog/wp-content/uploads/2020/08/linearita-residui.png 855w, https://www.gironi.it/blog/wp-content/uploads/2020/08/linearita-residui-300x189.png 300w" sizes="(max-width: 709px) 85vw, (max-width: 909px) 67vw, (max-width: 984px) 61vw, (max-width: 1362px) 45vw, 600px" /><figcaption>il grafico dei residui rispetto ai valori previsti.</figcaption></figure>



<p class="wp-block-paragraph">Il pacchetto <em>lmtest</em> di R ci mette a disposizione il test di Breusch-Pagan per verificare l&#8217;omoschedasticità dei residui:</p>



<pre class="wp-block-preformatted"># verifico omoschedasticita dei residui
# utilizzando il test di Breusch-Pagan
library(lmtest)
testbp &lt;- bptest(gelati ~ temperatura, data=gelati)
testbp</pre>



<p class="wp-block-paragraph">Per quanto riguarda la <strong>normalità dei residui</strong>, l’<strong>istogramma delle frequenze</strong> consente di verificare o meno la condizione.</p>



<figure class="wp-block-image size-large is-resized"><img decoding="async" src="https://www.gironi.it/blog/wp-content/uploads/2020/08/residui-normalita.png" alt="Istogramma dei residui" class="wp-image-1820" width="641" height="405" srcset="https://www.gironi.it/blog/wp-content/uploads/2020/08/residui-normalita.png 855w, https://www.gironi.it/blog/wp-content/uploads/2020/08/residui-normalita-300x189.png 300w" sizes="(max-width: 709px) 85vw, (max-width: 909px) 67vw, (max-width: 984px) 61vw, (max-width: 1362px) 45vw, 600px" /><figcaption>la verifica di normalità dei residui nel nostro esempio, tramite un istogramma.</figcaption></figure>



<p class="wp-block-paragraph">Possiamo verificare la normalità dei residui anche numericamente, tramite un test di Shapiro &#8211; Wilcox:</p>



<pre class="wp-block-preformatted"># verifico la normalita della distribuzione degli errori
# con un test shapiro-wilcox
residui &lt;- residuals(lm(gelati$gelati ~ gelati$temperatura))
shapiro &lt;- shapiro.test(residui)
shapiro</pre>



<p class="wp-block-paragraph">Verifichiamo che la media degli errori non sia significativamente diversa da zero. Per far questo possiamo ricorre a un test t di Student:</p>



<pre class="wp-block-preformatted">residui &lt;- residuals(lm(gelati$gelati ~ gelati$temperatura))
t.test(residui)</pre>



<p class="wp-block-paragraph">Il <strong>grafico dei residui rispetto al tempo</strong> (e l’utilizzo della statistica di <em>Durbin-Watson</em>) consente invece di evidenziare l’esistenza o meno di <strong>autocorrelazione</strong>.</p>



<pre class="wp-block-preformatted"># test Durbin Watson per autocorrelazione
dwtest(gelati$temperatura~gelati$gelati)</pre>



<h2 class="wp-block-heading" id="difficolta-pratiche">L’analisi di regressione: difficoltà pratiche</h2>



<p class="wp-block-paragraph">L’analisi di regressione semplice è un modello assai utilizzato, ma molto, molto insidioso. La tendenza generalizzata, infatti, è quella di impiegare questo tipo di analisi in maniera poco consapevole e rigorosa – come ad esempio nell’esempio semplificato che ho proposto 🙂<br>Le assunzioni alla base del modello sono piuttosto stringenti, e molto spesso ignorate&#8230;</p>



<p class="wp-block-paragraph">Frequentemente, l’analisi viene svolta senza tenere conto del modo in cui tale assunzioni debbono essere valutate oppure si sceglie il semplice modello di regressione semplice lineare al posto di modelli alternativi più calzanti.</p>



<p class="wp-block-paragraph">Un altro errore molto comune è dato dall’<strong>estrapolazione</strong>: si compie cioè <strong>una stima di valori esterni all’intervallo dei valori osservati</strong>. Questo è un grande no-no.</p>



<p class="wp-block-paragraph">Il consiglio è sempre quello di iniziare l’analisi guardando con grande attenzione il diagramma di dispersione e di verificare con attenzione le ipotesi alla base del modello di regressione prima di usare i risultati.</p>



<h2 class="wp-block-heading" id="altri-coefficienti-correlazione">Altri tipi di coefficienti di correlazione </h2>



<p class="wp-block-paragraph">Il coefficiente di correlazione di Pearson è sicuramente il più conosciuto, studiato e usato, ma come abbiamo visto si applica nei casi in cui entrambe le variabili siano di tipo quantitativo, misurate attraverso una scala di tipo intervallo oppure rapporto. Esistono altri metodi che ci consentono di ottenere la misura della correlazione tra variabili di tipo diverso. Tutti condividono la caratteristica di essere concettualmente molto simili al coefficiente r di Pearson.</p>



<h3 class="wp-block-heading">Il coefficiente di correlazione punto-biseriale </h3>



<p class="wp-block-paragraph">Prendiamo il caso di un&#8217;analisi nella quale una delle variabili sia di tipo quantitativo (misurata su una scala intervallo oppure rapporto) e la seconda sia una <strong>variabile categorica a due livelli</strong> (o variabile dicotomica). In questo caso ci viene in aiuto il <strong>coefficiente di correlazione punto-biseriale</strong>. Non approfondisco in questa sede il concetto, trattandosi di fatto di una versione &#8220;speciale&#8221; del coefficiente di Pearson, lasciando al lettore l&#8217;approfondimento quando richiesto dall&#8217;analisi.</p>



<h3 class="wp-block-heading">Il coefficiente phi</h3>



<p class="wp-block-paragraph">Se dovesse servirci di conoscere se <strong>due variabili dicotomiche sono correlate</strong>, potremmo poi ricorrere al <strong>coefficiente phi</strong>, un altro caso &#8220;speciale&#8221; del coefficiente r di Pearson. Molti lettori sapranno certamente che due variabili dicotomiche possono anche essere analizzate servendosi di un <a href="https://www.gironi.it/blog/il-test-del-chi-quadrato-bonta-di-adattamento-e-test-di-indipendenza/" class="rank-math-link">test chi quadrato</a>.</p>



<h3 class="wp-block-heading">Il coefficiente di correlazione per ranghi rho di Spearman (e un accenno al tau di Kendall)</h3>



Talvolta poi i dati sono riportati in termini di ranghi. I ranghi sono una forma di dati di tipo ordinale, e dal momento che gli altri tipi di coefficienti di correlazione non trattano questa tipologia di dati, ecco la necessità di introdurre l&#8217;uso del coefficiente rho di Spearman.
La correlazione di Spearman segue un approccio semplice e ingegnoso: si converte ogni set di dati in ranghi e quindi si calcola la correlazione. E&#8217; una misura statistica non parametrica di correlazione: l&#8217;unica ipotesi richiesta è che le variabili siano ordinabili, e possibilmente continue.
<p>
Ecco la formula del coefficiente di Spearman:
</p>
\(
\\
r_s=\frac{6\sum{d}_i^2}{N(N^2-1)}
\\ \\
\)
<p>
Anche r<sub>s</sub> può assumere valori compresi tra –1.00 e +1.00, con gli stessi significati visti per r.
</p>
<p>
Il coefficiente r<sub>s</sub> ha un grave difetto: può dare una stima per eccesso della correlazione tra X e Y se, per almeno una delle due variabili, si riscontrano molti ranghi uguali.
Per questo motivo, per misurare la correlazione tra due variabili di tipo ordinale, si ricorre spesso a un&#8217;altra statistica: il <b>coefficiente <i>tau</i> di Kendall</b>.
</p>



<h2 class="wp-block-heading" id="prova-tu">Prova tu</h2>



<p class="wp-block-paragraph">Per fissare il meccanismo, un esercizio con dati finti ma realistici. Dalla Search Console abbiamo estratto dieci keyword con la loro posizione media e il CTR (in percentuale):</p>



<pre class="wp-block-preformatted">posizione,ctr
1.2,28.4
2.5,19.7
3.1,15.2
4.8,9.8
5.5,8.1
6.9,5.9
8.2,4.2
9.0,3.6
10.5,2.8
12.3,1.9</pre>



<ul class="wp-block-list">
<li>Stimiamo la retta di regressione del CTR sulla posizione con <code>lm(ctr ~ posizione)</code>.</li>



<li>Interpretiamo la pendenza: di quanti punti cala il CTR scendendo di una posizione?</li>



<li>Prevediamo il CTR atteso in posizione 7.</li>



<li>Guardiamo i residui con <code>residuals()</code>: che disegno fanno?</li>
</ul>



<p class="wp-block-paragraph">Per controllare i risultati: la pendenza vale circa <strong>&minus;2.15</strong> (ogni posizione persa costa due punti di CTR), l&#8217;R<sup>2</sup> &egrave; 0.82 e la previsione in posizione 7 &egrave; un CTR dell&#8217;<strong>8.7%</strong>. Ma il punto pi&ugrave; istruttivo &egrave; l&#8217;ultimo: i residui sono positivi agli estremi e negativi al centro. &Egrave; il disegno tipico di una <strong>relazione non lineare</strong>: il CTR non cala in linea retta, precipita nelle prime posizioni e si appiattisce dopo. La retta &egrave; un&#8217;approssimazione onesta ma grossolana &mdash; e sono proprio i residui, come abbiamo visto, a denunciarlo.</p>



<p class="wp-block-paragraph">Una sola variabile, del resto, racconta raramente tutta la storia: le conversioni dipendono dalla spesa, ma anche dalla stagionalit&agrave;, dal dispositivo, dalla forza del brand. Quando i predittori diventano pi&ugrave; di uno, entriamo nel territorio della <a href="https://www.gironi.it/blog/regressione-multipla-spiegata-semplice/">regressione multipla</a> &mdash; il passo successivo del percorso.</p>


<!-- internal-links-section -->
<h3>Potrebbe interessarti anche</h3>
<ul>
<li><a href="https://www.gironi.it/blog/anomaly-detection/">Anomaly detection: come identificare valori anomali nei dati</a></li>
<li><a href="https://www.gironi.it/blog/intervalli-di-confidenza/">Intervalli di confidenza: cosa sono, come calcolarli (e cosa NON significano)</a></li>
</ul>


<hr class="wp-block-separator has-alpha-channel-opacity"/>



<h3 class="wp-block-heading">Per approfondire</h3>



<p class="wp-block-paragraph">Per approfondire la regressione con il rigore che merita &mdash; stima, inferenza, diagnostica &mdash; <a href="https://www.amazon.it/dp/8891906190?tag=consulenzeinf-21&#038;ascsubtag=regressione-lineare-semplice" rel="nofollow sponsored noopener" target="_blank"><em>Introduzione all&#8217;econometria</em></a> di Stock e Watson &egrave; il manuale di riferimento, con un&#8217;attenzione costante all&#8217;interpretazione dei risultati.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://www.gironi.it/blog/regressione-lineare-semplice/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
	</channel>
</rss>
