  {"id":1807,"date":"2020-08-25T07:31:33","date_gmt":"2020-08-25T06:31:33","guid":{"rendered":"https:\/\/www.gironi.it\/blog\/?p=1807"},"modified":"2026-02-25T09:23:01","modified_gmt":"2026-02-25T08:23:01","slug":"regressione-lineare-semplice","status":"publish","type":"post","link":"https:\/\/www.gironi.it\/blog\/regressione-lineare-semplice\/","title":{"rendered":"Correlazione e analisi della regressione &#8211; la regressione lineare"},"content":{"rendered":"\n<p>Abbiamo avuto modo di esaminare nel corso dei precedenti post concetti come la media o lo scarto quadratico medio, capaci di descrivere una singola variabile. Si tratta di statistiche che rivestono una grande importanza; tuttavia, nella pratica quotidiana, capita sovente di<strong> dover indagare le relazioni tra due o pi\u00f9 variabili<\/strong>. Ecco dunque emergere nuovi concetti chiave: la <strong>correlazione<\/strong> e l&#8217;<strong>analisi di regressione<\/strong>.<\/p>\n\n\n\n<p>La correlazione e l&#8217;analisi della regressione sono strumenti assai utilizzati durante l&#8217;analisi dei nostri set di dati.<br>Implicano la <strong>stima della relazione tra una variabile dipendente e una o pi\u00f9 variabili indipendenti<\/strong>.<\/p>\n\n\n\n<!--more-->\n\n\n\t\t\t\t<div class=\"wp-block-uagb-table-of-contents uagb-toc__align-left uagb-toc__columns-1  uagb-block-ec276fe0      \"\n\t\t\t\t\tdata-scroll= \"1\"\n\t\t\t\t\tdata-offset= \"30\"\n\t\t\t\t\tstyle=\"\"\n\t\t\t\t>\n\t\t\t\t<div class=\"uagb-toc__wrap\">\n\t\t\t\t\t\t<div class=\"uagb-toc__title\">\n\t\t\t\t\t\t\tDi cosa parleremo<br>\t\t\t\t\t\t<\/div>\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<div class=\"uagb-toc__list-wrap \">\n\t\t\t\t\t\t<ol class=\"uagb-toc__list\"><li class=\"uagb-toc__list\"><a href=\"#la-regressione-semplice\" class=\"uagb-toc-link__trigger\">La Regressione semplice<\/a><li class=\"uagb-toc__list\"><a href=\"#il-coefficiente-di-correlazione-r-di-pearson\" class=\"uagb-toc-link__trigger\">Il coefficiente di correlazione r di Pearson<\/a><li class=\"uagb-toc__list\"><a href=\"#il-coefficiente-di-determinazione-r2\" class=\"uagb-toc-link__trigger\">Il coefficiente di determinazione r2<\/a><li class=\"uagb-toc__list\"><a href=\"#troviamo-lequazione-di-regressione\" class=\"uagb-toc-link__trigger\">Troviamo l\u2019equazione di regressione<\/a><li class=\"uagb-toc__list\"><a href=\"#valori-anomali-e-punti-di-influenza\" class=\"uagb-toc-link__trigger\">Valori anomali e punti di influenza<\/a><li class=\"uagb-toc__list\"><a href=\"#le-assunzioni-del-modello\" class=\"uagb-toc-link__trigger\">Le assunzioni del modello<\/a><li class=\"uagb-toc__list\"><a href=\"#analisi-dei-residui\" class=\"uagb-toc-link__trigger\">Analisi dei residui<\/a><li class=\"uagb-toc__list\"><a href=\"#lanalisi-di-regressione-difficolt\u00e0-pratiche\" class=\"uagb-toc-link__trigger\">L\u2019analisi di regressione: difficolt\u00e0 pratiche<\/a><li class=\"uagb-toc__list\"><a href=\"#altri-tipi-di-coefficienti-di-correlazione\" class=\"uagb-toc-link__trigger\">Altri tipi di coefficienti di correlazione<\/a><ul class=\"uagb-toc__list\"><li class=\"uagb-toc__list\"><a href=\"#il-coefficiente-di-correlazione-punto-biseriale\" class=\"uagb-toc-link__trigger\">Il coefficiente di correlazione punto-biseriale<\/a><li class=\"uagb-toc__list\"><li class=\"uagb-toc__list\"><a href=\"#il-coefficiente-phi\" class=\"uagb-toc-link__trigger\">Il coefficiente phi<\/a><li class=\"uagb-toc__list\"><li class=\"uagb-toc__list\"><a href=\"#il-coefficiente-di-correlazione-per-ranghi-rho-di-spearman-e-un-accenno-al-tau-di-kendall\" class=\"uagb-toc-link__trigger\">Il coefficiente di correlazione per ranghi rho di Spearman (e un accenno al tau di Kendall)<\/a><li class=\"uagb-toc__list\"><li class=\"uagb-toc__list\"><a href=\"#potrebbe-interessarti-anche\" class=\"uagb-toc-link__trigger\">Potrebbe interessarti anche<\/a><\/ul><\/ol>\t\t\t\t\t<\/div>\n\t\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\n\n\n<h2 class=\"wp-block-heading\">La Regressione semplice<\/h2>\n\n\n\n<p>Possiamo considerare la <strong>regressione<\/strong> come un metodo idoneo a ricercare una relazione matematica che esprima un legame tra un carattere y (la <em><strong>variabile dipendente <\/strong><\/em><em><strong>o variabile responso<\/strong><\/em>) ed un carattere x (<em><strong>variabile indipendente <\/strong><\/em><em><strong>o variabile predittiva<\/strong><\/em>).<\/p>\n\n\n\n<p><strong>Il primo passo utile per indagare qualitativamente l&#8217;eventuale dipendenza fra due variabili x e y consiste sempre nel disegnare un grafico, chiamato diagramma di dispersione (<em>scatterplot<\/em>).<\/strong><\/p>\n\n\n\n<p>Poniamo in ascissa i dati relativi a una delle due variabili, in ordinata quelli relativi all&#8217;altra variabile e rappresentiamo con dei punti le singole osservazioni. Ricordiamo infatti che i grafici a dispersione confrontano due variabili.<\/p>\n\n\n\n<p>Se esiste una relazione semplice fra le due variabili, il diagramma dovrebbe mostrarla!<\/p>\n\n\n\n<p>Usiamo dei valori di esempio e lasciamo a R il compito di tracciare a video il nostro diagramma di dispersione.<\/p>\n\n\n\n<p>Riporto in un file csv dei dati di fantasia relativi a una ipotetica correlazione tra la temperatura ambientale registrata nella mia citt\u00e0 e le vendite di gelati. Chiamo il file <em>gelati.csv<\/em> e lo salvo come pure testo in una cartella qualsiasi del mio filesystem (nel mio esempio in <em>tmp\/gelati.csv<\/em>). Il file avr\u00e0 questo contenuto:<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">temperatura,gelati\n25,58\n30,70\n29,61\n26,53\n25,48\n28,66\n24,47\n22,47\n20,40\n18,29\n22,33<\/pre>\n\n\n\n<p>Ora apro R Studio e carico il mio dataset:<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">gelati &lt;- read.csv(\"\/tmp\/gelati.csv\")<\/pre>\n\n\n\n<p>Poi traccio il grafico scatterplot per vedere se la figura \u00e8 compatibile con una ipotesi di regressione lineare:<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">plot(gelati)<\/pre>\n\n\n\n<figure class=\"wp-block-image size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/www.gironi.it\/blog\/wp-content\/uploads\/2020\/08\/diagramma-a-dispersione.png\" alt=\"Scatterplot\" class=\"wp-image-1810\" width=\"641\" height=\"405\" srcset=\"https:\/\/www.gironi.it\/blog\/wp-content\/uploads\/2020\/08\/diagramma-a-dispersione.png 855w, https:\/\/www.gironi.it\/blog\/wp-content\/uploads\/2020\/08\/diagramma-a-dispersione-300x189.png 300w\" sizes=\"auto, (max-width: 709px) 85vw, (max-width: 909px) 67vw, (max-width: 984px) 61vw, (max-width: 1362px) 45vw, 600px\" \/><figcaption>il diagramma a dispersione che rappresenta le variabili temperatura e numero di gelati venduti.<\/figcaption><\/figure>\n\n\n\n<p>Il diagramma mostra una evidente correlazione di tipo lineare, con tendenza ascendente.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Il coefficiente di correlazione r di Pearson<\/h2>\n\n\n\n<p>Esistono in statistica svariati tipi di coefficienti di correlazione.<strong> Qualora la relazione da indagare sia tra due <a href=\"https:\/\/www.gironi.it\/blog\/i-dati-scale-di-misura\/\" class=\"rank-math-link\">variabili di tipo intervallo oppure rapporto<\/a> (si tratta quindi di variabili di tipo quantitativo, numeriche), il pi\u00f9 noto e il pi\u00f9 usato \u00e8 certamente il coefficiente di correlazione di Pearson<\/strong>, generalmente indicato con la lettera <em>r<\/em>.<\/p>\n\n\n\n<p>Uso il linguaggio R (da non confondere con il coefficiente <em>r<\/em>) per un esempio pratico con il coefficiente di correlazione di Pearson. <br>La funzione da utilizzare \u00e8 cor():<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">cor(gelati$temperatura,gelati$gelati)\n\n[1] 0.9320279<\/pre>\n\n\n\n<p>Come si vede la correlazione in questo esempio \u00e8 davvero molto forte.<\/p>\n\n\n\n<p><em><strong>r<\/strong><\/em> infatti \u00e8 un <strong>valore standardizzato e va da +1 a -1<\/strong>. Pi\u00f9 si allontana da zero e si avvicina a 1 (o a -1 in caso di correlazione negativa), pi\u00f9 \u00e8 forte la correlazione.<\/p>\n\n\n\n<p class=\"has-light-gray-background-color has-background\">Se r \u00e8 positivo la correlazione \u00e8 positiva, cio\u00e8 y aumenta all\u2019aumentare di x .<br>Se r \u00e8 negativo, y diminuisce all\u2019aumentare di x.<\/p>\n\n\n\n<p>Ma quando posso dire che una correlazione \u00e8 forte o molto forte e quando moderata o addirittura nulla? La risposta \u00e8&#8230;dipende \ud83d\ude42<br>Non esiste una risposta standard. In maniera molto arbitraria possiamo dire che in genere una correlazione sotto a 0.20 (o per meglio dire, tra -0.2 e +0.2) \u00e8 considerata molto debole, tra 0.2 e 0.5 (o tra -0.2 e -0.5) moderata, tra 0.5 e 0.8 (o tra -0.5 e -0.8) piuttosto forte. Correlazioni superiori a 0.8 o inferiori a -0.8, molto forti, sono in realt\u00e0 abbastanza rare.<\/p>\n\n\n\n<p><strong><em>ATTENZIONE 1<\/em><\/strong> : <strong>La cosa in realt\u00e0 pi\u00f9 importante \u00e8 che l&#8217;evidenza di una relazione tra due variabili non implica necessariamente la presenza di un rapporto di causa effetto tra le due variabili. E&#8217; un punto della massima importanza, che va sempre tenuto bene a mente. <\/strong>Entrambe le variabili che nel mio studio mostrano una fortissima correlazione possono in realt\u00e0 dipendere da una terza variabile, o da molte altre variabili, che costituiscono la reale causa. Trovare e calcolare la correlazione tra due variabili \u00e8 relativamente semplice, trovare e soprattutto provare un rapporto di causa ed effetto \u00e8 estremamente complesso!<\/p>\n\n\n\n<p><strong><em>ATTENZIONE 2:<\/em><\/strong> Un altro punto che vorrei sottolineare \u00e8 che <strong>il coefficiente di correlazione r di Pearson misura la correlazione lineare <\/strong>tra due variabili. Questo significa che due variabili possono mostrare una correlazione apparente nulla (<em>r<\/em> circa 0) eppure essere correlate, ad esempio mostrando una <strong>correlazione di tipo curvilineo<\/strong>. Un classico esempio di scuola riguarda la correlazione tra il livello di stress e la prestazione in una prova di esame. Un leggero stress infatti contribuisce a migliorare la prestazione, ma superata una certa soglia risulta del tutto dannoso, portando a un decadimento del risultato. In questo caso, l&#8217;analisi in termini di r e di correlazione lineare porterebbe a scartare una correlazione invece esistente.<\/p>\n\n\n\n<div class=\"wp-block-group bordo has-light-gray-background-color has-background\"><div class=\"wp-block-group__inner-container is-layout-flow wp-block-group-is-layout-flow\">\n<p><b>E ora on po&#8217; di matematica (ma davvero poca)<\/b><\/p>\n\n\n\n<p>Il coefficiente di correlazione di Pearson per una popolazione, date due variabili X e Y, si indica con la lettera greca rho ed \u00e8 dato da:<\/p>\n\n\n\n<div class=\"wp-block-group\"><div class=\"wp-block-group__inner-container is-layout-flow wp-block-group-is-layout-flow\">\n\\(\n\\\\\n\\rho_{X,Y}=\\frac{COV(X,Y)}{\\sigma_X \\sigma_Y}\n\\\\\n\\)\n\n\n\n<p>dove:<br>\n<ul>\n<li>COV indica la covarianza<\/li>\n<li>&sigma;<sub>X<\/sub> \u00e8 la <a href=\"https:\/\/www.gironi.it\/blog\/statistica-descrittiva-misure-di-dispersione-o-variabilita\/#sqm\">deviazione standard<\/a> di X<\/li>\n<li>&sigma;<sub>Y<\/sub> \u00e8 la <a href=\"https:\/\/www.gironi.it\/blog\/statistica-descrittiva-misure-di-dispersione-o-variabilita\/#sqm\">deviazione standard<\/a> di Y<\/li>\n<\/p>\n\n\n\n<p>Per calcolare la covarianza della popolazione (che, ricordiamo, \u00e8 una misura <em>non standardizzata<\/em> della direzione e della forza della relazione tra gli elementi di due popolazioni):<\/p>\n\n\n\n\\(\n\\sigma_{XY}=\\frac{\\sum\\limits_{i=1}^n (X_i-\\mu_x)(Y_i-\\mu_y)}{n}\n\\\\\n\\)\n\n\n\n<p>dove:<\/p>\n\n\n\n<ul>\n<li>\u03bc<sub>x<\/sub> \u00e8 la media della popolazione per x<\/li>\n<li>\u03bc<sub>y<\/sub> \u00e8 la media della popolazione per y<\/li>\n<li>n \u00e8 il numero di elementi in entrambe le variabili<\/li>\n<li>i \u00e8 l&#8217;indice che va da 1 a n<\/li>\n<li>X<sub>i<\/sub> \u00e8 un singolo elemento della popolazione x<\/li><li>Y<sub>i<\/sub> \u00e8 un singolo elemento della popolazione y<\/li><\/ul>\n\n\n\n<p><strong>Attenzione<\/strong>: per calcolare i valori per quanto riguarda una popolazione stimata, baster\u00e0 usare al denominatore sempre <em>n-1<\/em>.<br>Di default R usa sempre deviazione standard campionaria, quindi il valore calcolato della <em>r di Pearson<\/em> sar\u00e0 sempre calcolato con <em>n-1<\/em> al denominatore.<\/p>\n\n\n\n<p><strong>Tiro fuori la calcolatrice &#8211; o carta e penna &#8211; e faccio un po&#8217; di conti&#8230;<\/strong><\/p>\n\n\n\n<p>questa \u00e8 la mia tabella, che ho completato computando i vari valori:<\/p>\n\n\n\n<table border=1 style=\"font-size:11px!important\">\n<tr> <th>  <\/th> <th> temperatura <\/th> <th> gelati <\/th> <th> x<sub>i<\/sub>-X <\/th> <th> y<sub>i<\/sub>-Y <\/th> <th> (x<sub>i<\/sub>-X)-(y<sub>i<\/sub>-Y)<\/th>  <\/tr>\n  <tr> <td align=\"right\"> 1 <\/td> <td align=\"right\">  25 <\/td> <td align=\"right\">  58 <\/td> <td align=\"right\"> 0.55 <\/td> <td align=\"right\"> 7.82 <\/td> <td align=\"right\"> 4.26 <\/td> <\/tr>\n  <tr> <td align=\"right\"> 2 <\/td> <td align=\"right\">  30 <\/td> <td align=\"right\">  70 <\/td> <td align=\"right\"> 5.55 <\/td> <td align=\"right\"> 19.82 <\/td> <td align=\"right\"> 109.90 <\/td> <\/tr>\n  <tr> <td align=\"right\"> 3 <\/td> <td align=\"right\">  29 <\/td> <td align=\"right\">  61 <\/td> <td align=\"right\"> 4.55 <\/td> <td align=\"right\"> 10.82 <\/td> <td align=\"right\"> 49.17 <\/td> <\/tr>\n  <tr> <td align=\"right\"> 4 <\/td> <td align=\"right\">  26 <\/td> <td align=\"right\">  53 <\/td> <td align=\"right\"> 1.55 <\/td> <td align=\"right\"> 2.82 <\/td> <td align=\"right\"> 4.36 <\/td> <\/tr>\n  <tr> <td align=\"right\"> 5 <\/td> <td align=\"right\">  25 <\/td> <td align=\"right\">  48 <\/td> <td align=\"right\"> 0.55 <\/td> <td align=\"right\"> -2.18 <\/td> <td align=\"right\"> -1.19 <\/td> <\/tr>\n  <tr> <td align=\"right\"> 6 <\/td> <td align=\"right\">  28 <\/td> <td align=\"right\">  66 <\/td> <td align=\"right\"> 3.55 <\/td> <td align=\"right\"> 15.82 <\/td> <td align=\"right\"> 56.08 <\/td> <\/tr>\n  <tr> <td align=\"right\"> 7 <\/td> <td align=\"right\">  24 <\/td> <td align=\"right\">  47 <\/td> <td align=\"right\"> -0.45 <\/td> <td align=\"right\"> -3.18 <\/td> <td align=\"right\"> 1.45 <\/td> <\/tr>\n  <tr> <td align=\"right\"> 8 <\/td> <td align=\"right\">  22 <\/td> <td align=\"right\">  47 <\/td> <td align=\"right\"> -2.45 <\/td> <td align=\"right\"> -3.18 <\/td> <td align=\"right\"> 7.81 <\/td> <\/tr>\n  <tr> <td align=\"right\"> 9 <\/td> <td align=\"right\">  20 <\/td> <td align=\"right\">  40 <\/td> <td align=\"right\"> -4.45 <\/td> <td align=\"right\"> -10.18 <\/td> <td align=\"right\"> 45.36 <\/td> <\/tr>\n  <tr> <td align=\"right\"> 10 <\/td> <td align=\"right\">  18 <\/td> <td align=\"right\">  29 <\/td> <td align=\"right\"> -6.45 <\/td> <td align=\"right\"> -21.18 <\/td> <td align=\"right\"> 136.72 <\/td> <\/tr>\n  <tr> <td align=\"right\"> 11 <\/td> <td align=\"right\">  22 <\/td> <td align=\"right\">  33 <\/td> <td align=\"right\"> -2.45 <\/td> <td align=\"right\"> -17.18 <\/td> <td align=\"right\"> 42.17 <\/td> <\/tr>\n   <\/table>\n\n\n\n<p>La somma dei valori dell&#8217;ultima colonna \u00e8 456.0909.<\/p>\n\n\n\n<p>Posso quindi calcolare la covarianza dividendo per n-1 = 10, quindi:<br>456.0909\/10 = 45.60909<\/p>\n\n\n\n<p>Calcolando le deviazioni standard campionarie per X e Y, trovo i valori:<\/p>\n\n\n\n<p>S<sub>x<\/sub> = 3,751363<br>S<sub>y<\/sub> = 13,04468<\/p>\n\n\n\n<p>Quindi S<sub>x<\/sub> * S<sub>y<\/sub> = 48,9353299<\/p>\n\n\n\n<p>Ultimo passaggio. <strong>Posso calcolare r<\/strong>:<\/p>\n\n\n\n<p>45,60909 \/ 48,9353299 = 0,9320278435<\/p>\n\n\n\n<p>che come si vede coincide perfettamente con il valore fornito dalla funzione cor() di R.<\/p>\n<\/div><\/div>\n<\/div><\/div>\n\n\n\n<h2 class=\"wp-block-heading\">Il coefficiente di determinazione r<sup>2<\/sup><\/h2>\n\n\n\n<p>Elevando <em><strong>r<\/strong><\/em> al quadrato otteniamo il <strong>coefficiente di determinazione<\/strong>.<\/p>\n\n\n\n<p>Nel nostro caso il coefficiente di determinazione r<sup>2 <\/sup>sar\u00e0:<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">R-squared = 0.86868<\/pre>\n\n\n\n<p>ma cosa significa questo numero?<\/p>\n\n\n\n<p>r<sup>2<\/sup> ci segnala in quale misura la nostra equazione di regressione riproduce la varianza dei dati.<br>Detta in altri termini, quanta parte della variazione della variabile responso \u00e8 spiegata dalla variabile predittiva. Pi\u00f9 \u00e8 accurata l\u2019equazione di regressione, pi\u00f9 il valore di r<sup>2 <\/sup>tende a 1.<\/p>\n\n\n\n<p>La funzione <em>cor()<\/em> in R consente di ottenere facilmente i valori di correlazione calcolati attraverso tutti questi metodi, come si vede facilmente dalla sintassi della funzione:<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">cor(x, y = NULL, use = \"everything\", method = c(\"pearson\", \"kendall\", \"spearman\"))<\/pre>\n\n\n\n<h2 class=\"wp-block-heading\">Troviamo l\u2019equazione di regressione<\/h2>\n\n\n\n<p>Il nostro scopo \u00e8 quello di ottenere l\u2019equazione di regressione, e trattandosi di una regressione lineare la forma tipica sar\u00e0:<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">y = mx + b<\/pre>\n\n\n\n<p>m indica la pendenza della retta nel grafico, e si chiama <strong>coefficiente di regressione<\/strong>.<\/p>\n\n\n\n<p>b \u00e8 il punto in cui la retta interseca l\u2019asse delle y, e si chiama <strong>intercetta<\/strong>.<\/p>\n\n\n\n<p>Ricordiamo sempre che la retta di regressione lineare \u00e8 la retta che meglio si adatta ai dati forniti. Idealmente, vorremmo ridurre al minimo le distanze di tutti i punti dati dalla linea di regressione. Queste distanze sono chiamate <strong>errore <\/strong>e sono anche note come <strong>valori residui<\/strong>. Una buona linea avr\u00e0 piccoli residui.<\/p>\n\n\n\n<p>Adattiamo la linea di regressione ai punti dati in un grafico a dispersione utilizzando il <strong>metodo dei<\/strong><strong> minimi quadrati<\/strong>.<\/p>\n\n\n\n<p>I calcoli non sono difficili (non riporto in questa sede il procedimento), ma la procedura pu\u00f2 essere tediosa. Per questo, tutte le calcolatrici scientifiche evolute e molti fogli elettronici e programmi forniscono procedure che ci semplificano la vita.<br>Usando R, il processo \u00e8 ancora pi\u00f9 agevole.<\/p>\n\n\n\n<p>Procedo calcolando i parametri della retta di regressione:<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\"># calcolo i parametri della retta di regressione\nlm(gelati$gelati ~ gelati$temperatura)\n\n\nCall: lm(formula = gelati$gelati ~ gelati$temperatura) \nCoefficients: \n(Intercept) gelati$temperatura \n-29.074     3.241<\/pre>\n\n\n\n<p>Dunque la mia retta avr\u00e0 equazione:<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\"><strong>y = 3,241x - 29,074<\/strong><\/pre>\n\n\n\n<p>E\u2019 giunto il momento di tracciare di nuovo il diagramma a dispersione, sovrapponendo la linea di regressione che ho appena trovato:<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\"># disegno lo scatterplot\nplot(gelati$temperatura,gelati$gelati, main=\"Scatterplot e linea di regressione\",xlab=\"temperatura\", ylab=\"gelati\")\n\n# e traccio la linea di regressione in rosso\nabline(lm(gelati$gelati ~ gelati$temperatura),col=\"red\",lwd=2)<\/pre>\n\n\n\n<figure class=\"wp-block-image size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/www.gironi.it\/blog\/wp-content\/uploads\/2020\/08\/regressione-lineare.png\" alt=\"Regressione lineare: linea di regressione semplice\" class=\"wp-image-1816\" width=\"641\" height=\"405\" srcset=\"https:\/\/www.gironi.it\/blog\/wp-content\/uploads\/2020\/08\/regressione-lineare.png 855w, https:\/\/www.gironi.it\/blog\/wp-content\/uploads\/2020\/08\/regressione-lineare-300x189.png 300w\" sizes=\"auto, (max-width: 709px) 85vw, (max-width: 909px) 67vw, (max-width: 984px) 61vw, (max-width: 1362px) 45vw, 600px\" \/><figcaption>la linea di regressione sovrapposta al diagramma a dispersione.<\/figcaption><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">Valori anomali e punti di influenza<\/h2>\n\n\n\n<p>Un valore anomalo \u00e8 un&#8217;osservazione estrema che non si adatta alla correlazione generale o al modello di regressione. In pratica, nel nostro grafico vedremo che tali valori anomali, qualora esistano, saranno molto lontani dalla linea di regressione nella direzione y.<br>L&#8217;inclusione di un valore anomalo pu\u00f2 influenzare la pendenza e l&#8217;intercetta y della retta di regressione.<\/p>\n\n\n\n<p>Quando si esamina un grafico a dispersione e si calcola l&#8217;equazione di regressione, vale la pena considerare se le osservazioni anomale debbano essere incluse o meno. Potrebbe infatti trattarsi di errori nei dati \u2013 e allora sarebbero da escludere \u2013 ma anche di valori \u201creali\u201d, e in tal caso si tratta di informazioni della massima importanza per l\u2019analista.<\/p>\n\n\n\n<p><strong>Ma quando possiamo parlare di valori anomali?<\/strong> Non esiste una regola fissa quando si cerca di decidere se includere o meno un valore anomalo nell&#8217;analisi di regressione. Questa decisione dipende dalla dimensione del campione, da quanto \u00e8 estremo il valore anomalo e dalla normalit\u00e0 della distribuzione.<br><br>Per i dati univariati, si pu\u00f2 utilizzare una <strong>regola empirica basata sull\u2019<a href=\"https:\/\/www.gironi.it\/blog\/statistica-descrittiva-misure-di-posizione\/\" class=\"rank-math-link\">intervallo interquartile IQR<\/a><\/strong> per determinare se un punto \u00e8 o meno un valore anomalo.<br><br>Procediamo in questo modo:<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li>Calcoliamo l\u2019intervallo interquartile per i nostri dati.<\/li><li>Moltiplichiamo l\u2019intervallo interquartile (IQR) per 1,5.<\/li><li>Aggiungiamo 1,5 x (IQR) al terzo quartile.<br>Qualsiasi numero maggiore del valore trovato \u00e8 un dato estremo sospetto.<\/li><li>Sottraiamo 1,5 x (IQR) dal primo quartile. Qualsiasi numero inferiore \u00e8 un dato estremo sospetto.<\/li><\/ul>\n\n\n\n<hr class=\"wp-block-separator\"\/>\n\n\n\n<p>Un <strong>punto influente<\/strong>  \u00e8 un punto che, se rimosso, produce un notevole cambiamento nella stima del modello. <strong>Un punto influente pu\u00f2 essere o meno un valore anomalo (<em>outlier<\/em>)<\/strong>.<\/p>\n\n\n\n<p>Il comando influence.measures() fornisce tutta una serie di utili misure di influenza: dfbeta, dffit, covratio, distanza di Cook e punti di <em>leverage<\/em> di tutte le osservazioni:<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\"># misuro punti di influenza\ninfluence.measures(lm(gelati$gelati ~ gelati$temperatura))<\/pre>\n\n\n\n<h2 class=\"wp-block-heading\">Le assunzioni del modello<\/h2>\n\n\n\n<p>Perch\u00e8 il modello di regressione lineare possa risultare effettivamente utilizzabile, devono essere rispettate alcune assunzioni:<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li><strong>Distribuzione normale degli errori<\/strong>: gli errori devono avere, per ogni valore di X, una distribuzione normale.<\/li><li><strong>Omoschedasticit\u00e0<\/strong>: la variabilit\u00e0 degli errori \u00e8 costante per ciascun valore di X.<\/li><li><strong>Indipendenza degli errori<\/strong>: gli errori devono essere indipendenti per ciascun valore di X (\u00e8 importante soprattutto per osservazioni nel corso del tempo, nelle quali deve essere verificato che non sia presente autocorrelazione).<\/li><\/ul>\n\n\n\n<p class=\"has-dark-gray-color has-light-gray-background-color has-text-color has-background\">Occorre dunque effettuare specifici test del modello, e <strong>tutti devono dare esito positivo per far s\u00ec che il modello di stima possa essere considerato corretto<\/strong>. <br>Se anche uno solo dei test d\u00e0 esito negativo (<em>non normalit\u00e0 dei residui<\/em>, <em>eteroschedasticit\u00e0<\/em>, <em>correlazione seriale<\/em>) il metodo di stima attraverso i minimi quadrati non va bene.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Analisi dei residui<\/h2>\n\n\n\n<p>Il <strong>residuo<\/strong> \u00e8 uguale alla differenza tra valore osservato e il valore previsto di Y.<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li>Per stimare la capacit\u00e0 di adattamento ai dati della retta di regressione \u00e8 opportuna un&#8217;analisi grafica tramite un grafico di dispersione dei residui (in ordinata) e dei valori di X (nelle ascisse).<br>   <\/li><li>Per verificare le assunzioni posso valutare il <strong>grafico dei residui rispetto a X<\/strong>: questo ci consente di stabilire se la variabilit\u00e0 degli errori varia a seconda dei valori di X, confermando o meno l\u2019<strong>assunzione di omoschedasticit\u00e0<\/strong>.<br>   <\/li><li>Per verificare la linearit\u00e0 occorre tracciate il grafico dei residui, in ordinata, rispetto ai valori previsti, in ascissa. I punti dovrebbero essere distribuiti in modo simmetrico intorno ad una linea orizzontale con intercetta uguale a zero. Andamenti diversi indicano la presenza di non linearit\u00e0.<\/li><\/ul>\n\n\n\n<p><\/p>\n\n\n\n<pre class=\"wp-block-preformatted\"># guardo la distribuzione dei residui.\n# deve essere bilanciata sopra e sotto la linea di zero.\nlmgelati &lt;- lm(gelati$gelati ~ gelati$temperatura)\nplot (lmgelati$residual ~ lmgelati$fitted, ylab=\"Residui\",\nxlab=\"Fitted\")\nabline(h=0)<\/pre>\n\n\n\n<figure class=\"wp-block-image size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/www.gironi.it\/blog\/wp-content\/uploads\/2020\/08\/linearita-residui.png\" alt=\"grafico linearit\u00e0 residui\" class=\"wp-image-1830\" width=\"641\" height=\"405\" srcset=\"https:\/\/www.gironi.it\/blog\/wp-content\/uploads\/2020\/08\/linearita-residui.png 855w, https:\/\/www.gironi.it\/blog\/wp-content\/uploads\/2020\/08\/linearita-residui-300x189.png 300w\" sizes=\"auto, (max-width: 709px) 85vw, (max-width: 909px) 67vw, (max-width: 984px) 61vw, (max-width: 1362px) 45vw, 600px\" \/><figcaption>il grafico dei residui rispetto ai valori previsti.<\/figcaption><\/figure>\n\n\n\n<p>Il pacchetto <em>lmtest<\/em> di R ci mette a disposizione il test di Breusch-Pagan per verificare l&#8217;omoschedasticit\u00e0 dei residui:<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\"># verifico omoschedasticita dei residui\n# utilizzando il test di Breusch-Pagan\nlibrary(lmtest)\ntestbp &lt;- bptest(gelati ~ temperatura, data=gelati)\ntestbp<\/pre>\n\n\n\n<p>Per quanto riguarda la <strong>normalit\u00e0 dei residui<\/strong>, l\u2019<strong>istogramma delle frequenze<\/strong> consente di verificare o meno la condizione.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/www.gironi.it\/blog\/wp-content\/uploads\/2020\/08\/residui-normalita.png\" alt=\"Istogramma dei residui\" class=\"wp-image-1820\" width=\"641\" height=\"405\" srcset=\"https:\/\/www.gironi.it\/blog\/wp-content\/uploads\/2020\/08\/residui-normalita.png 855w, https:\/\/www.gironi.it\/blog\/wp-content\/uploads\/2020\/08\/residui-normalita-300x189.png 300w\" sizes=\"auto, (max-width: 709px) 85vw, (max-width: 909px) 67vw, (max-width: 984px) 61vw, (max-width: 1362px) 45vw, 600px\" \/><figcaption>la verifica di normalit\u00e0 dei residui nel nostro esempio, tramite un istogramma.<\/figcaption><\/figure>\n\n\n\n<p>Possiamo verificare la normalit\u00e0 dei residui anche numericamente, tramite un test di Shapiro &#8211; Wilcox:<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\"># verifico la normalita della distribuzione degli errori\n# con un test shapiro-wilcox\nresidui &lt;- residuals(lm(gelati$gelati ~ gelati$temperatura))\nshapiro &lt;- shapiro.test(residui)\nshapiro<\/pre>\n\n\n\n<p>Verifichiamo che la media degli errori non sia significativamente diversa da zero. Per far questo possiamo ricorre a un test t di Student:<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">residui &lt;- residuals(lm(gelati$gelati ~ gelati$temperatura))\nt.test(residui)<\/pre>\n\n\n\n<p>Il <strong>grafico dei residui rispetto al tempo<\/strong> (e l\u2019utilizzo della statistica di <em>Durbin-Watson<\/em>) consente invece di evidenziare l\u2019esistenza o meno di <strong>autocorrelazione<\/strong>.<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\"># test Durbin Watson per autocorrelazione\ndwtest(gelati$temperatura~gelati$gelati)<\/pre>\n\n\n\n<h2 class=\"wp-block-heading\">L\u2019analisi di regressione: difficolt\u00e0 pratiche<\/h2>\n\n\n\n<p>L\u2019analisi di regressione semplice \u00e8 un modello assai utilizzato, ma molto, molto insidioso. La tendenza generalizzata, infatti, \u00e8 quella di impiegare questo tipo di analisi in maniera poco consapevole e rigorosa \u2013 come ad esempio nell\u2019esempio semplificato che ho proposto \ud83d\ude42<br>Le assunzioni alla base del modello sono piuttosto stringenti, e molto spesso ignorate&#8230;<\/p>\n\n\n\n<p>Frequentemente, l\u2019analisi viene svolta senza tenere conto del modo in cui tale assunzioni debbono essere valutate oppure si sceglie il semplice modello di regressione semplice lineare al posto di modelli alternativi pi\u00f9 calzanti.<\/p>\n\n\n\n<p>Un altro errore molto comune \u00e8 dato dall\u2019<strong>estrapolazione<\/strong>: si compie cio\u00e8 <strong>una stima di valori esterni all\u2019intervallo dei valori osservati<\/strong>. Questo \u00e8 un grande no-no.<\/p>\n\n\n\n<p>Il consiglio \u00e8 sempre quello di iniziare l\u2019analisi guardando con grande attenzione il diagramma di dispersione e di verificare con attenzione le ipotesi alla base del modello di regressione prima di usare i risultati.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Altri tipi di coefficienti di correlazione <\/h2>\n\n\n\n<p>Il coefficiente di correlazione di Pearson \u00e8 sicuramente il pi\u00f9 conosciuto, studiato e usato, ma come abbiamo visto si applica nei casi in cui entrambe le variabili siano di tipo quantitativo, misurate attraverso una scala di tipo intervallo oppure rapporto. Esistono altri metodi che ci consentono di ottenere la misura della correlazione tra variabili di tipo diverso. Tutti condividono la caratteristica di essere concettualmente molto simili al coefficiente r di Pearson.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Il coefficiente di correlazione punto-biseriale <\/h3>\n\n\n\n<p>Prendiamo il caso di un&#8217;analisi nella quale una delle variabili sia di tipo quantitativo (misurata su una scala intervallo oppure rapporto) e la seconda sia una <strong>variabile categorica a due livelli<\/strong> (o variabile dicotomica). In questo caso ci viene in aiuto il <strong>coefficiente di correlazione punto-biseriale<\/strong>. Non approfondisco in questa sede il concetto, trattandosi di fatto di una versione &#8220;speciale&#8221; del coefficiente di Pearson, lasciando al lettore l&#8217;approfondimento quando richiesto dall&#8217;analisi.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Il coefficiente phi<\/h3>\n\n\n\n<p>Se dovesse servirci di conoscere se <strong>due variabili dicotomiche sono correlate<\/strong>, potremmo poi ricorrere al <strong>coefficiente phi<\/strong>, un altro caso &#8220;speciale&#8221; del coefficiente r di Pearson. Molti lettori sapranno certamente che due variabili dicotomiche possono anche essere analizzate servendosi di un <a href=\"https:\/\/www.gironi.it\/blog\/il-test-del-chi-quadrato-bonta-di-adattamento-e-test-di-indipendenza\/\" class=\"rank-math-link\">test chi quadrato<\/a>.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Il coefficiente di correlazione per ranghi rho di Spearman (e un accenno al tau di Kendall)<\/h3>\n\n\n\nTalvolta poi i dati sono riportati in termini di ranghi. I ranghi sono una forma di dati di tipo ordinale, e dal momento che gli altri tipi di coefficienti di correlazione non trattano questa tipologia di dati, ecco la necessit\u00e0 di introdurre l&#8217;uso del coefficiente rho di Spearman.\nLa correlazione di Spearman segue un approccio semplice e ingegnoso: si converte ogni set di dati in ranghi e quindi si calcola la correlazione. E&#8217; una misura statistica non parametrica di correlazione: l&#8217;unica ipotesi richiesta \u00e8 che le variabili siano ordinabili, e possibilmente continue.\n<p>\nEcco la formula del coefficiente di Spearman:\n<\/p>\n\\(\n\\\\\nr_s=\\frac{6\\sum{d}_i^2}{N(N^2-1)}\n\\\\ \\\\\n\\)\n<p>\nAnche r<sub>s<\/sub> pu\u00f2 assumere valori compresi tra \u20131.00 e +1.00, con gli stessi significati visti per r.\n<\/p>\n<p>\nIl coefficiente r<sub>s<\/sub> ha un grave difetto: pu\u00f2 dare una stima per eccesso della correlazione tra X e Y se, per almeno una delle due variabili, si riscontrano molti ranghi uguali.\nPer questo motivo, per misurare la correlazione tra due variabili di tipo ordinale, si ricorre spesso a un&#8217;altra statistica: il <b>coefficiente <i>tau<\/i> di Kendall<\/b>.\n<\/p>\n\n\n<!-- internal-links-section -->\n<h3>Potrebbe interessarti anche<\/h3>\n<ul>\n<li><a href=\"https:\/\/www.gironi.it\/blog\/anomaly-detection\/\">Anomaly detection: come identificare valori anomali nei dati<\/a><\/li>\n<\/ul>","protected":false},"excerpt":{"rendered":"<p>Abbiamo avuto modo di esaminare nel corso dei precedenti post concetti come la media o lo scarto quadratico medio, capaci di descrivere una singola variabile. Si tratta di statistiche che rivestono una grande importanza; tuttavia, nella pratica quotidiana, capita sovente di dover indagare le relazioni tra due o pi\u00f9 variabili. Ecco dunque emergere nuovi concetti &hellip; <a href=\"https:\/\/www.gironi.it\/blog\/regressione-lineare-semplice\/\" class=\"more-link\">Leggi tutto<span class=\"screen-reader-text\"> &#8220;Correlazione e analisi della regressione &#8211; la regressione lineare&#8221;<\/span><\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_uag_custom_page_level_css":"","footnotes":""},"categories":[629],"tags":[703,705,707,709,677,711,713],"class_list":["post-1807","post","type-post","status-publish","format-standard","hentry","category-statistica-it","tag-coefficiente-di-determinazione-it","tag-correlazione-it","tag-grafico-dispersione-it","tag-r-di-pearson-it","tag-regressione-it","tag-residui-it","tag-scatterplot-it"],"lang":"it","translations":{"it":1807,"en":3340},"uagb_featured_image_src":{"full":false,"thumbnail":false,"medium":false,"medium_large":false,"large":false,"1536x1536":false,"2048x2048":false,"post-thumbnail":false},"uagb_author_info":{"display_name":"paolo","author_link":"https:\/\/www.gironi.it\/blog\/author\/paolo\/"},"uagb_comment_info":24,"uagb_excerpt":"Abbiamo avuto modo di esaminare nel corso dei precedenti post concetti come la media o lo scarto quadratico medio, capaci di descrivere una singola variabile. Si tratta di statistiche che rivestono una grande importanza; tuttavia, nella pratica quotidiana, capita sovente di dover indagare le relazioni tra due o pi\u00f9 variabili. Ecco dunque emergere nuovi concetti&hellip;","_links":{"self":[{"href":"https:\/\/www.gironi.it\/blog\/wp-json\/wp\/v2\/posts\/1807","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.gironi.it\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.gironi.it\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.gironi.it\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.gironi.it\/blog\/wp-json\/wp\/v2\/comments?post=1807"}],"version-history":[{"count":3,"href":"https:\/\/www.gironi.it\/blog\/wp-json\/wp\/v2\/posts\/1807\/revisions"}],"predecessor-version":[{"id":3443,"href":"https:\/\/www.gironi.it\/blog\/wp-json\/wp\/v2\/posts\/1807\/revisions\/3443"}],"wp:attachment":[{"href":"https:\/\/www.gironi.it\/blog\/wp-json\/wp\/v2\/media?parent=1807"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.gironi.it\/blog\/wp-json\/wp\/v2\/categories?post=1807"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.gironi.it\/blog\/wp-json\/wp\/v2\/tags?post=1807"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}