{"id":916,"date":"2018-10-29T15:44:43","date_gmt":"2018-10-29T14:44:43","guid":{"rendered":"https:\/\/www.gironi.it\/blog\/?p=916"},"modified":"2026-02-25T09:22:26","modified_gmt":"2026-02-25T08:22:26","slug":"la-distribuzione-normale","status":"publish","type":"post","link":"https:\/\/www.gironi.it\/blog\/la-distribuzione-normale\/","title":{"rendered":"La distribuzione normale"},"content":{"rendered":"\n<p>Il concetto di distribuzione normale \u00e8 uno degli elementi chiave nel campo delle ricerche statistiche. Molto spesso infatti i dati che raccogliamo mostrano delle caratteristiche tipiche, talmente tipiche da chiamare la distribuzione risultante semplicemente&#8230; &#8220;normale&#8221;.<br>In questo post vedremo le caratteristiche di questa distribuzione, oltre a sfiorare qualche altro concetto di notevole importanza come:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><a href=\"https:\/\/www.gironi.it\/blog\/la-distribuzione-normale#regolaempirica\">la regola empirica<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.gironi.it\/blog\/la-distribuzione-normale#zscore\">la variabile standardizzata<\/a>&#8211; Il concetto di Z score<\/li>\n\n\n\n<li><a href=\"https:\/\/www.gironi.it\/blog\/la-distribuzione-normale#chebishev\">la disuguaglianza di Chebishev<\/a><\/li>\n<\/ul>\n\n\n\n<hr class=\"wp-block-separator has-css-opacity\"\/>\n\n\n\n<!--more-->\n\n\n\t\t\t\t<div class=\"wp-block-uagb-table-of-contents uagb-toc__align-left uagb-toc__columns-1  uagb-block-30b1fca4      \"\n\t\t\t\t\tdata-scroll= \"1\"\n\t\t\t\t\tdata-offset= \"30\"\n\t\t\t\t\tstyle=\"\"\n\t\t\t\t>\n\t\t\t\t<div class=\"uagb-toc__wrap\">\n\t\t\t\t\t\t<div class=\"uagb-toc__title\">\n\t\t\t\t\t\t\tDi cosa parleremo\t\t\t\t\t\t<\/div>\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<div class=\"uagb-toc__list-wrap \">\n\t\t\t\t\t\t<ol class=\"uagb-toc__list\"><li class=\"uagb-toc__list\"><a href=\"#visualizzare-la-normalit\u00e0-dei-nostri-dati\" class=\"uagb-toc-link__trigger\">Visualizzare la &quot;normalit\u00e0&quot; dei nostri dati<\/a><li class=\"uagb-toc__list\"><a href=\"#trasformare-i-dati\" class=\"uagb-toc-link__trigger\">Trasformare i dati<\/a><li class=\"uagb-toc__list\"><a href=\"#la-regola-empirica\" class=\"uagb-toc-link__trigger\">La regola empirica<\/a><li class=\"uagb-toc__list\"><a href=\"#standardizzare-\u00e8-bello-e-utile-lo-z-score\" class=\"uagb-toc-link__trigger\">Standardizzare \u00e8 bello (e utile&#8230;). Lo Z score.<\/a><ul class=\"uagb-toc__list\"><li class=\"uagb-toc__list\"><a href=\"#facciamo-un-esempio-al-volo\" class=\"uagb-toc-link__trigger\">Facciamo un esempio al volo<\/a><\/li><\/ul><\/li><li class=\"uagb-toc__list\"><a href=\"#e-ora-la-parte-divertente-facciamo-un-po-di-esempi-pratici\" class=\"uagb-toc-link__trigger\">E ora la parte divertente: facciamo un po&#039; di esempi pratici!<\/a><li class=\"uagb-toc__list\"><a href=\"#la-diseguaglianza-di-chebyshev\" class=\"uagb-toc-link__trigger\">La diseguaglianza di Chebyshev<\/a><ul class=\"uagb-toc__list\"><li class=\"uagb-toc__list\"><a href=\"#potrebbe-interessarti-anche\" class=\"uagb-toc-link__trigger\">Potrebbe interessarti anche<\/a><\/ul><\/ul><\/ol>\t\t\t\t\t<\/div>\n\t\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\n\n\n<hr class=\"wp-block-separator has-css-opacity\"\/>\n\n\n\n<p>Abbiamo visto in post precedenti esempi di distribuzioni di probabilit\u00e0 per variabili discrete: ad esempio la <a href=\"https:\/\/www.gironi.it\/blog\/distribuzioni-di-probabilita-distribuzioni-discrete-la-binomiale\/\">Binomiale<\/a>, la <a href=\"https:\/\/www.gironi.it\/blog\/la-distribuzione-geometrica\/\">Geometrica<\/a>, la distribuzione di <a href=\"https:\/\/www.gironi.it\/blog\/la-distribuzione-di-poisson\/\">Poisson<\/a>&#8230;<\/p>\n\n\n\n<p>La distribuzione <strong>normale<\/strong> \u00e8 una <strong>distribuzione di probabilit\u00e0 continua<\/strong>; anzi, \u00e8 la pi\u00f9 famosa e la pi\u00f9 usata delle distribuzioni di probabilit\u00e0 continue. Ricordiamo al volo che una variabile continua pu\u00f2 assumere un numero infinito di valori entro ogni intervallo dato.<\/p>\n\n\n\n<p>La normale ha forma di <strong>campana<\/strong>, \u00e8 detta anche <strong>gaussiana<\/strong> &#8211; dal nome del celebre matematico che ha fornito un contributo fondamentale a questa materia &#8211; ed \u00e8 <strong>simmetrica rispetto alla sua media<\/strong>. Si estende indefinitamente in entrambe le direzioni, ma la maggior parte dell&#8217;area &#8211; cio\u00e8 la probabilit\u00e0 &#8211; \u00e8 raccolta attorno alla media.<br>La curva appare cambiare di forma in due punti, che chiamiamo <strong>punti di inflessione<\/strong>, e che coincidono con una <strong>distanza di una deviazione standard in pi\u00f9 e in meno della media<\/strong>.<\/p>\n\n\n\n<p>Genero con due righe in R la caratteristica forma di questa distribuzione:<\/p>\n\n\n\n<figure class=\"wp-block-image is-resized\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/www.gironi.it\/blog\/wp-content\/uploads\/2018\/09\/image.png\" alt=\"grafico curva gaussiana o normale\" class=\"wp-image-918\" width=\"647\" height=\"413\" srcset=\"https:\/\/www.gironi.it\/blog\/wp-content\/uploads\/2018\/09\/image.png 863w, https:\/\/www.gironi.it\/blog\/wp-content\/uploads\/2018\/09\/image-300x192.png 300w\" sizes=\"auto, (max-width: 709px) 85vw, (max-width: 909px) 67vw, (max-width: 984px) 61vw, (max-width: 1362px) 45vw, 600px\" \/><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">Visualizzare la &#8220;normalit\u00e0&#8221; dei nostri dati<\/h2>\n\n\n\n<p>R offre diversi strumenti per valutare lo scostamento di una distribuzione da una normale teorica.<\/p>\n\n\n\n<p>Uno di questi \u00e8 la funzione <strong>qqnorm()<\/strong>, che crea un grafico della distribuzione, in funzione dei quantili teorici normali (qq=quantile-quantile):<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">qqnorm(variabile)\nqqline(variabile)\n<\/pre>\n\n\n\n<p>Lo verifico con un esempio, generando una distribuzione normale:<br><\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">x&lt;- rnorm(100,5,10)\n qqnorm(x)\n qqline(x)<\/pre>\n\n\n\n<p>il risultato \u00e8 questo, e come si vede abbiamo la conferma visiva della sostanziale normalit\u00e0 della distribuzione:<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"679\" height=\"432\" src=\"https:\/\/www.gironi.it\/blog\/wp-content\/uploads\/2018\/11\/qq-plot.png\" alt=\"\" class=\"wp-image-1114\" srcset=\"https:\/\/www.gironi.it\/blog\/wp-content\/uploads\/2018\/11\/qq-plot.png 679w, https:\/\/www.gironi.it\/blog\/wp-content\/uploads\/2018\/11\/qq-plot-300x191.png 300w\" sizes=\"auto, (max-width: 709px) 85vw, (max-width: 909px) 67vw, (max-width: 984px) 61vw, (max-width: 1362px) 45vw, 600px\" \/><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">Trasformare i dati<\/h2>\n\n\n\n<p>Quando l&#8217;<strong>asimmetria di una distribuzione dipende dal fatto che una variabile si estende su svariati ordini di grandezza<\/strong>, abbiamo una possibilit\u00e0 agevole per rendere la nostra distribuzione simmetrica e simile ad una normale: <strong>trasformare la variabile nel suo logaritmo<\/strong>:<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">qqnorm(log10(variabile))\nqqline(log10(variabile))<\/pre>\n\n\n\n<p>ma come calcolo in questo caso la tendenza centrale?<br><br>Se uso qualcosa tipo mean(log10(variabile)) non ho pi\u00f9 l&#8217;unit\u00e0 di misura&#8230;<br>Per recuperarla posso usare l&#8217;<strong>antilogaritmo<\/strong>, cio\u00e8 calcolo:<br>10^<sup>risultato<\/sup>.<br>Bisogna per\u00f2 sempre tenere a mente che <strong>questa \u00e8 la <a href=\"https:\/\/www.gironi.it\/blog\/statistica-descrittiva-misure-di-posizione\/#la-media-geometrica\" target=\"_blank\" rel=\"noreferrer noopener\">media geometrica<\/a><\/strong>.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-css-opacity\"\/>\n\n\n\n<p>Bene: abbiamo il nostro set di dati e abbiamo verificato che la distribuzione \u00e8 ragionevolmente simile a una normale. E&#8217; giunto il momento di trovare delle applicazioni pratiche per mettere a frutto le nostre nuove conoscenze!&nbsp;&nbsp;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"regolaempirica\">La regola empirica<\/h2>\n\n\n\n<p>La regola empirica \u00e8 uno dei pilastri della statistica. Senza addentrarci troppo nei dettagli teorici, il succo \u00e8 questo:<br><strong>le percentuali dei dati di una distribuzione normale compresi tra 1, 2 e 3 deviazioni standard dalla media sono approssimativamente il 68%, il 95% e il 99,7%.<\/strong> E&#8217; una regola di tale importanza e uso comune che \u00e8 meglio riscriverla con maggiore enfasi&#8230;<\/p>\n\n\n\n<figure class=\"wp-block-pullquote is-style-default has-light-gray-background-color has-background\" style=\"font-style:normal;font-weight:600\"><blockquote><p>LA REGOLA EMPIRICA<br>Le percentuali dei dati di una distribuzione normale compresi tra <br>1, 2 e 3 deviazioni standard dalla media <br>sono approssimativamente <br>il 68%, il 95% e il 99,7%.<\/p><\/blockquote><\/figure>\n\n\n\n<p><\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"zscore\">Standardizzare \u00e8 bello (e utile&#8230;). Lo Z score.<\/h2>\n\n\n\n<p>La <strong>distribuzione normale standardizzata<\/strong> \u00e8 una distribuzione normale con <strong>media nulla<\/strong> e <strong>scarto quadratico medio<\/strong> (o deviazione standard, come dicono gli anglosassoni *)&nbsp;<strong>unitario<\/strong>. <br><br><em>* nel blog uso i due termini &#8220;scarto quadratico medio&#8221; e &#8220;deviazione standard&#8221; in maniera indifferente&#8230;poich\u00e8 esprimono lo stesso concetto e sono entrambi di uso comune.<\/em><\/p>\n\n\n\n<p>Cio\u00e8 con:<\/p>\n\n\n\n\\(\n\\mu=0 \\\\\n\\sigma=1 \\\\\n\\)\n\n\n\n<p>Qualsiasi distribuzione normale pu\u00f2 essere convertita in una distribuzione normale standardizzata, ponendo la media uguale a zero ed esprimendo gli scarti dalla media in unit\u00e0 di scarti quadratici medi, quello che gli anglosassoni molto efficacemente chiamano <em>Z-score<\/em>.<\/p>\n\n\n\n<p class=\"has-light-gray-background-color has-background\">Uno Z-score misura la distanza che intercorre tra un dato e la media, usando le deviazioni standard. Quindi, uno Z-score pu\u00f2 essere positivo (l&#8217;osservazione \u00e8 sopra la media) o negativo (sotto la media). Uno Z-score di -1 indicher\u00e0, ad esempio, che la nostra osservazione cade una deviazione standard al di sotto della media. Ovviamente, uno Z-score pari a 0 equivale alla media.<\/p>\n\n\n\n<p><strong>Lo Z-score \u00e8 un valore &#8220;puro&#8221;, quindi ci fornisce un &#8220;metro di misura&#8221; di straordinaria efficacia. In pratica, \u00e8 un indice che mi consente di comparare valori tra diverse distribuzioni (purch\u00e8 &#8220;normali&#8221;, ovviamente), usando un &#8220;metro&#8221; standard.<\/strong> <br><br>Il calcolo, come abbiamo visto, \u00e8 quasi banale: semplicemente <strong>divido la deviazione per lo scarto quadratico medio<\/strong>:<\/p>\n\n\n\n\\(\nZ = \\frac{Deviazione}{Scarto\\ Quadratico\\ Medio} \\\\ \\\\\n\\)\n\n\n\n<p>In queste condizioni, sappiamo che circa il 68% dell&#8217;area sottostante la curva normale standardizzata \u00e8 compreso tra 1 scarto quadratico dalla media, il 95% entro due, il 99.7% entro tre.<br>Cio\u00e8:<\/p>\n\n\n\n\\(\n68.26\\% \\ entro\\  \\mu \\pm \\sigma \\\\\n95.4\\% \\ entro\\  \\mu \\pm 2\\sigma \\\\\n99.74\\% \\ entro\\  \\mu \\pm 3\\sigma \\\\\n\\\\\n\\)\n\n\n\n<p>Per trovare le probabilit\u00e0 &#8211; cio\u00e8 le aree &#8211; per i problemi che implicano la distribuzione normale, si converte il valore X nel corrispondente Z-score:<\/p>\n\n\n\n\\(\nZ = \\frac{X-\\mu}{\\sigma}  \\\\\n\\\\\n\\)\n\n\n\n<p>Quindi si cerca il valore di Z nelle tabelle e si trova la probabilit\u00e0 sottostante la curva compresa tra la media e Z.<\/p>\n\n\n\n<p>Sembra difficile? E&#8217; facilissimo, e divertentissimo. E con R, o con la TI-83, \u00e8 davvero un giochetto da ragazzi!<br>  <\/p>\n\n\n\n<p class=\"has-light-gray-background-color has-background\">L&#8217;importanza dello Z-score risiede anche (e soprattutto) nella sua <strong>estrema utilit\u00e0 pratica<\/strong>: consente infatti di poter raffrontare utilmente osservazioni tratte da popolazioni con differenti medie e deviazioni standard, usando una scala comune. E&#8217; per questo che il processo si chiama <em>standardizzazione<\/em>: consente infatti di <strong>comparare osservazioni tra variabili che hanno differenti distribuzioni<\/strong>. Usando la tabella (o la calcolatrice o il pc) possiamo rapidamente calcolare le probabilit\u00e0 e i percentili, e identificare eventuali valori estremi (<em>outliers)<\/em>. <\/p>\n\n\n\n<p>Poich\u00e8 sigma \u00e8 positivo, Z sar\u00e0 positivo se X&gt;mu e negativo se X&lt;mu. Il valore di Z rappresenta il numero di deviazioni standard del valore sopra o sotto la media.<\/p>\n\n\n\n<h5 class=\"wp-block-heading\">Facciamo un esempio al volo<\/h5>\n\n\n\n<p>Ho delle osservazioni di un qualche fenomeno che hanno valore medio 65:<\/p>\n\n\n\n\\(\n\\mu = 65 \\\\\n\\)\n\n\n\n<p>La deviazione standard \u00e8 10:<\/p>\n\n\n\n\\(\n\\sigma = 10 \\\\\n\\)\n\n\n\n<p>E osservo un valore di 81&nbsp;:<\/p>\n\n\n\n\\(\nX = 81 \\\\\\\\\n\\)\n\n\n\n<p>Il valore dello Z-score si calcola in un attimo:<\/p>\n\n\n\n\\(\nZ= \\frac{X &#8211; \\mu}{\\sigma} = \\frac{81 &#8211; 65}{10} = \\frac{16}{10} = 1.6\n\\\\\n\\)\n\n\n\n<p>Il valore osservato, su scala standard, cade 1,6 deviazioni standard sopra la media. Per capire dunque quale percentuale di osservazioni risultano sotto al valore osservato, mi baster\u00e0 prendere la tabella:<\/p>\n\n\n\n<div class=\"wp-block-uagb-image uagb-block-b287af8d wp-block-uagb-image--layout-default wp-block-uagb-image--effect-static wp-block-uagb-image--align-none\"><figure class=\"wp-block-uagb-image__figure\"><img decoding=\"async\" srcset=\"https:\/\/www.gironi.it\/blog\/wp-content\/uploads\/2023\/02\/tabella-z.png \" src=\"https:\/\/www.gironi.it\/blog\/wp-content\/uploads\/2023\/02\/tabella-z.png\" alt=\"Tabella Z scores\" class=\"uag-image-2697\" width=\"\" height=\"\" title=\"\" loading=\"lazy\"\/><figcaption class=\"uagb-image-caption\"><em>la tabella degli Z scores in azione&#8230;<\/em><\/figcaption><\/figure><\/div>\n\n\n\n<p>Come si nota, incrociando il mio valore z: 1,6 al livello dello 0,05 trovo il valore 0,9505, che equivale a dire che il 95,05% dei valori osservati \u00e8 inferiore a 81.<\/p>\n\n\n\n<p>Ovviamente, avrei potuto ricavare il valore in R senza usare la tabella, semplicemente con:<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">pnorm(1.6)<\/pre>\n\n\n\n<p>Per chi usa Python:<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">from scipy.stats import norm\n\np = norm.cdf(1.6)\nprint(p)<\/pre>\n\n\n\n<h2 class=\"wp-block-heading\">E ora la parte divertente: facciamo un po&#8217; di esempi pratici!<\/h2>\n\n\n\n<p><strong>Esempio 1<\/strong><\/p>\n\n\n\n<p>Qual \u00e8 la probabilit\u00e0 di un evento con Z-score &lt; 2.47 ?<\/p>\n\n\n\n<p>Prendo in mano la <a href=\"http:\/\/www.matapp.unimib.it\/~fcaraven\/did0607\/tavola_normale.pdf\" target=\"_blank\" rel=\"noreferrer noopener\">tabella<\/a> e vedo che 2.47 = 0.9932.<\/p>\n\n\n\n<p>Quindi, il 99.32% dei valori si trova entro 2.47 scarti quadratici medi dalla media.<br><br>Rappresentando graficamente la situazione, quello che mi viene chiesto \u00e8 di trovare l&#8217;area della superficie grigia, cio\u00e8 l&#8217;area sottesa dalla curva a sinistra del punto con ascissa Z=2.47:<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"679\" height=\"432\" src=\"https:\/\/www.gironi.it\/blog\/wp-content\/uploads\/2018\/10\/normale-1.png\" alt=\"\" class=\"wp-image-1091\" srcset=\"https:\/\/www.gironi.it\/blog\/wp-content\/uploads\/2018\/10\/normale-1.png 679w, https:\/\/www.gironi.it\/blog\/wp-content\/uploads\/2018\/10\/normale-1-300x191.png 300w\" sizes=\"auto, (max-width: 709px) 85vw, (max-width: 909px) 67vw, (max-width: 984px) 61vw, (max-width: 1362px) 45vw, 600px\" \/><\/figure>\n\n\n\n<p>In R il calcolo \u00e8 semplicissimo. Mi basta digitare:<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">pnorm(2.47)<\/pre>\n\n\n\n<p>La <strong>funzione pnorm() infatti ci consente di ottenere la curva della probabilit\u00e0 cumulativa della normale<\/strong>. In altri termini, ci consente di calcolare l&#8217;area relativa (ricordando che l&#8217;area totale \u00e8 1) sotto la curva, dal valore dato di Z fino a +infinito oppure -infinito.<br><br>Di default, R usa la coda inferiore, cio\u00e8 trova l&#8217;area da -infinito a Z.<br>Per computare l&#8217;area tra Z e +infinito mi baster\u00e0 settare lower.tail=FALSE.<br><br><\/p>\n\n\n\n<p><strong>Esempio 2<\/strong><\/p>\n\n\n\n<p>Qual \u00e8 la probabilit\u00e0 di un valore Z-score &gt; 1.53 ?<\/p>\n\n\n\n<p>Dalla tabella trovo il valore 0.937, quindi deduco che il 93,7% dei valori sono sotto a Z-score 1.53.<br>Allora, per trovare quanti sono sopra: 100-93.7 = 6.3%<\/p>\n\n\n\n<p>In R mi basta digitare:<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">1 - pnorm(1.53)<\/pre>\n\n\n\n<p><strong>Esempio 3<\/strong><\/p>\n\n\n\n<p>Qual \u00e8 la probabilit\u00e0 di &#8220;pescare&#8221; un valore casuale di meno di 3.65, data una distribuzione normale con media = 5 e deviazione standard = 2.2 ?<\/p>\n\n\n\n<p>Troviamo subito lo Z-score per il valore 3.65:<\/p>\n\n\n\n\\(\nZ= \\frac{3.65 &#8211; 5}{2.2} = \\frac{-1.35}{2.2} \\simeq -0.61 \\\\ \\\\\n\\)\n\n\n\n<p>Cerchiamo questo valore nella tabella: 0.2709. Dunque, ci sono 27.09% probabilit\u00e0 che un valore minore di 3.65 &#8220;esca&#8221; da una selezione casuale con media 5 e deviazione standard 2.2.<\/p>\n\n\n\n<p>Se volessi usare una calcolatrice scientifica, con la  TI83 mi basterebbe digitare:<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">normalcdf(-1e99,3.65,5,2.2)<\/pre>\n\n\n\n<p>Mentre con una Casio fx mi basterebbe seguire questi passi:<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">MENU\nSTAT\nDIST\nNORM\nNcd\nData: Variable\nLower: -100\nUpper: 3.65\nsigma: 2.2\nmu: 5\n\nEXECUTE<\/pre>\n\n\n\n<p>Il risultato ovviamente \u00e8 leggermente diverso da quello ricavato dalla tabella, perch\u00e8 nella tabella ho arrotondato il valore della divisione (3.65-5)\/2.2 a -0.61, tralasciando la restante parte decimale&#8230;<\/p>\n\n\n\n<p><strong>Esempio 4 : trovare le probabilit\u00e0 tra 2 Z-scores<\/strong><\/p>\n\n\n\n<p>Questo \u00e8 il caso pi\u00f9 divertente di tutti. In realt\u00e0, basta trovare le 2 probabilit\u00e0 e sottrarre&#8230;<\/p>\n\n\n\n<p>Qual \u00e8 la probabilit\u00e0 associata con un valore tra Z=1.2 e Z=2.31 ?<\/p>\n\n\n\n<p>Penso alla mia curva normale: prima trovo l&#8217;area a sinistra di Z<sub>2<\/sub>. Poi trovo l&#8217;area a sinistra di Z<sub>1<\/sub>. Quindi sottraggo i due valori per ricavare l&#8217;area tra i due, che \u00e8 la probabilit\u00e0 cercata.<\/p>\n\n\n\n<p>Oppure uso R e scrivo semplicemente:<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">pnorm(2.31)-pnorm(1.2)<\/pre>\n\n\n\n<p>e il risultato, in questo caso 10.46%, \u00e8 trovato in un momento!<\/p>\n\n\n\n<p>Un attimo, ma se volessi calcolare il valore di Z a partire da una probabilit\u00e0 cumulativa? Basta usare la funzione inversa di pnorm() che in R \u00e8 qnorm().<br>Ad esempio, per trovare il valore di Z con un area 0.5, digito:<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">qnorm(0.5)<\/pre>\n\n\n\n<p>e otterr\u00f2 il risultato, che chiaramente sar\u00e0 0 (la media di una normale standardizzata ha valore 0 e la media divide la normale in due aree uguali&#8230;).<\/p>\n\n\n\n<p>Per chi usa Python il codice \u00e8:<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">from scipy.stats import norm\n\nq = norm.ppf(0.5)\nprint(q)\n<\/pre>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"chebishev\">La diseguaglianza di Chebyshev<\/h2>\n\n\n\n<p>La caratteristica pi\u00f9 importante della disuguaglianza di Chebishev \u00e8 che <strong>si applica ad ogni distribuzione di probabilit\u00e0 di cui siano noti il valore medio e la deviazione standard<\/strong>.<\/p>\n\n\n\n<p>Avendo a che fare con una distribuzione di tipo ignoto oppure certamente non normale, la diseguaglianza di Chebyshev ci viene in aiuto, affermando che:<br><br>Se assumiamo un valore k reale positivo, la probabilit\u00e0 che la v.c. X abbia un valore compreso tra:<\/p>\n\n\n\n\\( \\mu \\ &#8211; \\ k \\sigma \\ e \\ \\mu \\ + \\ k \\sigma \\\\\\)\n\n\n\n<p>\u00e8 maggiore di:<\/p>\n\n\n\n\\( 1 &#8211; \\frac{1}{k^{2}} \\\\ \\)\n\n\n\n<p>In altri termini: supponiamo di conoscere la media e la deviazione standard di un insieme di dati, che non seguono una distribuzione normale. Possiamo dire che per ogni valore k &gt;0 almeno una frazione (1-1\/k<sup>2<\/sup>) dei dati cade nell&#8217;intervallo compreso tra :<\/p>\n\n\n\n\\( \\mu \\ &#8211; \\ k \\sigma \\ e \\ \\mu \\ + \\ k \\sigma \\\\\\)\n\n\n\n<p>Come sempre, un esempio \u00e8 utile a chiarire il tutto. Prendo un dataset di esempio&#8230;i salari medi pagati dalle squadre di baseball USA nel 2016:<\/p>\n\n\n\n<style type=\"text\/css\">\n\ttable.tableizer-table {\n\t\tfont-size: 12px;\n\t\tborder: 1px solid #CCC; \n\t\tfont-family: Arial, Helvetica, sans-serif;\n\t} \n\t.tableizer-table td {\n\t\tpadding: 4px;\n\t\tmargin: 3px;\n\t\tborder: 1px solid #CCC;\n\t}\n\t.tableizer-table th {\n\t\tbackground-color: #104E8B; \n\t\tcolor: #FFF;\n\t\tfont-weight: bold;\n\t}\n<\/style>\n<table class=\"tableizer-table\">\n<thead><tr class=\"tableizer-firstrow\"><th>Team<\/th><th>Salary ($M)<\/th><\/tr><\/thead><tbody>\n <tr><td>Arizona Diamondbacks<\/td><td>91,995583<\/td><\/tr>\n <tr><td>Atlanta Braves<\/td><td>77,073541<\/td><\/tr>\n <tr><td>Baltimore Orioles<\/td><td>141,741213<\/td><\/tr>\n <tr><td>Boston Red Sox<\/td><td>198,328678<\/td><\/tr>\n <tr><td>Chicago Cubs<\/td><td>163,805667<\/td><\/tr>\n <tr><td>Chicago White Sox<\/td><td>113,911667<\/td><\/tr>\n <tr><td>Cincinnati Reds<\/td><td>80,905951<\/td><\/tr>\n <tr><td>Cleveland Indians<\/td><td>92,652499<\/td><\/tr>\n <tr><td>Colorado Rockies<\/td><td>103,603571<\/td><\/tr>\n <tr><td>Detroit Tigers<\/td><td>192,3075<\/td><\/tr>\n <tr><td>Houston Astros<\/td><td>89,0625<\/td><\/tr>\n <tr><td>Kansas City Royals<\/td><td>136,564175<\/td><\/tr>\n <tr><td>Los Angeles Angels<\/td><td>160,98619<\/td><\/tr>\n <tr><td>Los Angeles Dodgers<\/td><td>248,321662<\/td><\/tr>\n <tr><td>Miami Marlins<\/td><td>64,02<\/td><\/tr>\n <tr><td>Milwaukee Brewers<\/td><td>51,2<\/td><\/tr>\n <tr><td>Minnesota Twins<\/td><td>99,8125<\/td><\/tr>\n <tr><td>New York Mets<\/td><td>128,413458<\/td><\/tr>\n <tr><td>New York Yankees<\/td><td>221,574999<\/td><\/tr>\n <tr><td>Oakland Athletics<\/td><td>80,613332<\/td><\/tr>\n <tr><td>Philadelphia Phillies<\/td><td>91,616668<\/td><\/tr>\n <tr><td>Pittsburgh Pirates<\/td><td>95,840999<\/td><\/tr>\n <tr><td>San Diego Padres<\/td><td>94,12<\/td><\/tr>\n <tr><td>San Francisco Giants<\/td><td>166,744443<\/td><\/tr>\n <tr><td>Seattle Mariners<\/td><td>139,804258<\/td><\/tr>\n <tr><td>St, Louis Cardinals<\/td><td>143,514<\/td><\/tr>\n <tr><td>Tampa Bay Rays<\/td><td>60,065366<\/td><\/tr>\n <tr><td>Texas Rangers<\/td><td>158,68022<\/td><\/tr>\n <tr><td>Toronto Blue Jays<\/td><td>131,905327<\/td><\/tr>\n <tr><td>Washington Nationals<\/td><td>142,501785<\/td><\/tr>\n<\/tbody><\/table>\n\n\n\n<p>La media risulta:&nbsp;125.3896<br>La deviazione standard:&nbsp;48.64039<\/p>\n\n\n\n<p>La disuguaglianza di Chebyshev<\/p>\n\n\n\n\\( 1 &#8211; \\frac{1}{k^{2}} \\\\ \\)\n\n\n\n<p>ci dice che almeno il 55.56% \u00e8 in questo caso nell\u2019intervallo:<\/p>\n\n\n\n\\(\n(\\mu \u2212 1.5\\sigma, \\mu + 1.5\\sigma)= (52.42902, 198.3502) \\\\ \\\\\n\\)\n\n\n\n<div style=\"height:50px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n<!-- internal-links-section -->\n<h3>Potrebbe interessarti anche<\/h3>\n<ul>\n<li><a href=\"https:\/\/www.gironi.it\/blog\/teorema-del-limite-centrale\/\">Il Teorema del Limite Centrale: perch\u00e9 la statistica funziona (anche quando i dati non sono normali)<\/a><\/li>\n<li><a href=\"https:\/\/www.gironi.it\/blog\/anomaly-detection\/\">Anomaly detection: come identificare valori anomali nei dati<\/a><\/li>\n<\/ul>","protected":false},"excerpt":{"rendered":"<p>Il concetto di distribuzione normale \u00e8 uno degli elementi chiave nel campo delle ricerche statistiche. Molto spesso infatti i dati che raccogliamo mostrano delle caratteristiche tipiche, talmente tipiche da chiamare la distribuzione risultante semplicemente&#8230; &#8220;normale&#8221;.In questo post vedremo le caratteristiche di questa distribuzione, oltre a sfiorare qualche altro concetto di notevole importanza come:<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_uag_custom_page_level_css":"","footnotes":""},"categories":[629],"tags":[895,897,899,901,903],"class_list":["post-916","post","type-post","status-publish","format-standard","hentry","category-statistica-it","tag-chebyshev-it","tag-gaussiana-it","tag-regola-empirica-it","tag-standardizzata-it","tag-z-score-it"],"lang":"it","translations":{"it":916,"en":3321},"uagb_featured_image_src":{"full":false,"thumbnail":false,"medium":false,"medium_large":false,"large":false,"1536x1536":false,"2048x2048":false,"post-thumbnail":false},"uagb_author_info":{"display_name":"paolo","author_link":"https:\/\/www.gironi.it\/blog\/author\/paolo\/"},"uagb_comment_info":22,"uagb_excerpt":"Il concetto di distribuzione normale \u00e8 uno degli elementi chiave nel campo delle ricerche statistiche. Molto spesso infatti i dati che raccogliamo mostrano delle caratteristiche tipiche, talmente tipiche da chiamare la distribuzione risultante semplicemente&#8230; &#8220;normale&#8221;.In questo post vedremo le caratteristiche di questa distribuzione, oltre a sfiorare qualche altro concetto di notevole importanza come:","_links":{"self":[{"href":"https:\/\/www.gironi.it\/blog\/wp-json\/wp\/v2\/posts\/916","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.gironi.it\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.gironi.it\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.gironi.it\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.gironi.it\/blog\/wp-json\/wp\/v2\/comments?post=916"}],"version-history":[{"count":6,"href":"https:\/\/www.gironi.it\/blog\/wp-json\/wp\/v2\/posts\/916\/revisions"}],"predecessor-version":[{"id":3431,"href":"https:\/\/www.gironi.it\/blog\/wp-json\/wp\/v2\/posts\/916\/revisions\/3431"}],"wp:attachment":[{"href":"https:\/\/www.gironi.it\/blog\/wp-json\/wp\/v2\/media?parent=916"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.gironi.it\/blog\/wp-json\/wp\/v2\/categories?post=916"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.gironi.it\/blog\/wp-json\/wp\/v2\/tags?post=916"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}