{"id":1516,"date":"2019-12-10T15:05:14","date_gmt":"2019-12-10T14:05:14","guid":{"rendered":"https:\/\/www.gironi.it\/blog\/?p=1516"},"modified":"2026-06-18T14:21:31","modified_gmt":"2026-06-18T13:21:31","slug":"il-test-del-chi-quadrato","status":"publish","type":"post","link":"https:\/\/www.gironi.it\/blog\/il-test-del-chi-quadrato\/","title":{"rendered":"Il test del chi quadrato: bont\u00e0 di adattamento e test di indipendenza."},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">Nei post precedenti abbiamo visto diversi tipi di test che possiamo utilizzare per analizzare i dati in nostro possesso e verificare delle ipotesi.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Il test chi quadrato fu proposto da <a aria-label=\"Karl Pearson (apre in una nuova scheda)\" href=\"https:\/\/it.wikipedia.org\/wiki\/Karl_Pearson\" target=\"_blank\" rel=\"noreferrer noopener\">Karl Pearson<\/a> nel 1900, e trova ampia applicazione per stimare quanto efficacemente la distribuzione di una variabile categorica rappresenti una distribuzione attesa (e allora parliamo di &#8220;Test della bont\u00e0 di adattamento&#8221; o &#8220;Goodness of fit test&#8221;) oppure per stimare quando due variabili categoriche sono indipendenti l&#8217;una dall&#8217;altra (e allora parliamo di &#8220;Test di indipendenza&#8221;).<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Tale \u00e8 l&#8217;importanza e la diffusione di questo test, da essere indicato dalla rivista <em>Scientific American<\/em> tra le 20 scoperte scientifiche pi\u00f9 importanti del XX secolo.<\/p>\n\n\n\n<!--more-->\n\n\n\n<div style=\"border:1px solid #ccc;padding:1.2em 1.5em;margin:1.5em 0;border-radius:6px\">\n<h3 style=\"margin-top:0\">Di cosa parleremo<\/h3>\n<ul>\n<li><a href=\"#bonta-di-adattamento\">Il Test della bont\u00e0 di adattamento (Goodness of Fit)<\/a><\/li>\n<li><a href=\"#esempio-semplice\">Capire attraverso un semplice esempio<\/a><\/li>\n<li><a href=\"#casio-bonta\">Mi semplifico la vita usando una calcolatrice scientifica Casio<\/a><\/li>\n<li><a href=\"#r-bonta\">Uso R per il test della bont\u00e0 di adattamento<\/a><\/li>\n<li><a href=\"#test-di-indipendenza\">Il Test di Indipendenza<\/a><\/li>\n<li><a href=\"#casio-indipendenza\">Il Test di indipendenza con la Casio<\/a><\/li>\n<li><a href=\"#r-indipendenza\">Il test di indipendenza con R<\/a><\/li>\n<li><a href=\"#esempio-seo-ctr\">Un esempio SEO: il CTR dipende dal dispositivo?<\/a><\/li>\n<li><a href=\"#prova-tu\">Prova tu<\/a><\/li>\n<\/ul>\n<\/div>\n\n\n\n<hr class=\"wp-block-separator has-css-opacity\"\/>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"bonta-di-adattamento\">Il Test della bont\u00e0 di adattamento (<em>Goodness of Fit<\/em>)<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">E&#8217; un utilissimo test, che concerne la distribuzione di una variabile categorica. Ci consente infatti di verificare se le frequenze osservate differiscono in misura significativa da quelle attese, quando gli esiti possibili sono pi\u00f9 di due.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">I prerequisiti per poter effettuare il test sono molto semplici:<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li>Il campione deve essere casuale;<\/li>\n\n\n\n<li>Le osservazioni devono essere indipendenti per il campione (una osservazione per soggetto); <\/li>\n\n\n\n<li>Nessun valore osservato in ciascuna classe inferiore a 5. <br>Questo ultimo punto suona piuttosto criptico e merita qualche parola in pi\u00f9. Quando la vc \u00e8 continua o i caratteri non sono nominali e si dispone di osservazioni campionarie singole, un problema importante concerne la determinazione del numero di classi (chiamate anche &#8220;celle&#8221;) in cui articolare la distribuzione. Nella prassi \u00e8 richiesto che le frequenze teoriche siano almeno uguali a 5; vale a dire che occorre verificare che il numero di elementi osservati in ciascuna classe non sia inferiore a una soglia minima.<\/li>\n<\/ol>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"esempio-semplice\">Capire attraverso un semplice esempio<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Come al solito, per capire meglio di cosa stiamo parlando ci spiegheremo con un esempio super-semplificato (e, mi scuso, abbastanza ridicolo&#8230;).<br><br>Suppongo che sia stato condotto uno studio sugli hobbisti appassionati di elettronica che usano schede Arduino. Si \u00e8 visto che i possessori di una sola scheda Arduino sono il 50%, quelli che hanno da 2 a 4 schede sono il 30%, chi ne possiede 5 o pi\u00f9 \u00e8 il 20%.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Immaginiamo che io abbia condotto un mio studio indipendente e abbia riscontrato questi dati: su 150 hobbisti ho trovato che 90 possedevano un solo Arduino, 30 da 2 a 4 schede, e 30 5 o pi\u00f9 schede.<br><br>L&#8217;ipotesi nulla \u00e8 che le proporzioni da me riscontrate siano in linea con quelle dello studio ufficiale.<br>L&#8217;ipotesi alternativa \u00e8 ovviamente che i dati raccolti non confermino le proporzioni dello studio ufficiale.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Preparo la mia tabella inserendo i dati:<\/p>\n\n\n\n<figure class=\"wp-block-table\"><table><tbody><tr><td><\/td><td class=\"has-text-align-center\" data-align=\"center\"><b>Un solo Arduino<\/b><\/td><td class=\"has-text-align-center\" data-align=\"center\"><b>Da 2 a 4 schede<\/b><\/td><td class=\"has-text-align-center\" data-align=\"center\"><b>5 o pi\u00f9 schede<\/b><\/td><td class=\"has-text-align-center\" data-align=\"center\"><b>Totale<\/b><\/td><\/tr><tr><td>Dati osservati<\/td><td class=\"has-text-align-center\" data-align=\"center\">90<br><\/td><td class=\"has-text-align-center\" data-align=\"center\">30<\/td><td class=\"has-text-align-center\" data-align=\"center\">30<\/td><td class=\"has-text-align-center\" data-align=\"center\">150<\/td><\/tr><tr><td>Dati attesi<\/td><td class=\"has-text-align-center\" data-align=\"center\">0.50 x 150 = 75<\/td><td class=\"has-text-align-center\" data-align=\"center\">0.30 x 150 = 45<\/td><td class=\"has-text-align-center\" data-align=\"center\"> 0.20 x 150 = 30 <\/td><td class=\"has-text-align-center\" data-align=\"center\">150<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">Per  accettare l&#8217;ipotesi nulla, occorre che la differenza tra le frequenze attese e quelle osservate sia attribuibile alla variabilit\u00e0 di campionamento al livello designato di significativit\u00e0.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">La statistica \u03c7<sup>2<\/sup> calcolata dai dati campionari \u00e8 data da:<\/p>\n\n\n\n\\(\n\\chi^2=\\Sigma\\frac{(f_0-f_e)^2}{f_e}\\\\ \\\\\n\\)\n<p>\nf<sub>0<\/sub>=frequenze osservate <br>\nf<sub>e<\/sub>=frequenze attese <br>\n<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">I gradi di libert\u00e0 per i test di adattamento sono:<\/p>\n\n\n\n\\(\ndf=(r-1)(c-1)\\\\\n\\\\ \\\\\n\\)\n<p>\nr = numero di righe della tabella di contingenza <br>\nc = numero di colonne della tabella di contingenza\n<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Usiamo come linee guida il nostro esempio. Partiamo dalle ipotesi:<\/p>\n\n\n\n\\(\nH_0=le\\ frequenze\\ sono\\ 0.5\\ 0.3\\ 0.2\\\\\nH_a=le\\ frequenze\\ non\\ sono\\ 0.5\\ 0.3\\ 0.2\\\\\n\\)\n\n\n\n<p>Abbiamo:<\/p>\n\\(\nn=150\\\\\ndf=(2-1)(3-1)=2\\\\ \\\\\n\\)\n<p>Troviamo nelle tabelle il valore del \u03c7<sup>2<\/sup> critico (df=2, \u03b1=0.05)<br>\nIl valore risulta essere: <b>5.99<\/b>\n<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Ora calcolo il valore del \u03c7<sup>2<\/sup> per i miei dati:<\/p>\n\n\n\n\\(\n\\chi^2=\\frac{(90-75)^2}{75}+\\frac{(30-45)^2}{45}+\\frac{(30-30)^2}{30}=\\\\\n=\\frac{225}{75}+\\frac{225}{45}+\\frac{0}{30}=\\\\\n=3+5\\\\\n=8\\\\\n\\)\n\n\n\n<p class=\"wp-block-paragraph\">Concludiamo allora (poich\u00e8 il valore calcolato risulta <strong>superiore al valore critico<\/strong>) che <strong>possiamo rifiutare l&#8217;ipotesi nulla al livello di significativit\u00e0 del 5%<\/strong>. Cio\u00e8: possiamo rifiutare l&#8217;asserzione che le frequenze siano distribuite secondo la proporzione 50%,30%,20%.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"casio-bonta\">Mi semplifico la vita usando una calcolatrice scientifica Casio<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Con la mia calcolatrice fx mi basta scegliere da men\u00f9 la voce &#8220;STAT&#8221; e inserire nel mio editor di tabella i valori osservati nella lista L1 e i valori attesi in L2.<br><br>Poi sceglier\u00f2: <\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">[TEST]<br>[CHI]<br>[GoF]<br>Observed:List1<br>Expected:List2<br>df:2<br>[CALC]<\/pre>\n\n\n\n<p class=\"wp-block-paragraph\">e otterr\u00f2 sia il valore del chi quadrato, sia quello di p (in questo caso 0,01832 che \u00e8 inferiore al valore di alpha 0.05 da me scelto, confermando la conclusione che posso rigettare l&#8217;ipotesi nulla e accogliere quella alternativa).<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"r-bonta\">Uso R per il test della bont\u00e0 di adattamento<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">In R l&#8217;esempio indicato risulta ancora pi\u00f9 semplice da impostare:<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">osservati&lt;-c(90,30,30)\nproporzione_attesa&lt;-c(0.5,0.3,0.2)\nchisq.test(osservati,p=proporzione_attesa,correct=FALSE)\n\ne il risultato sar\u00e0:\n\nChi-squared test for given probabilities\ndata:  osservati\nX-squared = 8, df = 2, p-value = 0.01832<\/pre>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"test-di-indipendenza\">Il Test di Indipendenza<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">E&#8217; comunemente usato per determinare se due fattori sono tra loro in relazione.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">In genere, quello che vogliamo sapere \u00e8: &#8220;La variabile X \u00e8 indipendente dalla variabile Y ?<\/p>\n\n\n\n<p class=\"has-light-gray-background-color has-background wp-block-paragraph\">Attenzione: la risposta che otteniamo dal nostro test \u00e8 <strong>solo<\/strong> questa, non <strong>come <\/strong>sono relate le variabili.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Nel caso del test della bont\u00e0 di adattamento vi \u00e8 <strong>una sola variabile <\/strong>in gioco: le frequenze osservate possono quindi essere elencate in un&#8217;unica riga, o colonna, di valori in una tabella.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">I test di indipendenza, invece, implicano <strong>due variabili<\/strong> e l&#8217;<strong>oggetto del test<\/strong> \u00e8 proprio l&#8217;<strong>assunzione che le due variabili siano statisticamente indipendenti<\/strong>.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Poich\u00e8 due variabili sono implicate nel test, le frequenze osservate sono inserite in una <strong><a href=\"https:\/\/www.gironi.it\/blog\/tabelle-di-contingenza-e-probabilita-condizionata\" target=\"_blank\" rel=\"noreferrer noopener\" aria-label=\"tavola di contingenza (apre in una nuova scheda)\">tavola di contingenza<\/a><\/strong> del <strong>tipo riga x colonna<\/strong>. <br>Ad esempio, rappresento i dati relativi a et\u00e0 e sesso degli appassionati di un dato marchio commerciale:<\/p>\n\n\n\n<table class=\"font-size:11px;\"><tbody><tr><td><b>Et\u00e0<\/b><\/td><td><b>Maschio<\/b><\/td><td><b>Femmina<\/b><\/td><td><b>Totale<\/b><\/td><\/tr><tr><td><b>&lt;35<\/b><\/td><td>66<\/td><td>54<\/td><td>120<\/td><\/tr><tr><td><b>&gt;=35<\/b><\/td><td>78<\/td><td>12<\/td><td>90<\/td><\/tr><tr><td><b>Totale<\/b><\/td><td>144<\/td><td>66<\/td><td>210<\/td><\/tr><\/tbody><\/table>\n\n\n\n<p class=\"wp-block-paragraph\">Vogliamo testare l&#8217;ipotesi nulla che le due variabili<strong> qualitative<\/strong> sesso ed et\u00e0 siano indipendenti. Dunque, l&#8217;ipotesi alternativa prevede invece che esista una relazione tra le due variabili.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Se l&#8217;ipotesi di indipendenza \u00e8 vera, fra la frequenza osservata di ciascuna casella e il totale delle frequenze osservate della riga e colonna in cui quella casella \u00e8 inclusa, devono esserci le stesse proporzioni esistenti fra il totale di colonna e di riga e la dimensione totale del campione.<\/p>\n\n\n\n\\(\nf_e=\\frac{\\Sigma_{riga}\\ \\Sigma_{colonna}}{n}\\\\\n\\\\ \\\\\ndf=(r-1)(c-1)\\\\\n\\\\ \\\\\n\\)\n\n\n\n<p class=\"wp-block-paragraph\">A questo punto procedo con il mio esempio:<\/p>\n\n\n\n\\(\nf_e=\\frac{\\Sigma_{riga}\\ \\Sigma_{colonna}}{n}=\\frac{120\\times 144}{210}=82,3\\\\\n\\)\n\n\n\n<div style=\"height:14px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n<p class=\"has-light-gray-background-color has-background wp-block-paragraph\">Le 3 frequenze rimanenti possono essere facilmente ottenute per sottrazione dai totali di riga e di colonna. Infatti, <strong>una tabella 2&#215;2 ha df=1<\/strong>, cio\u00e8 <strong>la frequenza di una sola casella \u00e8 libera di variare<\/strong>.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Otterr\u00f2:<\/p>\n\n\n\n<table style=\"font-size:11px;\"><tbody><tr><td><b>Et\u00e0<\/b><\/td><td><b>Maschi<\/b><\/td><td><b>Femmine<\/b><\/td><td><b>Totale<\/b><\/td><\/tr><tr><td>&lt;35<\/td><td>82<\/td><td>38<\/td><td>120<\/td><\/tr><tr><td>&gt;=35<\/td><td>62<\/td><td>28<\/td><td>90<\/td><\/tr><tr><td>Totale<\/td><td>144<\/td><td>66<\/td><td>210<\/td><\/tr><\/tbody><\/table>\n<br>\n\n\n\n<div style=\"height:16px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n\\(\nH_0=sesso\\ e\\ anni\\ sono\\ indipendenti\\\\\nH_a=esiste\\ una\\ relazione\\ tra\\ sesso\\ e\\ anni\\\\\n\\\\ \\\\\ndf=(2-1)(2-1)=1\n\\)\n<br>\n<br>\n<p>\nScelgo un livello \u03b1=0.01 di significativit\u00e0\n<\/p>\n\n\n\n\\(\n\\chi^2_{critico}=6.63\\\\\n\\)\n\n\n\n<p class=\"wp-block-paragraph\">calcolo il valore del chi-quadro e trovo:<\/p>\n\n\n\n\\(\n\\chi^2=23.9\\\\\n\\)\n\n\n\n<p class=\"wp-block-paragraph\">Si rifiuta allora l&#8217;ipotesi nulla di indipendenza al livello di significativit\u00e0 dell&#8217;1%. Le variabili et\u00e0 e sesso sono dipendenti.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"casio-indipendenza\">Il Test di indipendenza con la Casio<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Per risolvere il mio esempio in maniera molto semplice con la mia Casio avrei potuto fare cos\u00ec:<\/p>\n\n\n\n<p>Carico i miei dati di tabella in una matrice, che chiamo A:<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">[[66,54][78,12]]\u2192[OPTN][MAT][MAT][ALPHA][A]<\/pre>\n\n\n\n<p class=\"wp-block-paragraph\" id=\"block-bf13504e-9671-41f0-bff4-2df66f19200a\">A questo punto mi sposto nelle funzioni statistiche:<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">[MENU][STAT]\n\n[TEST][CHI][2WAY]\n\nObserved:Mat A\n\nExpected:Mat B\n\n[CALC]<\/pre>\n\n\n\nIl risultato sar\u00e0:\n<br><br>\n\u03c7<sup>2<\/sup>=23.9299242<br>\np=9.9907e-07<br>\ndf=1<br>\n<br>\nCome si vede dal bassissimo valore di p, accolgo l&#8217;ipotesi alternativa e scarto l&#8217;ipotesi nulla.\n\n\n\n<h2 class=\"wp-block-heading\" id=\"r-indipendenza\">Il test di indipendenza con R<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Costruisco la mia tabella di contingenza<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">appassionati &lt;- matrix(c(66,54,78,12),ncol=2,byrow=TRUE)\n rownames(appassionati) &lt;- c(\"meno di 35\",\"35 o piu\")\n colnames(appassionati) &lt;- c(\"maschio\",\"femmina\")\n appassionati &lt;- as.table(appassionati)\n appassionati\n\nposso calcolare i totali di riga:\nmargin.table(appassionati,1)\n\ne quelli di colonna:\nmargin.table(appassionati,2)\n\nil gran totale \u00e8:\nmargin.table(appassionati)\n\nguardo i valori attesi:\nchisq.test(appassionati)$expected\n\ne testo l'ipotesi con:\nchisq.test(appassionati)<\/pre>\n\n\n\n<p class=\"wp-block-paragraph\">il bassissimo valore di p risultante mi indica che posso rigettare l&#8217;ipotesi nulla dell&#8217;indipendenza delle due variabili.<\/p>\n\n\n\n\n<h2 class=\"wp-block-heading\" id=\"esempio-seo-ctr\">Un esempio SEO: il CTR dipende dal dispositivo?<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Gli hobbisti di Arduino e gli appassionati di marchi vanno benissimo per capire il meccanismo, ma il test di indipendenza d\u00e0 il meglio di s\u00e9 nella pratica quotidiana di chi lavora con i dati di Search Console. Riprendiamo i numeri che abbiamo gi\u00e0 incontrato parlando del <a href=\"https:\/\/www.gironi.it\/blog\/il-paradosso-di-simpson-nella-seo-quando-i-dati-aggregati-possono-mentire\/\">Paradosso di Simpson<\/a>: in un mese il nostro sito ha raccolto 10.000 impression su Desktop con 550 click, e 20.000 impression su Mobile con 500 click. Il CTR \u00e8 dunque 5,5% contro 2,5%: una differenza che sembra enorme, ma \u00e8 reale o potrebbe essere frutto del caso?<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Formulata nel linguaggio di questo articolo, la domanda diventa: <strong>il click \u00e8 indipendente dal dispositivo?<\/strong> Costruiamo la tabella di contingenza, con una avvertenza importante: nelle celle vanno i <strong>conteggi<\/strong>, mai le percentuali. Per ogni dispositivo servono quindi i click e i &#8220;non click&#8221; (le impression che non hanno generato click).<\/p>\n\n\n\n<figure class=\"wp-block-table\"><table><thead><tr><th>Dispositivo<\/th><th>Click<\/th><th>Nessun click<\/th><th>Totale<\/th><\/tr><\/thead><tbody><tr><td><strong>Desktop<\/strong><\/td><td>550<\/td><td>9.450<\/td><td>10.000<\/td><\/tr><tr><td><strong>Mobile<\/strong><\/td><td>500<\/td><td>19.500<\/td><td>20.000<\/td><\/tr><tr><td><strong>Totale<\/strong><\/td><td>1.050<\/td><td>28.950<\/td><td>30.000<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">Le ipotesi sono le solite:<\/p>\n\n\n\n\\(\nH_0=click\\ e\\ dispositivo\\ sono\\ indipendenti\\\\\nH_a=esiste\\ una\\ relazione\\ tra\\ click\\ e\\ dispositivo\\\\\n\\)\n\n\n\n<p class=\"wp-block-paragraph\">Verifico in R, costruendo la matrice dei conteggi (uso <code>correct=FALSE<\/code> per poter confrontare il risultato con l&#8217;eventuale calcolo manuale):<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">ctr &lt;- matrix(c(550, 9450, 500, 19500), ncol=2, byrow=TRUE)\nrownames(ctr) &lt;- c(\"Desktop\", \"Mobile\")\ncolnames(ctr) &lt;- c(\"click\", \"no click\")\nchisq.test(ctr, correct=FALSE)\n\nil risultato sar\u00e0:\n\nPearson's Chi-squared test\ndata:  ctr\nX-squared = 177.65, df = 1, p-value &lt; 2.2e-16<\/pre>\n\n\n\n<p class=\"wp-block-paragraph\">Il p-value \u00e8 infinitesimale: rifiutiamo l&#8217;ipotesi nulla senza esitazioni. Il click <strong>dipende<\/strong> dal dispositivo, e la differenza tra i due CTR non \u00e8 attribuibile al caso.<\/p>\n\n\n\n<p class=\"has-light-gray-background-color has-background wp-block-paragraph\">n.b.: con i volumi tipici della Search Console (decine di migliaia di impression) il chi quadrato rifiuta l&#8217;ipotesi nulla anche per differenze minuscole e praticamente irrilevanti. La significativit\u00e0 statistica ci dice che la differenza non \u00e8 frutto del caso, <strong>non<\/strong> che sia importante: con campioni molto grandi le due cose vanno tenute ben distinte.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"prova-tu\">Prova tu<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Per fissare il meccanismo, un esercizio con dati finti ma realistici. Dalla Search Console di un e-commerce estraiamo un mese di dati, separando le query brand dalle non-brand:<\/p>\n\n\n\n<figure class=\"wp-block-table\"><table><thead><tr><th>Tipo di query<\/th><th>Click<\/th><th>Nessun click<\/th><th>Totale<\/th><\/tr><\/thead><tbody><tr><td><strong>Brand<\/strong><\/td><td>240<\/td><td>1.760<\/td><td>2.000<\/td><\/tr><tr><td><strong>Non-brand<\/strong><\/td><td>540<\/td><td>17.460<\/td><td>18.000<\/td><\/tr><tr><td><strong>Totale<\/strong><\/td><td>780<\/td><td>19.220<\/td><td>20.000<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">La domanda \u00e8 la stessa di prima: il click dipende dal tipo di query? L&#8217;esercizio consiste nel formulare le ipotesi, scegliere \u03b1=0,05, costruire la matrice in R ed eseguire il test (sempre con <code>correct=FALSE<\/code>). Se tutto fila, il chi quadrato dovrebbe risultare vicino a 389, con un p-value microscopico. E gi\u00e0 che ci siamo: quale dei due CTR (12% contro 3%) &#8220;tira&#8221; di pi\u00f9 il risultato? Un&#8217;occhiata alle frequenze attese con <code>chisq.test(...)$expected<\/code> aiuta a rispondere.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Una domanda per\u00f2 resta aperta, ed \u00e8 pi\u00f9 sottile di quanto sembri: il test ci ha detto <em>che<\/em> la dipendenza esiste, non <em>quanto \u00e8 forte<\/em>. Come abbiamo appena visto, con campioni grandi quasi tutto risulta significativo: per misurare l&#8217;intensit\u00e0 di un&#8217;associazione servono altri strumenti (come la V di Cram\u00e9r), e sar\u00e0 l&#8217;argomento di un prossimo articolo dedicato all&#8217;effect size e alla potenza dei test.<\/p>\n\n\n<!-- internal-links-section -->\n<h3>Potrebbe interessarti anche<\/h3>\n<ul>\n<li><a href=\"https:\/\/www.gironi.it\/blog\/ab-testing\/\">A\/B Testing: come condurre esperimenti statisticamente validi (e gli errori da evitare)<\/a><\/li>\n<li><a href=\"https:\/\/www.gironi.it\/blog\/il-paradosso-di-simpson-nella-seo-quando-i-dati-aggregati-possono-mentire\/\">Il Paradosso di Simpson nella SEO: quando i dati aggregati possono mentire<\/a><\/li>\n<li><a href=\"https:\/\/www.gironi.it\/blog\/campionamento-e-dimensione-campionaria-quanti-dati-servono\/\">Campionamento e Dimensione Campionaria: Quanti Dati Servono?<\/a><\/li>\n<\/ul>\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\"\/>\n\n\n\n<h3 class=\"wp-block-heading\">Per approfondire<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Il test del chi quadrato, con tutte le sue varianti e condizioni di applicabilit&agrave;, &egrave; trattato in dettaglio in <a href=\"https:\/\/www.amazon.it\/dp\/8891910651?tag=consulenzeinf-21&#038;ascsubtag=il-test-del-chi-quadrato\" rel=\"nofollow sponsored noopener\" target=\"_blank\"><em>Statistica<\/em><\/a> di Newbold, Carlson e Thorne, insieme agli altri test che abbiamo incontrato in questo percorso.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">E se gli esempi di queste pagine vi hanno fatto venire voglia di imparare R sul serio, <a href=\"https:\/\/www.amazon.it\/dp\/1492097403?tag=consulenzeinf-21&#038;ascsubtag=il-test-del-chi-quadrato\" rel=\"nofollow sponsored noopener\" target=\"_blank\"><em>R for Data Science<\/em><\/a> di Hadley Wickham (seconda edizione, leggibile anche gratuitamente online) \u00e8 il punto di partenza che consiglio.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Nei post precedenti abbiamo visto diversi tipi di test che possiamo utilizzare per analizzare i dati in nostro possesso e verificare delle ipotesi. Il test chi quadrato fu proposto da Karl Pearson nel 1900, e trova ampia applicazione per stimare quanto efficacemente la distribuzione di una variabile categorica rappresenti una distribuzione attesa (e allora parliamo &hellip; <a href=\"https:\/\/www.gironi.it\/blog\/il-test-del-chi-quadrato\/\" class=\"more-link\">Leggi tutto<span class=\"screen-reader-text\"> &#8220;Il test del chi quadrato: bont\u00e0 di adattamento e test di indipendenza.&#8221;<\/span><\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_uag_custom_page_level_css":"","footnotes":""},"categories":[629],"tags":[741,743,745,747],"class_list":["post-1516","post","type-post","status-publish","format-standard","hentry","category-statistica-it","tag-chi-quadrato-it","tag-goodness-of-fit-it","tag-test-adattamento-it","tag-test-indipendenza-it"],"lang":"it","translations":{"it":1516,"en":3344},"uagb_featured_image_src":{"full":false,"thumbnail":false,"medium":false,"medium_large":false,"large":false,"1536x1536":false,"2048x2048":false,"post-thumbnail":false},"uagb_author_info":{"display_name":"paolo","author_link":"https:\/\/www.gironi.it\/blog\/author\/paolo\/"},"uagb_comment_info":9,"uagb_excerpt":"Nei post precedenti abbiamo visto diversi tipi di test che possiamo utilizzare per analizzare i dati in nostro possesso e verificare delle ipotesi. Il test chi quadrato fu proposto da Karl Pearson nel 1900, e trova ampia applicazione per stimare quanto efficacemente la distribuzione di una variabile categorica rappresenti una distribuzione attesa (e allora parliamo&hellip;","_links":{"self":[{"href":"https:\/\/www.gironi.it\/blog\/wp-json\/wp\/v2\/posts\/1516","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.gironi.it\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.gironi.it\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.gironi.it\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.gironi.it\/blog\/wp-json\/wp\/v2\/comments?post=1516"}],"version-history":[{"count":5,"href":"https:\/\/www.gironi.it\/blog\/wp-json\/wp\/v2\/posts\/1516\/revisions"}],"predecessor-version":[{"id":3773,"href":"https:\/\/www.gironi.it\/blog\/wp-json\/wp\/v2\/posts\/1516\/revisions\/3773"}],"wp:attachment":[{"href":"https:\/\/www.gironi.it\/blog\/wp-json\/wp\/v2\/media?parent=1516"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.gironi.it\/blog\/wp-json\/wp\/v2\/categories?post=1516"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.gironi.it\/blog\/wp-json\/wp\/v2\/tags?post=1516"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}