Nel corso del tempo, ho deciso di scrivere una serie di post che spero possano servire da introduzione ai principali temi “di base” della statistica applicata al lavoro sui dati: dalla statistica descrittiva all’inferenza, dalle serie storiche ai primi passi nel machine learning. Li raggruppo qui per sezioni tematiche, in modo che possano costituire un percorso: l’ordine è quello che seguirei io, ma ogni sezione può essere affrontata anche per conto suo.
Introduzione: Un breve manifesto (personale) per l’attività SEO
Statistica e SEO. Gli argomenti
Le fondamenta: descrivere i dati
1. I dati: scale di misura
Dati quantitativi e qualitativi | I 4 livelli di misura | La scala nominale | Misure di tipo ordinale | La scala a intervalli equivalenti | La scala a rapporti equivalenti | Livello di complessità dei tipi di misurazione
2. Statistica descrittiva: misure di posizione e tendenza centrale.
Le misure di tendenza centrale | La media aritmetica | La media di dati raggruppati | La media ponderata | La media geometrica | La media armonica | La media troncata | La mediana | La mediana di dati raggruppati | La moda | Moda di dati raggruppati | Relazione tra media, mediana e moda | Quartili, decili e percentili | Quartili, decili e percentili di dati raggruppati | Uno sguardo d’insieme: gli utilissimi 5 numeri | Aiutiamoci con un grafico furbo: il box-plot.
3. Statistica descrittiva: misure di dispersione (o variabilità)
Il campo di variabilità (o gamma) | Lo scarto medio | La varianza | Lo scarto quadratico medio (o deviazione standard) | Il coefficiente di variazione | La forma di una distribuzione | La curtosi.
4. L’indice di Gini: cos’è, perchè è importante, come calcolarlo in R
La curva di Lorenz | Ma spiegarsi con un esempio chiaro? | La definizione dell’indice di concentrazione R | Calcoliamo il valore di R… in R! | E se non uso R? | Uno sguardo al valore dell’indice di Gini nel mondo, in Europa e in Italia.
I primi passi nella probabilità
5. I primi passi nel mondo della probabilità: spazio campionario, eventi, permutazioni e combinazioni
La Probabilità | Il principio di additività delle probabilità per eventi incompatibili | Il principio di moltiplicazione delle probabilità | La Permutazione | Il concetto di Combinazione | La distribuzione binomiale come esempio di applicazione della probabilità e della combinatoria
6. Tabelle di contingenza e probabilità condizionata
Tabelle a doppia entrata e distribuzioni marginali | La probabilità condizionata | Dipendenza e indipendenza | Esaminiamo l’indipendenza di variabili categoriche.
Le distribuzioni di probabilità
7. Distribuzioni di probabilità: distribuzioni discrete – La Binomiale
Variabili discrete e variabili continue | Distribuzioni discrete | Distribuzioni continue | Evento sì o evento no? La variabile casuale di Bernoulli | La distribuzione binomiale | Il coefficiente binomiale con la Casio | Il coefficiente binomiale con la ti-83 | Media, valore atteso, varianza di una distribuzione binomiale | Senza reintroduzione? La distribuzione ipergeometrica.
8. La distribuzione geometrica
Quanti tentativi per avere un primo risultato positivo? | E’ giunto il momento degli esempi | Usiamo R o la TI 83 | In R.
9. La distribuzione ipergeometrica
Partiamo dalla formula | La distribuzione ipergeometrica spiegata con esempi | Può mancare un esempio con urna e palline? | Per approfondire il tema della distribuzione ipergeometrica
10. La distribuzione binomiale negativa (o distribuzione di Pascal)
Definiamo la distribuzione binomiale negativa (o di Pascal) | Esempi di utilizzo della distribuzione binomiale negativa | Differenze tra la distribuzione geometrica e quella di Pascal
11. La distribuzione di Poisson
Lambda: il tasso medio di eventi che si verificano in un determinato intervallo di tempo o spazio | Una breve nota a margine: Poisson e Binomiale | Ma allora quali sono le differenze tra la distribuzione di Poisson e quella binomiale? | La distribuzione di Poisson in pratica: un esempio | La distribuzione di Poisson applicata alla seo: vantaggi e controindicazioni | Cenni su modelli alternativi per l’analisi del traffico del sito web | Un altro esempio: usare la Poisson per stime di probabilità sui clic di un sito web
12. La distribuzione beta
Una distribuzione di probabilità importante nella statistica bayesiana | Un esempio pratico, usando R
13. La distribuzione normale
Visualizzare la “normalità” dei nostri dati | Trasformare i dati | La regola empirica | Standardizzare è bello (e utile…) | E ora la parte divertente: gli esempi! | La diseguaglianza di Chebyshev
14. Il Teorema del Limite Centrale: perché la statistica funziona (anche quando i dati non sono normali)
Cos’è il Teorema del Limite Centrale | Perché è così importante | Una simulazione in R | La regola pratica: quanto deve essere grande n? | Il TLC e l’errore standard | Un esempio pratico: il traffico organico giornaliero | Quando il TLC non basta
L’inferenza: stimare e mettere alla prova
15. Il test delle ipotesi
Ipotesi statistiche | Errori di I e II tipo | Una o due code? Questo è il problema… | Stabilisco l’ipotesi nulla e l’ipotesi alternativa | Fisso il livello di significatività (alpha level) | Scelgo la distribuzione e Raccolgo e analizzo i dati | Traggo le conclusioni | Semplificarsi la vita: scrivo una funzione in R | Uso una TI-83 | Con la Casio | La probabilità di un errore della seconda specie | Potenza? Ma non era una città? | Determinare la dimensione che il campione deve avere per il test della media | E se non conosco i dati della popolazione?
16. La distribuzione t e il test delle ipotesi
Una breve digressione storica | Un esempio vale mille spiegazioni | Un’alternativa alle regioni critiche: guardare al valore p | Con la ti-83 | Calcolare il p-value con la Casio | Stima, margine di errore e intervallo di confidenza: controlliamo il risultato del test delle ipotesi | L’intervallo di confidenza con la TI-83 | L’intervallo di confidenza con la Casio | Il t-test, il calcolo del p-value e l’intervallo di confidenza con R.
17. Il t test per due campioni. Come testare una ipotesi per campioni dipendenti o indipendenti
Il test delle ipotesi per campioni indipendenti | T-test per dati appaiati: il test delle ipotesi per campioni dipendenti | E’ arrivato il momento di un esempio
18. Cosa sono gli intervalli di confidenza, come si calcolano per medie e proporzioni, e qual è il malinteso più comune. Esempi pratici con dati SEO e codice R.
19. Campionamento e dimensione campionaria: quanti dati servono?
I tipi di campionamento (casuale, stratificato, sistematico) | La dimensione campionaria: la matematica dietro la stima | Calcolo in R e Python | Dalla stima all’A/B Testing | Errore campionario vs Bias
I test in pratica: confronti e variabili categoriche
20. Test statistici parametrici e non parametrici
Test parametrici: il potere della normalità | Test non parametrici: versatilità e creatività.
21. Test non parametrici: il test di Wilcoxon per i dati non normali
Il test dei ranghi con segno di Wilcoxon | Il test della somma dei ranghi | Esempi pratici con R
22. Il test del chi quadrato: bontà di adattamento e test di indipendenza
Il Test della bontà di adattamento (Goodness of Fit) | Capire attraverso un semplice esempio | Mi semplifico la vita usando una calcolatrice scientifica Casio | Uso R per il test della bontà di adattamento | Il Test di Indipendenza | Il Test di indipendenza con la Casio| Il test di indipendenza con R.
23. L’analisi della varianza, Anova. Spiegata semplice
Anova: un test di tipo parametrico | Perchè Anova e non una serie di t-test? | Il caso più semplice: Anova a una via | Il modo “classico” (e un po’ tedioso) di svolgere un test Anova: la tabella Anova | Quanta fatica… E’ ora di sfruttare tutta la potenza di R
24. Guida ai Test Statistici per analisi A/B
Z test | t di Student | t di Welch | Chi quadrato | ANOVA | U di Mann-Whitney | Test esatto di Fisher | Analisi di regressione | Tabella comparativa dei test
La sperimentazione online e il percorso bayesiano
25. A/B Testing: come condurre esperimenti statisticamente validi (e gli errori da evitare)
Cos’è un A/B test | Formulare correttamente un A/B test: z-test per due proporzioni | Esempio pratico: conversion rate di due landing page con prop.test() | Gli errori più comuni: peeking, comparazioni multiple, potenza del test, significatività statistica vs pratica | Approccio frequentista vs bayesiano con distribuzione Beta | Esempio pratico SEO: meta description A/B test
26. Effect size e power analysis: quanto è grande l’effetto (e quanti dati servono)
Oltre il p-value: la significatività statistica non è la rilevanza pratica | Cohen’s d per le medie, Cohen’s h per le proporzioni (CTR, conversioni) | La potenza di un test e l’errore di tipo II | Power analysis in R con pwr: quanti dati servono | Caso pratico SEO: l’A/B test sottodimensionato che “non ha funzionato”
27. Statistica bayesiana: come imparare dai dati, un passo alla volta
Due modi di pensare l’incertezza: frequentisti e bayesiani | Il Teorema di Bayes: derivazione e componenti (prior, likelihood, posterior, evidence) | Esempio numerico completo in R: tasso di click di una campagna ads | L’aggiornamento sequenziale: il posterior di oggi è il prior di domani | Prior informativi e non informativi | Credible interval vs confidence interval | Quando usare l’approccio bayesiano
Il traffico nel tempo: serie storiche e anomalie
28. Analisi delle serie storiche e previsioni di serie temporali in R
Cosa si intende per serie storica, o serie temporale | Un po’ di teoria. L’analisi classica delle serie temporali. La decomposizione di una serie storica | Le quattro componenti “classiche” e il loro legame | Un breve ripasso: le utili proprietà utili dei logaritmi | Creare una serie temporale in R partendo da un vettore o un data frame | Utili funzioni relative a una serie temporale | Disegnare una o più serie storiche | Tecniche di lisciamento (smoothing) | Un esempio di uso delle serie storiche per il SEO | Limitare l’effetto della stagionalità attraverso le medie mobili | Elimino il trend stagionale usando la differenza | Decompongo la serie storica attraverso le medie mobili |Decompongo la serie con il metodo LOESS | Livellamento esponenziale con il metodo di Holt-Winters e previsione | Indagare le serie storiche con i modelli ARIMA | Il rumore bianco (white noise) | La passeggiata aleatoria (random walk) | Il modello ARIMA in azione | Vediamo un esempio pratico di modello ARIMA.
29. Anomaly detection: come identificare valori anomali nei dati
Perché riconoscere le anomalie è il primo passo dell’analisi | Il dataset di lavoro: sessioni simulate con anomalie iniettate | Metodo 1: lo z-score e la regola empirica | Metodo 2: IQR e il metodo di Tukey | Metodo 3: il test di Grubbs e l’approccio iterativo | Confronto tra i tre metodi su un dataset di traffico web
Le trappole dei dati
30. Il Paradosso di Simpson nella SEO: quando i dati aggregati possono mentire
Quando l’aggregato racconta il contrario dei segmenti | Il caso delle ammissioni a Berkeley | Un esempio con i dati di Search Console | Come accorgersene (e difendersi)
La regressione e i modelli
31. Correlazione: Pearson, Spearman e Kendall (e perché non è causazione)
Dalla covarianza alla correlazione | Pearson e l’associazione lineare | Spearman e Kendall: l’associazione monotòna | La matrice di correlazione | Correlazione non è causazione | Prova tu
32. Correlazione e analisi della regressione – la regressione lineare
La Regressione semplice | Il coefficiente di correlazione di Pearson, R | Il coefficiente di determinazione R2 | Una digressione: il coefficiente di correlazione per ranghi di Spearman | Troviamo l’equazione di regressione | Valori anomali e punti di influenza |Le assunzioni del modello | Analisi dei residui | L’analisi di regressione: difficoltà pratiche | Altri tipi di coefficienti di correlazione | Il coefficiente di correlazione punto-biseriale | Il coefficiente phi | Il coefficiente di correlazione per ranghi rho di Spearman (e un accenno al tau di Kendall).
33.L’analisi di regressione multipla, spiegata semplice
L’equazione della regressione multipla | Quali informazioni posso ricavare? | Un po’ di requisiti per cominciare | In pratica, come procedere? | Mettiamoci all’opera! | Bello, ma quanto è buono il mio modello? | Sintesi finale
34. Multicollinearità, eteroschedasticità, autocorrelazione: tre concetti dai nomi difficili (spiegati semplici)
La multicollinearità | Come ridurre il problema? | Eteroschedasticità |Autocorrelazione | Ma come faccio a verificare la presenza di autocorrelazione?
35. Come prevedere il risultato di un evento: la Regressione Logistica.
Come funziona la regressione logistica e i passi per costruirla | Un esempio in R: calcolare la probabilità di sopravvivenza sul Titanic | Un po’ di matematica: l’equazione logit | Tiriamo le somme | Risorse per approfondire
Verso il machine learning
35. Capire i concetti di base del Machine Learning: una guida per principianti
Introduzione | Cos’è il Machine Learning | Tipi di Machine Learning: Machine Learning supervisionato e non supervisionato | Le fasi principali del processo di utilizzo del Machine Learning | Come iniziare ad apprendere il Machine Learning: tutorial e risorse | Sperimentare con il codice: Jupyter Lab e Google Colab
37. Come usare gli Alberi Decisionali per classificare i dati
L’algoritmo degli alberi decisionali | Alberi di classificazione e di regressione | Esempi pratici
38. L’algoritmo di Discesa del Gradiente spiegato in modo chiaro: dall’intuizione alla pratica
Come funziona la discesa del gradiente | Il learning rate | Un’implementazione pratica
39. Un’introduzione all’Analisi delle Componenti Principali (PCA)
Ridurre le dimensioni dei dati conservando l’informazione | Autovalori, autovettori e varianza spiegata | Un esempio completo in R
La simulazione
40. Il Metodo Montecarlo spiegato in modo semplice e applicato a casi reali
Cosa è la simulazione Monte Carlo | Il campionamento casuale | Applicazioni a casi reali | Esempi in R
La biblioteca
Ogni articolo del percorso si chiude con uno o due libri consigliati. Li ho raccolti tutti in una pagina sola, con il motivo per cui ogni titolo si è guadagnato il posto sullo scaffale: La biblioteca di Statistica e SEO: i libri che consiglio (e perché).
Strumenti interattivi
Calcolatore Sample Size per A/B Test
Calcola in tempo reale la dimensione campionaria necessaria per un A/B test: inserendo tasso di conversione di partenza, effetto minimo rilevabile, livello di significatività e potenza si ottiene il numero esatto di utenti per variante.
Calcolatore di Significatività per A/B Test
Il complemento del calcolatore qui sopra: a test concluso, inserendo visitatori e conversioni delle due varianti si ottengono p-value, verdetto di significatività e intervallo di confidenza della differenza.