Statistica e SEO

Nel corso del tempo, ho deciso di scrivere una serie di post che spero possano servire da introduzione ai principali temi “di base” della statistica applicata al lavoro sui dati: dalla statistica descrittiva all’inferenza, dalle serie storiche ai primi passi nel machine learning. Li raggruppo qui per sezioni tematiche, in modo che possano costituire un percorso: l’ordine è quello che seguirei io, ma ogni sezione può essere affrontata anche per conto suo.

Introduzione: Un breve manifesto (personale) per l’attività SEO

Statistica e SEO. Gli argomenti

Le fondamenta: descrivere i dati

1. I dati: scale di misura

Dati quantitativi e qualitativi | I 4 livelli di misura | La scala nominale | Misure di tipo ordinale | La scala a intervalli equivalenti | La scala a rapporti equivalenti | Livello di complessità dei tipi di misurazione

2. Statistica descrittiva: misure di posizione e tendenza centrale.

Le misure di tendenza centrale | La media aritmetica | La media di dati raggruppati | La media ponderata | La media geometrica | La media armonica | La media troncata | La mediana | La mediana di dati raggruppati | La moda | Moda di dati raggruppati | Relazione tra media, mediana e moda | Quartili, decili e percentili | Quartili, decili e percentili di dati raggruppati | Uno sguardo d’insieme: gli utilissimi 5 numeri | Aiutiamoci con un grafico furbo: il box-plot.

3. Statistica descrittiva: misure di dispersione (o variabilità)
Il campo di variabilità (o gamma) | Lo scarto medio | La varianza | Lo scarto quadratico medio (o deviazione standard) | Il coefficiente di variazione | La forma di una distribuzione | La curtosi.

4. L’indice di Gini: cos’è, perchè è importante, come calcolarlo in R
La curva di Lorenz | Ma spiegarsi con un esempio chiaro? | La definizione dell’indice di concentrazione R | Calcoliamo il valore di R… in R! | E se non uso R? | Uno sguardo al valore dell’indice di Gini nel mondo, in Europa e in Italia.

I primi passi nella probabilità

5. I primi passi nel mondo della probabilità: spazio campionario, eventi, permutazioni e combinazioni
La Probabilità | Il principio di additività delle probabilità per eventi incompatibili | Il principio di moltiplicazione delle probabilità | La Permutazione | Il concetto di Combinazione | La distribuzione binomiale come esempio di applicazione della probabilità e della combinatoria

6. Tabelle di contingenza e probabilità condizionata
Tabelle a doppia entrata e distribuzioni marginali | La probabilità condizionata | Dipendenza e indipendenza | Esaminiamo l’indipendenza di variabili categoriche.

Le distribuzioni di probabilità

7. Distribuzioni di probabilità: distribuzioni discrete – La Binomiale
Variabili discrete e variabili continue | Distribuzioni discrete | Distribuzioni continue | Evento sì o evento no? La variabile casuale di Bernoulli | La distribuzione binomiale | Il coefficiente binomiale con la Casio | Il coefficiente binomiale con la ti-83 | Media, valore atteso, varianza di una distribuzione binomiale | Senza reintroduzione? La distribuzione ipergeometrica.

8. La distribuzione geometrica
Quanti tentativi per avere un primo risultato positivo? | E’ giunto il momento degli esempi | Usiamo R o la TI 83 | In R.

9. La distribuzione ipergeometrica
Partiamo dalla formula | La distribuzione ipergeometrica spiegata con esempi | Può mancare un esempio con urna e palline? | Per approfondire il tema della distribuzione ipergeometrica

10. La distribuzione binomiale negativa (o distribuzione di Pascal)
Definiamo la distribuzione binomiale negativa (o di Pascal) | Esempi di utilizzo della distribuzione binomiale negativa | Differenze tra la distribuzione geometrica e quella di Pascal

11. La distribuzione di Poisson
Lambda: il tasso medio di eventi che si verificano in un determinato intervallo di tempo o spazio | Una breve nota a margine: Poisson e Binomiale | Ma allora quali sono le differenze tra la distribuzione di Poisson e quella binomiale? | La distribuzione di Poisson in pratica: un esempio | La distribuzione di Poisson applicata alla seo: vantaggi e controindicazioni | Cenni su modelli alternativi per l’analisi del traffico del sito web | Un altro esempio: usare la Poisson per stime di probabilità sui clic di un sito web

12. La distribuzione beta
Una distribuzione di probabilità importante nella statistica bayesiana | Un esempio pratico, usando R

13. La distribuzione normale
Visualizzare la “normalità” dei nostri dati | Trasformare i dati | La regola empirica | Standardizzare è bello (e utile…) | E ora la parte divertente: gli esempi! | La diseguaglianza di Chebyshev

14. Il Teorema del Limite Centrale: perché la statistica funziona (anche quando i dati non sono normali)
Cos’è il Teorema del Limite Centrale | Perché è così importante | Una simulazione in R | La regola pratica: quanto deve essere grande n? | Il TLC e l’errore standard | Un esempio pratico: il traffico organico giornaliero | Quando il TLC non basta

L’inferenza: stimare e mettere alla prova

15. Il test delle ipotesi
Ipotesi statistiche | Errori di I e II tipo | Una o due code? Questo è il problema… | Stabilisco l’ipotesi nulla e l’ipotesi alternativa | Fisso il livello di significatività (alpha level) | Scelgo la distribuzione e Raccolgo e analizzo i dati | Traggo le conclusioni | Semplificarsi la vita: scrivo una funzione in R | Uso una TI-83 | Con la Casio | La probabilità di un errore della seconda specie | Potenza? Ma non era una città? | Determinare la dimensione che il campione deve avere per il test della media | E se non conosco i dati della popolazione?

16. La distribuzione t e il test delle ipotesi
Una breve digressione storica | Un esempio vale mille spiegazioni | Un’alternativa alle regioni critiche: guardare al valore p | Con la ti-83 | Calcolare il p-value con la Casio | Stima, margine di errore e intervallo di confidenza: controlliamo il risultato del test delle ipotesi | L’intervallo di confidenza con la TI-83 | L’intervallo di confidenza con la Casio | Il t-test, il calcolo del p-value e l’intervallo di confidenza con R.

17. Il t test per due campioni. Come testare una ipotesi per campioni dipendenti o indipendenti
Il test delle ipotesi per campioni indipendenti | T-test per dati appaiati: il test delle ipotesi per campioni dipendenti | E’ arrivato il momento di un esempio

18. Cosa sono gli intervalli di confidenza, come si calcolano per medie e proporzioni, e qual è il malinteso più comune. Esempi pratici con dati SEO e codice R.

19. Campionamento e dimensione campionaria: quanti dati servono?
I tipi di campionamento (casuale, stratificato, sistematico) | La dimensione campionaria: la matematica dietro la stima | Calcolo in R e Python | Dalla stima all’A/B Testing | Errore campionario vs Bias

I test in pratica: confronti e variabili categoriche

20. Test statistici parametrici e non parametrici
Test parametrici: il potere della normalità | Test non parametrici: versatilità e creatività.

21. Test non parametrici: il test di Wilcoxon per i dati non normali
Il test dei ranghi con segno di Wilcoxon | Il test della somma dei ranghi | Esempi pratici con R

22. Il test del chi quadrato: bontà di adattamento e test di indipendenza
Il Test della bontà di adattamento (Goodness of Fit) | Capire attraverso un semplice esempio | Mi semplifico la vita usando una calcolatrice scientifica Casio | Uso R per il test della bontà di adattamento | Il Test di Indipendenza | Il Test di indipendenza con la Casio| Il test di indipendenza con R.

23. L’analisi della varianza, Anova. Spiegata semplice
Anova: un test di tipo parametrico | Perchè Anova e non una serie di t-test? | Il caso più semplice: Anova a una via | Il modo “classico” (e un po’ tedioso) di svolgere un test Anova: la tabella Anova | Quanta fatica… E’ ora di sfruttare tutta la potenza di R

24. Guida ai Test Statistici per analisi A/B
Z test | t di Student | t di Welch | Chi quadrato | ANOVA | U di Mann-Whitney | Test esatto di Fisher | Analisi di regressione | Tabella comparativa dei test

La sperimentazione online e il percorso bayesiano

25. A/B Testing: come condurre esperimenti statisticamente validi (e gli errori da evitare)
Cos’è un A/B test | Formulare correttamente un A/B test: z-test per due proporzioni | Esempio pratico: conversion rate di due landing page con prop.test() | Gli errori più comuni: peeking, comparazioni multiple, potenza del test, significatività statistica vs pratica | Approccio frequentista vs bayesiano con distribuzione Beta | Esempio pratico SEO: meta description A/B test

26. Effect size e power analysis: quanto è grande l’effetto (e quanti dati servono)
Oltre il p-value: la significatività statistica non è la rilevanza pratica | Cohen’s d per le medie, Cohen’s h per le proporzioni (CTR, conversioni) | La potenza di un test e l’errore di tipo II | Power analysis in R con pwr: quanti dati servono | Caso pratico SEO: l’A/B test sottodimensionato che “non ha funzionato”

27. Statistica bayesiana: come imparare dai dati, un passo alla volta
Due modi di pensare l’incertezza: frequentisti e bayesiani | Il Teorema di Bayes: derivazione e componenti (prior, likelihood, posterior, evidence) | Esempio numerico completo in R: tasso di click di una campagna ads | L’aggiornamento sequenziale: il posterior di oggi è il prior di domani | Prior informativi e non informativi | Credible interval vs confidence interval | Quando usare l’approccio bayesiano

Il traffico nel tempo: serie storiche e anomalie

28. Analisi delle serie storiche e previsioni di serie temporali in R
Cosa si intende per serie storica, o serie temporale | Un po’ di teoria. L’analisi classica delle serie temporali. La decomposizione di una serie storica | Le quattro componenti “classiche” e il loro legame | Un breve ripasso: le utili proprietà utili dei logaritmi | Creare una serie temporale in R partendo da un vettore o un data frame | Utili funzioni relative a una serie temporale | Disegnare una o più serie storiche | Tecniche di lisciamento (smoothing) | Un esempio di uso delle serie storiche per il SEO | Limitare l’effetto della stagionalità attraverso le medie mobili | Elimino il trend stagionale usando la differenza | Decompongo la serie storica attraverso le medie mobili |Decompongo la serie con il metodo LOESS | Livellamento esponenziale con il metodo di Holt-Winters e previsione | Indagare le serie storiche con i modelli ARIMA | Il rumore bianco (white noise) | La passeggiata aleatoria (random walk) | Il modello ARIMA in azione | Vediamo un esempio pratico di modello ARIMA.

29. Anomaly detection: come identificare valori anomali nei dati
Perché riconoscere le anomalie è il primo passo dell’analisi | Il dataset di lavoro: sessioni simulate con anomalie iniettate | Metodo 1: lo z-score e la regola empirica | Metodo 2: IQR e il metodo di Tukey | Metodo 3: il test di Grubbs e l’approccio iterativo | Confronto tra i tre metodi su un dataset di traffico web

Le trappole dei dati

30. Il Paradosso di Simpson nella SEO: quando i dati aggregati possono mentire
Quando l’aggregato racconta il contrario dei segmenti | Il caso delle ammissioni a Berkeley | Un esempio con i dati di Search Console | Come accorgersene (e difendersi)

La regressione e i modelli

31. Correlazione: Pearson, Spearman e Kendall (e perché non è causazione)
Dalla covarianza alla correlazione | Pearson e l’associazione lineare | Spearman e Kendall: l’associazione monotòna | La matrice di correlazione | Correlazione non è causazione | Prova tu

32. Correlazione e analisi della regressione – la regressione lineare
La Regressione semplice | Il coefficiente di correlazione di Pearson, R | Il coefficiente di determinazione R2 | Una digressione: il coefficiente di correlazione per ranghi di Spearman | Troviamo l’equazione di regressione | Valori anomali e punti di influenza |Le assunzioni del modello | Analisi dei residui | L’analisi di regressione: difficoltà pratiche | Altri tipi di coefficienti di correlazione | Il coefficiente di correlazione punto-biseriale | Il coefficiente phi | Il coefficiente di correlazione per ranghi rho di Spearman (e un accenno al tau di Kendall).

33.L’analisi di regressione multipla, spiegata semplice
L’equazione della regressione multipla | Quali informazioni posso ricavare? | Un po’ di requisiti per cominciare | In pratica, come procedere? | Mettiamoci all’opera! | Bello, ma quanto è buono il mio modello? | Sintesi finale

34. Multicollinearità, eteroschedasticità, autocorrelazione: tre concetti dai nomi difficili (spiegati semplici)
La multicollinearità | Come ridurre il problema? | Eteroschedasticità |Autocorrelazione | Ma come faccio a verificare la presenza di autocorrelazione?

35. Come prevedere il risultato di un evento: la Regressione Logistica.
Come funziona la regressione logistica e i passi per costruirla | Un esempio in R: calcolare la probabilità di sopravvivenza sul Titanic | Un po’ di matematica: l’equazione logit | Tiriamo le somme | Risorse per approfondire

Verso il machine learning

35. Capire i concetti di base del Machine Learning: una guida per principianti
Introduzione | Cos’è il Machine Learning | Tipi di Machine Learning: Machine Learning supervisionato e non supervisionato | Le fasi principali del processo di utilizzo del Machine Learning | Come iniziare ad apprendere il Machine Learning: tutorial e risorse | Sperimentare con il codice: Jupyter Lab e Google Colab

37. Come usare gli Alberi Decisionali per classificare i dati
L’algoritmo degli alberi decisionali | Alberi di classificazione e di regressione | Esempi pratici

38. L’algoritmo di Discesa del Gradiente spiegato in modo chiaro: dall’intuizione alla pratica
Come funziona la discesa del gradiente | Il learning rate | Un’implementazione pratica

39. Un’introduzione all’Analisi delle Componenti Principali (PCA)
Ridurre le dimensioni dei dati conservando l’informazione | Autovalori, autovettori e varianza spiegata | Un esempio completo in R

La simulazione

40. Il Metodo Montecarlo spiegato in modo semplice e applicato a casi reali
Cosa è la simulazione Monte Carlo | Il campionamento casuale | Applicazioni a casi reali | Esempi in R


La biblioteca

Ogni articolo del percorso si chiude con uno o due libri consigliati. Li ho raccolti tutti in una pagina sola, con il motivo per cui ogni titolo si è guadagnato il posto sullo scaffale: La biblioteca di Statistica e SEO: i libri che consiglio (e perché).

Strumenti interattivi

Calcolatore Sample Size per A/B Test
Calcola in tempo reale la dimensione campionaria necessaria per un A/B test: inserendo tasso di conversione di partenza, effetto minimo rilevabile, livello di significatività e potenza si ottiene il numero esatto di utenti per variante.

Calcolatore di Significatività per A/B Test
Il complemento del calcolatore qui sopra: a test concluso, inserendo visitatori e conversioni delle due varianti si ottengono p-value, verdetto di significatività e intervallo di confidenza della differenza.