Statistica e SEO

Nel corso del tempo, ho deciso di scrivere una serie di post che spero possano servire da introduzione ai principali temi “di base” nel campo della statistica descrittiva e dell’analisi delle serie storiche. Li raggruppo qui in modo che possano costituire un percorso, un modo per intraprendere un cammino che spero stimolante.

Gli argomenti

Introduzione: Un breve manifesto (personale) per l’attività SEO

1. I dati: scale di misura

Dati quantitativi e qualitativi | I 4 livelli di misura | La scala nominale | Misure di tipo ordinale | La scala a intervalli equivalenti | La scala a rapporti equivalenti | Livello di complessità dei tipi di misurazione

2. Statistica descrittiva: misure di posizione e tendenza centrale.

Le misure di tendenza centrale | La media aritmetica | La media di dati raggruppati | La media ponderata | La media geometrica | La media armonica | La media troncata | La mediana | La mediana di dati raggruppati | La moda | Moda di dati raggruppati | Relazione tra media, mediana e moda | Quartili, decili e percentili | Quartili, decili e percentili di dati raggruppati | Uno sguardo d’insieme: gli utilissimi 5 numeri | Aiutiamoci con un grafico furbo: il box-plot.

3. Statistica descrittiva: misure di dispersione (o variabilità)
Il campo di variabilità (o gamma) | Lo scarto medio | La varianza | Lo scarto quadratico medio (o deviazione standard) | Il coefficiente di variazione | La forma di una distribuzione |La curtosi.

4. Distribuzioni di probabilità: distribuzioni discrete – La Binomiale
Variabili discrete e variabili continue | Distribuzioni discrete | Distribuzioni continue | Evento sì o evento no? La variabile casuale di Bernoulli | La distribuzione binomiale | Il coefficiente binomiale con la Casio | Il coefficiente binomiale con la ti-83 | Media, valore atteso, varianza di una distribuzione binomiale | Senza reintroduzione? La distribuzione ipergeometrica.

5. La distribuzione geometrica
Quanti tentativi per avere un primo risultato positivo? | E’ giunto il momento degli esempi | Usiamo R o la TI 83 | In R.

6. La distribuzione di Poisson
Lambda | Una breve nota a margine | La distribuzione di Poisson in pratica: un esempio.

7. La distribuzione normale
Visualizzare la “normalità” dei nostri dati | Trasformare i dati | La regola empirica | Standardizzare è bello (e utile…) | E ora la parte divertente: gli esempi! | La diseguaglianza di Chebyshev

8. Il test delle ipotesi
Ipotesi statistiche | Errori di I e II tipo | Una o due code? Questo è il problema… | Stabilisco l’ipotesi nulla e l’ipotesi alternativa |  Fisso il livello di significatività (alpha level) | Scelgo la distribuzione e Raccolgo e analizzo i dati | Traggo le conclusioni | Semplificarsi la vita: scrivo una funzione in R | Uso una TI-83 | Con la Casio | La probabilità di un errore della seconda specie | Potenza? Ma non era una città? | Determinare la dimensione che il campione deve avere per il test della media | E se non conosco i dati della popolazione?

9. La distribuzione t e il test delle ipotesi
Una breve digressione storica | Un esempio vale mille spiegazioni | Un’alternativa alle regioni critiche: guardare al valore p | Con la ti-83 | Calcolare il p-value con la Casio | Stima, margine di errore e intervallo di confidenza: controlliamo il risultato del test delle ipotesi | L’intervallo di confidenza con la TI-83 | L’intervallo di confidenza con la Casio | Il t-test, il calcolo del p-value e l’intervallo di confidenza con R.

10. Il t test per due campioni. Come testare una ipotesi per campioni dipendenti o indipendenti
Il test delle ipotesi per campioni indipendenti | T-test per dati appaiati: il test delle ipotesi per campioni dipendenti | E’ arrivato il momento di un esempio

11. Tabelle di contingenza e probabilità condizionata
Tabelle a doppia entrata e distribuzioni marginali | La probabilità condizionata | Dipendenza e indipendenza | Esaminiamo l’indipendenza di variabili categoriche.

12. Il test del chi quadrato: bontà di adattamento e test di indipendenza
Il Test della bontà di adattamento (Goodness of Fit) | Capire attraverso un semplice esempio | Mi semplifico la vita usando una calcolatrice scientifica Casio | Uso R per il test della bontà di adattamento | Il Test di Indipendenza | Il Test di indipendenza con la Casio| Il test di indipendenza con R.

13. L’indice di Gini: cos’è, perchè è importante, come calcolarlo in R
La curva di Lorenz | Ma spiegarsi con un esempio chiaro? | La definizione dell’indice di concentrazione R | Calcoliamo il valore di R… in R! | E se non uso R? | Uno sguardo al valore dell’indice di Gini nel mondo, in Europa e in Italia.

14. Correlazione e analisi della regressione – la regressione lineare
La Regressione semplice | Il coefficiente di correlazione di Pearson, R | Il coefficiente di determinazione R2 | Una digressione: il coefficiente di correlazione per ranghi di Spearman | Troviamo l’equazione di regressione | Valori anomali e punti di influenza |Le assunzioni del modello | Analisi dei residui | L’analisi di regressione: difficoltà pratiche | Altri tipi di coefficienti di correlazione | Il coefficiente di correlazione punto-biseriale | Il coefficiente phi | Il coefficiente di correlazione per ranghi rho di Spearman (e un accenno al tau di Kendall).

15. L’analisi di regressione multipla, spiegata semplice
L’equazione della regressione multipla | Quali informazioni posso ricavare? | In pratica, come procedere? | Mettiamoci all’opera! | Bello, ma quanto è buono il mio modello? | Sintesi finale

16. Analisi delle serie storiche e previsioni di serie temporali in R
Cosa si intende per serie storica, o serie temporale | Un po’ di teoria. L’analisi classica delle serie temporali. La decomposizione di una serie storica | Le quattro componenti “classiche” e il loro legame | Un breve ripasso: le utili proprietà utili dei logaritmi | Creare una serie temporale in R partendo da un vettore o un data frame | Utili funzioni relative a una serie temporale | Disegnare una o più serie storiche | Tecniche di lisciamento (smoothing) | Un esempio di uso delle serie storiche per il SEO | Limitare l’effetto della stagionalità attraverso le medie mobili | Elimino il trend stagionale usando la differenza | Decompongo la serie storica attraverso le medie mobili |Decompongo la serie con il metodo LOESS | Livellamento esponenziale con il metodo di Holt-Winters e previsione | Indagare le serie storiche con i modelli ARIMA | Il rumore bianco (white noise) | La passeggiata aleatoria (random walk) | Il modello ARIMA in azione | Vediamo un esempio pratico di modello ARIMA.