C’è una domanda che torna, puntuale, ogni volta che pubblico un articolo di questo percorso: «ma per studiare queste cose, che libro consigli?». Finora ho risposto un pezzo alla volta, nella sezione “Per approfondire” che chiude ogni articolo. Qui faccio l’operazione inversa: raccolgo tutta la biblioteca in una pagina sola, con il motivo per cui ogni titolo si è guadagnato il posto.
Non è una classifica e non è un catalogo: sono i libri che uso davvero, quelli da cui provengono molti degli esempi e delle spiegazioni che trovate negli articoli. Pochi, scelti con un criterio semplice: ogni libro deve far fare un passo avanti concreto a chi lavora con i dati nella SEO e nel marketing, senza richiedere una laurea in matematica.
Una nota di trasparenza, prima di cominciare: i link che seguono sono affiliati Amazon. Se acquistate un libro passando da qui, il blog riceve una piccola commissione, senza alcun costo aggiuntivo per voi: è il modo più indolore che ho trovato per coprire le spese del server.
Da dove cominciare
L’arte della statistica — David Spiegelhalter
Se dovessi salvarne uno solo, sarebbe questo. L’arte della statistica non insegna le formule: insegna a ragionare sui dati prima di fidarsene, che è esattamente la competenza che manca a chi legge un report di Search Console e trae conclusioni affrettate. Spiegelhalter — professore a Cambridge e divulgatore di rara chiarezza — costruisce ogni capitolo attorno a un caso reale: sondaggi sbagliati, statistiche mediche fraintese, il celebre caso delle ammissioni a Berkeley (lo stesso caso che ho raccontato parlando del Paradosso di Simpson).
Lo cito praticamente ovunque nel blog: dal campionamento agli intervalli di confidenza, passando per il Teorema del Limite Centrale. Si legge senza carta e penna, e si rilegge con profitto. (Per chi preferisce l’originale inglese: The Art of Statistics.)
Finalmente ho capito la statistica — Maurizio De Pra
Il titolo dice tutto. Finalmente ho capito la statistica è il libro per chi parte da zero e vuole un percorso graduale, con tanti esempi e un prezzo contenuto. Copre bene il territorio delle distribuzioni di probabilità — quelle che nel percorso del blog vanno dalla Poisson alla Beta — e i fondamenti del ragionamento probabilistico. Non sostituisce un manuale, ma fa quello che un manuale non sa fare: togliere la paura.
Quando i dati mentono
Mentire con le statistiche — Darrell Huff
Scritto nel 1954 e mai invecchiato. Mentire con le statistiche è il catalogo, breve e velenoso, dei trucchi con cui i numeri possono essere usati per ingannare: campioni distorti, medie scelte ad arte, grafici con gli assi tagliati, percentuali senza contesto. Huff scriveva per i lettori dei giornali; io lo consiglio a chi legge i report dei tool SEO e le slide dei fornitori, dove quegli stessi trucchi prosperano ancora oggi. Chi è passato per il Paradosso di Simpson sa già che i dati aggregati possono mentire: Huff completa il quadro con tutti gli altri modi.
Si legge in un pomeriggio, e da quel pomeriggio in poi i grafici non si guardano più con gli stessi occhi. (Originale inglese: How to Lie with Statistics.)
Il manuale per fare sul serio: l’inferenza
Statistica — Newbold, Carlson, Thorne
Prima o poi arriva il momento in cui la divulgazione non basta più: servono le condizioni di applicabilità di un test, le formule complete, gli esercizi per verificare di aver capito. Statistica di Newbold, Carlson e Thorne è il manuale universitario di riferimento in italiano per tutta l’inferenza: test delle ipotesi, intervalli di confidenza, chi quadrato, ANOVA — in pratica, la spina dorsale teorica della mia guida ai test statistici per le analisi A/B.
Va detto con franchezza: è un manuale universitario, e costa come un manuale universitario. Ma è uno di quei libri che si comprano una volta e si consultano per anni.
Regressione, serie storiche, modelli
Introduzione all’econometria — Stock, Watson
Il nome può intimidire (econometria?), ma il contenuto è esattamente ciò che serve a chi vuole andare oltre la regressione lineare di base: regressione multipla, variabili omesse, diagnostica, serie storiche. Introduzione all’econometria di Stock e Watson ha una qualità che nei manuali è rara: l’attenzione costante all’interpretazione dei risultati, non solo al loro calcolo. Che poi è il punto in cui si gioca la differenza tra un’analisi utile e un esercizio di stile.
L’arte (fallibile) della previsione
Il segnale e il rumore — Nate Silver
Chi lavora con i dati prima o poi deve fare una previsione — e una stima del traffico organico del prossimo trimestre è una previsione a tutti gli effetti. Il segnale e il rumore racconta perché le previsioni falliscono così spesso: troppa fiducia nei modelli, la tentazione di scambiare il rumore per il segnale, l’incapacità di ragionare in termini di probabilità. Silver — l’uomo che azzeccò l’esito delle presidenziali USA del 2012 in tutti e cinquanta gli stati — attraversa poker, terremoti, meteorologia e finanza, e strada facendo offre la migliore introduzione narrativa al ragionamento bayesiano che io conosca. È il complemento divulgativo del capitolo sulle serie storiche: prima si impara a costruire una previsione, poi si impara a diffidarne. (Originale inglese: The Signal and the Noise.)
La sperimentazione online
Trustworthy Online Controlled Experiments — Kohavi, Tang, Xu
Sull’A/B testing non esiste un equivalente italiano, e francamente nemmeno un equivalente inglese: Trustworthy Online Controlled Experiments è il libro sull’argomento, scritto da chi ha guidato la sperimentazione in Microsoft, Google e LinkedIn. Dentro c’è tutto quello che ho toccato negli articoli — sample size, potenza del test, errori da evitare — più dieci anni di casi reali su cosa va storto negli esperimenti veri. L’ho usato anche per costruire il mio calcolatore di sample size. In inglese, ma di lettura scorrevole.
Il percorso bayesiano
Bayesian Statistics the Fun Way — Will Kurt
La statistica bayesiana ha fama di essere ostica, e i suoi manuali fanno di tutto per confermarla. Bayesian Statistics the Fun Way fa il contrario: Will Kurt spiega prior, posterior e aggiornamento bayesiano con esempi presi da Star Wars e dai Lego, e — cosa che apprezzo particolarmente — usa R per la parte computazionale, esattamente come faccio qui. È il libro giusto per capire la logica bayesiana (e il perché della distribuzione Beta) prima di affrontare la teoria formale.
Verso il machine learning
An Introduction to Statistical Learning — James, Witten, Hastie, Tibshirani
Il classico contemporaneo dell’apprendimento statistico, noto a tutti come “ISL”. An Introduction to Statistical Learning copre con il giusto equilibrio tra intuizione e formalismo gli argomenti della parte più avanzata del percorso: regressione logistica, alberi decisionali, PCA, con laboratori pratici in R. N.b.: gli autori distribuiscono gratuitamente il PDF dal loro sito — la versione cartacea resta per chi, come me, sui libri di studio preferisce scrivere a matita.
Introduction to Machine Learning — Ethem Alpaydın
Per chi vuole le fondamenta teoriche del machine learning — quelle che in un corso universitario starebbero prima dei laboratori — Introduction to Machine Learning di Alpaydın è il riferimento che ho citato nella mia guida introduttiva al ML. Più formale di ISL: da prendere dopo, non al posto di.
Il linguaggio di lavoro: R
R for Data Science — Wickham, Çetinkaya-Rundel, Grolemund
C’era un buco evidente in questo scaffale: il codice R compare in quasi ogni articolo del blog — dal test del chi quadrato alle serie storiche — ma mancava il libro per impararlo. R for Data Science (seconda edizione) colma il buco: Hadley Wickham è l’autore del tidyverse, l’ecosistema di pacchetti che ha reso R moderno, e il libro insegna l’intero flusso di lavoro — importare, pulire, trasformare, visualizzare, comunicare — su dati veri, senza teoria superflua. Anche questo, come ISL, si legge gratuitamente online sul sito degli autori: un motivo in più per non avere scuse.
Comunicare i dati
Storytelling with Data — Cole Nussbaumer Knaflic
L’analisi più rigorosa del mondo vale poco se chi la riceve non la capisce — e nel marketing un’analisi va quasi sempre raccontata a qualcuno: un cliente, un responsabile, una riunione. Storytelling with Data insegna a trasformare i grafici di default di Excel e Looker Studio in messaggi chiari: scegliere il grafico giusto, eliminare l’inchiostro che non informa, guidare l’attenzione dove serve, costruire una narrazione attorno al numero. Di tutto lo scaffale è probabilmente il libro che si ripaga più in fretta: si applica già al prossimo report. (Per chi preferisce l’italiano: Data storytelling, edizioni Apogeo.)
Una lettura di nicchia
Monte Carlo Methods in Financial Engineering — Paul Glasserman
Questo è il libro più specialistico dello scaffale, e lo segnalo per onestà verso chi è arrivato al metodo Monte Carlo e vuole andare fino in fondo: Monte Carlo Methods in Financial Engineering di Glasserman è il riferimento completo sulla simulazione applicata alla finanza. Non è una lettura da ombrellone: è il testo a cui si arriva quando gli altri non bastano più.
La biblioteca in uno sguardo
Per orientarsi al volo, ecco lo scaffale completo in forma di tabella:
| Libro | Per chi | Lingua |
|---|---|---|
| L’arte della statistica — Spiegelhalter | Tutti: il punto di partenza | IT (anche EN) |
| Finalmente ho capito la statistica — De Pra | Chi parte da zero, distribuzioni | IT |
| Mentire con le statistiche — Huff | Difendersi dai numeri truccati | IT (anche EN) |
| Statistica — Newbold, Carlson, Thorne | Chi vuole il rigore: inferenza e test | IT |
| Introduzione all’econometria — Stock, Watson | Regressione e serie storiche | IT |
| Il segnale e il rumore — Silver | Capire perché le previsioni falliscono | IT (anche EN) |
| Trustworthy Online Controlled Experiments — Kohavi et al. | A/B testing e sperimentazione | EN |
| Bayesian Statistics the Fun Way — Kurt | Approccio bayesiano, con R | EN |
| An Introduction to Statistical Learning — James et al. | Machine learning pratico, con R | EN |
| Introduction to Machine Learning — Alpaydın | Fondamenta teoriche del ML | EN |
| R for Data Science — Wickham et al. | Imparare R, dal dato grezzo al grafico | EN |
| Storytelling with Data — Knaflic | Comunicare dati e report | EN (anche IT) |
| Monte Carlo Methods in Financial Engineering — Glasserman | Simulazione avanzata | EN |
Questo scaffale non è chiuso. Man mano che il percorso del blog si allarga — i paradossi statistici di cui ho cominciato a parlare, il bootstrap, l’analisi dei testi — si allargherà anche la biblioteca, e questa pagina verrà aggiornata di conseguenza. Nel frattempo, se un solo consiglio dovesse bastare: si parta da Spiegelhalter, e gli articoli di questo blog facciano da palestra.