La biblioteca di Statistica e SEO: i libri che consiglio (e perché)

C’è una domanda che torna, puntuale, ogni volta che pubblico un articolo di questo percorso: «ma per studiare queste cose, che libro consigli?». Finora ho risposto un pezzo alla volta, nella sezione “Per approfondire” che chiude ogni articolo. Qui faccio l’operazione inversa: raccolgo tutta la biblioteca in una pagina sola, con il motivo per cui ogni titolo si è guadagnato il posto.

Non è una classifica e non è un catalogo: sono i libri che uso davvero, quelli da cui provengono molti degli esempi e delle spiegazioni che trovate negli articoli. Pochi, scelti con un criterio semplice: ogni libro deve far fare un passo avanti concreto a chi lavora con i dati nella SEO e nel marketing, senza richiedere una laurea in matematica.

Una nota di trasparenza, prima di cominciare: i link che seguono sono affiliati Amazon. Se acquistate un libro passando da qui, il blog riceve una piccola commissione, senza alcun costo aggiuntivo per voi: è il modo più indolore che ho trovato per coprire le spese del server.

Da dove cominciare

L’arte della statistica — David Spiegelhalter

Se dovessi salvarne uno solo, sarebbe questo. L’arte della statistica non insegna le formule: insegna a ragionare sui dati prima di fidarsene, che è esattamente la competenza che manca a chi legge un report di Search Console e trae conclusioni affrettate. Spiegelhalter — professore a Cambridge e divulgatore di rara chiarezza — costruisce ogni capitolo attorno a un caso reale: sondaggi sbagliati, statistiche mediche fraintese, il celebre caso delle ammissioni a Berkeley (lo stesso caso che ho raccontato parlando del Paradosso di Simpson).

Lo cito praticamente ovunque nel blog: dal campionamento agli intervalli di confidenza, passando per il Teorema del Limite Centrale. Si legge senza carta e penna, e si rilegge con profitto. (Per chi preferisce l’originale inglese: The Art of Statistics.)

Finalmente ho capito la statistica — Maurizio De Pra

Il titolo dice tutto. Finalmente ho capito la statistica è il libro per chi parte da zero e vuole un percorso graduale, con tanti esempi e un prezzo contenuto. Copre bene il territorio delle distribuzioni di probabilità — quelle che nel percorso del blog vanno dalla Poisson alla Beta — e i fondamenti del ragionamento probabilistico. Non sostituisce un manuale, ma fa quello che un manuale non sa fare: togliere la paura.

Quando i dati mentono

Mentire con le statistiche — Darrell Huff

Scritto nel 1954 e mai invecchiato. Mentire con le statistiche è il catalogo, breve e velenoso, dei trucchi con cui i numeri possono essere usati per ingannare: campioni distorti, medie scelte ad arte, grafici con gli assi tagliati, percentuali senza contesto. Huff scriveva per i lettori dei giornali; io lo consiglio a chi legge i report dei tool SEO e le slide dei fornitori, dove quegli stessi trucchi prosperano ancora oggi. Chi è passato per il Paradosso di Simpson sa già che i dati aggregati possono mentire: Huff completa il quadro con tutti gli altri modi.

Si legge in un pomeriggio, e da quel pomeriggio in poi i grafici non si guardano più con gli stessi occhi. (Originale inglese: How to Lie with Statistics.)

Il manuale per fare sul serio: l’inferenza

Statistica — Newbold, Carlson, Thorne

Prima o poi arriva il momento in cui la divulgazione non basta più: servono le condizioni di applicabilità di un test, le formule complete, gli esercizi per verificare di aver capito. Statistica di Newbold, Carlson e Thorne è il manuale universitario di riferimento in italiano per tutta l’inferenza: test delle ipotesi, intervalli di confidenza, chi quadrato, ANOVA — in pratica, la spina dorsale teorica della mia guida ai test statistici per le analisi A/B.

Va detto con franchezza: è un manuale universitario, e costa come un manuale universitario. Ma è uno di quei libri che si comprano una volta e si consultano per anni.

Regressione, serie storiche, modelli

Introduzione all’econometria — Stock, Watson

Il nome può intimidire (econometria?), ma il contenuto è esattamente ciò che serve a chi vuole andare oltre la regressione lineare di base: regressione multipla, variabili omesse, diagnostica, serie storiche. Introduzione all’econometria di Stock e Watson ha una qualità che nei manuali è rara: l’attenzione costante all’interpretazione dei risultati, non solo al loro calcolo. Che poi è il punto in cui si gioca la differenza tra un’analisi utile e un esercizio di stile.

L’arte (fallibile) della previsione

Il segnale e il rumore — Nate Silver

Chi lavora con i dati prima o poi deve fare una previsione — e una stima del traffico organico del prossimo trimestre è una previsione a tutti gli effetti. Il segnale e il rumore racconta perché le previsioni falliscono così spesso: troppa fiducia nei modelli, la tentazione di scambiare il rumore per il segnale, l’incapacità di ragionare in termini di probabilità. Silver — l’uomo che azzeccò l’esito delle presidenziali USA del 2012 in tutti e cinquanta gli stati — attraversa poker, terremoti, meteorologia e finanza, e strada facendo offre la migliore introduzione narrativa al ragionamento bayesiano che io conosca. È il complemento divulgativo del capitolo sulle serie storiche: prima si impara a costruire una previsione, poi si impara a diffidarne. (Originale inglese: The Signal and the Noise.)

La sperimentazione online

Trustworthy Online Controlled Experiments — Kohavi, Tang, Xu

Sull’A/B testing non esiste un equivalente italiano, e francamente nemmeno un equivalente inglese: Trustworthy Online Controlled Experiments è il libro sull’argomento, scritto da chi ha guidato la sperimentazione in Microsoft, Google e LinkedIn. Dentro c’è tutto quello che ho toccato negli articoli — sample size, potenza del test, errori da evitare — più dieci anni di casi reali su cosa va storto negli esperimenti veri. L’ho usato anche per costruire il mio calcolatore di sample size. In inglese, ma di lettura scorrevole.

Il percorso bayesiano

Bayesian Statistics the Fun Way — Will Kurt

La statistica bayesiana ha fama di essere ostica, e i suoi manuali fanno di tutto per confermarla. Bayesian Statistics the Fun Way fa il contrario: Will Kurt spiega prior, posterior e aggiornamento bayesiano con esempi presi da Star Wars e dai Lego, e — cosa che apprezzo particolarmente — usa R per la parte computazionale, esattamente come faccio qui. È il libro giusto per capire la logica bayesiana (e il perché della distribuzione Beta) prima di affrontare la teoria formale.

Verso il machine learning

An Introduction to Statistical Learning — James, Witten, Hastie, Tibshirani

Il classico contemporaneo dell’apprendimento statistico, noto a tutti come “ISL”. An Introduction to Statistical Learning copre con il giusto equilibrio tra intuizione e formalismo gli argomenti della parte più avanzata del percorso: regressione logistica, alberi decisionali, PCA, con laboratori pratici in R. N.b.: gli autori distribuiscono gratuitamente il PDF dal loro sito — la versione cartacea resta per chi, come me, sui libri di studio preferisce scrivere a matita.

Introduction to Machine Learning — Ethem Alpaydın

Per chi vuole le fondamenta teoriche del machine learning — quelle che in un corso universitario starebbero prima dei laboratori — Introduction to Machine Learning di Alpaydın è il riferimento che ho citato nella mia guida introduttiva al ML. Più formale di ISL: da prendere dopo, non al posto di.

Il linguaggio di lavoro: R

R for Data Science — Wickham, Çetinkaya-Rundel, Grolemund

C’era un buco evidente in questo scaffale: il codice R compare in quasi ogni articolo del blog — dal test del chi quadrato alle serie storiche — ma mancava il libro per impararlo. R for Data Science (seconda edizione) colma il buco: Hadley Wickham è l’autore del tidyverse, l’ecosistema di pacchetti che ha reso R moderno, e il libro insegna l’intero flusso di lavoro — importare, pulire, trasformare, visualizzare, comunicare — su dati veri, senza teoria superflua. Anche questo, come ISL, si legge gratuitamente online sul sito degli autori: un motivo in più per non avere scuse.

Comunicare i dati

Storytelling with Data — Cole Nussbaumer Knaflic

L’analisi più rigorosa del mondo vale poco se chi la riceve non la capisce — e nel marketing un’analisi va quasi sempre raccontata a qualcuno: un cliente, un responsabile, una riunione. Storytelling with Data insegna a trasformare i grafici di default di Excel e Looker Studio in messaggi chiari: scegliere il grafico giusto, eliminare l’inchiostro che non informa, guidare l’attenzione dove serve, costruire una narrazione attorno al numero. Di tutto lo scaffale è probabilmente il libro che si ripaga più in fretta: si applica già al prossimo report. (Per chi preferisce l’italiano: Data storytelling, edizioni Apogeo.)

Una lettura di nicchia

Monte Carlo Methods in Financial Engineering — Paul Glasserman

Questo è il libro più specialistico dello scaffale, e lo segnalo per onestà verso chi è arrivato al metodo Monte Carlo e vuole andare fino in fondo: Monte Carlo Methods in Financial Engineering di Glasserman è il riferimento completo sulla simulazione applicata alla finanza. Non è una lettura da ombrellone: è il testo a cui si arriva quando gli altri non bastano più.

La biblioteca in uno sguardo

Per orientarsi al volo, ecco lo scaffale completo in forma di tabella:

LibroPer chiLingua
L’arte della statistica — SpiegelhalterTutti: il punto di partenzaIT (anche EN)
Finalmente ho capito la statistica — De PraChi parte da zero, distribuzioniIT
Mentire con le statistiche — HuffDifendersi dai numeri truccatiIT (anche EN)
Statistica — Newbold, Carlson, ThorneChi vuole il rigore: inferenza e testIT
Introduzione all’econometria — Stock, WatsonRegressione e serie storicheIT
Il segnale e il rumore — SilverCapire perché le previsioni fallisconoIT (anche EN)
Trustworthy Online Controlled Experiments — Kohavi et al.A/B testing e sperimentazioneEN
Bayesian Statistics the Fun Way — KurtApproccio bayesiano, con REN
An Introduction to Statistical Learning — James et al.Machine learning pratico, con REN
Introduction to Machine Learning — AlpaydınFondamenta teoriche del MLEN
R for Data Science — Wickham et al.Imparare R, dal dato grezzo al graficoEN
Storytelling with Data — KnaflicComunicare dati e reportEN (anche IT)
Monte Carlo Methods in Financial Engineering — GlassermanSimulazione avanzataEN

Questo scaffale non è chiuso. Man mano che il percorso del blog si allarga — i paradossi statistici di cui ho cominciato a parlare, il bootstrap, l’analisi dei testi — si allargherà anche la biblioteca, e questa pagina verrà aggiornata di conseguenza. Nel frattempo, se un solo consiglio dovesse bastare: si parta da Spiegelhalter, e gli articoli di questo blog facciano da palestra.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *