Paolo Gironi - appunti di analisi dei dati,seo,statistica, retroinformatica

La biblioteca di Statistica e SEO: i libri che consiglio (e perché)

C’è una domanda che torna, puntuale, ogni volta che pubblico un articolo di questo percorso: «ma per studiare queste cose, che libro consigli?». Finora ho risposto un pezzo alla volta, nella sezione “Per approfondire” che chiude ogni articolo. Qui faccio l’operazione inversa: raccolgo tutta la biblioteca in una pagina sola, con il motivo per cui ogni titolo si è guadagnato il posto.

Non è una classifica e non è un catalogo: sono i libri che uso davvero, quelli da cui provengono molti degli esempi e delle spiegazioni che trovate negli articoli. Pochi, scelti con un criterio semplice: ogni libro deve far fare un passo avanti concreto a chi lavora con i dati nella SEO e nel marketing, senza richiedere una laurea in matematica.

Il Paradosso di Simpson nella SEO: quando i dati aggregati possono mentire

È l’ultimo giorno del mese. Stiamo preparando il report SEO per il cliente principale. Apriamo Google Search Console, impostiamo il confronto mese su mese e un brivido ci corre lungo la schiena: il CTR organico globale del sito è crollato dal 4,5% al 3,5%.

Prima di scrivere l’email con le cattive notizie e prepararci a giustificare il calo, facciamo la cosa giusta: disaggreghiamo i dati per capire dove stiamo perdendo colpi. Guardiamo le performance per dispositivo e scopriamo una cosa apparentemente impossibile:

Il CTR su Desktop è salito dal 5,0% al 5,5%.
Il CTR su Mobile è salito dal 2,0% al 2,5%.

Fissiamo lo schermo. Com’è matematicamente possibile che le performance siano migliorate ovunque, ma il totale generale sia crollato di un punto percentuale netto?

Campionamento e Dimensione Campionaria: Quanti Dati Servono?

In questo articolo:

Come scegliere chi misurare: i tipi di campionamento
La dimensione campionaria: la matematica dietro la stima
Calcoliamolo in R e Python
Dalla stima all’A/B Testing
Errore campionario vs Bias
Prova tu

Nella vita di tutti i giorni, come nella web analytics, dobbiamo spesso prendere decisioni basate su informazioni incomplete. Quanti dati mi servono per capire se questa modifica alla landing page ha funzionato? Mille visite bastano? Diecimila sono troppe?

Calcolatore Sample Size per A/B Test

Una delle domande più ricorrenti quando si progetta un A/B test è: quanti utenti mi servono per ottenere un risultato affidabile? La risposta non è un numero magico: dipende da quanto è grande l’effetto che vogliamo rilevare, dal tasso di conversione di partenza e dal livello di certezza statistica che desideriamo raggiungere.

Calcolare in anticipo la dimensione campionaria (sample size) è un passaggio fondamentale per evitare due errori classici: fermare il test troppo presto, dichiarando un vincitore che non c’è, oppure lasciarlo correre troppo a lungo, sprecando traffico e tempo. In altri termini, si tratta di trovare il punto di equilibrio tra risorse e rigore.

Chi ha letto l’articolo sul A/B Testing ricorderà che la power analysis è il metodo statistico che ci permette di determinare questa soglia. E chi ha approfondito gli intervalli di confidenza sa già che livello di significatività e potenza del test non sono concetti astratti, ma leve operative che influenzano direttamente la dimensione del campione.

Leggi tutto “Calcolatore Sample Size per A/B Test”

Anomaly detection: come identificare valori anomali nei dati

Tre metodi statistici per identificare valori anomali nei dati: z-score, IQR di Tukey e test di Grubbs. Come distinguere il rumore dai segnali importanti, con esempi pratici in R su dati di traffico web.

Abbiamo avuto modo di esaminare, nel corso di questo percorso, strumenti per descrivere i dati, per testare ipotesi, per costruire modelli. Ma c’è una domanda che precede tutte le altre, e che troppo spesso viene ignorata: questi dati sono affidabili?

In qualsiasi dataset — sessioni giornaliere, click organici, tassi di conversione — possono nascondersi valori che non si comportano come gli altri. Valori che si discostano in modo anomalo dal resto della distribuzione. In statistica li chiamiamo outlier, o valori anomali.

Un punto va chiarito subito: un valore anomalo non è necessariamente un errore. Può essere un errore di misurazione, certo (un tag di tracciamento rotto, un bot che gonfia le sessioni). Ma può anche essere il segnale più importante dell’intero dataset: un aggiornamento dell’algoritmo di Google, un contenuto che diventa virale, un problema tecnico che abbatte il traffico. La questione non è eliminare le anomalie, ma riconoscerle — e poi decidere cosa farne.

In questo articolo esaminiamo tre metodi statistici per identificare i valori anomali, dal più intuitivo al più formale. Per ciascuno vedremo la logica, i limiti e l’applicazione pratica con R.

Leggi tutto “Anomaly detection: come identificare valori anomali nei dati”