L’approccio bayesiano: il percorso completo, dalle fondamenta al machine learning

Ogni volta che misuriamo qualcosa — il tasso di conversione di una pagina, l’efficacia di una variante, l’intento dietro una ricerca — possiamo affrontare l’incertezza in due modi. C’è la strada frequentista, che chiede ai dati un verdetto secco e ci consegna un p-value; e c’è la strada bayesiana, che parte da un’altra domanda. L’approccio bayesiano muove da ciò che già crediamo, lo mette alla prova con i dati che osserviamo, e ne ricava una convinzione aggiornata: non un sì/no, ma una probabilità che possiamo soppesare — “qual è la probabilità che questa variante sia davvero migliore?”. È un modo di ragionare più vicino a come decidiamo davvero, sotto incertezza, quando i dati sono pochi e la posta in gioco è concreta.

Imparare l’approccio bayesiano, però, non significa memorizzare il teorema di Bayes e accantonarlo. Significa percorrere una strada che parte dal capire come si aggiorna una convinzione alla luce dei dati, attraversa la stima e il confronto fra alternative — quanto vale davvero un tasso di conversione, quale di due varianti conviene — e arriva fino agli usi più operativi: ottimizzare in tempo reale dove mandare il traffico e classificare automaticamente l’intento di una ricerca. È la stessa logica, dal mattone teorico all’applicazione di machine learning.

Questa pagina è quella strada, ordinata. Non rispieghiamo qui la teoria: ogni tappa è un articolo del blog, e l’ordine in cui li abbiamo messi è l’ordine in cui conviene leggerli. Chi parte da zero può seguirli in sequenza; chi ha già delle basi può saltare al gruppo che gli serve. Le tre sezioni che seguono — le fondamenta, lo stimare e confrontare, l’ottimizzare e classificare — sono i tre movimenti di uno stesso percorso. Cominciamo dalle fondamenta.

Le fondamenta

Prima di applicare il metodo bayesiano serve capire su cosa poggia. Le due tappe di questa sezione rispondono alle domande di base: cosa significa aggiornare una convinzione con i dati, e qual è lo strumento matematico che ci permette di rappresentare l’incertezza su una proporzione.
Sono i mattoni su cui regge tutto il resto: senza di loro le applicazioni che seguono restano ricette da copiare, non strumenti da capire.

Statistica bayesiana: le fondamenta è il punto di partenza non negoziabile. Spiega il cuore del metodo — il prior, i dati, la posterior — e mostra come il teorema di Bayes non sia una formula esoterica ma il modo naturale di imparare dall’esperienza un passo alla volta. È l’articolo da leggere per primo, perché tutto il resto del percorso non fa che applicare questa stessa idea a problemi via via più concreti.

La distribuzione Beta spiegata semplice introduce lo strumento che useremo in quasi tutte le applicazioni successive. Quando ciò che vogliamo stimare è una proporzione — un tasso di conversione, una percentuale di clic — la Beta è la distribuzione che ne descrive l’incertezza, e si aggiorna con i dati in modo elegante. Capirla qui significa avere già in mano metà del lavoro per gli articoli che vengono dopo.

Stimare e confrontare

Con le fondamenta a posto, si entra nel lavoro vero. Questa sezione affronta le due domande che ricorrono ogni giorno in SEO e marketing: quanto vale davvero un tasso di conversione quando i dati sono pochi, e quale fra due varianti conviene scegliere.
Qui il vantaggio bayesiano si vede a occhio nudo: invece di un verdetto binario otteniamo una probabilità diretta, quella che davvero ci serve per decidere.

La stima bayesiana del conversion rate è la prima applicazione concreta. Mostra come passare dal numero grezzo — “3 conversioni su 100” — a una stima onesta che tiene conto di quanto pochi siano i dati, restituendo non un punto secco ma un intervallo credibile. È il modo bayesiano di non farsi ingannare dai numeri piccoli, la trappola in cui cade chi legge un tasso di conversione senza chiedersi quanta incertezza nasconda.

L’A/B test bayesiano porta lo stesso ragionamento al confronto fra due varianti. Invece di chiedersi “la differenza è significativa?”, risponde alla domanda che interessa davvero: “qual è la probabilità che B sia meglio di A, e di quanto?”. È utile leggerlo in dialogo con la versione classica del metodo — l’A/B testing frequentista, che resta il riferimento per gli esperimenti controllati — per cogliere cosa cambia, e cosa si guadagna, quando si passa dal p-value alla probabilità diretta.

Ottimizzare e classificare

L’ultima sezione porta il metodo bayesiano dove diventa quasi invisibile: dentro sistemi che decidono e classificano da soli. Le due tappe mostrano i due usi più operativi dell’idea bayesiana — allocare il traffico in tempo reale fra più alternative, e attribuire un’etichetta a un testo.
È il punto in cui la statistica bayesiana sconfina nel machine learning, senza mai smettere di essere la stessa idea di partenza.

Il multi-armed bandit e il Thompson sampling è l’evoluzione naturale dell’A/B test. Invece di aspettare la fine dell’esperimento per scegliere la variante vincente, il bandit sposta il traffico verso ciò che funziona mentre il test è in corso, riducendo il costo di tenere in vita le alternative perdenti. Il Thompson sampling è la strategia bayesiana che rende tutto questo elegante: campiona dalle posterior e lascia che l’incertezza guidi l’esplorazione.

Naive Bayes per l’intento di ricerca chiude il percorso applicando il teorema di Bayes a un problema di classificazione. Mostra come un modello sorprendentemente semplice possa assegnare a una query l’intento più probabile — informazionale, transazionale, navigazionale — a partire dalle parole che la compongono. È la prova che la stessa logica delle fondamenta, scalata a migliaia di esempi, diventa uno strumento di machine learning a tutti gli effetti.

Da dove cominciare

Se questo è il primo contatto con il metodo, il punto d’ingresso è uno solo: Statistica bayesiana: le fondamenta e, subito dopo, la distribuzione Beta. Sono le due tappe da cui tutto il resto prende senso; affrontate le applicazioni senza di esse e, prima o poi, si torna sempre lì. Chi invece arriva da un’esigenza pratica — stimare un tasso, confrontare due pagine — può partire dalla sezione che gli serve e risalire alle fondamenta quando sente il bisogno di capire perché funziona.

Questo è uno dei percorsi tematici che stiamo costruendo per orientarsi tra gli articoli del blog. Affianca quello sulla statistica inferenziale, che batte la strada frequentista: due modi diversi di rispondere alla stessa domanda sull’incertezza, e vale la pena conoscerli entrambi. L’approccio bayesiano, però, ha un suo fascino particolare — è il più vicino al modo in cui, fuori dai manuali, aggiorniamo le nostre idee ogni volta che il mondo ci porta un dato nuovo.