Machine learning e regressione: il percorso completo in R

C’è un confine che molti immaginano netto e che invece non esiste: quello tra la statistica “di sempre” e il machine learning. Da una parte la regressione, che a scuola si presenta come una retta tirata in mezzo a una nuvola di punti; dall’altra gli algoritmi che apprendono dai dati, circondati da un’aura quasi misteriosa. In realtà il machine learning non è un mondo a parte: è il proseguimento naturale della stessa idea che muove la regressione — usare ciò che abbiamo osservato per dire qualcosa su ciò che ancora non abbiamo visto. Una retta che prevede le vendite a partire dalla spesa pubblicitaria e un albero decisionale che classifica i visitatori in clienti e non clienti rispondono, in fondo, alla stessa domanda: dato quello che so, cosa è ragionevole aspettarmi?

Capire questo legame, però, non significa saltare a piè pari sugli algoritmi più alla moda. Significa percorrere una strada che parte dalla relazione più semplice tra due grandezze — la correlazione — sale fino ai modelli di regressione che mettono in conto più variabili insieme, impara a riconoscere quando quei modelli scricchiolano, e solo allora attraversa il confine verso gli algoritmi che chiamiamo machine learning veri e propri. Affrontati in quest’ordine, gli alberi decisionali, la discesa del gradiente e la riduzione delle dimensioni smettono di sembrare magia e si rivelano per quello che sono: estensioni ingegnose di idee che già conoscevamo.

Questa pagina è quella strada, ordinata. Non rispieghiamo qui la teoria: ogni tappa è un articolo del blog, e l’ordine in cui le abbiamo messe è l’ordine in cui conviene leggerle. Chi parte da zero può seguirle in sequenza; chi ha già delle basi può saltare al gruppo che gli serve. Le due sezioni che seguono — prima la regressione, poi il machine learning — sono i due versanti di un unico crinale. Cominciamo dal versante che conosciamo meglio.

La regressione

Prima degli algoritmi che apprendono serve padroneggiare il modo più antico e collaudato di legare le variabili tra loro: spiegare o prevedere una grandezza a partire da una o più altre. È il cuore della statistica applicata, ed è anche il terreno su cui poggiano, spesso senza dirlo, molti modelli di machine learning.
Chi sa leggere davvero una regressione ha già in mano metà degli strumenti concettuali che gli serviranno più avanti.

La correlazione è il punto di partenza non negoziabile. Misura se e quanto due grandezze si muovono insieme — la spesa in annunci e le conversioni, il tempo sulla pagina e il tasso di acquisto — riassumendo in un solo numero la forza del loro legame. È la prima domanda da porsi davanti a due variabili, e capirla bene insegna anche la lezione più importante di tutto il percorso: correlazione non è causa.

La regressione lineare semplice compie il passo successivo: dalla constatazione che due grandezze si muovono insieme alla costruzione di un modello che usa l’una per prevedere l’altra. È la retta tirata tra i punti, sì, ma soprattutto è il primo modello predittivo vero, quello da cui ogni cosa più complessa prende le mosse. Qui si imparano i concetti — coefficienti, residui, bontà di adattamento — che torneranno in ogni tappa successiva.

La regressione multipla generalizza l’idea al caso realistico: non una sola causa, ma molte che agiscono insieme. Le vendite non dipendono solo dal budget pubblicitario, ma anche dalla stagione, dal prezzo, dal canale. Imparare a far convivere più predittori nello stesso modello — e a interpretarne i pesi senza ingannarsi — è il salto che porta dalla statistica da manuale ai problemi reali.

Multicollinearità, eteroschedasticità e autocorrelazione sono i tre modi più comuni in cui una regressione, all’apparenza impeccabile, ci tradisce. Variabili troppo legate tra loro, errori che non si comportano come dovrebbero, residui che si trascinano nel tempo: riconoscere questi sintomi è ciò che distingue chi applica un modello a occhi chiusi da chi sa quando fidarsene. È la tappa che insegna la prudenza.

La regressione logistica chiude la sezione spostando il tiro dal quanto al se: non più prevedere un valore numerico, ma la probabilità che un evento accada — un clic, una conversione, un abbandono. È il modello che fa da cerniera verso il machine learning, perché è al tempo stesso una regressione a tutti gli effetti e uno dei classificatori più usati in assoluto. Chi la padroneggia ha già messo un piede sull’altro versante.

Il machine learning

Superata la regressione, il confine si attraversa quasi senza accorgersene. Gli algoritmi di questa sezione condividono lo stesso obiettivo — imparare dai dati per prevedere o classificare — ma lo perseguono con strumenti più flessibili, capaci di cogliere relazioni che una retta non vedrebbe mai.
Qui il vocabolario cambia un po’ (training, feature, overfitting), ma la logica di fondo resta quella che abbiamo costruito fin qui.

I concetti di base del machine learning sono la mappa d’ingresso a questo territorio. Cosa significa davvero “addestrare” un modello, qual è la differenza tra apprendimento supervisionato e non supervisionato, perché un modello che va benissimo sui dati di addestramento può fallire miseramente su quelli nuovi: sono le idee che danno senso a tutto ciò che segue, e conviene fissarle prima di toccare un singolo algoritmo.

Gli alberi decisionali sono spesso il primo algoritmo di machine learning che conviene incontrare, perché ragionano nel modo più umano che ci sia: una sequenza di domande sì/no che, passo dopo passo, separa i casi in gruppi sempre più omogenei. Sono intuitivi, si leggono a colpo d’occhio, e costituiscono il mattone con cui si costruiscono modelli ben più potenti come le foreste casuali. Sono il ponte ideale tra la regressione e gli algoritmi più astratti.

La discesa del gradiente è il motore che, dietro le quinte, fa funzionare una quantità enorme di modelli — dalla stessa regressione fino alle reti neurali. È il metodo con cui un algoritmo impara: aggiustando i propri parametri un piccolo passo alla volta, scendendo lungo la superficie dell’errore fino al punto più basso che riesce a raggiungere. Capirne l’idea, semplice e potente, svela cosa accade davvero quando diciamo che “il modello si addestra”.

L’analisi delle componenti principali (PCA) affronta il problema opposto rispetto alla previsione: non aggiungere informazione, ma ridurla senza perderne l’essenziale. Quando le variabili in gioco sono decine, la PCA le comprime in poche dimensioni nuove che ne catturano la maggior parte della variabilità, rendendo i dati leggibili e i modelli più snelli. È l’esempio più elegante di apprendimento non supervisionato, e chiude il percorso mostrando che il machine learning non serve solo a prevedere, ma anche a vedere meglio ciò che abbiamo davanti.

Da dove cominciare

Se questo è il primo contatto con la materia, il punto d’ingresso è uno solo: la correlazione e, subito dopo, la regressione lineare semplice. Sono le due tappe da cui tutto il resto prende senso; affrontati gli algoritmi più sofisticati senza questa base, prima o poi si torna sempre qui, alla domanda elementare di come una grandezza dipenda da un’altra.

Questo è uno dei percorsi tematici che stiamo costruendo per orientarsi tra gli articoli del blog: la regressione e il machine learning sono il modo in cui i dati passano dalla descrizione alla previsione. Chi vuole le fondamenta che vengono prima — descrivere e riassumere i dati — le trova nel percorso di statistica di base; chi vuole capire come si stabilisce se un effetto è reale o solo apparente — il terreno su cui ogni modello, prima o poi, va messo alla prova — può passare al percorso dedicato alla statistica inferenziale, la cassetta degli attrezzi da cui anche il machine learning, presto o tardi, finisce per attingere.