Categories: aistatistica

La Discesa del Gradiente: un nuovo studio mette in discussione un assunto base sull’ottimizzazione

Nel 1847, il matematico francese Augustin-Louis Cauchy stava lavorando su calcoli astronomici, quando ideò un metodo comune di ottimizzazione ora noto come discesa del gradiente. Oggi la maggior parte dei programmi di machine learning si basa su questa tecnica, e anche altri campi la usano per analizzare dati e risolvere problemi ingegneristici.

I ricercatori hanno perfezionato la discesa del gradiente per oltre 150 anni, ma un recente studio ha dimostrato che un suo presupposto di base potrebbe essere sbagliato. Il lavoro ha mostrato che la tecnica può funzionare quasi 3 volte più velocemente se infrange una regola accettata da tempo su come trovare la soluzione ottimale.

La discesa del gradiente usa una “funzione di costo1” per capire dove si trova il punto ottimo. Gli algoritmi si muovono seguendo il gradiente più ripido della curva per raggiungere il minimo della funzione.

La saggezza consolidata è che l’algoritmo debba muoversi con piccoli passi per non “oltrepassare” la soluzione. Ma il nuovo studio ha scoperto che una sequenza con un grande passo al centro converge più velocemente. Questo approccio ciclico con un “salto gigante” può arrivare al punto ottimo 3 volte più rapidamente.

La ricerca rimette in discussione l’intuizione su come funziona al meglio la discesa del gradiente. Anche se difficilmente cambierà l’uso pratico della tecnica, costringe a riconsiderare la teoria che vi è dietro.


Fonte: Quanta Magazine


  1. Una “funzione di costo” è una misura quantitativa che valuta l’adeguatezza delle previsioni generate da un modello rispetto ai dati di addestramento. In termini più precisi, una funzione di costo assegna un valore numerico a ciascuna previsione del modello in base alla discrepanza tra la previsione e il valore reale associato. L’obiettivo della funzione di costo è minimizzare questo valore numerico, indicando una migliore aderenza del modello ai dati di addestramento. In molti algoritmi di apprendimento automatico, la scelta della funzione di costo influisce sulla capacità del modello di apprendere e generalizzare correttamente dai dati. ↩︎
paolo

Recent Posts

Il peeking problem: perché sbirciare l’A/B test gonfia i falsi positivi

Il 21 gennaio 2015 Optimizely — una delle piattaforme di A/B testing più usate al…

2 giorni ago

Regressione verso la media: l’ottimizzazione SEO che ha funzionato… per caso

Nell'aeronautica militare israeliana, racconta Daniel Kahneman, gli istruttori erano convinti di una cosa: lodare un…

3 giorni ago

Correlazione: Pearson, Spearman e Kendall (e perché non è causazione)

Chi guarda i dati di un sito lo fa di continuo, spesso senza nemmeno accorgersene,…

6 giorni ago

Effect size e power analysis: quanto è grande l’effetto (e quanti dati servono)

Abbiamo chiuso l'articolo sul calcolatore di significatività con una promessa. Dicevamo che il p-value risponde…

1 settimana ago

Calcolatore di Significatività per A/B Test

Il nostro A/B test è arrivato alla fine: la variante B mostra un tasso di…

2 settimane ago

La biblioteca di Statistica e SEO: i libri che consiglio (e perché)

C'è una domanda che torna, puntuale, ogni volta che pubblico un articolo di questo percorso:…

2 settimane ago