Nel 1847, il matematico francese Augustin-Louis Cauchy stava lavorando su calcoli astronomici, quando ideò un metodo comune di ottimizzazione ora noto come discesa del gradiente. Oggi la maggior parte dei programmi di machine learning si basa su questa tecnica, e anche altri campi la usano per analizzare dati e risolvere problemi ingegneristici.
I ricercatori hanno perfezionato la discesa del gradiente per oltre 150 anni, ma un recente studio ha dimostrato che un suo presupposto di base potrebbe essere sbagliato. Il lavoro ha mostrato che la tecnica può funzionare quasi 3 volte più velocemente se infrange una regola accettata da tempo su come trovare la soluzione ottimale.
La discesa del gradiente usa una “funzione di costo1” per capire dove si trova il punto ottimo. Gli algoritmi si muovono seguendo il gradiente più ripido della curva per raggiungere il minimo della funzione.
La saggezza consolidata è che l’algoritmo debba muoversi con piccoli passi per non “oltrepassare” la soluzione. Ma il nuovo studio ha scoperto che una sequenza con un grande passo al centro converge più velocemente. Questo approccio ciclico con un “salto gigante” può arrivare al punto ottimo 3 volte più rapidamente.
La ricerca rimette in discussione l’intuizione su come funziona al meglio la discesa del gradiente. Anche se difficilmente cambierà l’uso pratico della tecnica, costringe a riconsiderare la teoria che vi è dietro.
Fonte: Quanta Magazine
In questo articolo: Come scegliere chi misurare: i tipi di campionamento La dimensione campionaria: la…
Una delle domande più ricorrenti quando si progetta un A/B test è: quanti utenti mi…
Tre metodi statistici per identificare valori anomali nei dati: z-score, IQR di Tukey e test…
Abbiamo avuto modo di esaminare, nel corso dei precedenti articoli, l'inferenza statistica da una prospettiva…
Abbiamo avuto modo di esaminare, nel corso dei precedenti articoli, come funziona il test delle…
Abbiamo avuto modo di esaminare, nel corso dei precedenti articoli, la distribuzione normale e le…