Also known as TD Models
metodi di reinforcement learning
Il temporal difference (TD) learning, ovvero l'apprendimento mediante differenza temporale, indica una classe di metodi di reinforcement learning che basano il proprio apprendimento sul bootstrap dalla stima corrente della funzione obiettivo: questi metodi campionano dall'ambiente, così come il Metodo Monte Carlo, ma eseguono gli aggiornamenti della funzione di valore di stato basandosi sulle stime correnti, come avviene, invece, nella programmazione dinamica. A differenza dei metodi Monte Carlo che modificano le loro stime solo quando il risultato finale è noto, questi metodi di distanza temporale adattano le proprie previsioni in modo dinamico, così da avere previsioni sul futuro più accurate, prima ancora che il risultato finale sia a disposizione. Questa è, appunto, una forma di bootstrap, come si evince dal seguente esempio: "Supponi di voler prevedere il tempo per sabato e di avere un modello che prevede il tempo di sabato, avendo a disposizione il clima di ogni giorno della settimana. Di norma, aspetteresti fino a sabato e solo allora aggiusterai tutti i tuoi modelli. Tuttavia, quando è, ad esempio, venerdì, dovresti già avere una buona idea di come potrebbe essere il tempo sabato - e quindi essere in grado di cambiare, diciamo, il modello di sabato prima dell'arrivo di sabato". I metodi di differenza temporale sono in stretta correlazione al modello di differenza temporale dell'apprendimento animale.
Abstract from DBpedia / Wikipedia · CC BY-SA
via Wikidata sitelinks · CC0
Discovered by embedding cosine similarity (sentence-transformers MiniLM, 384-dim).