L'erreur de prédiction est l'erreur entre la prédiction d'être récompensé et la récompense réellement obtenue ou non.
🧠
Pour notre cerveau, l'erreur s'entend comme un écart par rapport à ses attentes, que cet égard soit négatif ou positif. ⭕✅
D'abord au moment de la récompense réelle puis ensuite, par expérience, avant que celle-ci n'arrive, le cerveau (neurones du mésencéphale) libère de la dopamine. Il s'attend à être récompensé. Si la récompense disparaît, la dopamine diminue.
🔹️ Au début, l'erreur est positive : plus de récompense qu'attendu 🔹️ Ensuite, l'erreur est nulle : autant que récompense qu'attendu 🔹️ Enfin, l'erreur est négative : moins de récompense qu'attendu
L'apprentissage par renforcement est l'apprentissage des actions à mener afin d'optimiser la survenue d'une récompense.
🧠
Par essais-erreurs, par expérience, un comportement optimal apparaît. Dans le cerveau, c'est au niveau des ganglions de la base qu'est libérée la dopamine, et cette dernière contribue à renforcer les connexions entre certains neurones et donc l'apprentissage. 🤓
L'apprentissage par renforcement est l'un des axes de développement de l'intelligence artificielle et du deep learning. 🤖
Good blog ppost