En intelligence artificielle, et plus précisément en apprentissage automatique, l'apprentissage par renforcement inverse cherche à apprendre la fonction de récompense à partir de comportements d'expert[1]. En d'autres termes, c'est l'inverse de l'apprentissage par renforcement qui, elle, cherche à apprendre de bons comportements à partir de récompenses qui sont fixées.
Motivation
En apprentissage par renforcement classique, un agent (un robot par exemple) apprend à prendre des décisions de la façon suivante. Il perçoit l'état courant s. Il décide alors d'une action a. L'environnement l'informe alors du nouvel état s' et d'une récompense. La récompense signale à l'agent si son action est correcte ou mauvaise. Par exemple, si le robot réussit son but, on lui donne une bonne récompense. S'il tombe dans un trou, il perd ; autrement dit, on lui donne une récompense négative.
Comme expliqué par Saurabh Arora et Prashant Doshi, le problème est qu'il faut modéliser les récompenses à la main. Dans certaines applications, comme le contrôle d'un hélicoptère[2], les récompenses sont difficiles à formaliser car elles viennent d'une connaissance experte fine. Ainsi, l'idée de l'apprentissage par renforcement inverse est d'apprendre ces récompenses depuis des scénarios d'expert. Par exemple, le système apprend les récompenses à partir du pilotage d'un hélicoptère par un expert humain.
↑(en) Saurabh Arora et Prashant Doshi, « A survey of inverse reinforcement learning: Challenges, methods and progress », Artificial Intelligence, vol. 297, , p. 103500 (ISSN0004-3702, DOI10.1016/j.artint.2021.103500, lire en ligne, consulté le )
↑Brian D. Ziebart, J. Andrew Bagnell et Anind K. Dey, « Modeling interaction via the principle of maximum causal entropy », Proceedings of the 27th International Conference on International Conference on Machine Learning, Omnipress, iCML'10, , p. 1255–1262 (ISBN978-1-60558-907-7, DOI10.5555/3104322.3104481, lire en ligne, consulté le )