En l'aprenentatge per reforç (RL), un algorisme sense model (a diferència d'un basat en models) és un algorisme que no estima la distribució de probabilitat de transició (i la funció de recompensa ) associada al procés de decisió de Markov (MDP),[1] que, en RL, representa el problema a resoldre. La distribució de probabilitat de transició (o model de transició) i la funció de recompensa sovint s'anomenen col·lectivament "model" de l'entorn (o MDP), d'aquí el nom "sense model". Un algorisme de RL sense model es pot pensar com un algorisme d'assaig i error "explícit".[1] Un exemple d'algorisme sense models és Q-learning.[2][3][4]