En théorie des probabilités et en statistique, la fonction de vraisemblance (ou plus simplement vraisemblance) est une fonction des paramètres d'un modèle statistique calculée à partir de données observées[1],[2]. Les fonctions de vraisemblance jouent un rôle clé dans l'inférence statistique fréquentiste, en particulier pour les méthodes statistiques d'estimation de paramètres, en particulier l'estimation par maximum de vraisemblance.
En inférence bayésienne, les paramètres sont eux-mêmes considérés comme des variables aléatoires, et la vraisemblance est utilisée pour calculer la probabilité a posteriori des paramètres via la loi de Bayes.
Définition
Dans le langage courant « vraisemblable » est parfois utilisé comme synonyme de « probable ». En statistique, vraisemblance et probabilité sont des concepts différents mais proches.
Une variable aléatoire représente un phénomène décrit par une loi de probabilité. En général cette loi appartient à une famille de distributions, c'est-à-dire de fonctions mathématiques, dont la forme varie en fonction d'un certain nombre de paramètres. On regroupe ces paramètres dans un vecteur noté θ.
Si on note x une réalisation de la variable aléatoire X, alors la loi de probabilité est une fonction paramétrée par θ associant à x une valeur (densité ou masse selon que la loi est discrète ou continue) :
Étant donnée une observation, les paramètres de la distribution étant connus, la fonction f permet de calculer la probabilité d'une telle observation. La vraisemblance intervient dans le cas inverse : en modélisation statistique, on observe un phénomène aléatoire, mais on ne connaît pas la distribution associée. La fonction de vraisemblance est alors
que l'on note généralement (de l'anglais likelihood).
La fonction f(x;θ) est donc une densité de probabilité vue comme une fonction de x, la valeur de θ étant fixée ; et une fonction de vraisemblance vue comme fonction de θ pour x donné.
La vraisemblance n'est pas la probabilité que θ soit la vraie valeur conditionnellement à l'observation x, bien que cette confusion soit fréquente : c'est le sophisme du procureur.
Loi de probabilité discrète
Soit X une variable aléatoire suivant une loi discrète décrite par la fonction de massep dépendant d'un paramètre θ. La vraisemblance L est une fonction de θ, étant donné une réalisation x de la variable aléatoire X, qui s'écrit alors :
.
Loi de probabilité continue
Soit X une variable aléatoire suivant une loi continue décrite par la densité de probabilitéf dépendant d'un paramètre θ. La vraisemblance L est une fonction de θ, étant donné une réalisation x de la variable aléatoire X, qui s'écrit alors :
.
Log-vraisemblance
On est souvent amené à calculer la vraisemblance d'un paramètre au regard non pas d'une seule observation, mais d'une collection d'observations indépendantes d'une même variable aléatoire , comme on l'a fait dans l'exemple précédent. Dans ce cas, la vraisemblance s'écrit comme le produit des vraisemblances de chaque observation :
.
Dans de nombreux cas, il est plus commode de manipuler le logarithme de la vraisemblance, que l'on appelle fonction log-vraisemblance. En effet, on cherche souvent à atteindre le maximum de vraisemblance. La fonction logarithme étant strictement croissante, la vraisemblance et la log-vraisemblance atteignent leur maximum au même point. De plus la recherche du maximum de vraisemblance nécessite généralement de calculer la dérivée de la vraisemblance, et cela est beaucoup plus simple avec le log-vraisemblance, dans le cas de multiples observations indépendantes, puisque le logarithme du produit des vraisemblances individuelles s'écrit comme la somme des logarithmes des vraisemblances, et qu'il est plus aisé de dériver une somme de termes qu'un produit. En effet, on a :
.
Vraisemblance relative
Soit l'estimateur du maximum de vraisemblance pour les paramètres θ d'une distribution ; on peut estimer la plausibilité d'autres valeurs de θ en comparant leur vraisemblance avec celle de . La vraisemblance relative de θ est définie par le rapport .
On est souvent amené à donner une plage de paramètres θ pour laquelle la vraisemblance relative est supérieure à une valeur donnée. Par exemple, la plage de vraisemblance à 10 % est
.
Plus généralement, la plage de vraisemblance à p % est donnée par l'ensemble
.
Si θ est un paramètre réel, cette plage de vraisemblance sera généralement un intervalle, que l'on appelle intervalle de vraisemblance. Il existe un parallèle entre le concept d'intervalle de vraisemblance et celui d'intervalle de confiance. Sous certaines conditions, pour un paramètre θ réel, un intervalle de vraisemblance à 14,7 % correspondra à un intervalle de confiance à 95 %.
La vraisemblance relative est également liée au test du rapport de vraisemblance. Le rapport de vraisemblance est le rapport de deux vraisemblances pour deux paramètres quelconques, la vraisemblance relative étant le cas particulier où l'un des deux paramètres correspond au maximum de vraisemblance.
Exemples
Pile ou face
Dans un jeu de pile ou face, on se place du point de vue d'un joueur qui ne sait pas si la pièce est équilibrée ou biaisée vers l'une des deux faces. En lançant plusieurs fois la pièce, la vraisemblance nous permettra de quantifier à quel point les observations nous renseignent sur le fait que la pièce soit ou non équilibrée.
Le modèle statistique du lancer de la pièce est représenté par une variable aléatoire discrète ayant pour valeurs pile ou face et un seul paramètre pF qui mesure à quel point la pièce est équilibrée. Plus précisément, ce paramètre pF correspond à la probabilité d'obtenir face sur un lancer, et peut prendre n'importe quelle valeur comprise entre 0 et 1. Pour une pièce parfaitement équilibrée pF = 1/2.
On lance la pièce deux fois de suite et on observe deux fois face (« FF »). En supposant que les lancers sont indépendants et identiquement distribués, la probabilité d'observer l’événement « FF » est
.
Étant donné l'observation « FF », la vraisemblance de la valeur du paramètre pF = 1/2 est égale à 1/4, ce qui s'écrit mathématiquement
.
Il est en revanche faux d'affirmer que la probabilité que la valeur de pF est égale à 1/2 sachant que la probabilité de « FF a été observé » est de 1/4. Pour évaluer cette probabilité il faut recourir au théorème de Bayes, qui indique que la probabilité a posteriori est proportionnelle au produit de la vraisemblance et de la probabilité a priori.
Si l'on suppose maintenant que la pièce est truquée et que pF = 0,3, la probabilité d'obtenir deux fois face est égale à
.
Pour la même observation (événement « FF ») la vraisemblance que pF = 0,3 est donc
.
La vraisemblance nous permet donc de comparer nos deux hypothèses : au vu de FF, il est donc plus vraisemblable que la pièce soit équilibrée plutôt que déséquilibrée en faveur de pile.
Maximum de vraisemblance
On peut alors se demander: si l'on ne connaît pas pF mais qu'on a observé « FF », quelle est la valeur la plus vraisemblable de pF au vu de cette observation ? On est donc amené à chercher le maximum de vraisemblance : si l'on veut modéliser la pièce et que l'on ne dispose que de ces observations, le maximum de vraisemblance est le "meilleur" modèle possible au regard de ce critère.
On a vu plus haut que , autrement dit, le maximum est atteint pour pF = 1 (n'ayant observé que des "face", il est vraisemblable que la pièce ne donne que des "face").
Si on réalise plusieurs observations, par exemple 12 fois "face" et 8 fois "pile", on a alors :
Cette fonction atteint son maximum en pF = 0,6. Le modèle de la pièce correspondant au maximum de vraisemblance a une probabilité de faire face de 0,6.
Enfin, on peut comparer les courbes (relatives) des vraisemblances dans le cas ci-dessus (en bleu), et dans le cas ou l'on fait deux fois plus d'observations (avec le même rapport entre pile et face), ici 24 pile et 16 face (en orange).
Le maximum est atteint pour la même valeur pF = 0,6 mais la courbe est plus resserrée autour de ce maximum: avec plus d'observations, les options plus éloignées de 0,6 deviennent moins vraisemblables ; notre confiance dans cette valeur a augmenté (voir information de Fisher).
Loi Gamma
La loi Gamma est une distribution à deux paramètres, notés α et β. Étant donné une observation x, la vraisemblance s'écrit alors
La recherche de la valeur de β correspondant au maximum de vraisemblance pour l'observation x peut paraître complexe. En passant au logarithme, le calcul se simplifie
.
Pour trouver la valeur de β qui maximise la log-vraisemblance, on calcule sa dérivée partielle par rapport à β :
.
Dans le cas où l'on a plusieurs observations indépendantes , la log-vraisemblance de l'ensemble des observations est la somme des log-vraisemblances individuelles, et la dérivée partielle de l'ensemble sera la somme des dérivées partielles individuelles, soit :
.
Le maximum est atteint quand cette dérivée partielle est nulle. On résout donc l'équation
qui a pour solution
où est l'estimateur du maximum de vraisemblance et est la moyenne empirique des observations.
Références
↑(en) R. A. Fisher et Edward John Russell, « On the mathematical foundations of theoretical statistics », Philosophical Transactions of the Royal Society A, vol. 222, , p. 309–368 (lire en ligne)
↑Yadolah Dodge, Statistique : dictionnaire encyclopédique., Paris/Berlin/Heidelberg etc., Springer, 635 p. (ISBN978-2-287-72093-2), Maximum de vraisemblance, p.328