L'ajustement de la loi de probabilité ou simplement l'ajustement de la loi est l'ajustement d'une loi de probabilité à une série de données concernant la mesure répétée d'un phénomène aléatoire. L'ajustement de la loi a pour but de prédire la probabilité ou de prévoir la fréquence d'occurrence de l'ampleur du phénomène dans un certain intervalle.
Il existe de nombreuses lois de probabilité, dont certaines peuvent être ajustées plus étroitement à la fréquence observée des données que d'autres, selon les caractéristiques du phénomène et de la loi. La loi donnant un ajustement serré est supposée conduire à de bonnes prédictions. Dans l'ajustement, il faut donc sélectionner une famille de lois qui convient bien aux données.
Le choix de la loi appropriée dépend de la présence ou de l'absence de symétrie de l'ensemble de données par rapport à la tendance centrale.
Lorsque les données sont réparties symétriquement autour de la moyenne alors que la fréquence d'occurrence des données plus éloignées de la moyenne diminue, on peut par exemple sélectionner la loi normale, la loi logistique ou la loi de Student. Les deux premières sont très similaires, tandis que la dernière, avec un degré de liberté, a des "queues plus lourdes", ce qui signifie que les valeurs les plus éloignées de la moyenne se produisent relativement plus souvent (c'est-à-dire que le kurtosis est plus élevé). La loi de Cauchy est également symétrique.
Lorsque les valeurs les plus grandes ont tendance à être plus éloignées de la moyenne que les valeurs les plus petites, on a une loi asymétrique vers la droite (c'est-à-dire qu'il y a une asymétrie positive), on peut par exemple sélectionner la loi log-normale (c'est-à-dire les logarithmes des données sont normalement distribuées), la loi log-logistique (c'est-à-dire que les logarithmes des données suivent une loi logistique), la loi de Gumbel, la loi exponentielle, la loi de Pareto, la loi de Weibull, la loi de Burr ou la loi de Fréchet. Les quatre dernières lois sont bornées à gauche.
Lorsque les petites valeurs ont tendance à être plus éloignées de la moyenne que les grandes valeurs, on a une loi asymétrique vers la gauche (c'est-à-dire qu'il y a une asymétrie négative), on peut par exemple sélectionner la loi du χ21 (c'est-à-dire le carré des données suit une loi normale)[1], la loi de Gumbel réfléchie[1], la loi de Dagum (loi de Burr en miroir) ou la loi de Gompertz, qui est limitée à gauche.
Les techniques d'ajustement de loi suivantes existent[2] :
Il est d'usage de transformer les données de manière logarithmique pour ajuster des lois symétriques (comme la normale et la logistique) aux données obéissant à une loi positivement asymétrique (c'est-à-dire asymétrique vers la droite, avec une moyenne supérieure au mode, et avec une queue à droite plus longue que la queue de gauche), voir la loi log-normale et la loi log-logistique. Un effet similaire peut être obtenu en prenant la racine carrée des données.
Pour ajuster une loi symétrique aux données obéissant à une loi biaisée négativement (c'est-à-dire biaisée vers la gauche, avec une moyenne inférieure mode, et avec une queue droite plus courte que la queue gauche), on pourrait utiliser les valeurs au carré des données pour accomplir l'ajustement.
Plus généralement, on peut élever les données à une puissance p afin d'ajuster des lois symétriques à des données obéissant à une loi d'asymétrie quelconque, où p < 1 lorsque l'asymétrie est positive et p > 1 lorsque l'asymétrie est négative. La valeur optimale de p doit être trouvée par une méthode numérique . La méthode numérique peut consister à supposer une plage de valeurs p, puis à appliquer la procédure d'ajustement de loi à plusieurs reprises pour toutes les valeurs p supposées, et enfin à sélectionner la valeur de p pour laquelle la somme des carrés des écarts des probabilités calculées à partir des fréquences mesurées (test du χ²) est minimum, comme c'est le cas dans CumFreq.
La généralisation améliore la flexibilité des lois de probabilité et augmente leur applicabilité dans l'ajustement de loi[6].
La polyvalence de la généralisation permet, par exemple, d'adapter des ensembles de données distribués approximativement normalement à un grand nombre de lois de probabilité différentes, tandis que des lois asymétriques négatives peuvent être ajustées à des lois de Gumbel invesée et du χ21.
Les lois asymétriques peuvent être réfléchies en remplaçant dans l'expression mathématique de la fonction de répartition (F) par son complément : F' = 1–F, obtenant la fonction de répartition complémentaire (également appelée fonction de survie) qui donne une image miroir. De cette manière, une loi asymétrique vers la droite est transformée en une loi asymétrique vers la gauche et vice versa.
La technique d'inversion d'asymétrie augmente le nombre de lois de probabilité disponibles pour l'ajustement de loi et élargit les opportunités d'ajustement de loi.
Certaines lois de probabilité, comme l'exponentielle, ne prennent pas en charge les valeurs de données (X) égales ou inférieures à zéro. Pourtant, lorsque des données négatives sont présentes, de telles lois peuvent toujours être utilisées en remplaçant X par Y = X – Xm, où Xm est la valeur minimale de X. Ce remplacement représente un déplacement de la lois de probabilité dans le sens positif, c'est-à-dire vers la droite, car Xm est négatif. Après avoir terminé l'ajustement de la loi de X, les valeurs X correspondantes sont trouvées à partir de X = Y + Xm, ce qui représente un décalage arrière de la loi dans le sens négatif, c'est-à-dire vers la gauche. La technique de déplacement de loi augmente les chances de trouver une loi de probabilité bien ajustée.
L'option existe d'utiliser deux loi de probabilité différentes, une pour la plage de données inférieure et une pour la plage supérieure, comme la loi de Laplace. Les plages sont séparées par un point d'arrêt. L'utilisation de telles loi de probabilité composites (discontinues) peut être opportune lorsque les données du phénomène étudié ont été obtenues dans deux ensembles de conditions différentes[6].
Les prévisions d'occurrence basées sur des lois de probabilité ajustées sont sujettes à l'incertitude, qui découle des conditions suivantes :
Une estimation de l'incertitude dans le premier et le second cas peut être obtenue avec la loi de probabilité binomiale en utilisant par exemple la probabilité de dépassement pe (c'est-à-dire la chance que l'événement X soit supérieur à une valeur de référence Xr de X) et la probabilité de non-dépassement pn (c'est-à-dire la probabilité que l'événement X soit inférieur ou égal à la valeur de référence Xr, on l'appelle aussi répartition). Dans ce cas, il n'y a que deux possibilités : soit il y a dépassement, soit il y a non-dépassement. Cette dualité est la raison pour laquelle la loi binomiale est applicable.
Avec la loi binomiale, on peut obtenir un intervalle de prédiction. Un tel intervalle estime également le risque d'échec, c'est-à-dire la probabilité que l'événement prédit reste toujours en dehors de l'intervalle de confiance. L'analyse de confiance ou de risque peut inclure la période de retour T = 1/pe comme cela se fait en hydrologie.
En classant la qualité de l'ajustement des différentes lois, on peut se faire une idée de la loi qui est acceptable et de celle qui ne l'est pas.
À partir de la fonction de répartition, on peut dériver un histogramme et la fonction de densité.