PROFILBARU.COM

La différentiabilité en moyenne quadratique est une propriété de certains modèles statistiques introduite par Lucien Le Cam, détaillée dans un article de 1970^[1]. La différentiabilité en moyenne quadratique d'un modèle garantit certains résultats asymptotiques, tels que la normalité asymptotique de l'estimateur du maximum de vraisemblance associé, ou la normalité asymptotique locale.

Définition

Soit $P_{\theta }$ un modèle statistique dépendant d'un paramètre $\theta \in \mathbb {R} ^{k}$ de dimension $k\in \mathbb {N} ^{*}$ , générant une variable aléatoire $X$ dans un espace ${\mathcal {X}}$ . Notons $p(\theta _{0};x)$ la vraisemblance d'une observation $x$ sous ce modèle avec une valeur $\theta _{0}$ du paramètre $\theta$ .

Le modèle $P_{\theta }$ est dit différentiable en moyenne quadratique en $\theta _{0}$ s'il existe une fonction mesurable $s:\mathbb {R} ^{k}\times {\mathcal {X}}\mapsto \mathbb {R}$ telle que, pour tout $h$ de $\mathbb {R} ^{k}$ dans un voisinage de 0,

\int _{\mathcal {X}}\left[{\sqrt {p\left(\theta _{0}+h;x\right)}}-{\sqrt {p(\theta _{0};x)}}-{\frac {1}{2}}h^{T}s(\theta _{0},x){\sqrt {p(\theta _{0};x)}}\right]^{2}\,dx=o(||h||^{2})\,

^[2].

Remarques

Dans la plupart des cas, la fonction $s$ correspond à la dérivée de la log-vraisemblance : $s\left(\theta ;x\right)={\frac {\partial }{\partial \theta }}\log \left(p\left(\theta ;x\right)\right)$ , souvent appelée fonction score du modèle. En effet, lorsque $p(\theta _{0};x)$ est dérivable par rapport à $\theta$ , ${\frac {1}{2}}s(\theta _{0},x){\sqrt {p(\theta _{0};x)}}$ correspond généralement à la dérivée de ${\sqrt {p\left(\theta _{0};x\right)}}$ par rapport à $\theta$ , c'est-à-dire à ${\frac {1}{2}}{\frac {\partial }{\partial \theta }}p(\theta _{0};x)/{\sqrt {p(\theta _{0};x)}}={\frac {1}{2}}{\frac {\partial }{\partial \theta }}\log \left(p(\theta _{0};x)\right){\sqrt {p(\theta _{0};x)}}$ .
Cette définition désigne en réalité la différentiabilité en moyenne quadratique de la racine carrée de la vraisemblance de ce modèle. Pour être rigoureux, il faudrait donc parler d'un modèle dont la racine carrée de la vraisemblance est différentiable en moyenne quadratique. Cependant, l'appellation différentiabilité en moyenne quadratique est plus concise et plus couramment utilisée.

Différentiabilité dans l'espace L²

Comme dit précédemment, la différentiabilité en moyenne quadratique d'une loi de probabilité correspond en réalité à la différentiabilité de la racine carrée de la vraisemblance dans l'espace des fonctions $L^{2}$ (fonctions dont le carré est intégrable) muni de la norme 2^[3].

Pour mieux voir cela, considérons une loi de probabilité dépendant d'un paramètre $\theta \in \mathbb {R} ^{k}$ , dont nous noterons la vraisemblance $p_{\theta }(x)$ .

La racine carrée de cette vraisemblance peut être vue comme une application qui, à une valeur de paramètre $\theta$ fait correspondre une fonction ${\sqrt {p_{\theta }}}:x\mapsto {\sqrt {p_{\theta }(x)}}$ dont le carré est intégrable (d'intégrale 1 puisque $p_{\theta }$ est une densité), c'est-à-dire un élément de $L^{2}$ :

${\sqrt {p}}\,:\,\,{\begin{array}{rcc}\mathbb {R} ^{k}&\to &L^{2}\\\theta &\mapsto &{\sqrt {p_{\theta }}}\end{array}}$ .

Cette application est différentiable dans $L^{2}$ en $\theta _{0}$ s'il existe un élément $Dp_{\theta _{0}}$ de $L^{2}$ tel que pour tout $h$ dans un voisinage de $0$ , ${\sqrt {p_{\theta _{0}+h}}}={\sqrt {p_{\theta _{0}}}}+h\cdot Dp_{\theta _{0}}+o(h)$ lorsque h tend vers 0. Cette égalité porte sur des fonctions de $L^{2}$ , le terme $o(h)$ désigne donc ici une fonction dont la norme 2 est négligeable devant $h$ . Cette égalité peut donc se réécrire comme

{\sqrt {\int _{x}\left({\sqrt {p_{\theta _{0}+h}(x)}}-{\sqrt {p_{\theta _{0}}(x)}}-Dp_{\theta }(x)\right)^{2}\,dx}}=o(h)

.

Exemples

Une démarche classique pour montrer la différentiabilité en moyenne quadratique d'une loi de probabilité est la suivante :

Effectuer un développement limité de la racine carrée de la vraisemblance: ${\sqrt {p(x;\theta +h)}}={\sqrt {p(x;\theta )}}+{\frac {h}{2}}s(x;\theta ){\sqrt {p(x;\theta )}}+o\left(h\right)$ ,
Montrer que $\left({\sqrt {p(x;\theta +h)}}-{\sqrt {p(x;\theta )}}-{\frac {h}{2}}s(x;\theta ){\sqrt {p(x;\theta )}}\right)^{2}/h^{2}$ peut être dominé par une fonction $g(x;\theta )$ , intégrable et indépendante de $h$ , pour tout $h$ dans un voisinage de 0, (par exemple en utilisant la dérivée seconde de la racine carrée de la vraisemblance et l'inégalité de Taylor-Lagrange),
Conclure en utilisant le théorème de convergence dominée.

Distribution exponentielle

La loi exponentielle, paramétrée par sa moyenne $\theta$ , ou par son intensité $\lambda$ , est différentiable en moyenne quadratique en toute valeur du paramètre différent de 0. La fonction score associée est $s(\theta ;x)={\frac {x-\theta }{\theta ^{2}}}$ .

Démonstration

Considérons une loi exponentielle d'espérance $\theta >0$ . Comme il s'agit d'une loi continue, sa vraisemblance est donnée par sa densité de probabilité: $p(\theta ;x)={\frac {1}{\theta }}e^{-x/\theta }$ pour $x\in \mathbb {R} _{+}$ .

La fonction score de ce modèle (c'est-à-dire la dérivée de sa log-vraisemblance par rapport à $\theta$ ) est $s(\theta ;x)={\frac {\partial }{\partial \theta }}\left[-\log(\theta )-{\frac {x}{\theta }}\right]={\frac {x-\theta }{\theta ^{2}}}$ .

Un développement de Taylor d'ordre 1 de la racine carrée de la vraisemblance en $\theta$ donne:

{\sqrt {p(x;\theta +h)}}={\sqrt {p(x;\theta )}}+{\frac {x-\theta }{2\,\theta ^{2}}}{\sqrt {p(x;\theta )}}\,h+o(h)

.

On en déduit que $\left({\sqrt {p(\lambda +h;x)}}-{\sqrt {p(\lambda ;x)}}-{\frac {1}{2}}\left({\frac {1}{\lambda }}-x\right){\sqrt {p(\lambda ;x)}}\,h\right)^{2}=o(h^{2})$ . Afin de montrer que l'inégalité ci-dessus reste vraie lorsqu'on l'intègre sur $\mathbb {R} _{+}$ par rapport à $x$ , il faut montrer que $\left({\sqrt {p(\lambda +h;x)}}-{\sqrt {p(\lambda ;x)}}-{\frac {1}{2}}\left({\frac {1}{\lambda }}-x\right){\sqrt {p(\lambda ;x)}}\,h\right)^{2}/h^{2}$ est borné par une fonction $g$ intégrable et ne dépendant pas de $h$ , pour tout $h$ dans un voisinage de 0. Prenons le voisinage défini par $\left[-{\frac {\theta }{2}};{\frac {\theta }{2}}\right]$ .

La dérivée seconde de la racine de la vraisemblance est

f(x;\theta )={\frac {\partial ^{2}}{\partial {\theta }^{2}}}{\sqrt {p(x;\theta )}}=-{\frac {2\theta +5{(x-\theta )}^{2}}{4\theta ^{3}}}{\sqrt {p(x;\theta )}}

.

Il est aisé de borner la valeur absolue de cette dérivée seconde calculée en $\theta +h$ lorsque $h\in \left[-{\frac {\theta }{2}}\,;{\frac {\theta }{2}}\right]$ . Par exemple,

\left|f(x;\theta +h)\right|\leq {\frac {3\theta /2+x^{2}+9\theta ^{2}/4}{\theta ^{3}/2}}{\frac {e^{-{\frac {x}{3\theta }}}}{\sqrt {\theta /2}}}

.

Appelons cette borne $g(x;\theta )$

Le théorème de Taylor-Lagrange implique que $\left|{\sqrt {p(\lambda +h;x)}}-{\sqrt {p(\lambda ;x)}}-{\frac {1}{2}}\left({\frac {1}{\lambda }}-x\right){\sqrt {p(\lambda ;x)}}\,h\right|\leq {\frac {h^{2}}{2}}g(x;\theta )$ , et donc que $\left({\sqrt {p(\lambda +h;x)}}-{\sqrt {p(\lambda ;x)}}-{\frac {1}{2}}\left({\frac {1}{\lambda }}-x\right){\sqrt {p(\lambda ;x)}}\,h\right)^{2}/h^{2}\leq {\frac {1}{4}}g(x;\theta )^{2}$ .

Comme ${\frac {1}{4}}g(x;\theta )^{2}$ est intégrable par rapport à $x$ sur $\mathbb {R} _{+}$ (il s'agit du produit d'une exponentielle décroissante et d'un polynôme), le théorème de convergence dominé permet de conclure. On a bien

\int _{\mathbb {R} _{+}}\left({\sqrt {p(\lambda +h;x)}}-{\sqrt {p(\lambda ;x)}}-{\frac {1}{2}}\left({\frac {1}{\lambda }}-x\right){\sqrt {p(\lambda ;x)}}\,h\right)^{2}/h^{2}dx=o(h^{2})

.

La loi exponentielle est donc bien différentiable en moyenne quadratique pour tout $\theta >0$ .

Contre exemple

La loi uniforme sur l'intervalle $[0\,;\theta ]$ n'est pas différentiable en moyenne quadratique. En effet, lorsque $X_{1},\ldots ,X_{n}$ sont générés de façon iid suivant une loi uniforme sur $[0\,;\theta ]$ , l'estimateur du maximum de vraisemblance de $\theta$ est donné par ${\hat {\theta }}=\max\{X_{1},\ldots ,X_{n}\}$ et n'est pas asymptotiquement normal. Or l'estimateur du maximum de vraisemblance associé à un modèle différentiable en moyenne quadratique est nécessairement asymptotiquement normal.

Propriétés

Normalité asymptotique du maximum de vraisemblance

Si des échantillons aléatoires de tailles $n$ , $X_{1},\ldots ,X_{n}$ , sont générés de manière iid selon une loi de probabilité $p_{\theta }$ différentiable en moyenne quadratique, alors l'estimateur du maximum de vraisemblance est asymptotiquement normal avec pour variance asymptotique l'inverse de l'information de Fisher. Plus précisément, lorsque $n$ tend vers l'infini,

{\sqrt {n}}\left({\hat {\theta }}_{MV}-\theta \right)\xrightarrow {\mathcal {L}} {\mathcal {N}}\left(0,J_{\theta }^{-1}\right)

où ${\hat {\theta }}_{MV}$ est l'estimateur du maximum de vraisemblance, défini comme ${\hat {\theta }}_{MV}={\textrm {argmax}}_{\theta }\left\{\sum _{i=1}^{n}\log \left(p_{\theta }(X_{i})\right)\right\}$ , $J_{\theta }$ désigne l'information de Fisher définie comme $J_{\theta }=\mathrm {var} \left[{\frac {\partial }{\partial \theta }}\log(p_{\theta }(X))\right]$ et où $\xrightarrow {\mathcal {L}}$ désigne la convergence en loi.

Normalité asymptotique locale

Une loi de probabilité $p_{\theta }$ différentiable en moyenne quadratique donne un modèle statistique localement asymptotiquement normal lorsqu'on génère des données iid selon cette loi.

Voir aussi

Références

↑ L. LeCam, « On the Assumptions Used to Prove Asymptotic Normality of Maximum Likelihood Estimates », The Annals of Mathematical Statistics, vol. 41, n^o 3,‎ juin 1970, p. 802–828 (ISSN 0003-4851, DOI 10.1214/aoms/1177696960, lire en ligne, consulté le 13 octobre 2023)
↑ A. W. van der Vaart, Asymptotic Statistics, Cambridge University Press, coll. « Cambridge Series in Statistical and Probabilistic Mathematics », 1998 (ISBN 978-0-521-78450-4, DOI 10.1017/cbo9780511802256, lire en ligne)
↑ (en) David Pollard, « Another Look at Differentiability in Quadratic Mean », dans Festschrift for Lucien Le Cam: Research Papers in Probability and Statistics, Springer, 1997 (ISBN 978-1-4612-1880-7, DOI 10.1007/978-1-4612-1880-7_19, lire en ligne), p. 305–314

Portail des probabilités et de la statistique

[1] L. LeCam, « On the Assumptions Used to Prove Asymptotic Normality of Maximum Likelihood Estimates », The Annals of Mathematical Statistics, vol. 41, n^o 3,‎ juin 1970, p. 802–828 (ISSN 0003-4851, DOI 10.1214/aoms/1177696960, lire en ligne, consulté le 13 octobre 2023)

[2] A. W. van der Vaart, Asymptotic Statistics, Cambridge University Press, coll. « Cambridge Series in Statistical and Probabilistic Mathematics », 1998 (ISBN 978-0-521-78450-4, DOI 10.1017/cbo9780511802256, lire en ligne)

[3] (en) David Pollard, « Another Look at Differentiability in Quadratic Mean », dans Festschrift for Lucien Le Cam: Research Papers in Probability and Statistics, Springer, 1997 (ISBN 978-1-4612-1880-7, DOI 10.1007/978-1-4612-1880-7_19, lire en ligne), p. 305–314

[1]

[2]

[3]

Différentiabilité en moyenne quadratique (statistiques)