In statistica, la disuguaglianza di Cramér-Rao, che prende il nome da Harald Cramér e Calyampudi Radhakrishna Rao, afferma che il reciproco della matrice informazione di Fisher
per un parametro
costituisce un limite inferiore alla varianza di uno stimatore corretto per il parametro (denotato
):
![{\displaystyle \ {\mbox{var}}\left({\hat {\vartheta }}\right)\geq {\frac {1}{{\mathcal {I}}(\vartheta )}}={\frac {1}{n{\mbox{E}}\left[\left({\frac {\partial }{\partial \vartheta }}\ln f(X;\vartheta )\right)^{2}\right]}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/699ea235932139b3fb47b5b1de086640b265f35a)
In alcuni casi, non esiste uno stimatore corretto che consegue il limite inferiore così stabilito.
Non è infrequente trovare riferimenti alla disuguaglianza di Cramér-Rao come al limite inferiore di Cramér-Rao.
Si ritiene che il matematico francese Maurice René Fréchet sia stato il primo a scoprire e dimostrare questa disuguaglianza.[1]
Condizioni di regolarità
La disuguaglianza di Cramér-Rao si fonda su due deboli condizioni di regolarità che caratterizzano la funzione di densità
, e lo stimatore adottato,
. Tali condizioni richiedono che:
- L'informazione di Fisher sia sempre definita; ciò equivale a richiedere che, per ogni
tale che
,
![{\displaystyle \ {\frac {\partial }{\partial \vartheta }}\ln f(x;\vartheta )<\infty }](https://wikimedia.org/api/rest_v1/media/math/render/svg/afd44e99b6389fc7bbba1b586fe7b75d499d0dae)
- Le operazioni di integrazione rispetto a
e di derivazione rispetto a
possano essere scambiate all'interno del valore atteso dello stimatore
, ossia:
![{\displaystyle \ {\frac {\partial }{\partial \vartheta }}\left[\int T(x)f(x;\vartheta )dx\right]=\int T(x)\left[{\frac {\partial }{\partial \vartheta }}f(x;\vartheta )\right]dx}](https://wikimedia.org/api/rest_v1/media/math/render/svg/91ad755ae0c3148376a57e36d37d0f22b1420063)
- ogniqualvolta il secondo membro della relazione sopra è finito.
Laddove la seconda condizione di regolarità è estesa al secondo ordine di derivazione, è possibile esprimere la disuguaglianza tramite una forma alternativa dell'informazione di Fisher, così che il limite inferiore di Cramér-Rao è dato da:
![{\displaystyle \ {\mbox{var}}\left({\hat {\vartheta }}\right)\geq {\frac {1}{{\mathcal {I}}(\vartheta )}}={\frac {1}{-{\mbox{E}}\left[{\frac {\partial ^{2}}{\partial \vartheta ^{2}}}\ln f(X;\vartheta )\right]}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/2918265b8e1d6eda7357f295f4fe0c883fd54421)
In alcuni casi, può risultare più semplice applicare la disuguaglianza nella forma testé espressa.
Si osservi che uno stimatore non corretto potrà avere una varianza o uno scarto quadratico medio inferiore al limite di Cramér-Rao; questo perché la disuguaglianza è riferita esclusivamente a stimatori corretti.
Dimostrazione
La dimostrazione della disuguaglianza di Cramér-Rao passa attraverso la verifica di un risultato più generale; per un qualsiasi stimatore (statistica di un campione
)
, il cui valore atteso è denotato da
, e per ogni
:
![{\displaystyle \ {\mbox{var}}(t(X))\geq {\frac {\left[\psi '(\vartheta )\right]^{2}}{{\mathcal {I}}(\vartheta )}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/d91a96ad4891cc7288283bd5f7cbe47f464080ed)
La disuguglianza di Cramér-Rao discende direttamente da quest'ultima relazione, come caso particolare.
Sia dunque
una variabile casuale, avente funzione di densità
.
è una statistica utilizzata come estimatore del parametro
. Sia inoltre
il suo score, o derivata logaritmica rispetto a
:
![{\displaystyle \ V={\frac {\partial }{\partial \vartheta }}\ln f(X;\vartheta )}](https://wikimedia.org/api/rest_v1/media/math/render/svg/a4b6f8485f8234faa701c511198b57523c63ca93)
Il valore atteso
è nullo. Ciò a sua volta implica che
. Espandendo quest'ultima espressione, si ha:
![{\displaystyle \ {\mbox{cov}}(V,T)={\mbox{E}}\left(T{\frac {\partial }{\partial \vartheta }}\ln f(X;\vartheta )\right)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/21bdbe5397dbf6a9307b54951b2b7ca2682a4c86)
Svolgendo la derivata tramite la regola della catena:
e conoscendo la definizione di speranza matematica:
![{\displaystyle \ {\mbox{E}}\left(T{\frac {\partial }{\partial \vartheta }}\ln f(X;\vartheta )\right)=\int t(x)\left[{\frac {\partial }{\partial \vartheta }}f(x;\vartheta )\right]dx={\frac {\partial }{\partial \vartheta }}\left[\int t(x)f(x;\vartheta )dx\right]=\psi '(\vartheta )}](https://wikimedia.org/api/rest_v1/media/math/render/svg/7c4a9297dcad8ec6276b186d4f2571b7f09fe84a)
dal momento che gli operatori di derivazione e integrazione commutano.
Tramite la disuguaglianza di Cauchy-Schwarz si ha inoltre:
![{\displaystyle \ {\sqrt {{\mbox{var}}(T){\mbox{var}}(V)}}\geq \mid {\mbox{cov}}(V,T)\mid =\psi '(\vartheta )}](https://wikimedia.org/api/rest_v1/media/math/render/svg/6b85374857338246bafbaf9014cee533458c1606)
dunque:
![{\displaystyle \ {\mbox{var}}(T)\geq {\frac {\left[\psi '(\vartheta )\right]^{2}}{{\mbox{var}}(V)}}={\frac {\left[\psi '(\vartheta )\right]^{2}}{{\mathcal {I}}(\vartheta )}}=\left[{\frac {\partial }{\partial \vartheta }}{\mbox{E}}(T)\right]^{2}{\frac {1}{{\mathcal {I}}(\vartheta )}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/14970e6014345fad3417c45768d70d38d8f151be)
come volevasi dimostrare. Ora, se
è uno stimatore corretto per
,
, e
; dunque la relazione sopra diviene:
![{\displaystyle \ {\mbox{var}}(T)\geq {\frac {1}{{\mathcal {I}}(\vartheta )}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/cef0c7b618b8f57b0355643c4c14c7d86ee0d8e3)
ossia la disuguaglianza di Cramér-Rao.
Estensione a più parametri
Al fine di estendere la disuguaglianza di Cramér-Rao al caso di un vettore di parametri, si definisca il vettore colonna:
![{\displaystyle {\boldsymbol {\theta }}=\left[\vartheta _{1},\vartheta _{2},\dots ,\vartheta _{d}\right]'\in \mathbb {R} ^{d}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/902433a8c952f75b7184fb18a8a2940954d6e6ba)
e sia ad esso associata una funzione di densità
che soddisfi le condizioni di regolarità elemento per elemento.
L'informazione di Fisher
è allora una matrice di dimensioni
, il cui generico elemento
è definito da:
![{\displaystyle \ {\mathcal {I}}_{m,k}={\mbox{E}}\left[{\frac {\partial }{\partial \vartheta _{m}}}\ln f\left(x;{\boldsymbol {\theta }}\right){\frac {\partial }{\partial \vartheta _{k}}}\ln f\left(x;{\boldsymbol {\theta }}\right)\right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/a078c30611ffeaa6652d8b8705c0b193ee0e220e)
La disuguaglianza di Cramér-Rao è dunque formulata come:
![{\displaystyle {\mbox{cov}}_{\boldsymbol {\theta }}\left({\boldsymbol {T}}(X)\right)\geq {\frac {\partial {\boldsymbol {\psi }}\left({\boldsymbol {\theta }}\right)}{\partial {\boldsymbol {\theta }}^{T}}}{\mathcal {I}}\left({\boldsymbol {\theta }}\right)^{-1}{\frac {\partial {\boldsymbol {\psi }}\left({\boldsymbol {\theta }}\right)'}{\partial {\boldsymbol {\theta }}}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/6b974a8f84d1a3ffd7c18f2565b7cf35e3e2ca3f)
dove:
![{\displaystyle {\boldsymbol {T}}(X)={\begin{bmatrix}T_{1}(X)&T_{2}(X)&\cdots &T_{d}(X)\end{bmatrix}}'}](https://wikimedia.org/api/rest_v1/media/math/render/svg/8e47ee8d729cbdb693a0123a899bf76dc5915042)
![{\displaystyle {\boldsymbol {\psi }}=\mathrm {E} \left[{\boldsymbol {T}}(X)\right]={\begin{bmatrix}\psi _{1}\left({\boldsymbol {\theta }}\right)&\psi _{2}\left({\boldsymbol {\theta }}\right)&\cdots &\psi _{d}\left({\boldsymbol {\theta }}\right)\end{bmatrix}}'}](https://wikimedia.org/api/rest_v1/media/math/render/svg/ea3d60caf422963e2d2aeecad1333c399895f78f)
![{\displaystyle {\frac {\partial {\boldsymbol {\psi }}\left({\boldsymbol {\theta }}\right)}{\partial {\boldsymbol {\theta }}'}}={\begin{bmatrix}\psi _{1}\left({\boldsymbol {\theta }}\right)\\\psi _{2}\left({\boldsymbol {\theta }}\right)\\\vdots \\\psi _{d}\left({\boldsymbol {\theta }}\right)\end{bmatrix}}{\begin{bmatrix}{\frac {\partial }{\partial \vartheta _{1}}}&{\frac {\partial }{\partial \vartheta _{2}}}&\cdots &{\frac {\partial }{\partial \vartheta _{d}}}\end{bmatrix}}={\begin{bmatrix}{\frac {\partial \psi _{1}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{1}}}&{\frac {\partial \psi _{1}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{2}}}&\cdots &{\frac {\partial \psi _{1}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{d}}}\\{\frac {\partial \psi _{2}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{1}}}&{\frac {\partial \psi _{2}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{2}}}&\cdots &{\frac {\partial \psi _{2}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{d}}}\\\vdots &\vdots &\ddots &\vdots \\{\frac {\partial \psi _{d}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{1}}}&{\frac {\partial \psi _{d}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{2}}}&\cdots &{\frac {\partial \psi _{d}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{d}}}\end{bmatrix}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/bd8b4f4591ba1843b93113c3edc0af52c64ff4d6)
![{\displaystyle {\frac {\partial {\boldsymbol {\psi }}\left({\boldsymbol {\theta }}\right)'}{\partial {\boldsymbol {\theta }}}}={\begin{bmatrix}{\frac {\partial }{\partial \vartheta _{1}}}\\{\frac {\partial }{\partial \vartheta _{2}}}\\\vdots \\{\frac {\partial }{\partial \vartheta _{d}}}\end{bmatrix}}{\begin{bmatrix}\psi _{1}\left({\boldsymbol {\theta }}\right)&\psi _{2}\left({\boldsymbol {\theta }}\right)&\cdots &\psi _{d}\left({\boldsymbol {\theta }}\right)\end{bmatrix}}={\begin{bmatrix}{\frac {\partial \psi _{1}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{1}}}&{\frac {\partial \psi _{2}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{1}}}&\cdots &{\frac {\partial \psi _{d}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{1}}}\\{\frac {\partial \psi _{1}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{2}}}&{\frac {\partial \psi _{2}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{2}}}&\cdots &{\frac {\partial \psi _{d}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{2}}}\\\vdots &\vdots &\ddots &\vdots \\{\frac {\partial \psi _{1}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{d}}}&{\frac {\partial \psi _{2}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{d}}}&\cdots &{\frac {\partial \psi _{d}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{d}}}\end{bmatrix}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/9f21034ee825f7e153ae26af76dc7e768d47031a)
e
è una matrice semidefinita positiva, ossia tale per cui
.
Se
è uno stimatore corretto, e dunque
, la disuguaglianza di Cramér-Rao è:
![{\displaystyle \ {\mbox{cov}}_{\boldsymbol {\theta }}({\boldsymbol {T}}(X))\geq {\mathcal {I}}({\boldsymbol {\theta }})^{-1}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c3f398473154ab58ef842c2971b36fd917d0bf46)
La disuguaglianza stessa è da intendersi nel senso che la differenza tra il primo e il secondo membro è ancora una matrice semidefinita positiva.
Disuguaglianza di Cramér-Rao ed efficienza
La disuguaglianza di Cramér-Rao è strettamente legata al concetto di efficienza di uno stimatore. In particolare, è possibile definire una misura di efficienza per uno stimatore
per il parametro (o vettore di parametri)
, come:
![{\displaystyle \ e(T)={\frac {\frac {1}{{\mathcal {I}}(\vartheta )}}{{\mbox{var}}(T)}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/be1b9b371e91b84614ce411d9bada7a8a94ac68a)
ossia la minima varianza possibile per uno stimatore corretto, basata sulla disuguaglianza di Cramér-Rao, rapportata all'effettiva varianza. In base alla disuguaglianza di Cramér-Rao, ovviamente
.
Illustrazione del risultato
Si illustra il significato della disuguaglianza di Cramér-Rao tramite un esempio basato sulla variabile casuale normale multivariata. Sia un vettore aleatorio
, tale che:
![{\displaystyle \ \mathbf {x} \sim N\left(\mu ({\boldsymbol {\theta }}),\Sigma ({\boldsymbol {\theta }})\right),\ \mu ({\boldsymbol {\theta }})\in \mathbb {R} ^{d},\ \Sigma ({\boldsymbol {\theta }})\in \mathbb {R} ^{d\times d}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/2638eba67d743c76b13b67129477cec602ce8387)
dove
denota la distribuzione normale; la funzione di densità multivariata associata è:
![{\displaystyle \ f_{\mathbf {X} }(\mathbf {x} ;{\boldsymbol {\theta }})={\frac {1}{\sqrt {(2\pi )^{d}|\Sigma |}}}\exp \left\{-{\frac {1}{2}}(\mathbf {x} -\mu )'\Sigma ^{-1}(\mathbf {x} -\mu )\right\}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/3212f4c00b31673d963cf6ce9ba642e9ec6cd55f)
La matrice informazione di Fisher ha generico elemento
:
![{\displaystyle \ {\mathcal {I}}({\boldsymbol {\theta }})_{m,k}={\frac {\partial \mu '}{\partial \vartheta _{m}}}\Sigma ^{-1}{\frac {\partial \mu }{\partial \mu _{k}}}+{\frac {1}{2}}{\mbox{tr}}\left(\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \vartheta _{m}}}\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \vartheta _{k}}}\right)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/7c8646922b87b10a03ac34ce0b28b716402a5632)
dove
denota l'operatore traccia di una matrice.
Si consideri caso di un vettore aleatorio gaussiano come sopra, di dimensione
, con media nulla ed elementi indipendenti aventi ciascuno varianza
:
![{\displaystyle \ x\sim N(\mathbf {0} ,\sigma ^{2}I)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/2d2536cf241a2e43422587615621d60a36991ab5)
La matrice informazione di Fisher è allora
:
![{\displaystyle \ {\mathcal {I}}(\sigma ^{2})={\frac {1}{2}}{\mbox{tr}}\left(\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \vartheta _{m}}}\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \vartheta _{k}}}\right)={\frac {1}{2\sigma ^{2}}}{\mbox{tr}}(I)={\frac {n}{2\sigma ^{2}}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/594eb81138fe89a4225852b7dafc36efa4788d43)
Dunque il limite inferiore di Cramér-Rao per la varianza di uno stimatore
per
è dato da:
![{\displaystyle \ {\mbox{var}}(T_{\sigma ^{2}})\geq {\frac {2\sigma ^{2}}{n}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c42908d737b62489b2873ae286ebd1e455b692ab)
Giova osservare che tale limite è pari alla varianza teorica dello stimatore di massima verosimiglianza per il parametro
nelle ipotesi presentate.
Note
- ^ Wiebe R. Pestman, Mathematical Statistics: An Introduction, Walter de Gruyter, 1998, ISBN 3-11-015357-2, p. 118.
Bibliografia
- D.C. Boes, F.A. Graybill, A.M. Mood (1988), Introduzione alla Statistica, McGraw-Hill Libri Italia, ISBN 88-386-0661-7, un testo di riferimento per i fondamenti della statistica matematica; la disuguaglianza di Cramér-Rao è trattata nei capitoli sui metodi di ricerca degli stimatori.
- Alexander Craig Aitken e Harold Silverstone, "On the Estimation of Statistical Parameters", in Proceedings of the Royal Society of Edinburgh, 1942, vol. 61, pp. 186-194, dove gli autori sviluppano idee di Ronald Fisher descrivendo un caso particolare di quella che sarebbe diventate la Disuguaglianza di Cramèr-Rao
Voci correlate