L'entropie de Rényi , due à Alfréd Rényi , est une fonction mathématique qui correspond à la quantité d'information contenue dans la probabilité de collision d'une variable aléatoire .
Définition
Étant donnés une variable aléatoire discrète
X
{\displaystyle X}
à
n
{\displaystyle n}
valeurs possibles
(
x
1
,
x
2
,
… … -->
x
n
)
{\displaystyle (x_{1},x_{2},\ldots x_{n})}
, ainsi qu'un paramètre réel
α α -->
{\displaystyle \alpha }
strictement positif et différent de 1, l' entropie de Rényi d'ordre
α α -->
{\displaystyle \alpha }
de
X
{\displaystyle X}
est définie par la formule :
H
α α -->
(
X
)
=
1
1
− − -->
α α -->
log
-->
∑ ∑ -->
i
=
1
n
P
(
X
=
x
i
)
α α -->
{\displaystyle H_{\alpha }(X)={\frac {1}{1-\alpha }}\log \sum _{i=1}^{n}P(X=x_{i})^{\alpha }}
Cas particuliers
L'entropie de Rényi généralise d'autres acceptions de la notion d'entropie, qui correspondent chacune à des valeurs particulières de
α α -->
{\displaystyle \alpha }
.
Entropie de Hartley
Le cas
α α -->
=
0
{\displaystyle \alpha =0}
donne :
H
0
(
X
)
=
log
-->
n
=
log
-->
|
X
|
{\displaystyle H_{0}(X)=\log n=\log |X|}
ce qui correspond au logarithme du cardinal de
X
{\displaystyle X}
, qui correspond à l'entropie de Hartley .
Entropie de Shannon
D'après la règle de L'Hôpital , on peut trouver une limite à
H
α α -->
(
X
)
{\displaystyle H_{\alpha }(X)}
quand
α α -->
{\displaystyle \alpha }
tend vers 1 :
lim
α α -->
→ → -->
1
H
α α -->
(
X
)
=
− − -->
∑ ∑ -->
i
=
1
n
p
i
log
-->
p
i
{\displaystyle \lim _{\alpha \rightarrow 1}H_{\alpha }(X)=-\sum _{i=1}^{n}p_{i}\log p_{i}}
Cette expression correspond à l'entropie de Shannon .
Entropie de collision
Dans le cas où
α α -->
=
2
{\displaystyle \alpha =2}
, on trouve l'entropie dite de collision, appelée parfois simplement « entropie de Rényi » :
H
2
(
X
)
=
− − -->
log
-->
∑ ∑ -->
i
=
1
n
p
i
2
=
− − -->
log
-->
P
(
X
=
Y
)
{\displaystyle H_{2}(X)=-\log \sum _{i=1}^{n}p_{i}^{2}=-\log P(X=Y)}
où Y est une variable aléatoire indépendante et identiquement distribuée par rapport à X .
Entropie min
En faisant tendre
α α -->
{\displaystyle \alpha }
vers l'infini, on trouve l'entropie min :
H
∞ ∞ -->
(
X
)
=
− − -->
log
-->
sup
i
=
1..
n
p
i
{\displaystyle H_{\infty }(X)=-\log \sup _{i=1..n}p_{i}}
Propriétés
Décroissance selon α
H
α α -->
{\displaystyle H_{\alpha }}
est une fonction décroissante de
α α -->
{\displaystyle \alpha }
.
Preuve
Soit
P
=
{
p
1
,
p
2
,
.
.
.
,
p
n
}
{\displaystyle P=\{p_{1},p_{2},...,p_{n}\}}
une distribution de probabilité
d
H
α α -->
d
α α -->
=
d
d
α α -->
(
1
1
− − -->
α α -->
log
-->
∑ ∑ -->
i
=
1
n
P
(
X
=
x
i
)
α α -->
)
=
1
1
− − -->
α α -->
2
∑ ∑ -->
i
=
1
n
q
i
log
-->
(
p
i
q
i
)
=
− − -->
1
1
− − -->
α α -->
2
D
K
L
(
Q
|
|
P
)
{\displaystyle {\begin{aligned}{\frac {dH_{\alpha }}{d\alpha }}&={\frac {d}{d\alpha }}({\frac {1}{1-\alpha }}\log \sum _{i=1}^{n}P(X=x_{i})^{\alpha })\\&={\frac {1}{1-\alpha ^{2}}}\sum _{i=1}^{n}q_{i}\log({\frac {p_{i}}{q_{i}}})\\&=-{\frac {1}{1-\alpha ^{2}}}D_{KL}(Q||P)\end{aligned}}}
avec
Q
{\displaystyle Q}
la distribution de probabilité des
q
i
=
p
i
α α -->
∑ ∑ -->
j
=
1
n
p
j
α α -->
{\displaystyle q_{i}={\frac {p_{i}^{\alpha }}{\sum _{j=1}^{n}p_{j}^{\alpha }}}}
et
D
K
L
{\displaystyle D_{KL}}
la Divergence de Kullback-Leibler de
Q
{\displaystyle Q}
par rapport
P
{\displaystyle P}
.
Puisque cette divergence est positive, la dérivée de l'entropie de Rényi en devient négative et donc
H
α α -->
{\displaystyle H_{\alpha }}
est bien décroissante en
α α -->
{\displaystyle \alpha }
.
Preuve alternative
Soit
P
=
{
p
1
,
p
2
,
.
.
.
,
p
n
}
{\displaystyle P=\{p_{1},p_{2},...,p_{n}\}}
une distribution de probabilité,
H
α α -->
(
X
)
=
1
1
− − -->
α α -->
log
-->
∑ ∑ -->
i
=
1
n
P
X
(
x
i
)
α α -->
=
− − -->
log
-->
E
[
P
X
(
X
)
α α -->
− − -->
1
]
1
α α -->
− − -->
1
=
− − -->
log
-->
E
[
P
X
(
X
)
α α -->
− − -->
1
]
β β -->
− − -->
1
α α -->
− − -->
1
1
β β -->
− − -->
1
≥ ≥ -->
− − -->
log
-->
E
[
P
X
(
X
)
α α -->
− − -->
1
β β -->
− − -->
1
α α -->
− − -->
1
]
1
β β -->
− − -->
1
=
− − -->
log
-->
E
[
P
X
(
X
)
β β -->
− − -->
1
]
1
β β -->
− − -->
1
=
1
1
− − -->
β β -->
log
-->
∑ ∑ -->
i
=
1
n
P
X
(
x
i
)
β β -->
=
H
β β -->
(
X
)
{\displaystyle {\begin{aligned}H_{\alpha }(X)&={\frac {1}{1-\alpha }}\log \sum _{i=1}^{n}P_{X}(x_{i})^{\alpha }\\&=-\log \mathbb {E} [P_{X}(X)^{\alpha -1}]^{\frac {1}{\alpha -1}}\\&=-\log \mathbb {E} [P_{X}(X)^{\alpha -1}]^{{\frac {\beta -1}{\alpha -1}}{\frac {1}{\beta -1}}}\\&\geq -\log \mathbb {E} [P_{X}(X)^{{\alpha -1}{\frac {\beta -1}{\alpha -1}}}]^{\frac {1}{\beta -1}}\\&=-\log \mathbb {E} [P_{X}(X)^{\beta -1}]^{\frac {1}{\beta -1}}\\&={\frac {1}{1-\beta }}\log \sum _{i=1}^{n}P_{X}(x_{i})^{\beta }\\&=H_{\beta }(X)\end{aligned}}}
L'inégalité provient de l'Inégalité de Jensen appliquée dans les cas suivants à
E
[
x
c
]
{\displaystyle \mathbb {E} [x^{c}]}
, en notant
c
=
β β -->
− − -->
1
α α -->
− − -->
1
{\displaystyle c={\frac {\beta -1}{\alpha -1}}}
:
Si,
c
>
1
{\displaystyle c>1}
et donc
x
c
{\displaystyle x^{c}}
est convexe et
1
β β -->
− − -->
1
>
0
{\displaystyle {\frac {1}{\beta -1}}>0}
.
Si,
c
<
0
{\displaystyle c<0}
donc
x
c
{\displaystyle x^{c}}
est convexe et
1
β β -->
− − -->
1
>
0
{\displaystyle {\frac {1}{\beta -1}}>0}
.
Si,
c
>
0
{\displaystyle c>0}
donc
x
c
{\displaystyle x^{c}}
est concave
1
β β -->
− − -->
1
<
0
{\displaystyle {\frac {1}{\beta -1}}<0}
.
Si
(
α α -->
=
1
)
∨ ∨ -->
(
β β -->
=
1
)
{\displaystyle (\alpha =1)\lor (\beta =1)}
l'application de l'inégalité est immédiate.
Ce qui donne la croissance de
α α -->
→ → -->
H
α α -->
{\displaystyle \alpha \rightarrow H_{\alpha }}
.
Relations entre les entropies de différents ordres
L'entropie de Rényi est donc une fonction décroissante de son ordre.
De plus, on remarque que
H
2
≤ ≤ -->
2
H
∞ ∞ -->
{\displaystyle H_{2}\leq 2H_{\infty }}
puisque
H
2
=
− − -->
log
-->
(
∑ ∑ -->
i
=
1
n
p
i
2
)
≤ ≤ -->
− − -->
log
-->
(
sup
i
(
p
i
2
)
)
=
− − -->
2
log
-->
(
sup
i
(
p
i
)
)
=
2
H
∞ ∞ -->
{\displaystyle H_{2}=-\log(\sum _{i=1}^{n}p_{i}^{2})\leq -\log(\sup _{i}(p_{i}^{2}))=-2\log(\sup _{i}(p_{i}))=2H_{\infty }}
.
Divergence de Rényi
Pour deux distributions de probabilités
P
=
{
p
1
,
p
2
,
.
.
.
,
p
n
}
{\displaystyle P=\{p_{1},p_{2},...,p_{n}\}}
et
Q
=
{
q
1
,
q
2
,
.
.
.
,
q
n
}
{\displaystyle Q=\{q_{1},q_{2},...,q_{n}\}}
, la divergence de Rényi de
P
{\displaystyle P}
selon
Q
{\displaystyle Q}
est définie comme :
D
α α -->
(
P
‖ ‖ -->
Q
)
=
1
α α -->
− − -->
1
log
-->
(
∑ ∑ -->
i
=
1
n
p
i
α α -->
q
i
α α -->
− − -->
1
)
{\displaystyle D_{\alpha }(P\|Q)={\frac {1}{\alpha -1}}\log {\Bigg (}\sum _{i=1}^{n}{\frac {p_{i}^{\alpha }}{q_{i}^{\alpha -1}}}{\Bigg )}}
La limite
D
1
(
P
‖ ‖ -->
Q
)
{\displaystyle D_{1}(P\|Q)}
existe et correspond à la Divergence de Kullback-Leibler .
Voir aussi
Article connexe
Bibliographie
(en) A. Rényi, « On measures of entropy and information » , dans Proc. 4th Berkeley Symposium on Mathematical Statistics and Probability' , vol. 1, 1960 , p. 547-561 .
(en) Christian Cachin, Entropy Measures and Unconditional Security in Cryptography , 1997 (lire en ligne [PDF] )