Nota: Este artigo é sobre a métrica usada para cálculo da diferença entre duas distribuições de probabilidade. Para divergência no cálculo vetorial, veja
divergência.
A divergência de Kullback-Leibler (também chamada de entropia relativa) é uma medida não-simétrica da diferença entre duas distribuições de probabilidade.[1][2]
Especificamente, A divergência de Kullback–Leibler de Q dado P, indicada com DKL(P||Q), é a medida da informação perdida quando Q è usada para aproximar o valor de P:[3]
Ainda que frequentemente vista como uma distância, a divergência KL não é, estritatemente, uma métrica de distância. Por exemplo, falta-le simetria: a KL de P dado Q não é, de forma geral, a mesma KL de Q dado P.
Uma divergência de Kullback-Leibler igual a 0 indica que as funçõe/distribuições P e Q são muito parecidas (iguais, até), enquanto uma divergência de 1 indica que se comportam de maneira diferente.
As aplicações da medida incluem a caracterização da entropia (teoria da informação) em sistemas de informação, a aleatoriedade, em séries temporais, ganho de informação ao comparar com modelos estatísticos de inferência. Em versões simplificadas, é usada também em estatística aplicada, mecânica dos fluidos, neurociência e aprendizado de máquina.
Etimologia
A divergência de Kullback-Leibler foi introduzida por Solomon Kullback e Richard Leibler em 1951 como a divergência, distância entre duas distribuições; Kullback preferiu o termo 'informação de discriminação' .
[4]
Interpretações
A divergência de Kullback-Leibler de Q para P é frequentemente denotada com DKL(P‖Q ).
No contexto do aprendizado de máquina, DKL( P‖Q ) é frequentemente chamado de ganho de informação alcançado se Q for usado ao invés de P. Por analogia com a teoria da informação, também é chamada de entropia relativa de P em relação a Q. No contexto da teoria de codificação, D KL(P‖Q) pode ser interpretado como medida do número esperado de bits extras bits necessários para código amostras de P usando um código optimizado para Q ao invés do código optimizado para P.
Na visão de Inferência Bayesiana, DKL (P‖Q) é uma medida da informação obtida quando alguém revê suas crenças da distribuição de probabilidade inicial Q para distribuição de probabilidade final P. Em outras palavras, é a quantidade de informação perdida quando Q é usado para aproximar P. [5] Em aplicações, P tipicamente representa a distribuição "verdadeira" de dados, observações, ou uma distribuição teórica precisamente calculada, enquanto Q tipicamente representa uma teoria, modelo , descrição ou aproximação de P. Para encontrar uma distribuição Q mais próxima de P, podemos minimizar a divergência de KL e computar uma projeção de informação.
A divergência de Kullback-Leibler é um caso especial de uma classe mais ampla de divergências chamada divergências f assim como a classe de divergência de Bregman. É a única divergência sobre probabilidades que é um membro de ambas as classes. Muitas vezes é intuído pensar como uma forma de medir a distância entre distribuições de probabilidade, a divergência de Kullback-Leibler não é uma verdadeiramente métrica. Ela não obedece à desigualdade triangular e, em geral, DKL( P‖Q ) não é igual a DKL( Q‖P ). No entanto, sua forma infinitesimal, especificamente sua Hessiana, fornece um tensor métrico conhecido como informação de Fisher.
Definição
Para uma distribuição discreta de probabilidade P e Q,
a divergência de Kullback-Leibler de Q para P 'é definida.[6]
como,
o que é equivalente a
Em outras palavras, é a expectativa da diferença logarítmica entre as probabilidades P e Q, onde a expectativa é obtida usando as probabilidades P. A divergência de Kullback-Leibler é definida apenas se para todo i, Q(i) =0 implica P(i)=0 (continuidade absoluta). Sempre que P(i) é zero, a contribuição do i-ésimo termo é interpretado como zero pois
.
Para as distribuições P e Q de uma variável aleatória contínua, a divergência de Kullback-Leibler é definida como sendo a integral:[7]
onde p e q denotam as densidades de P e Q.
De modo geral, se P e Q são probabilidade
medida sobre um conjunto X, e P
é absolutamente contínua em relação a Q, então
o Kullback-Leibler divergência de Q para P é definida como
Onde
é a derivada de Radon-Nikodym de P em relação a Q,
garantindo dado que a expressão do lado direito exista. Equivalente, isso
pode ser escrito como
que é a entropia de P em relação a Q. Continuando neste caso, se é uma medida em X para o qual e existita (o que significa que p e q são absolutamente contínuas em relação a ), então a divergência Kullback–Leibler de Q a P é dada como
Os logaritmos destas fórmulas são tomados na base 2 se a informação é medida em unidades de bits ou na base e se a informação é medida em nat s. A maioria das fórmulas envolvendo a divergência de Kullback-Leibler são verdadeiras independente da base do logaritmo.
Existem várias convenções para se referir a DKL(P‖Q) em palavras. Muitas vezes é referida como a divergência entre P e Q; no entanto, isso não consegue transmitir a assimetria fundamental na relação. Às vezes, como neste artigo, pode ser encontrada descrita como a divergência de P a partir de, ou em relação a Q. Isso reflete a assimetria na inferência bayesiana, que inicia de um Q anterior e atualiza para o P posterior.
Referências
- ↑ Kullback, S.; Leibler, R.A. (1951). «On information and sufficiency». Annals of Mathematical Statistics. 22 (1): 79–86. MR 39968. doi:10.1214/aoms/1177729694
- ↑ Kullback, S. (1959), Information Theory and Statistics, John Wiley & Sons . Republished by Dover Publications in 1968; reprinted in 1978: ISBN 0-8446-5625-9.
- ↑ Kenneth P. Burnham, David R. Anderson (2002), Model Selection and Multi-Model Inference: A Practical Information-Theoretic Approach. Springer. (2nd ed), p.51
- ↑ Kullback, S. (1987). «Letter to the Editor: The Kullback–Leibler distance». The American Statistician. 41 (4): 340–341. JSTOR 2684769. doi:10.1080/00031305.1987.10475510
- ↑ Burnham, K. P.; Anderson, D. R. (2002). Model Selection and Multi-Model Inference 2nd ed. [S.l.]: Springer. p. 51
- ↑ MacKay, David J.C. (2003). Information Theory, Inference, and Learning Algorithms First ed. [S.l.]: Cambridge University Press. p. 34
- ↑ Bishop C. (2006). Pattern Recognition and Machine Learning p. 55.