O termo variável marginal é usado para referir às variáveis no subconjunto de variáveis sendo retidas. Estes termos são denominados de "marginal" porque eles costumam ser encontrados através da soma de valores em uma tabela ao longo de linhas ou colunas, e a escrita dessa soma é dada nas margens da tabela.[1] A distribuição de variáveis marginais (a distribuição marginal) é obtida marginalizando através da distribuição de variáveis sendo descartadas, e as variáveis descartadas são ditas marginalizadas.
Aqui o contexto é que a análise de dados que se pretende realizar envolve um conjunto maior de variáveis aleatórias, mas o foco é limitado para um número reduzido dessas variáveis. Em várias aplicações, uma análise pode começar com uma dada coleção de variáveis aleatórias, para então estender o conjunto definindo novas variáveis (como a soma das variáveis originais) e, finalmente, ao se concentrar na análise da distribuição marginal de um subconjunto (como a soma), reduzindo o número de variáveis a serem analisadas. Várias análises distintas podem ser feitas, cada uma tratando de um subconjunto de variáveis diferente como variáveis marginais.
Definição
Sejam X e Yvariáveis aleatórias discretas originadas do mesmo fenômeno aleatório. Seja também p(x, y) = P(X = x, Y = y) a função de probabilidade conjunta de X e Y. A função de distribuição marginal é dada por:
Dizemos que f(x) e g(y) são as distribuições de probabilidade marginal (ou simplesmente distribuições marginais) de X e Y, respectivamente. Este conceito tem uma relação com distribuição de probabilidade condicional, que fornece a probabilidade de X = x dado que Y = y ocorreu.[3] A definição de distribuição marginal para variáveis contínuas é semelhante, sendo as funções f(x) e g(y) caracterizadas da seguinte forma:
Consideremos a seguinte situação: queremos calcular a probabilidade de um pedestre ser atropelado por um carro enquanto está atravessando a rua na faixa de pedestre sem prestar atenção ao semáforo. Sejam H ∈ {Atropelado, Não Atropelado} e L ∈ {Vermelho, Amarelo, Verde} variável aleatória discreta.
Realisticamente, H dependerá de L. Ou seja, P(H = Atropelado) e P(H = Não Atropelado) irá assumir diferentes valores dependendo do fato de L ser "Vermelho", "Amarelo" ou "Verde". Uma pessoa estará, por exemplo, mais inclinada a ser atropelada por um carro quando o sinal estiver verde, ao invés de vermelho. Em outras palavras, para qualquer par de valores para H e L, deve-se considerar a distribuição de probabilidade conjunta de H e L para achar a probabilidade desse par de eventos acontecerem simultaneamente se o pedestre ignora o estado do semáforo.
No entanto, quando estamos calculando a probabilidade marginal P(H = Atropelado), o que estamos querendo descobrir é a probabilidade de H ser igual a "Atropelado" na situação na qual não sabemos de fato o valor particular de L e se um pedestre ignora se o sinal está verde, amarelo ou vermelho. Em geral, um pedestre pode ser atingido se o sinal estiver vermelho OU se o sinal estiver amarelo OU se o sinal estiver verde. Então nesse caso a resposta para a probabilidade marginal pode ser encontrada somando os p(h, l) para todos os possíveis valores de L, com cada valor de L ponderado pela sua probabilidade de acontecer.
Aqui temos uma tabela mostrando as probabilidades condicionais de ser atingido, dependendo da sinalização do semáforo. Note que a soma dos valores nas colunas desta tabela deve ser 1, pois P(H = "Atropelado") + P(H = "Não Atropelado") = 1, já que os eventos são complementares, independente do estado do semáforo.
Distribuição condicional: P(H = h|L = l)
L = Verde
L = Amarelo
L = Vermelho
H = Não Atropelado
0,99
0,9
0,2
H= Atropelado
0,01
0,1
0,8
Para achar a distribuição de probabilidade conjunta, precisamos de mais dados. Digamos que P(L = "Verde") = 0,2, P(L = "Amarelo") = 0,1, e P(L = "Vermelho") = 0,7. Multiplicando cada coluna na tabela de distribuição condicional pela probabilidade daquela coluna ocorrer, achamos a distribuição de probabilidade conjunta de H e L, dadas no bloco central de entradas 2×3 (note que a soma das entradas nesse bloco 2×3 é 1).
Probabilidade conjunta: P(H = h, L = l)
L = Verde
L = Amarelo
L = Vermelho
Probabilidade marginal P(H = h)
H = Não Atropelado
0,198
0,09
0,14
0,428
H = Atropelado
0,002
0,01
0,56
0,572
Total
0,2
0,1
0,7
1
A probabilidade marginal P(H = Atropelado) é a soma das entradas da linha H = Atropelado nesta tabela de distribuição conjunta, tendo em vista que esta é a probabilidade de ser atingido quando o sinal está vermelho OU amarelo OU verde. De forma similar, a probabilidade marginal de P(H = Não Atropelado) é a soma das entradas da linha H = Não Atropelado.
Variáveis contínuas
Para distribuição multidimensional, fórmulas similares às que foram definidas acima se aplicam para X ou Y sendo interpretados como vetores. Em particular, cada somatório ou integral seria aplicada em todas as variáveis exceto naquelas contidas em X ou Y (dependendo de que variável se deseja obter os resultados).[5]
↑Marcos Nascimento Magalhães, Antônio Carlos Pedroso de Lima: Noções de Probabilidade e Estatística. Editora da Universidade de São Paulo 2010, ISBN 978-85-314-0677-5, p. 142
↑Marcos Nascimento Magalhães, Antônio Carlos Pedroso de Lima: Noções de Probabilidade e Estatística. Editora da Universidade de São Paulo 2010, ISBN 978-85-314-0677-5, p. 149