Em teoria das probabilidades e estatística, a distribuição hipergeométrica é uma distribuição de probabilidade discreta que descreve a probabilidade de sucessos em retiradas, sem reposição, de uma população de tamanho que contém exatamente sucessos, sendo cada retirada um sucesso ou um fracasso. Em contraste, a distribuição binomial descreve a probabilidade de sucessos em retiradas com reposição.
Em estatística, o teste hipergeométrico usa a distribuição hipergeométrica para calcular a significância estatística de obtenção de um número específico de sucessos (a partir de um total de retiradas) a partir da população acima mencionada. O teste é frequentemente usado para identificar quais subpopulações estão super-representadas ou sub-representadas em um amostra. Por exemplo, um grupo de marketing poderia usar o teste para compreender sua base de consumidores ao testar um conjunto de consumidores desconhecidos para avaliar a super-representação de vários subgrupos demográficos (como mulheres ou pessoas abaixo de 30).
Definição
As seguintes condições caracterizam a distribuição hipergeométrica:
O resultado de cada retirada (os elementos da população que compõem a amostra) pode ser classificado em uma de duas categorias mutuamente excludentes (por exemplo, aprovação ou reprovação, empregado ou desempregado);
A probabilidade de um sucesso muda a cada retirada, conforme cada retirada diminui a população (amostragem sem reposição a partir de uma população finita).
Isto segue da simetria do problema, mas isto também pode ser mostrado expressando os coeficientes binomiais em termos de fatoriais e rearranjando os últimos.[2]
Aplicação e exemplo
A aplicação clássica da distribuição hipergeométrica é a amostragem sem reposição. Suponha uma urna com dois tipos de bolas, vermelhas e verdes. Defina a retirada de uma bola verde como um sucesso e a retirada de uma bola vermelha como um fracasso (o que é análogo à distribuição binomial). Se a variável descrever o número de todas as bolas na urna e descrever o número de bolas verdes, então corresponde ao número de bolas vermelhas. Neste exemplo, é a variável aleatória cujo valor observado é , o número de bolas verdes retiradas no experimento. Esta situação é ilustrada pela seguinte tabela de contingência:
Retiradas
Não retiradas
Total
Bolas verdes
Bolas vermelhas
Total
Agora, assuma, por exemplo, que há 5 bolas verdes e 45 bolas vermelhas na urna. De pé ao lado da urna, você fecha seus olhos e retira 10 bolas sem reposição. Qual é a probabilidade de que exatamente 4 das 10 sejam verdes? Note que, apesar de estarmos observando sucessos e fracassos, os dados não são precisamente modelados pela distribuição binomial, porque a probabilidade de sucesso em cada triagem não é a mesma, já que o tamanho da população remanescente muda conforme removemos cada bola.
O problema está resumido pela seguinte tabela de contingência:
Retiradas
Não retiradas
Total
Bolas verdes
Bolas vermelhas
Total
A probabilidade de retirar exatamente bolas verdes pode ser calculada pela fórmula
Assim, neste exemplo, calcula-se
Intuitivamente, é ainda mais improvável que todas as cinco bolas sejam verdes.
Conforme esperado, a probabilidade de retirar cinco bolas verdes é aproximadamente 35 vezes menor do que a probabilidade de retirar 4 bolas verdes.
Outro exemplo se refere a um jogo de loteria que consiste em selecionar seis números de um conjunto de cem, que vão de de 00 a 99, com uma bola para cada número e sem reposição. Em um cartão de aposta, o jogador pode escolher de 6 a 12 números. Qual é a probabilidade de que o jogador acerte a quina, ou seja, cinco números, ao marcar 10 números no volante? Temos
: total de números, ;
: total de números sorteados, ;
: total de números escolhidos, ;
: total de sucessos, deseja-se .
A probabilidade de que o jogador acerte a quina é de aproximadamente 0,000019%.
O mesmo problema pode ser resolvido de outra forma. Pode-se pensar que a escolha aleatória é feita pelo jogador, mas que os números "premiados" já estão definidos a priori, sem que o jogador saiba. Logo, existem dois tipos de números, os "premiados" e os "não premiados". O jogador escolhe aleatoriamente (ou não, desde que seu critério de escolha seja independente dos números "premiados") os 10 números do seu jogo. Assim:
: total de números, ;
: total de números sorteados/escolhidos pelo jogador, ;
: total de números premiados, ;
: total de sucessos, deseja-se .
O resultado é o mesmo.
Aplicação no Texas hold 'em
No pôquer Texas hold 'em, jogadores fazer a melhor mão que podem combinando duas cartas em suas mãos com as cinco cartas (cartas comunitárias) eventualmente distribuídas sobre a mesa. O baralho tem 52 cartas, 13 de cada naipe. Para este exemplo, assuma que um jogador tem duas cartas de paus na mão e há três cartas na mesa, duas das quais também são de paus. O jogador gostaria de saber a probabilidade de que uma das duas próximas cartas a serem mostradas seja uma carta de paus para completar o flush.
Note que as chances calculadas neste exemplo assumem que nenhuma informação é conhecida sobre as cartas nas mãos dos outros jogadores. Entretanto, jogadores de pôquer experientes podem levar em conta como outros jogadores fazem suas apostas ao considerar as probabilidades para cada cenário. Estritamente falando, a abordagem ao calcular probabilidades de sucesso aqui descrita é precisa em um cenário em que há apenas um jogador na mesa. Em uma partida com vários jogadores, estas probabilidades podem ser ajustadas de alguma forma com base nas apostas dos oponentes.
Há quatro cartas de paus à mostra, então há nove cartas de paus ocultas. Há cinco cartas à mostra (duas na mão e três na mesa, então há ainda ocultas.
A probabilidade de que uma das duas próximas cartas a serem mostradas seja uma carta de paus pode ser calculada usando a hipergeométrica , , e , sendo cerca de 31,6%.
A probabilidade de que as duas próximas cartas a serem mostradas sejam duas cartas de paus pode ser calculada usando a hipergeométrica , , e , sendo cerca de 3,3%.
A probabilidade de que nenhuma das duas próximas cartas a serem mostradas seja uma carta de paus pode ser calculada usando a hipergeométrica , , e , sendo cerca de 65,0%.
Simetrias
Invertendo os atributos das bolas verdes e vermelhas, temos:
Invertendo os atributos das bolas retiradas e não retiradas, temos:
Invertendo os atributos das bolas verdes e retiradas, temos:
Teste hipergeométrico
O teste hipergeométrico usa a distribuição hipergeométrica para medir a significância estatística da obtenção de uma amostra que consiste de um número específico de sucessos (dentre um total de retiradas) a partir de uma população de tamanho contendo sucessos. Em um teste para a super-representação de sucessos na amostra, o valor-p hipergeométrico é calculado como a probabilidade de obter aleatoriamente ou mais sucessos a partir da população em um total de retiradas. Em um teste para sub-representação, o valor-p é a probabilidade de obter aleatoriamente ou menos sucessos.
Relação com o teste exato de Fisher
O teste baseado na distribuição hipergeométrica, o teste hipergeométrico, é idêntico à versão unicaudal correspondente do teste exato de Fisher.[3] Reciprocamente, o valor-p de um teste exato de Fisher bicaudal pode ser calculada como a soma de dois testes hipergeométricos apropriados.[4]
Ordem das retiradas
A probabilidade de retirar qualquer sequência de bolas brancas e pretas, a distribuição hipergeométrica, depende apenas do número de bolas brancas e pretas, não da ordem em que elas aparecem, isto é, é uma distribuição intercambiável. Como resultado, a probabilidade de retirar uma bola branca na -ésima retirada[5]
Considere que tem uma distribuição binomial com parâmetros e . Isto modela o número de sucessos no problema análogo de amostragem com reposição. Se e forem grandes comparados a e não for próximo de 0 ou 1, então e tem distribuições semelhantes, isto é, .
Se for grande, e forem grandes comparados a e não for próximo de 0 ou 1, então,
em que é função distribuição normal padrão.
Se as probabilidades de retirar uma bola branca ou preta não forem iguais (por exemplo, porque bolas brancas são maiores ou mais fáceis de pegar do que as bolas pretas), então, tem uma distribuição hipergeométrica não central.
A distribuição beta-binomial é a priori conjugada para a distribuição hipergeométrica.
A tabela abaixo descreve quatro distribuição relacionadas com o número de sucessos em uma sequência de retiradas:
Com reposições
Sem reposições
Dado número de retiradas
Distribuição binomial
Distribuição hipergeométrica
Dado número de fracassos
Distribuição binomial negativa
Distribuição hipergeométrica negativa
Limites de cauda
Considere Hipergeométrica e . Então, podemos derivar os seguintes limites:[6]
O modelo de uma urna com bolas pretas e brancas pode ser estendida ao caso em que há mais de duas cores de bolas. Se houver bolas de cor na urna e forem retiradas bolas aleatoriamente, sem reposição, então, o número de bolas de cada cor na amostra tem distribuição hipergeométrica multivariada. Esta tem uma relação com a distribuição multinomial igual à que a distribuição hipergeométrica tem com a distribuição binomial — a distribuição multinomial é a distribuição "com reposição" e a a distribuição hipergeométrica multivariada é a distribuição "sem reposição".
As propriedades desta distribuição são dadas na tabela adjacente, em que é o número de cores diferentes e é o número total de bolas.
Exemplo
Suponha que uma urna contém cinco bolas pretas, dez bolas brancas e quinze bolas vermelhas. São selecionadas seis bolas sem reposição. A probabilidade de que sejam retiradas duas bolas de cada cor é
Quando são retiradas seis bolas sem reposição, o número esperado de bolas pretas é , o número esperado de bolas brancas é e o número esperado de bolas vermelhas é . Isto vem do valor esperado de uma distribuição binomial .