A distribuição logística deriva do trabalho de Pierre François Verhulst, professor de análise na Faculdade Militar Belga, que utilizou esta distribuição para modelar o crescimento da população na Bélgica no início de 1800[1]. A teoria da probabilidade e a estatística são dois ramos da matemática onde a distribuição logística é classificada como sendo uma distribuição de probabilidade contínua. Um aspeto peculiar é que a distribuição de Tukey Lambda representa uma generalização da distribuição logística, uma vez que o parâmetro desta distribuição, quando igualado a zero, corresponde à distribuição logística.
Os parâmetros de localização e de escala influenciam a representação gráfica da f.d.p. da distribuição logística. Na Figura 1, é possível observar que, para diferentes valores do parâmetro de localização, a função desloca-se ao longo do eixo das abcissas. O parâmetro de escala influencia a função em termos da sua altura. Consoante os diferentes valores de , a função pode se tornar mais alta e achatada ou mais baixa e larga. Em geral, a f.d.p. é unimodal e possui apenas um único máximo global (na Figura 1, representa o "pico" da função).
A função secante hiperbólica, designada por , é dada por . A f.d.p. pode ser escrita em termos do quadrado desta função. Assim, é possível reescrever a f.d.p. usando , de tal forma que se obtém a seguinte expressão:
A função logística é definida por . Verifica-se pela expressão da função distribuição que esta se assemelha à função logística. Deste modo, o gráfico da Figura 2 é muito semelhante ao gráfico da função logística. Pela Figura 2, observa-se que, para diferentes valores de e , a curva exibe um crescimento exponencial mais ou menos acentuado.
A função tangente hiperbólica, designada por , é dada por . A função distribuição pode ser escrita usando a função . Assim, a expressão anterior da função distribuição é reescrita obtendo-se
, onde e .
Função quantil
A inversa da função distribuição é designada por função quantil, sendo representada por:
, onde , e .
Note-se que a função quantil é uma generalização da função logit. Assim, a função quantil pode ser reescrita obtendo-se
, onde .
Além disso, a derivada da função quantil é dada por
, onde , e .
Parametrização alternativa
Uma parametrização alternativa pode ser feita se considerar que o parâmetro possa ser substituído por , onde ; e passa a ser o novo parâmetro a ter em conta.
Assim, a f.d.p. e a função distribuição para a variável aleatória podem ser reescritas, respetivamente, tendo em conta as seguintes expressões:
e , onde para ambas e .
Propriedades
As propriedades mais importantes de uma distribuição dizem respeito ao valor esperado (também designado por esperança ou média), variância, moda, mediana e função geradora de momentos. Assim, considerando a variável aleatória , as propriedades desta são dadas pelas seguintes expressões, respetivamente [2][3]:
Note-se que na expressão da função geradora de momentos, a letra designa a função gama.
Outras duas propriedades que não são muito estudadas são a assimetria e a curtose. A assimetria é uma propriedade que referencia a assimetria da distribuição; e para este caso, a medidade de assimetria é , uma vez que a distribuição logística é simétrica [4]. Enquanto a curtose é uma medida de forma que caracteriza o achatamento da curva da f.d.p. das distribuições. Para a distribuição em causa, o valor da curtose é [4]. Pelo facto da f.d.p. desta distribuição ser muito semelhante à f.d.p. da distribuição normal, o valor da curtose, ao ser um valor positivo maior que zero, significa que a distribuição logística é mais alta e afunilada que a distribuição normal[5].
Aplicações
A distribuição logística foi investigada pela primeira vez pelo matemático francês Pierre Verhulst nas décadas de 1830 e 1840; e recebeu seu nome num artigo de 1929 de Reed e Berkson[6]. Embora o interesse original de Verhulst tenha sido no estudo da demografia e na modelagem de populações humanas, um dos principais usos da distribuição logística historicamente tem sido em estatística, como uma ferramenta, na chamada regressão logística[6].
Ainda hoje, no entanto, a distribuição logística é uma ferramenta frequentemente utilizada na análise de sobrevivência, onde é preferível sobre distribuições qualitativamente similares, por exemplo, à distribuição normal [6]. As ferramentas derivadas e inspiradas pela distribuição logística são geralmente usadas para representar dados de tolerância em várias ciências da vida, incluindo zoologia e fisiologia; e a própria distribuição é usada em finanças matemáticas para modelar o risco de vários ativos financeiros [6]. A distribuição logística também pode modelar uma série de fenômenos, incluindo a disseminação de doenças, crescimento celular e a disseminação de inovações [6].
Um facto interessante é que a Federação de Xadrez dos Estados Unidos e a Federação Mundial de Xadrez (FIDE) usam a distribuição logística para calcular o nível de habilidade relativa dos jogadores de xadrez[4]. Anteriormente, ambos usavam a distribuição normal [4].
Aplicação no software R
No software R,[necessário esclarecer] para usar a distribuição logística, é necessária a instalação do packagestats que contém os comandos referentes à f.d.p., à função distribuição e à função quantil [7]. Além disso, também é possível gerar números aleatórios que seguem esta distribuição [7]. Para se usar os comandos, é crucial definir primeiro os parâmetros de localização e escala. Note-se que se estes parâmetros não forem definidos previamente, o software R assume por defeito que o parâmetro de localização é e o parâmetro de escala é .
Existindo um package que contém as funções essenciais da distribuição logística, não é necessário o utilizador definir essas funções. No entanto, para exemplos ilustrativos, realizou-se um pequeno exercício que demonstra que aodefinir a função ou utilizar os comandos do R, para um determinado valor de uma sequência, os resultados são iguais. Os scripts do R encontram-se nas Figuras 3, 5, 7 e 8.
Suponha-se que se considera os parâmetros de localização e escala definidos por e , respetivamente, e define-se como sendo uma sequência de valores entre e de tamanho . Caso o utilizador queira definir ele próprio a f.d.p., deve utilizar o comando function() e inserir a expressão correspondente. Através do comando plot(), pode-se ter acesso ao gráfico da f.d.p. definida para a sequência de valores de . No script da Figura 3, definiu-se a função da f.d.p., fez-se o gráfico desta função que pode ser visto na Figura 4 e, por fim, para um valor da sequência, , determinou-se o valor da função neste ponto. Em seguida, utilizou-se o comando do R, dlogis(), que representa a f.d.p. já definida pelo próprio software; e calculou-se também para o mesmo valor da sequência definido anteriormente. É espectável que, estando todos os comandos bem definidos, o valor é exatamente igual. Assim, considerando ambos os comandos, o valor da f.d.p., para , é dado por .
Realizou-se o mesmo processo para a função distribuição. O comando do R para esta função é designado por plogis(). O valor da sequência escolhido foi . E, tal como seria de esperar, para ambos os comandos, o valor da função distribuição para é dado por . Na Figura 5, visualiza-se o script do R para a função distribuição; e o gráfico desta função, para a sequência de valores definida no script, encontra-se na Figura 6.
A função quantil é representada pelo comando qlogis(). Uma vez que esta função é definida por um logaritmo, ela apenas calcula quantis para valores entre e . Definiu-se a função quantil também pelo comando function() e, para fazer a sua representação gráfica, considerou-se uma sequência de valores para entre e de tamanho , tendo obtido a Figura 9. Em seguida, calculou-se o 1º Quartil, para ; a mediana, para ; e o 3º Quartl, para , usando o comando já existente no R e a função definida, com parâmetros dados por e . Na Figura 8, encontra-se o script do R para a função quantil. Assim, para o 1º Quartil, obteve-se uma quantil de ; para a mediana, um quantil de ; e, para o 3º Quartil, um quantil de , usando ambos os comandos.
Para os exemplos anteriores, considerou-se um valor inicial fixo. No entanto, o comando rlogis() permite gerar valores aleatórios da distribuição em causa para um determinando conjunto de observações. No script do R da Figura 7, gerou-se observações da distribuição logística, com parâmetros e para a localização e escala, respetivamente.
Todas as distribuições possuem um package, que utilizando o software R, o utilizador tem acesso às funções que lhes são correspondentes. Assim, uma vez que todas as distribuições são cruciais para diversos estudos, graças a esses packages não é necessário que o utilizador perca tempo em definir cada uma das funções.