PROFILBARU.COM

A Lei de Zipf é uma lei empírica formulada utilizando estatísticas matemáticas que se refere ao fato de que para muitos tipos de dados estudados nas ciências físicas e sociais, a distribuição de frequência de classificação é uma relação inversa^[1]. A distribuição zipfiana esta inserida dentro da família de leis de distribuições de probabilidades poder discreta relacionadas. Está relacionado com a distribuição de zeta, mas não é idêntica.

A lei de Zipf foi originalmente formulada em termos de linguística quantitativa, afirmando que, dado algum corpus de expressões linguísticas naturais, a frequência de qualquer palavra é inversamente proporcional à sua classificação na tabela de frequências. Assim, a palavra mais frequente ocorrerá aproximadamente duas vezes mais frequentemente do que a segunda palavra mais frequente, três vezes mais vezes que a terceira palavra mais frequente, e assim sucessivamente. Não há consenso na literatura, porém, sobre o que causa o fenômeno^[2].

A lei é nomeada em homenagem à George Kingsley Zipf, linguista da Universidade de Harvard, que a popularizou na década de 1940 por meio de sua obra Human Behaviour and the Principle of Least-Effort ("Comportamento Humano e o Principio do Menor Esforço").^[3]^[1] Apesar disso, porém, alguns estudiosos já haviam notado essa regularidade antes de Zipf, como o estenógrafo francês Jean-Baptiste Estoup^[4], e o físico alemão Felix Auerbach, em 1913^[5].

A Lei de Zipf é semelhante em conceito, embora não idêntico na distribuição, à Lei de Benford.

Trata-se de uma lei de potências sobre a distribuição de valores de acordo com o nº de ordem numa lista. Numa lista, o membro n teria uma relação de valor com o 1º da lista segundo 1/n. Por exemplo, numa língua a frequência com que surgem as diversas palavras segue uma distribuição que se pode aproximar por:

P_{n}\sim 1/n^{a}

onde P_n representa a frequência de uma palavra ordenada na n-ésima posição e o expoente a é próximo da unidade. Isto significa que o segundo elemento se repetirá aproximadamente com uma frequência que é metade da do primeiro, e o terceiro elemento com uma frequência de 1/3 e assim sucessivamente. Uma lei não empírica, mas mais precisa, derivada dos trabalhos de Claude Shannon foi descoberta por Benoît Mandelbrot.

Os campos de aplicação da lei de Zipf são diversos, e são também várias as tendências de pensamento que a têm proposto como contrapartida à distribuição gaussiana no âmbito das ciências sociais. Na realidade, nas ciências sociais não se segue sempre uma distribuição gaussiana, mas também não se segue sempre a lei de Zipf.

Génese

Zipf analisou a obra monumental de James Joyce, Ulisses, e contou as palavras distintas, ordenando-as por frequência. Verificou-se que:

a palavra mais comum surgia 8000 vezes;
a décima, 800 vezes;
a centésima, 80 vezes;
a milésima, 8 vezes.

Os resultados fazem parecer, à luz de outros estudos que podem ser feitos rapidamente com qualquer computador, demasiado precisos para serem perfeitamente exatos, e em estudos similares a décima palavra mais comum surge cerca de 1000 vezes, por via de um efeito de cauda observado nesta distribuição. A lei de Zipf prevê que num dado texto, a frequência de ocorrência f(n) de uma palavra esteja ligada à sua ordem n na ordem das frequências por uma lei da forma: $f(n)={\frac {K}{n}}$ onde K é uma constante.

Aplicações

Durante algum tempo, acreditava-se que o livro medieval Código Voynich, indecifrado até hoje, pudesse ser um livro falso, uma fraude. Porém, como o texto do Código segue a Lei de Zipf, isso indica que o livro deve estar escrito em alguma linguagem desconhecida, ao invés de ser pura invenção. ^[6]

Ver também

Leituras complementares

Principais:

George K. Zipf (1949) Human Behavior and the Principle of Least Effort. Addison-Wesley.
George K. Zipf (1935) The Psychobiology of Language. Houghton-Mifflin. (citações em http://citeseer.ist.psu.edu/context/64879/0 )

Secundárias:

Gelbukh, Alexander, and Sidorov, Grigori (2001) "Zipf and Heaps Laws’ Coefficients Depend on Language". Proc. CICLing-2001, Conference on Intelligent Text Processing and Computational Linguistics, February 18–24, 2001, Mexico City. Lecture Notes in Computer Science N 2004, ISSN 0302-9743, ISBN 3-540-41687-0, Springer-Verlag: 332–335.
Damián H. Zanette (2006) "Zipf's law and the creation of musical context," Musicae Scientiae 10: 3-18.
Kali R. (2003) "The city as a giant component: a random graph approach to Zipf's law," Applied Economics Letters 10: 717-720(4)
Gabaix, Xavier (1999). «Zipf's Law for Cities: An Explanation» (PDF). Quarterly Journal of Economics. 114 (3): 739–67. ISSN 0033-5533. doi:10.1162/003355399556133

Referências

↑ ^a ^b Laura Cerqueira, Armando Malheiro da Silva (2007). «Uma abordagem infométrica no âmbito da Ciência de Informação a propósito dos dez anos de edição das Páginas a&b» (PDF)
↑ poder360.com.br/ O guarda-chuva do presidente
↑ «lei de Zipf». Arquivado do original em 3 de dezembro de 2010
↑ Christopher D. Manning, Hinrich Schütze Foundations of Statistical Natural Language Processing, MIT Press (1999), ISBN 978-0-262-13360-9, p. 24
↑ Auerbach F. (1913) Das Gesetz der Bevölkerungskonzentration. Petermann’s Geographische Mitteilungen 59, 74–76
↑ «O livro mais misterioso do mundo». El País. 12 de dezembro de 2015. Consultado em 15 de dezembro de 2015

Ligações externas

[repositorio-1] Laura Cerqueira, Armando Malheiro da Silva (2007). «Uma abordagem infométrica no âmbito da Ciência de Informação a propósito dos dez anos de edição das Páginas a&b» (PDF)

[2] r360.com.br/ O guarda-chuva do presidente

[3] «lei de Zipf». Arquivado do original em 3 de dezembro de 2010

[4] Christopher D. Manning, Hinrich Schütze Foundations of Statistical Natural Language Processing, MIT Press (1999), ISBN 978-0-262-13360-9, p. 24

[Auerbach1913-5] Auerbach F. (1913) Das Gesetz der Bevölkerungskonzentration. Petermann’s Geographische Mitteilungen 59, 74–76

[6] «O livro mais misterioso do mundo». El País. 12 de dezembro de 2015. Consultado em 15 de dezembro de 2015

[1]

[2]

[3]

[4]

[5]

[6]