L'anàlisi de freqüència de les lletres consisteix a comptar, per a cada lletra diferent, quin percentatge d'aparició té en un text respecte al total. La freqüència varia més si es compara entre textos curts, mentre que tendeix a estabilitzar-se entre textos quan s'amplia la llargària d'aquests. Aquesta freqüència estabilitzada és molt variable entre diferents idiomes.
Tant la freqüència de lletres en un text com en el conjunt de paraules d'un diccionari segueixen una distribució similar a la descrita en la Llei de Zipf, i més acuradament, en la Distribució de Yule-Simon.[1]
La freqüència relativa de les lletres d'un determinat idioma és útil en criptoanàlisi pel desxiframent de codis basats en la substitució de cada caràcter.[2] A la novel·la Els ballarins de Arthur Conan Doyle, Sherlock Holmes utilitza aquesta variació entre freqüències d'ús de cada lletra per desxifrar-ne els codis. En informàtica el mateix mètode pot ser utilitzat per desencriptar dades en què només s'hagi passat per un procés d'encriptació bàsic.[3] La mateixa idea també s'utilitza en tècniques modernes de compressió de dades, per exemple en la codificació de Huffman.[4]
També es pot utilitzar per desxifrar criptogrames, cosa que pot resultat útil en determinats jocs de paraules, per exemple l'Scrabble o el joc del penjat. Al llibre L'escarbat d'or de Edgar Allan Poe s'utilitza per desxifrar un criptograma amb instruccions sobre on trobar un tresor.[5]
Els lingüistes també ho utilitzen com una tècnica rudimentària per identificar un determinat llenguatge d'un text desconegut. A més, atès que entre diversos autors també hi ha certes diferències en l'estil i l'ús de determinades paraules, es pot utilitzar, juntament amb anàlisis de N-grames, freqüència i longitud de paraules, longitud de les frases i altres paràmetres similars, per demostrar o rebatre l'autoria d'un text.
El codi Morse es va crear fent servir de base la freqüència de les lletres en anglès. És per això que la lletra més comuna "E" només requereix un punt, i la segona més comuna, la "T", només una línia. Aquest concepte també s'utilitzava en telègrafs i teletips, i n'és un clar exemple el Codi Baudot.[6] Les linotips també utilitzen les lletres ordenades per freqüència d'ús per agilitar el procés manual.
La freqüència de lletres es va tenir en compte al dissenyar algunes disposicions de teclats, per exemple el teclat Dvorak.[7]
El càlcul de la freqüència de lletres en una llengua és difícil i està subjecte a una certa interpretació. Es compta la freqüència de les lletres d'un text arbitràriament llarg, però en els resultats influeixen diversos paràmetres:
Percentatge d'ús de lletres en català:[8]
A partir de les dades anteriors, es pot dir que: