Moda é uma das medidas de altura de um conjunto de dados, assim como a média e a mediana. Ela pode ser definida em moda amostral e populacional.
Em relação à primeira delas, a moda amostral de um conjunto de dados trata do valor que ocorre com maior frequência ou o valor mais comum em um conjunto de dados.[1] Moda é especialmente útil quando os valores ou as observações não são numéricos, casos em que a média e a mediana não podem ser definidas. Por exemplo, a moda da amostra {maçã, banana, laranja, laranja, laranja, pêssego} é laranja.[2] Moda amostral não é necessariamente única como média ou mediana. Amostras que possuem uma moda são chamadas unimodais. Por exemplo, a amostra {1, 2, 3, 5, 5, 6, 7} tem moda 5. Amostras que possuem duas modas são chamadas bimodais. Por exemplo, a amostra {1, 2, 3, 5, 5, 6, 6} tem modas 5 e 6. Amostras que possuem várias modas são chamadas multimodais. Por exemplo, a amostra {1, 2, 3, 5, 5, 6, 6, 7, 7} tem modas 5, 6 e 7. Amostras que não possuem moda são chamadas amodais. Por exemplo, a amostra {1, 3, 2, 5, 7, 6} não tem moda.[3]
Já a moda populacional de uma distribuição de probabilidade discreta é o valor , em que a função massa de probabilidade atinge o valor máximo. Em outras palavras, é o valor que é mais provável de ser amostrado. Moda populacional de uma distribuição de probabilidade contínua é o valor , em que a função densidade de probabilidade atinge o valor máximo. Em outras palavras, é o valor que está no pico. Moda populacional também não é necessariamente única, uma vez que a função massa de probabilidade ou a função densidade de probabilidade podem ter o mesmo valor máximo em vários pontos . O caso extremo ocorre nas distribuições uniformes, em que todos os valores ocorrem com igual frequência.
De acordo com a definição acima, máximos globais são modas. Quando uma função densidade de probabilidade tem vários máximos locais, é comum referir-se a todos os máximos locais como modos de distribuição. Tal distribuição contínua é chamada multimodal (em oposição a unimodal). Em distribuições unimodais simétricas como a distribuição normal ou distribuição gaussiana (distribuição cuja função densidade de probabilidade forma a curva em forma de sino quando representada graficamente), a média, a mediana e a moda coincidem. Em amostras extraídas de distribuições simétricas, a média pode ser a estimativa da moda populacional. É importante lembrar que o valor expresso como maioria em um conjunto de dados não necessariamente representa o valor da moda estatística.[4]
História de como surgiu a palavra moda na matemática
O termo "moda" tem origem em 1895 com Karl Pearson, influenciado pela expressão "estar na moda" usada para objetos muito utilizados pela sociedade como um modelo de carro, uma peça de roupa, um tipo de celular, entre outros utensílios que deem ideia de frequência.[5][6][7] Se no cotidiano moda significa muito usado, em estatística moda significa o valor mais frequente em um conjunto de dados.
De acordo com W. Allen Wallis e Harry V. Roberts, no livro Curso de Estatística, há uma referência antiga ao conceito no cerco dos plateus e dos atenienses pelos peloponésios e pelos beócios. No inverno de 428 a.C., os plateus e os atenienses sitiados pelos peloponésios e pelos beócios construíram escadas para escapar pelas muralhas inimigas. Para construir escadas da altura das muralhas inimigas, muitos plateus e atenienses contaram as camadas de tijolos. Mesmo que houvesse erros, a maioria dos sitiados haveria de ter acertado as contagens. Isto é, o grande número de contagens haveria de ser confiável.[5]
Moda amostral
Uma amostra pode ser unimodal (uma moda), bimodal (duas modas), multimodal (várias modas) e amodal (nenhuma moda).[3] Determinadas distribuições patológicas como a distribuição de Cantor não apresentam moda definida. Em uma votação em que a quantidade de votos determina a vitória, um resultado unimodal determina o vencedor enquanto que um valor multimodal exige o desempate. A amostra é chamada homogênea quando possui apenas uma moda e heterogênea quando possui mais de uma moda.[8]
Em estatística, moda como média e mediana é uma medida de posição, de localização ou de tendência central que mostra a frequência dos dados. Geralmente ordena-se os elementos de um conjunto de dados e conclui-se que a moda é o elemento com maior repetição. [9]
Moda em conjunto de dados com elementos repetidos é o valor que ocorre com maior frequência ou o valor mais comum em um conjunto de dados.[1][10]
Moda é útil quando um ou dois valores ocorrem com maior frequência em um conjunto de dados. Entretanto, a moda nada acrescenta em termos de descrição dos dados quando todos ou quase todos os valores ocorrem aproximadamente com a mesma frequência. (p.23)[12] Se nenhum valor ocorre com maior frequência em um conjunto de dados, então todos os valores que ocorrem com a maior frequência são chamados valores modais. (p.22)[13]
Diferente da média e da mediana, a moda é aplicada aos dados nominais. Isto é, quando não há valores numéricos.[18][19] Por exemplo, qual a nota modal de um determinado grupo de estudantes em uma determinada disciplina?
Notas
Número de estudantes
A
3
B
15
C
10
D
9
E
8
A nota modal é B, porque é a nota com maior frequência na amostra.[20]
Propriedades
Se a variável aleatória ou se cada valor da amostra for submetido a uma transformação linear que substitua por , a média, a mediana e a moda mudam também:
Entretanto, se houver uma transformação monótona arbitrária em geral a moda muda de acordo com a transformação. Por exemplo, se for substituído por , a moda muda de para e a média não muda da mesma maneira.
Com exceção de pequenas amostras, a moda não é sensível a valores discrepantes (outliers) como leituras experimentais falsas, ocasionais ou raras. Enquanto a média é muito sensível, a mediana é bastante robusta na presença de valores atípicos. [21]
Intervalo de confiança
Embora comum, é falsa a crença que não é possível obter uma informação sobre variabilidade da população a partir de uma única observação e que um intervalo de confiança de comprimento finito para média e / ou variância não são possíveis.
É possível para uma distribuição unimodal desconhecida estimar o intervalo de confiança para a moda com uma amostra de tamanho 1.[22] Isso foi mostrado primeiramente por Abbot and Rosenblatt e ampliado por Blachman[23] e Machol.[24] O intervalo de confiança pode ser sharpened se a distribuição pode ser assumida como sendo simétrica. É ainda possível sharpen o intervalo se a distribuição é normalmente distribuída.
Seja o intervalo de confiança . Então, os intervalos de confiança para as variáveis gerais, simétricas e normalmente distribuídas respectivamente são , e , em que é a variável aleatória, é a moda e é o valor absoluto.
Essas estimativas são conservadoras. Os intervalos de confiança para a moda no nível de 90% dada por esses estimadores são
, e , para as variáveis gerais, simétricas e normalmente distribuídas, respectivamente.
O intervalo de confiança de 95% para uma variável normalmente distribuída é dado por , lembrando que média e a moda coincidem se as variáveis são normalmente distribuídas.
O limite de 95% para uma variável normalmente distribuída tem sido melhorado e é conhecido como .[25] O limite para um intervalo de confiança de 99% é .
De acordo com Machol, dada uma densidade simétrica conhecida sobre 0 e dado um valor da amostra único , os intervalos de confiança de 90% da média da população são:[24], em que é a mediana da população.
Se a forma precisa da distribuição não for conhecida, mas for simétrica sobre 0, então , em que é a variável, é a média da população e e são números reais arbitrários.
Também é possível estimar o intervalo de confiança para o desvio padrão a partir de uma única observação se a distribuição é simétrica em 0.[26] Para uma distribuição normal com uma variância desconhecida um ponto de dado único , os intervalos de confiança de 90%, 95% e 99% para o desvio padrão são , e . Esses intervalos podem ser reduzidos se a média for conhecida por ser limitada por um múltiplo do desvio padrão.
Se a distribuição for conhecida por ser normal, então é possível estimar o intervalo de confiança para a média e a variância a partir de um valor simples.[27] Os intervalos de confiança de 90% são e .
Os intervalos de confiança podem ser estimados para qualquer intervalo escolhido. Esse método não é limitado para distribuições normais, mas pode ser usado para qualquer distribuição conhecida.
Estimadores da moda para dados agrupados
Quando não há acesso aos dados originais mas apenas uma tabela que agrupa os dados em classes de uma variável quantitativa existem vários procedimentos para o cálculo da moda. Os três cálculos de moda mais conhecidos são a moda bruta, a moda de King e a moda de Czuber.[28]
Moda bruta
Moda bruta é o ponto médio da classe de maior frequência. Seja o conjunto das alturas de um determinado grupo de pessoas.
Altura (cm)
Número de pessoas (frequência)
161 – 170
6
171 – 180
10
181 – 190
3
No conjunto , as alturas são as classes. A classe modal é o intervalo entre 171 e 180, com frequência 10.
Então, a moda será definida por , em que é a moda, é o limite inferior da classe modal e é o limite superior da classe modal.
Moda de King considera as classes adjacentes à classe modal. Seja o mesmo conjunto das alturas do mesmo grupo de pessoas. A amplitude da classe modal é 9, pois a diferença entre 171 e 180 é 9 (assim como ocorre com os intervalos entre 161 e 170 e entre 181 e 190). As classes adjacentes à classe modal são o intervalo entre 161 e 170, com frequência 6, e o intervalo entre 181 e 190, com frequência 3. [29]
Então, a moda será definida por , em que é o limite inferior da classe modal, é a amplitude da classe modal, é a frequência de classe posterior a classe modal e é a frequência de classe anterior a classe modal.
Moda de Czuber considera as classes adjacentes à classe modal e a própria classe modal. Seja o mesmo conjunto das alturas do mesmo grupo de pessoas.
Então, a moda será definida por, em que é o limite inferior da classe modal, é a amplitude da classe modal, é a frequência da classe posterior a classe modal, é a frequência da classe anterior a classe modal e é a frequência da classe modal.
A diferença entre a média e a moda da distribuição contínua unimodal é limitada pelo desvio padrão multiplicado pela raiz quadrada de três.[30] Em termos matemáticos,, em que é o valor absoluto. Inclusive, a fórmula também é a regra de Pearson ou o primeiro coeficiente de assimetria.[31]
A diferença entre a moda e a mediana tem o mesmo limite.[30] Em termos matemáticos,.
Para uma distribuição unimodal, a mediana e a média estão dentro dos desvios-padrão de cada um.[32] Em termos matemáticos,.
Existe uma relação similar para a mediana e a moda, que estão dentro dos desvios-padrão de cada um.[30] Em termos matemáticos,.[30]
Distribuições distorcidas
Assim como a média e a mediana, a moda expressa em um único número uma informação importante sobre uma variável aleatória ou uma população. O valor numérico da moda coincide com o valor numérico da média e da mediana em distribuições simétricas unimodais como distribuições normais (se a média, a mediana e a moda forem extraídas de uma distribuição simétrica, a média da amostra pode ser usada como estimativa da moda da população). O valor numérico da moda difere do valor número da média e da mediana em distribuições muito distorcidas.[13]
Um exemplo de uma distribuição distorcida é a renda pessoal. Enquanto muitas pessoas são muito pobres, poucas pessoas são muito ricas (dentre elas, muitas são extremamente ricas).[33]
Uma classe de distribuições que pode ser arbitrariamente distorcida é dada pela distribuição log-normal. Ela é obtida pela transformação da variável aleatória com distribuição normal pela variável aleatória . [34]Então, o logaritmo da variável aleatória é normalmente distribuído. Se a média de for 0, a mediana de será 1 independente do desvio padrão de . Como tem distribuição simétrica, a mediana será sempre 0. Como a transformação de para é monótona, a mediana para .[34]
Quando tem desvio padrão , a distribuição é fracamente distorcida. Usando as fórmulas para a distribuição log-normal, é possível encontrar:
Isto é, a mediana é cerca de um terço da distância entre a média e a moda.[35]
Quando tem desvio padrão , a distribuição é fortemente distorcida. Usando as fórmulas para a distribuição log-normal, é possível encontrar:
Derivada de Van Zwet é uma desigualdade que fornece condições suficientes para assegurar a desigualdade .[36] Tem-se que para todos os , em que é a função de distribuição cumulativa da distribuição.[37]
Informática
Densidade Kernel. Moda também pode ser calculada por meio da estimativa de densidade Kernel, que ofusca amostras pontuais para produzir uma estimativa contínua de uma função densidade de probabilidade que pode fornecer uma estimativa da moda.[38]
Algoritmo em MATLAB. O exemplo seguinte de código MATLAB ou Octave computa a moda de uma amostra usando derivadas discretas.[39]
X=sort(x);indices=find(diff([X;realmax])>0);% os índices em que valores repetidos mudança[modeL,i]=max(diff([0;indices]));% maior comprimento persistência de valores repetidosmode=X(indices(i));
O algoritmo coloca a amostra em ordem crescente e calcula a derivada discreta da amostra em ordem crescente. Depois ele procura os índices nos quais a derivada é positiva. Em seguira, ele calcula a derivada discreta deste conjunto de índices, e, finalmente, avalia a amostra classificada no ponto em que ocorre esse máximo, o que corresponde ao último membro do estiramento dos valores repetidos.[39]
Algoritmo em Pascal. Em informática, é possível criar um software que descubra a moda de uma lista de valores em um algoritmo (Pascal):
PROGRAMcalcular_moda;CONSTn=20;VARmoda:array[1..n]ofreal;c:array[1..n]ofinteger;i,j,m,cont,a:integer;BEGINcont:=0;WRITE('Quantos números possui a lista');READLN(a);FORi:=1TOaDOBEGINWRITE('N',i,' = ');READLN(moda[i]);c[i]:=0;END;FORi:=1TOaDOBEGINFORj:=1TOaDOBEGINIF((moda[i]=moda[j])AND(i<>j))THENc[i]:=c[i]+1;IF((c[i]=c[j])AND(i<>j)AND(moda[i]=moda[j]))THENc[i]:=0;END;END;FORi:=1TOaDOBEGINIF(c[i]=0)THENmoda[i]:=0;END;FORi:=1TOaDOBEGINIF(moda[i]<>0)THENcont:=cont+1;END;FORm:=1TO(contDIV2)DOBEGINFORi:=1TOaDOBEGINFORj:=1TOaDOBEGINIF((moda[i]=moda[j])AND(i<>j))THENc[i]:=c[i]+1;IF((c[i]=c[j])AND(i<>j)AND(moda[i]=moda[j]))THENc[i]:=0;END;IF(c[i]=0)THENmoda[i]:=0;END;END;FORi:=1TOaDOBEGINIF(moda[i]<>0)THENWRITELN('Moda = ',moda[i]);END;READLN;END.
O mesmo código em C
#include<stdio.h>#include<conio.h>#define n 20intmain(){floatmoda[n];intc[n];inti,j,m,cont,a;cont=0;printf("Quantos números possui a lista ");scanf("%d",&a);for(i=1;i<=a;i++){printf("N %d = ",i);scanf("%f",&moda[i]);c[i]=0;}for(i=1;i<=a;i++){for(j=1;j<=a;j++){if((moda[i]==moda[j])&&(i!=j))c[i]=c[i]+1;if((c[i]==c[j])&&(i!=j)&&(moda[i]==moda[j]))c[i]=0;}}for(i=1;i<=a;i++){if(c[i]==0)moda[i]=0;}for(i=1;i<=a;i++){if(moda[i]!=0)cont=cont+1;}for(m=1;m<=((int)cont/2);m++){for(i=1;i<=a;i++){for(j=1;j<=a;j++){if((moda[i]==moda[j])&&(i!=j))c[i]=c[i]+1;if((c[i]==c[j])&&(i!=j)&&(moda[i]==moda[j]))c[i]=0;}if(c[i]==0)moda[i]=0;}}for(i=1;i<=a;i++){if(moda[i]!=0)printf("Moda = %g",moda[i]);}getch();return0;}
Algoritmo em Python. Em Python, é possível utilizar:
↑HUOT, Réjean. Métodos quantitativos para as ciências humanas. Lisboa: Piaget, 1999, cap. 1.
↑ abZat, Ancilla Dall’Onder. «MODA ESTATÍSTICA: RELAÇÕES CONCEITUAIS»(PDF). Pontificia Universidade Católica do Rio Grande do Sul. p. 529. Consultado em 5 de dezembro de 2016
↑GONÇALVES, Fernando A. Estatística descritiva. 2.ed. São Paulo: Atlas, 1978.
↑Pearson, Karl (1895). "Contributions to the Mathematical Theory of Evolution. II. Skew Variation in Homogeneous Material", Philosophical Transactions of the Royal Society of London, Ser. A, 186, 343-414
↑Farias, Ana Maria Lima de. «Fundamentos de Estatística Aplicada»(PDF). Universidade Federal Fluminense. p. 24 - 25. Consultado em 7 de dezembro de 2016. Arquivado do original(PDF) em 13 de dezembro de 2016
↑Bussab, Wilton de O.; Morettin, Pedro A. (2004). Estatística Básica. São Paulo: Saraiva. 35 páginas
↑ abBalieiro, Júlio Cesar de C. «Introdução à Estatística»(PDF). Faculdade de Zootecnia e Engenharia de Alimentos da Universidade de São Paulo (FZEA - USP). p. 11. Consultado em 2 de dezembro de 2016
↑Stevenson, William J. (1986). Estatística Aplicada à Administração. [S.l.]: Harbra. 45 páginas
↑ abRoss, Sheldon (2004). Introduction to Probability and Statistics for Engineers and Scientists. [S.l.]: Elsevier. pp. 31 – 33
↑Medri, Waldir (março de 2011). «ANÁLISE EXPLORATÓRIA DE DADOS»(PDF). Universidade Estadual de Londrina. p. 36. Consultado em 7 de dezembro de 2016
↑Edelman, D. (1990). «A confidence interval for the center of an unknown unimodal distribution based on a sample of size 1». The American Statistician. 44 (4): 285–287. doi:10.1080/00031305.1990.10475740
↑Abbot, J. H.; Rosenblatt, J. (1963). «Two stage estimation with one observation on the first stage». Annals of the Institute of Statistical Mathematics. 14 (1): 229–235. doi:10.1007/BF02868644
↑ abBlachman, N. M.; Machol, R. (1987). «Confidence intervals based on one or more observations». IEEE Transactions on Information Theory. 33 (3): 373–382. doi:10.1109/TIT.1987.1057306
↑Wall, M. M.; Boen, J.; Tweedie, R. (2001). «An effective confidence interval for the mean With samples of size one and two». The American Statistician. 55 (2): 102–105. doi:10.1198/000313001750358400
↑Rosenblatt, J. (1966). «Confidence interval for standard deviation from a single observation». Technometrics. 8 (2): 367–368. doi:10.1080/00401706.1966.10490358
↑ abcdTOLEDO, G.L.; OVALLE, I. I. (1978). «MODA DE KING E MODA DE CZUBER»(PDF). Instituto Federal Sudeste de Minas Gerais. p. 1 - 2. Consultado em 2 de dezembro de 2016
↑ abMendonça, Melissa Weber. «Computação Científica com MATLAB»(PDF). Universidade Federal de São Carlos. pp. 1 – 15. Consultado em 7 de dezembro de 2016