Análise de variância (ANOVA, do inglês analysis of variance) é a técnica estatística que permite avaliar afirmações sobre as médias de populações [1]. A análise visa, fundamentalmente, verificar se existe uma diferença significativa entre as médias e se os fatores exercem influência em alguma variável dependente.
Objetivo da Análise de Variância
A análise de variância compara médias de diferentes populações para verificar se essas populações possuem médias iguais ou não. Assim, essa técnica permite que vários grupos sejam comparados a um só tempo.
Em outras palavras, a análise de variância é utilizada quando se quer decidir se as diferenças amostrais observadas são reais (causadas por diferenças significativas nas populações observadas) ou casuais (decorrentes da mera variabilidade amostral). Portanto, essa análise parte do pressuposto que o acaso só produz pequenos desvios, sendo as grandes diferenças geradas por causas reais[1].
História
Segundo Stigler[2] os antecedentes da análise de variância existem desde há vários séculos tendo os métodos atingido maturidade no século XX. Este incluem testes de hipóteses, decomposição da soma dos quadrados, técnicas experimentais e o modelo aditivo. Laplace já realizava testes de hipóteses em 1770. Cerca de 1800, Laplace e Gauss desenvolveram o método dos mínimos quadrados para combinar observações melhorando métodos usados na época em astronomia e geodésica. Laplace sabia como estimar a variância a partir da soma dos quadrados dos resíduos (em vez do total). Em 1827 Laplace utilizava o método dos mínimos quadrados Método_dos_mínimos_quadrados para resolver problemas de analise da variância sobre medições de correntes atmosféricas.[2]
Exigências para executar a análise de variância
Os pressupostos básicos da análise de variância são:
Na prática, esses pressupostos não precisam ser todos rigorosamente satisfeitos. Os resultados são empiricamente verdadeiros sempre que as populações são aproximadamente normais (isso é, não muito assimétricas) e têm variâncias próximas[1].
Testes de hipóteses
As hipóteses nula e alternativa da análise a serem testadas na análise de variância são:
- Hipótese nula (): as médias populacionais são iguais.
- Hipótese alternativa (): as médias populacionais são diferentes, ou seja, pelo menos uma das médias é diferente das demais.
Propriedades
Por se tratar de um teste bastante difundido, inúmeros softwares estatísticos e planilhas eletrônicas possuem o procedimento para ser aplicado automaticamente.
Considerando uma variável de interesse com média μ e variância temos dois estimadores da variância:
= dispersão entre os grupos (B ~ between) e
= dispersão dentro dos grupos (W ~ within)
O teste é aplicado com:
Com graus de liberdade no numerador e no denominador.
Sendo K o número de fatores ou grupos e N o número de observações, e
= () + ()
Exemplo
O teste Enem foi aplicado pelo governo brasileiro nos 27 estados de Federação. Deseja-se descobrir se existe diferença significativa entre as médias de notas de cada Estado. Para isso, toma-se uma amostra aleatória de alunos de cada estado. Sabemos que k=número de populações é 27. O tamanho da amostra do estado 1 é n1 (por exemplo: 100 alunos do Acre), o tamanho da amostra do estado 2 é n2 e assim por diante.
Notas dos alunos da amostra de cada Estado e média da amostra cada estado
Estado
|
=Acre
|
=Amapá
|
...
|
=Tocantins
|
Total
|
Número de alunos da amostra do estado |
|
|
... |
|
|
Nota do 1º aluno do estado |
|
|
... |
|
|
Nota do 2º aluno do estado |
|
|
... |
|
|
... |
... |
... |
... |
... |
|
Nota do último aluno da amostra do Estado (note que o número de linhas, ou seja, o número de notas de alunos, pode ser diferente em cada Estado) |
|
|
... |
|
|
Soma das notas de todos os alunos do Estado |
Soma das notas dos "n1" alunos do Acre (estado )= |
Soma das notas dos "n2" alunos do Amapá (estado )= |
... |
Soma das notas dos "n27" alunos de Tocantins(estado )= |
Soma das notas de todos os alunos da amostra, de todos os 27 estados:
|
Nota média dos alunos do Estado |
|
|
... |
|
= média ponderada das médias estaduais[3]
|
Calcula-se em seguida o desvio médio. Em seguida, eleva-se cada desvio ao quadrado e obtém-se a soma dos quadrados dos desvios de cada estado. Este resultado permite o cálculo da variância amostral.
Desvio de nota de cada aluno em relação à média de seu estado, elevado ao quadrado
Estado
|
=Acre
|
=Amapá
|
...
|
=Tocantins
|
Total
|
Número de alunos da amostra do estado |
|
|
... |
|
|
Nota do 1º aluno do estado menos média do seu estado, ao quadrado |
|
|
... |
|
|
Nota do 2º aluno do estado menos média do seu estado, ao quadrado |
|
|
... |
... |
|
... |
... |
... |
... |
... |
|
Nota do último aluno da amostra do Estado menos média do seu estado, ao quadrado |
|
|
... |
|
|
Soma dos quadrados dos desvios de cada Estado |
|
|
... |
... |
|
Variância amostral () |
|
|
... |
|
= variância média
|
Na posse destes dados, é possível construir a "tabela ANOVA" (analysis of variance) (uma tabela para cada comparação):
Tabela ANOVA
Fonte de variação |
Soma dos quadrados |
Graus de liberdade |
Variância |
Valor de F
|
Entre amostras |
|
|
|
|
Dentro das amostras |
|
|
|
Total |
|
[3]
|
Referências
Ver também