Um diagrama de ramos e folhas é um dispositivo para apresentação de dados quantitativos em um formato gráfico, semelhante a um histograma, que ajuda a visualizar a forma de uma distribuição. Ele evoluiu a partir do trabalho de Arthur Bowley no começo da década de 1900, sendo uma ferramenta útil em análise exploratória de dados. Diagramas de ramos e folhas se tornaram mais comuns na década de 1980, na sequência da publicação de livro de John Tukey sobre análise exploratória de dados em 1977.[1] Sua popularidade durante estes anos pode ser atribuída ao uso de fontes mono-espaçadas que permitiam à tecnologia computacional da época produzir facilmente o gráfico. Capacidades gráficas superiores dos computadores modernos tornaram estas técnicas menos usadas.
O diagrama de ramos e folhas também é frequentemente chamado de stemplot, termo que, no entanto, se refere frequentemente a outro tipo de diagrama. Um stemplot simples pode se referir à disposição de uma matriz de valores sobre um eixo comum e a identificação de um valor comum com uma linha vertical e dos valores individuais com símbolos na linha.
Diferentemente dos histogramas, diagramas de ramos e folhas retêm os dados originais até no mínimo dois dígitos significantes e põem os dados em ordem, facilitando assim a inferência baseada em ordem e a estatística não paramétrica.
Uma diagrama de ramos e folhas básico contém duas colunas separadas por uma linha vertical. A coluna da esquerda contém os ramos e a coluna da direita contém as folhas.
Construção
Para construir um diagrama de ramos e folhas, os valores observados devem ser primeiramente classificados em ordem crescente.[2] Isto pode ser feito facilmente a mão construindo um esboço do diagrama com as folhas não classificadas e, em seguida, classificando as folhas de modo a produzir o diagrama final. Segue abaixo o conjunto classificado de valores de dados que será usado no exemplo abaixo:
Em seguida, é necessário determinar o que os ramos representarão e o que as folhas representarão. Tipicamente, a folha contém o último digito do número e o ramo contém todos os outros dígitos. No caso de números muito grandes, os valores dos dados podem ser arredondados a uma casa particular (tal com a casa das centenas) que será usada para as folhas. Os dígitos remanescentes à esquerda da casa à qual se arredondou são usados como o ramo.
Neste exemplo, a folha representa a casa das unidades e o ramo representará o resto do número (da casa das dezenas em diante).
O diagrama de ramos e folhas é desenhado com duas colunas separadas por uma linha vertical. Os ramos são listados à esquerda da linha vertical. É importante que cada ramo seja listado apenas uma vez e que nenhum número seja pulado, mesmo que haja ramos sem folhas. As folhas são listadas em ordem crescente em uma linha à direita de cada ramo.
É importante lembrar que, quando houver um número repetido nos dados (tal como dois 72), o diagrama deve refletir isto. Por exemplo, se entre 70 e 79 os números forem 72, 72, 75, 76, o diagrama no ramo 7 ficará 7 | 2 2 5 6.
O arredondamento pode ser necessário para criar um diagrama de ramos e folhas. Com base no seguinte conjunto de dados, o diagrama criado ficará como abaixo:
Para números negativos, um sinal de menos é posto em frente ao número do ramo, mesmo quando o valor estiver entre -1 e 0 ou entre 0 e 1. Números não-inteiros são arredondados. Isto permite ao diagrama de ramos e folhas manter sua forma, até em conjuntos de dados mais complicados, como neste exemplo:
Diagramas de ramos e folhas são úteis para mostrar a densidade relativa e a forma dos dados, dando ao leitor uma rápida visão geral da distribuição. Eles retêm (a maior parte dos) dados numéricos brutos, frequentemente com integridade perfeita. Eles também são úteis para destacar outliers e encontrar a moda. Entretanto, diagramas de ramos e folhas são úteis apenas para conjuntos de dados de tamanho moderado (entre 15 e 150 pontos de dados). Com conjuntos de dados muito pequenos, diagramas de ramos e folhas podem ser pouco úteis, já que um número razoável de pontos de dados é necessário para que se estabeleçam as propriedades definitivas da distribuição. Um dot plot pode ser mais adequado para dados deste tipo. Com conjuntos de dados muito grandes, um diagrama de ramos e folhas ficará muito desordenado, já que cada ponto de dado deve ser representado numericamente. Um box plot ou um histograma pode ser mais apropriado conforme o tamanho dos dados aumenta.[3]
A facilidade com que histogramas podem ser gerados nos computadores fez com que diagramas de ramos e folhas sejam menos usados hoje do que na década de 1980, quando eles começaram a ser amplamente usados como um método rápido de exibição gráfica de informações.