← Voltar ao Blog

Análise descritiva através de um Boxplot

Toda análise estatística deve começar com uma boa análise descritiva dos dados para que, a partir de gráficos e tabelas, seja possível conhecer e entender melhor o conjunto de dados e decidir quais análises inferenciais devem ser realizadas. A visualização de dados a partir de gráficos, embora simples, é uma poderosa ferramenta que permite facilmente identificar padrões e relações entre as variáveis do conjunto de dados, sendo o boxplot um dos gráficos mais úteis em análises estatísticas.

Um boxplot é um gráfico em que é possível representar a relação entre uma variável quantitativa (numérica) e uma variável qualitativa. O eixo vertical do boxplot representa os valores da variável quantitativa, e o eixo horizontal representa as categorias da variável qualitativa. Na figura abaixo observamos o boxplot entre as variáveis eficiência do veículo (quantitativa) e combustível utilizado (qualitativa). A eficiência de um veículo é o número de quilômetros que ele percorre com um litro de combustível (álcool ou gasolina). Foram observadas a eficiência de um carro quando este foi abastecido 47 vezes (12 com álcool e 35 com gasolina).

Boxplot de Eficiência por Combustível

Um boxplot é formado por três semi-retas horizontais, duas verticais (centrais), um losango e pontos. As observações que estão para cima ou para baixo das semi-retas verticais centrais são as ditas outliers, isto é, são observações altas demais ou baixas demais para o padrão observado nos dados, e são representadas por pontos. O losango representa o valor médio e a barra horizontal central representa o valor mediano da variável quantitativa (metade das observações possui um valor abaixo do mediano). A primeira reta horizontal de baixo para cima representa o primeiro quartil (25% das observações possuem um valor abaixo do primeiro quartil) e a última reta horizontal representa o terceiro quartil (75% das observações possuem um valor abaixo do terceiro quartil).

Como interpretar um boxplot

O boxplot pode ser utilizado para se estudar várias características do conjunto de dados. Por exemplo, para determinar a simetria dos dados basta observar se a média é igual (ou próxima) à mediana, pois, nesse caso, os dados são simétricos. A simetria pode ser estabelecida observando se o losango (média) está próximo ou não da semi-reta horizontal central (mediana): se estiverem próximos, os dados são simétricos, caso contrário são assimétricos. Ainda, podemos utilizar um boxplot para observar a variação dos dados, que é dada pelo tamanho da caixa (retângulo) do boxplot. Quanto maior a altura da caixa, maior a distância entre o primeiro e o terceiro quartil, o que implica que o intervalo de variação das distribuições é maior.

A interpretação de um boxplot é feita comparando a média, mediana e quartis da variável quantitativa nas categorias da variável qualitativa, isto é, comparando a posição relativa entre os boxplots. Dado o que foi exposto acima, observamos no boxplot da Eficiência por Combustível que tanto as distribuições da eficiência com álcool quanto com gasolina são aproximadamente simétricas, pois a mediana é próxima da média. Observa-se também que a eficiência média e mediana com gasolina é maior do que as respectivas eficiências com álcool. Por fim, vemos que a variação da eficiência é maior quando se usa gasolina do que quando se usa álcool.

Por que usar o boxplot?

A partir do exemplo da eficiência por combustível podemos notar as grandes vantagens de se usar um boxplot. Primeiramente, ele é um gráfico bastante informativo pois apresenta várias características da variável de interesse (média, mediana, quantis, simetria e variação). Além disso, a partir de um boxplot é possível comparar fácil e intuitivamente a distribuição da variável de interesse nas categorias de uma variável qualitativa: através do gráfico fica claro que a eficiência com gasolina é maior do que a eficiência com álcool. Dessa forma, o boxplot é uma ótima opção para se analisar descritivamente a relação entre uma variável quantitativa e uma variável qualitativa.

Precisa de análise estatística para sua pesquisa?

Fale com nossos estatísticos — orçamento gratuito e sem compromisso.

Falar no WhatsApp