Estatística descritiva

Boxplot: como ler e interpretar na análise descritiva

Entenda como interpretar boxplot, mediana, quartis, intervalo interquartil, dispersão e possíveis outliers sem confundir gráfico com teste estatístico.

Laryssa Marcondes · 27 de janeiro de 20264 min de leitura

Toda análise estatística deve começar com uma boa análise descritiva dos dados. Antes de escolher testes, modelos ou medidas de associação, é preciso conhecer a forma dos dados: onde os valores se concentram, quanto variam, se há assimetria e se existem observações muito distantes do padrão geral. O boxplot é um dos gráficos mais úteis nessa etapa.

Um boxplot é um gráfico usado para resumir a distribuição de uma variável quantitativa. Ele pode ser usado para analisar uma variável isoladamente ou para comparar essa variável entre categorias de uma variável qualitativa. Na figura abaixo, observamos o boxplot entre as variáveis eficiência do veículo, medida em quilômetros por litro, e combustível utilizado, álcool ou gasolina. Foram observadas 47 abastecimentos: 12 com álcool e 35 com gasolina.

Boxplot de eficiência por tipo de combustível, comparando álcool e gasolina

No exemplo apresentado, o boxplot mostra mediana, quartis, dispersão dos dados, média e possíveis outliers. A barra horizontal central representa a mediana da variável quantitativa; a caixa indica a região entre o primeiro e o terceiro quartil; e os pontos fora dos limites gráficos indicam observações que merecem atenção por estarem distantes do padrão observado nos dados. O losango, neste gráfico específico, representa a média — mas nem todo boxplot inclui a média por padrão.

Quais são os elementos de um boxplot?

Para interpretar um boxplot corretamente, é importante separar seus elementos. A mediana divide os dados ordenados em duas metades. O primeiro quartil marca aproximadamente o ponto abaixo do qual estão 25% dos valores. O terceiro quartil marca aproximadamente o ponto abaixo do qual estão 75% dos valores. A caixa, portanto, mostra os 50% centrais dos dados.

A distância entre o terceiro e o primeiro quartil é chamada de intervalo interquartil. Ela é uma medida de dispersão robusta, menos sensível a valores extremos do que a amplitude total. As hastes costumam indicar a faixa de valores ainda compatíveis com o padrão central da distribuição, frequentemente usando a regra de 1,5 vez o intervalo interquartil. Observações fora dessa faixa aparecem como possíveis outliers.

Como interpretar: o boxplot resume a distribuição. Ele mostra centro, dispersão, assimetria visual e possíveis valores extremos, mas não substitui a análise do contexto, nem decide sozinho qual teste estatístico deve ser usado.

Como interpretar um boxplot

O boxplot pode ser utilizado para estudar várias características do conjunto de dados. A proximidade entre média e mediana pode sugerir uma distribuição aproximadamente simétrica, enquanto diferenças marcantes entre elas podem indicar assimetria. Esse é um indício visual, não uma prova definitiva. O gráfico também ajuda a observar a variabilidade dos dados: quanto maior a caixa e as hastes, maior tende a ser a dispersão da variável.

A interpretação de um boxplot é feita comparando mediana, quartis, dispersão e possíveis outliers da variável quantitativa nas categorias analisadas. No boxplot da eficiência por combustível, as distribuições da eficiência com álcool e gasolina parecem aproximadamente simétricas, pois a mediana está próxima da média. Observa-se também que a eficiência média e mediana com gasolina é maior do que as respectivas eficiências com álcool. Como análise descritiva, isso sugere maior eficiência com gasolina nesse conjunto de dados. Por fim, vemos que a variação da eficiência é maior quando se usa gasolina do que quando se usa álcool.

Boxplot para comparar grupos

Uma das vantagens do boxplot é permitir a comparação visual entre grupos. Em pesquisas acadêmicas, isso aparece, por exemplo, quando se compara a pontuação de ansiedade entre grupos de intervenção e controle, o tempo de internação entre tipos de tratamento ou o desempenho em uma escala entre diferentes faixas etárias.

Nessas situações, o boxplot ajuda a responder perguntas iniciais: os grupos parecem ter centros diferentes? Um grupo apresenta maior variabilidade? Há assimetria marcada? Existem observações extremas que precisam ser investigadas antes da análise inferencial?

Erro comum: achar que o boxplot prova diferença estatística entre grupos. Ele pode sugerir padrões visuais, mas a conclusão inferencial depende do desenho do estudo, das variáveis, do tamanho da amostra, dos pressupostos do método e do teste estatístico adequado.

Outliers: investigar não é excluir automaticamente

Os pontos fora das hastes do boxplot são frequentemente chamados de possíveis outliers. A palavra “possíveis” é importante. Um valor extremo pode ser erro de digitação, erro de medição, problema de coleta ou simplesmente uma observação real e relevante dentro daquele fenômeno.

Por isso, o boxplot deve ser usado como alerta, não como regra automática de exclusão. Antes de remover qualquer observação, é preciso verificar a origem do dado, avaliar se há justificativa metodológica e considerar o impacto da decisão nos resultados. Excluir pontos apenas porque aparecem fora da haste pode introduzir viés e tornar a análise menos confiável.

Por que usar o boxplot?

A partir do exemplo da eficiência por combustível, podemos notar as grandes vantagens de se usar um boxplot. Primeiramente, ele é um gráfico bastante informativo, pois apresenta várias características da variável de interesse, como mediana, quartis, dispersão e possíveis outliers. Além disso, permite comparar de forma visual a distribuição da variável de interesse nas categorias de uma variável qualitativa.

Em pesquisas acadêmicas, a análise descritiva com boxplot costuma ser um passo importante antes de qualquer análise estatística inferencial. Ela ajuda a identificar assimetrias, observar possíveis outliers, entender a dispersão dos dados e decidir quais testes podem ser mais adequados ao objetivo da pesquisa.

Na prática: antes de escolher o teste, observe o boxplot junto com medidas como média, mediana e intervalo interquartil. Essa leitura inicial ajuda a evitar uma análise mecânica e prepara uma interpretação mais segura dos resultados.

Conclusão

O boxplot é simples na aparência, mas tecnicamente muito útil. Ele organiza informação sobre centro, variabilidade, assimetria e possíveis valores extremos em um único gráfico. Essa visualização não encerra a análise estatística, mas ajuda a formular perguntas melhores antes da etapa inferencial.

Estatística bem feita não começa no botão do software. Começa na leitura cuidadosa dos dados. O boxplot é uma das ferramentas que ajudam o pesquisador a enxergar essa estrutura antes de tirar conclusões.

Leia também

FAQ

Dúvidas frequentes

O que é um boxplot?+
É um gráfico que resume a distribuição de uma variável quantitativa usando mediana, quartis, dispersão e possíveis valores extremos.
Um boxplot precisa sempre comparar grupos?+
Não. Ele pode resumir uma variável quantitativa isoladamente ou comparar a distribuição dessa variável entre grupos.
O que são os pontos fora do boxplot?+
Geralmente são possíveis outliers identificados por uma regra gráfica. Eles devem ser investigados, mas não removidos automaticamente.
Boxplot prova que há diferença entre grupos?+
Não. O boxplot ajuda a visualizar padrões, mas a conclusão inferencial depende do desenho do estudo, do teste estatístico e dos pressupostos da análise.
O boxplot ajuda a escolher o teste estatístico?+
Ajuda como parte da análise descritiva, ao mostrar assimetria, dispersão e valores extremos. Mas a escolha do teste também depende do objetivo, das variáveis e do desenho da pesquisa.

Seus gráficos indicam outliers ou assimetria?

Se os gráficos estão mostrando outliers, assimetria ou diferenças entre grupos, a LM pode ajudar a decidir o próximo passo da análise.

Saiba mais →Entre em contato