Toda análise estatística deve começar com uma boa análise descritiva dos dados. Antes de escolher testes, modelos ou medidas de associação, é preciso conhecer a forma dos dados: onde os valores se concentram, quanto variam, se há assimetria e se existem observações muito distantes do padrão geral. O boxplot é um dos gráficos mais úteis nessa etapa.
Um boxplot é um gráfico usado para resumir a distribuição de uma variável quantitativa. Ele pode ser usado para analisar uma variável isoladamente ou para comparar essa variável entre categorias de uma variável qualitativa. Na figura abaixo, observamos o boxplot entre as variáveis eficiência do veículo, medida em quilômetros por litro, e combustível utilizado, álcool ou gasolina. Foram observadas 47 abastecimentos: 12 com álcool e 35 com gasolina.
No exemplo apresentado, o boxplot mostra mediana, quartis, dispersão dos dados, média e possíveis outliers. A barra horizontal central representa a mediana da variável quantitativa; a caixa indica a região entre o primeiro e o terceiro quartil; e os pontos fora dos limites gráficos indicam observações que merecem atenção por estarem distantes do padrão observado nos dados. O losango, neste gráfico específico, representa a média — mas nem todo boxplot inclui a média por padrão.
Quais são os elementos de um boxplot?
Para interpretar um boxplot corretamente, é importante separar seus elementos. A mediana divide os dados ordenados em duas metades. O primeiro quartil marca aproximadamente o ponto abaixo do qual estão 25% dos valores. O terceiro quartil marca aproximadamente o ponto abaixo do qual estão 75% dos valores. A caixa, portanto, mostra os 50% centrais dos dados.
A distância entre o terceiro e o primeiro quartil é chamada de intervalo interquartil. Ela é uma medida de dispersão robusta, menos sensível a valores extremos do que a amplitude total. As hastes costumam indicar a faixa de valores ainda compatíveis com o padrão central da distribuição, frequentemente usando a regra de 1,5 vez o intervalo interquartil. Observações fora dessa faixa aparecem como possíveis outliers.
Como interpretar um boxplot
O boxplot pode ser utilizado para estudar várias características do conjunto de dados. A proximidade entre média e mediana pode sugerir uma distribuição aproximadamente simétrica, enquanto diferenças marcantes entre elas podem indicar assimetria. Esse é um indício visual, não uma prova definitiva. O gráfico também ajuda a observar a variabilidade dos dados: quanto maior a caixa e as hastes, maior tende a ser a dispersão da variável.
A interpretação de um boxplot é feita comparando mediana, quartis, dispersão e possíveis outliers da variável quantitativa nas categorias analisadas. No boxplot da eficiência por combustível, as distribuições da eficiência com álcool e gasolina parecem aproximadamente simétricas, pois a mediana está próxima da média. Observa-se também que a eficiência média e mediana com gasolina é maior do que as respectivas eficiências com álcool. Como análise descritiva, isso sugere maior eficiência com gasolina nesse conjunto de dados. Por fim, vemos que a variação da eficiência é maior quando se usa gasolina do que quando se usa álcool.
Boxplot para comparar grupos
Uma das vantagens do boxplot é permitir a comparação visual entre grupos. Em pesquisas acadêmicas, isso aparece, por exemplo, quando se compara a pontuação de ansiedade entre grupos de intervenção e controle, o tempo de internação entre tipos de tratamento ou o desempenho em uma escala entre diferentes faixas etárias.
Nessas situações, o boxplot ajuda a responder perguntas iniciais: os grupos parecem ter centros diferentes? Um grupo apresenta maior variabilidade? Há assimetria marcada? Existem observações extremas que precisam ser investigadas antes da análise inferencial?
Outliers: investigar não é excluir automaticamente
Os pontos fora das hastes do boxplot são frequentemente chamados de possíveis outliers. A palavra “possíveis” é importante. Um valor extremo pode ser erro de digitação, erro de medição, problema de coleta ou simplesmente uma observação real e relevante dentro daquele fenômeno.
Por isso, o boxplot deve ser usado como alerta, não como regra automática de exclusão. Antes de remover qualquer observação, é preciso verificar a origem do dado, avaliar se há justificativa metodológica e considerar o impacto da decisão nos resultados. Excluir pontos apenas porque aparecem fora da haste pode introduzir viés e tornar a análise menos confiável.
Por que usar o boxplot?
A partir do exemplo da eficiência por combustível, podemos notar as grandes vantagens de se usar um boxplot. Primeiramente, ele é um gráfico bastante informativo, pois apresenta várias características da variável de interesse, como mediana, quartis, dispersão e possíveis outliers. Além disso, permite comparar de forma visual a distribuição da variável de interesse nas categorias de uma variável qualitativa.
Em pesquisas acadêmicas, a análise descritiva com boxplot costuma ser um passo importante antes de qualquer análise estatística inferencial. Ela ajuda a identificar assimetrias, observar possíveis outliers, entender a dispersão dos dados e decidir quais testes podem ser mais adequados ao objetivo da pesquisa.
Conclusão
O boxplot é simples na aparência, mas tecnicamente muito útil. Ele organiza informação sobre centro, variabilidade, assimetria e possíveis valores extremos em um único gráfico. Essa visualização não encerra a análise estatística, mas ajuda a formular perguntas melhores antes da etapa inferencial.
Estatística bem feita não começa no botão do software. Começa na leitura cuidadosa dos dados. O boxplot é uma das ferramentas que ajudam o pesquisador a enxergar essa estrutura antes de tirar conclusões.