Contente
Um outlier é um valor em um conjunto de dados que está longe dos outros valores. Os valores discrepantes podem ser causados por erros experimentais ou de medição ou por uma população de cauda longa. Nos casos anteriores, pode ser desejável identificar discrepantes e removê-los dos dados antes de realizar uma análise estatística, porque eles podem jogar fora os resultados para que não representem com precisão a população da amostra. A maneira mais simples de identificar discrepantes é com o método do quartil.
Classifique os dados em ordem crescente. Por exemplo, considere o conjunto de dados {4, 5, 2, 3, 15, 3, 3, 5}. Classificado, o conjunto de dados de exemplo é {2, 3, 3, 3, 4, 5, 5, 15}.
Encontre a mediana. Este é o número no qual metade dos pontos de dados é maior e metade é menor. Se houver um número par de pontos de dados, os dois do meio serão calculados como média. Para o conjunto de dados de exemplo, os pontos do meio são 3 e 4, então a mediana é (3 + 4) / 2 = 3,5.
Encontre o quartil superior, Q2; esse é o ponto de dados no qual 25% dos dados são maiores. Se o conjunto de dados for par, calcule a média dos 2 pontos ao redor do quartil. Para o conjunto de dados de exemplo, este é (5 + 5) / 2 = 5.
Encontre o quartil inferior, Q1; esse é o ponto de dados no qual 25% dos dados são menores. Se o conjunto de dados for par, calcule a média dos 2 pontos ao redor do quartil. Para os dados de exemplo, (3 + 3) / 2 = 3.
Subtraia o quartil inferior do quartil superior para obter o intervalo interquartil, QI. Para o conjunto de dados de exemplo, Q2 - Q1 = 5 - 3 = 2.
Multiplique o intervalo interquartil por 1,5. Adicione isso ao quartil superior e subtraia do quartil inferior. Qualquer ponto de dados fora desses valores é um pouco estranho. Para o conjunto de exemplos, 1,5 x 2 = 3; portanto, 3 - 3 = 0 e 5 + 3 = 8. Portanto, qualquer valor menor que 0 ou maior que 8 seria um valor externo moderado. Isso significa que 15 se qualifica como um outlier moderado.
Multiplique o intervalo interquartil por 3. Adicione-o ao quartil superior e subtraia-o do quartil inferior. Qualquer ponto de dados fora desses valores é extremamente extremo. Para o conjunto de exemplos, 3 x 2 = 6; portanto, 3 - 6 = –3 e 5 + 6 = 11. Portanto, qualquer valor menor que –3 ou maior que 11 seria um erro extremo. Isso significa que 15 se qualificam como extremos extremos.