Um gráfico de dispersão é uma importante ferramenta de diagnóstico no arsenal de um estatístico, obtido por meio do gráfico de duas variáveis entre si. Permite ao estatístico observar as variáveis e formar uma hipótese de trabalho sobre o relacionamento delas. Por esse motivo, geralmente é desenhado antes de uma análise de regressão ser realizada. O estatístico posteriormente testa a hipótese usando uma análise de regressão e determina o sinal e a magnitude precisa do relacionamento. Além disso, um gráfico de dispersão ajuda a identificar valores discrepantes - valores que estão anormalmente distantes da maioria dos dados da amostra. Eliminar discrepantes ajuda a melhorar o modelo de regressão.
Verifique se há relação negativa entre as duas variáveis no gráfico de dispersão. Se os valores baixos da primeira variável corresponderem aos valores altos da segunda variável, haverá uma correlação negativa. Nesse caso, uma linha desenhada através dos pontos de dados tem uma inclinação negativa.
Examine o gráfico de dispersão para uma relação positiva entre as variáveis. Se os valores baixos da primeira variável no gráfico de dispersão corresponderem aos valores baixos da segunda, e os valores altos da primeira corresponderem da mesma forma aos valores altos da segunda, as variáveis terão uma correlação positiva. Nesse caso, uma linha traçada através dos pontos de dados tem uma inclinação positiva.
Inspecione o gráfico de dispersão para não haver relação entre as variáveis. Se os pontos de dados no gráfico de dispersão forem distribuídos aleatoriamente sem relação aparente entre os dois, eles não terão correlação ou correlação pequena, estatisticamente insignificante. Nesse caso, uma linha traçada através dos pontos de dados é horizontal com inclinação igual a zero.
Ajuste uma linha através dos pontos de dados e examine sua forma para avaliar a natureza do relacionamento entre as duas variáveis. Uma linha reta é interpretada como uma relação linear, uma forma curva sugere uma relação quadrática e uma linha que fica relativamente plana antes de disparar subitamente para cima ou para baixo é interpretada como uma relação exponencial.
Examine o gráfico de dispersão para valores externos, valores que estão anormalmente distantes do cluster de pontos de dados. Os valores extremos distorcem a relação entre as variáveis. Elimine-os, mas apenas se a ausência deles não afetar a análise do relacionamento entre as duas variáveis.