Contente
A regressão múltipla é usada para examinar a relação entre várias variáveis independentes e uma variável dependente. Embora vários modelos de regressão permitam analisar as influências relativas dessas variáveis independentes ou preditoras na variável dependente ou critério, esses conjuntos de dados geralmente complexos podem levar a conclusões falsas se não forem analisados adequadamente.
Exemplos de regressão múltipla
Um agente imobiliário pode usar regressão múltipla para analisar o valor das casas. Por exemplo, ela poderia usar como variáveis independentes o tamanho das casas, a idade, o número de quartos, o preço médio das casas no bairro e a proximidade das escolas. Ao colocá-los em um modelo de regressão múltipla, ela poderia usar esses fatores para ver a relação deles com os preços das casas como a variável critério.
Outro exemplo do uso de um modelo de regressão múltipla pode ser alguém de recursos humanos que determina o salário de cargos gerenciais - a variável critério. As variáveis preditivas podem ser a antiguidade de cada gerente, o número médio de horas trabalhadas, o número de pessoas sendo gerenciadas e o orçamento departamental dos gerentes.
Vantagens da regressão múltipla
Existem duas vantagens principais na análise de dados usando um modelo de regressão múltipla. A primeira é a capacidade de determinar a influência relativa de uma ou mais variáveis preditoras no valor do critério. O corretor de imóveis pode achar que o tamanho das casas e o número de quartos têm uma forte correlação com o preço de uma casa, enquanto a proximidade das escolas não tem nenhuma correlação, ou mesmo uma correlação negativa se for principalmente uma aposentadoria comunidade.
A segunda vantagem é a capacidade de identificar discrepâncias ou anomalias. Por exemplo, ao revisar os dados relacionados aos salários dos gerentes, o gerente de recursos humanos pôde descobrir que o número de horas trabalhadas, o tamanho do departamento e o orçamento tinham uma forte correlação com os salários, enquanto a antiguidade não. Como alternativa, pode ser que todos os valores preditores listados estejam correlacionados com cada um dos salários examinados, exceto um gerente que estava sendo pago em excesso em comparação com os outros.
Desvantagens da regressão múltipla
Qualquer desvantagem de usar um modelo de regressão múltipla geralmente se resume aos dados que estão sendo usados. Dois exemplos disso são o uso de dados incompletos e a conclusão falsa de que uma correlação é uma causa.
Ao revisar o preço das casas, por exemplo, suponha que o agente imobiliário tenha examinado apenas 10 casas, sete das quais compradas por pais jovens. Nesse caso, a relação entre a proximidade das escolas pode levá-la a acreditar que isso afetou o preço de venda de todas as casas vendidas na comunidade. Isso ilustra as armadilhas dos dados incompletos. Se ela tivesse usado uma amostra maior, poderia descobrir que, de 100 casas vendidas, apenas dez por cento dos valores das casas estavam relacionados à proximidade das escolas. Se ela tivesse usado as idades dos compradores como um valor preditivo, poderia descobrir que compradores mais jovens estavam dispostos a pagar mais por casas na comunidade do que compradores mais velhos.
No exemplo dos salários dos gerentes, suponha que houvesse alguém que tivesse um orçamento menor, menos antiguidade e menos pessoal para gerenciar, mas estivesse ganhando mais do que qualquer outra pessoa. O gerente de RH pode examinar os dados e concluir que esse indivíduo está sendo pago em excesso. No entanto, essa conclusão seria errônea se ele não levasse em conta que esse gerente era responsável pelo site da empresa e possuía um conjunto de habilidades altamente cobiçado em segurança de rede.