Supuestos Fundamentales y Extracción en Regresión Múltiple

Enviado por Chuletator online y clasificado en Matemáticas

Escrito el en español con un tamaño de 4,51 KB

Supuestos de la Regresión Múltiple

El modelo de regresión múltiple requiere el cumplimiento de un conjunto de supuestos previos. Sin ellos, la interpretación de los resultados puede ser considerablemente errónea. Estos supuestos son:

1. Linealidad

La linealidad se refiere a que la relación entre la variable criterio (dependiente) y las variables pronosticadoras (independientes) se ajusta, en promedio, a una línea recta. Representa el grado en que el cambio esperado en la variable criterio asociado a un cambio unitario en una variable pronosticadora es constante a lo largo del rango de valores de dicha variable pronosticadora. La linealidad se examina con facilidad mediante el estudio de la distribución de los residuos frente a los valores pronosticados o frente a cada variable pronosticadora.

En la regresión múltiple, los residuos (la diferencia entre los valores observados y los pronosticados por el modelo) surgen del efecto combinado de todas las variables. Es necesario valorar el cumplimiento de los supuestos revisando el comportamiento de estos residuos.

2. Normalidad de los Residuos

El análisis de regresión parte del supuesto de que los errores (y por ende, los residuos muestrales) se distribuyen de forma normal, con media cero. El diagnóstico más simple consiste en examinar un histograma de los residuos o, de forma más precisa, un gráfico de probabilidad normal (como el gráfico Q-Q), en los que la distribución de los residuos (usualmente tipificados o estandarizados) se compara con la distribución normal teórica.

3. Homoscedasticidad (Igualdad de Varianzas de los Errores)

La homoscedasticidad implica que la varianza de los errores es constante para todos los niveles de las variables pronosticadoras. En la práctica, se revisa si los residuos están dispersos al azar y de manera uniforme a lo largo del rango de valores pronosticados por el modelo. Bajo este supuesto, la dispersión de los residuos no debe mostrar ningún patrón sistemático (ej. forma de embudo).

Si la dispersión de los residuos varía sistemáticamente para diferentes rangos de los valores pronosticados (por ejemplo, si la dispersión aumenta a medida que aumenta el valor pronosticado), entonces se presenta el problema de heteroscedasticidad, lo cual viola este supuesto.

4. Independencia de los Residuos

Este supuesto establece que los errores (y por tanto, los residuos) deben ser independientes entre sí. Es decir, el valor de un residuo no debe proporcionar información sobre el valor de otro residuo. La formación de los residuos no debe responder a un sesgo oculto, como la influencia de una variable omitida importante o una dependencia temporal (autocorrelación) si los datos son de series de tiempo.

Un estadístico comúnmente utilizado para valorar la autocorrelación de primer orden en los residuos es el de Durbin-Watson. Este estadístico estima la medida en que los residuos consecutivos están correlacionados.

Para afirmar el supuesto de independencia de los residuos (ausencia de autocorrelación de primer orden) mediante este test, el coeficiente de Durbin-Watson debería situarse, generalmente, en un rango cercano a 2, usualmente se considera aceptable entre 1,5 y 2,5, aunque los límites exactos dependen del tamaño muestral y el número de predictores.

Extracción y Evaluación del Modelo de Regresión

El proceso de construcción y evaluación de un modelo de regresión múltiple implica los siguientes pasos clave:

  1. Seleccionar un método para especificar las variables predictoras que conformarán el modelo a estimar (ej. método de introducción forzada, eliminación hacia atrás, pasos sucesivos, etc.).
  2. Valorar la significación estadística global del modelo para predecir la variable criterio (usualmente mediante el p-valor asociado al estadístico F de la tabla ANOVA).
  3. Estimar la capacidad predictiva del modelo (ej. R cuadrado ajustado) y la contribución individual de las variables pronosticadoras incluidas (evaluando la significación de sus coeficientes de regresión).
  4. Diagnosticar el modelo: Verificar el cumplimiento de los supuestos mencionados anteriormente y determinar si alguna de las observaciones (casos) ejerce una influencia indebida o desproporcionada en los resultados (análisis de residuos, influencia y outliers).

Entradas relacionadas: