Métodos Estadísticos Multivariados: Ordenación, Clasificación y Análisis de Varianza
Enviado por Chuletator online y clasificado en Matemáticas
Escrito el en español con un tamaño de 5,12 KB
Análisis de Correspondencia (AC)
Muestra de cálculos de ordenación y correspondencia: Técnica de reducción de dimensiones en el contexto de tablas de contingencia, diseñada para la relación entre especies y variables ambientales.
Objetivo: Situar las distintas categorías de los datos en un plano cartesiano y estudiar cómo los datos se organizan en relación a sus centros de gravedad.
Pasos:
- Obtener matriz de filas *n* y columnas *m*.
- Construir la matriz Q cuyos elementos sean transformados a una distribución de χ2 (distribución chi-cuadrado): diferencia entre el perfil esperado y las distribuciones de abundancia reales.
- Aplicar descomposición de Q.
- La nueva matriz diagonal representa los *eigenvalores*.
- Se grafican las matrices U y V en un *boxplot* para observar relaciones entre sitios y especies.
Efecto arco: Un gradiente unidimensional se dobla en un arco en el espacio del eje 1 - eje 2. En segundo lugar, los puntajes se comprimen normalmente cerca de los extremos a lo largo del eje 1 en relación con su espaciamiento original a lo largo del gradiente ecológico. Al usar χ2 se puede exagerar la importancia de los taxones raros.
Análisis de Correspondencia sin Tendencia (DCA): Comienza con un AC pero lo sigue con pasos para eliminar la tendencia y volver a escalar los ejes.
Reescalado de un eje: Se logra mediante la ecualización de la varianza ponderada de las puntuaciones de los taxones a lo largo de los segmentos del eje. Estos puntajes se utilizan para calcular un nuevo puntaje de muestra.
Análisis Discriminante (AD)
Muestra de cálculos de discriminación y clasificación.
Objetivo: Discriminar grupos preestablecidos y clasificar objetos en grupos preestablecidos.
Condiciones de aplicación:
- Variables: Las variables predictoras no deben estar correlacionadas entre sí. Evitar multicolinealidad. La variable respuesta debe ser categórica (sexo, lugar, especie) y las variables independientes son numéricas.
- Normalidad multivariante: Las variables deben distribuirse normalmente.
- Homocedasticidad: Las varianzas y las matrices de varianza-covarianza deben ser iguales en cada grupo a comparar.
El AD intenta responder cuál es la mejor combinación de variables que permite diferenciar entre dos o más grupos. Las funciones discriminantes son una combinación lineal de las variables originales que tienen como fin maximizar las diferencias entre grupos.
Eigenvalores: Permiten establecer un criterio para evaluar la capacidad discriminatoria de las funciones discriminantes (suma de cuadrados (SC) entre grupos y SC dentro de grupos).
Estadístico U o Wilks: Es una medida de la variación porcentual en la variable dependiente que no se explica por las diferencias en los niveles de la variable independiente (VI).
Clasificación: El AD puede usarse como una función de clasificación. Por ejemplo, para dos poblaciones se puede escoger un punto que permite decidir si un caso al que se le han medido las *p* variables pertenece a la primera o segunda población.
Análisis de Varianza Multivariado (MANOVA)
Analiza la relación entre varias variables de respuesta y un conjunto común de predictores (variables independientes) al mismo tiempo. Exige variables de respuesta continuas y predictores categóricos.
Propósito: Utilizar la estructura de covarianza de los datos entre las variables de respuesta para probar la igualdad de medias al mismo tiempo. Si las variables están correlacionadas, puede ayudar a detectar diferencias muy pequeñas, las cuales no serían posibles con ANOVA.
Supuestos:
- Las variables independientes (predictoras) son continuas.
- Las variables dependientes son categóricas.
- Hay una relación entre las variables dependientes.
- El número de observaciones para cada combinación del factor es el mismo.
- Existe normalidad multivariable.
- Homocedasticidad.
T2 de Hotelling: Escalar que es posible aproximar mediante una distribución F, cuando se comparan más de dos grupos (T2 y Wilks).
Traza de Pillai: Estadístico más poderoso para desviaciones de las suposiciones. Por ejemplo, si se violó el supuesto de MANOVA de homogeneidad de varianza-covarianza, la traza de Pillai es una opción, pero también cuando se tienen tamaños de celda irregulares o tamaño de muestra pequeño. Sin embargo, cuando los grados de libertad de las hipótesis son mayores que 1, la traza de Pillai es menos poderosa. Si tiene una gran desviación de la hipótesis nula o si los valores propios tienen grandes diferencias, la raíz máxima de Roy es una mejor opción.