Conceptos Clave y Métodos de Agrupamiento: Distancias, Enlaces y Evaluación
Enviado por Chuletator online y clasificado en Matemáticas
Escrito el en español con un tamaño de 4,74 KB
Conceptos Fundamentales del Análisis de Clúster
El análisis de clúster, o clustering, es una técnica de análisis multivariante que busca agrupar observaciones en grupos (clústeres) de tal manera que las observaciones dentro de un mismo grupo sean similares entre sí y diferentes a las observaciones de otros grupos. A continuación, se presentan una serie de preguntas y respuestas para repasar conceptos clave.
Distancias y Similitudes
- Si en la distancia de Minkowski el parámetro m (exponente) es igual a 2, entonces dicha medida es igual a:
R: La distancia Euclídea. - Si en la distancia de Minkowski el parámetro m (exponente) es igual a 1, entonces dicha medida es igual a:
R: La distancia de Manhattan. - Si la inversa de la Matriz de Varianza-Covarianza es igual a la identidad, entonces la medida de distancia de Mahalanobis es igual a:
R: La distancia Euclídea. - En una Matriz de Distancia, los valores de las filas se replican en las columnas. Esto se debe a la propiedad de:
R: Simetría. - En una Matriz de Distancia, los valores de la diagonal principal son iguales a cero. Esto se debe a la propiedad de:
R: Identidad. - La medida que valora qué tan cercana está la observación i de las demás de su propio clúster, en comparación con las del clúster más cercano, se denomina:
R: Silueta.
Modelos Jerárquicos de Agrupamiento
- El modelo jerárquico que tiende a generar grupos más grandes al inicio y grupos más pequeños al final es:
R: Enlace simple (Simple Linkage). - El modelo jerárquico en el que la distancia entre dos clústeres se calcula con los vectores de las dos observaciones más lejanas entre los dos grupos se conoce como:
R: Enlace completo (Complete Linkage). - El modelo jerárquico en el que la distancia entre dos clústeres se calcula con los vectores de las dos observaciones más cercanas entre los dos grupos se conoce como:
R: Enlace simple (Simple Linkage). - El modelo jerárquico en el que la distancia entre dos clústeres se calcula con los vectores de los promedios de las distancias de todos los pares de observaciones entre los dos grupos se conoce como:
R: Enlace promedio (Average Linkage). - El modelo jerárquico en el que la distancia entre dos clústeres se calcula con los vectores promedio de cada grupo se conoce como:
R: Enlace del centroide. - Los métodos de agrupamiento que parten de un único grupo y luego aumentan el número de grupos hasta que se alcanza un óptimo deseado se denominan:
R: Métodos jerárquicos divisivos.
Análisis de Agrupamiento con Variables Categóricas
- Si en un modelo de agrupamiento con variables categóricas, el número de ceros y unos está desbalanceado en favor de los unos, entonces las medidas de concordancia recomendables son:
R: Coeficiente de Russell-Rao o Coeficiente de Jaccard. - En un análisis de agrupamiento con variables categóricas y niveles balanceados, una medida adecuada para compararlos es:
R: El Coeficiente de Concordancia Simple. - Se agrupan conforme el coeficiente de similitud de Gower en el caso que:
R: Los datos son mixtos, con variables tanto métricas como categóricas y ordinales.
Medidas de Distancia por Correlación
- La medida de distancia por correlación de Spearman debe ser utilizada preferentemente en caso de que las variables de agrupamiento sean:
R: Ordinales. - La medida de distancia por correlación de Pearson puede ser utilizada únicamente en caso de que las variables de agrupamiento sean:
R: Métricas. - La medida de distancia por correlación de Kendall debe ser utilizada preferentemente en caso de que las variables de agrupamiento sean:
R: Ordinales.
Evaluación del Número Óptimo de Grupos
- Para evaluar cuál es el número óptimo de grupos en el análisis de clúster, el Coeficiente Omega de Calinsky-Harabasz debe preferirse al Seudo F de Calinsky-Harabasz, dado que:
R: El criterio de razón de varianza (CRV) tiende a disminuir a medida que aumenta el número de grupos.