Análisis de Cluster y Correspondencias: Técnicas de Agrupación y Visualización de Datos
Enviado por Chuletator online y clasificado en Matemáticas
Escrito el en español con un tamaño de 4,38 KB
¿Qué es el análisis de cluster?
- Procedimientos orientados a la clasificación (sujetos, entidades, etc.) en grupos relativamente homogéneos: búsqueda de homogeneidad interna y heterogeneidad externa.
- Patrones de similaridad y diferencias entre grupos: agrupación de casos.
- Usos:
- Desarrollar una tipología de clasificación
- Esquemas conceptuales para agrupar entidades
- Hipótesis en la generación de datos
- Testeo de hipótesis
Debilidades del análisis de cluster
- Es una técnica exploratoria: puede caracterizarse como descriptivo, ateórico y no inferencial.
- Las soluciones no son únicas: la pertenencia al conglomerado depende de las decisiones asociadas al análisis tales como el tipo de procedimiento, estandarización o no de variables, etc.
- Solución dependiente de las variables: agregar o quitar variables cambia la solución a la que se llega.
Paso 1: Objetivos y selección de variables
- Objetivos del análisis de cluster
- Descripción de una taxonomía (como técnica exploratoria o confirmatoria)
- Simplificación de datos (estructura simplificada de las observaciones)
- Identificar relaciones
- Seleccionar variables
- La técnica no distingue variables relevantes de variables irrelevantes
- Los resultados son muy sensibles a las variables seleccionadas
- Seleccionar variables en pos de los objetivos.
Paso 3: Supuestos
- Técnica no paramétrica
- Normalidad, linealidad y homocedasticidad no son supuestos relevantes
- Supuestos críticos
- Representatividad (el análisis de cluster es tan bueno como la representatividad de la muestra)
- Multicolinearidad: variables correlacionadas tienen mayor ponderación y por lo tanto tiene mayores posibilidades de afectar la medida de similitud. Usar en lo posible variables con baja MC o bien, grupos de variables correlacionadas de igual tamaño.
Diferencia entre jerárquico y k-medias
Los jerárquicos van haciendo conglomerados, van juntando los casos, parten de que cada caso es un conglomerado y van juntándolos hasta llegar a un solo conglomerado y tú ves dónde lo cortas (para eso el dendograma). Los k-medias parten de un solo conglomerado grande y dividen en más grupos según tú le pidas. Además, si tienes muchos casos es mejor k-medias y el k-medias te considera todas las variables como nominales.
¿Qué es el análisis de correspondencias?
- Técnica que, a partir de los resultados arrojados por una tabla de contingencia, permite identificar dimensiones subyacentes al conjunto de categorías que la conforman.
- Por medio de ellas se puede representar gráficamente la estructura de relaciones entre dos variables cualitativas, profundizando la interpretación de la información contenida en una tabla de contingencia.
- Generalmente una de las variables (ubicada en la columna de la tabla) corresponde a grupos o segmentos en los que se clasifican los sujetos de la muestra y la otra (ubicada en las filas de la tabla) corresponde a atributos, características o comportamientos de los sujetos.
- La representación gráfica de las relaciones encontradas entre las categorías de las variables se realiza a través de mapas de posicionamiento.
¿Cuáles son las condiciones necesarias para la aplicación?
- Niveles de medición de las variables: Nominal u ordinal. Se puede trabajar con medidas escalares, para lo cual se recomienda su recodificación en categorías ordinales.
- Relación entre variables: Variables asociadas (verificar mediante chi cuadrado). Relaciones no lineales entre variables escalares.
- Función de las variables: Variable de segmentación u objeto asume la función de variable independiente. Variable de comportamiento asume la función de variable dependiente.
Verificación de condiciones de aplicación
- A partir de las tablas de chi-cuadrado, se verifica las condiciones de aplicación del análisis. Se busca establecer si existe una relación entre las variables o no.
- El punto de partida del análisis de correspondencias siempre será una tabla de contingencia donde se muestra el cruce (frecuencias) de las categorías de las variables involucradas en el modelo.