Análisis de Cluster y Correspondencias: Técnicas de Agrupación y Visualización de Datos

Enviado por Chuletator online y clasificado en Matemáticas

Escrito el en español con un tamaño de 4,38 KB

¿Qué es el análisis de cluster?

  • Procedimientos orientados a la clasificación (sujetos, entidades, etc.) en grupos relativamente homogéneos: búsqueda de homogeneidad interna y heterogeneidad externa.
  • Patrones de similaridad y diferencias entre grupos: agrupación de casos.
  • Usos:
    • Desarrollar una tipología de clasificación
    • Esquemas conceptuales para agrupar entidades
    • Hipótesis en la generación de datos
    • Testeo de hipótesis

Debilidades del análisis de cluster

  • Es una técnica exploratoria: puede caracterizarse como descriptivo, ateórico y no inferencial.
  • Las soluciones no son únicas: la pertenencia al conglomerado depende de las decisiones asociadas al análisis tales como el tipo de procedimiento, estandarización o no de variables, etc.
  • Solución dependiente de las variables: agregar o quitar variables cambia la solución a la que se llega.

Paso 1: Objetivos y selección de variables

  • Objetivos del análisis de cluster
    • Descripción de una taxonomía (como técnica exploratoria o confirmatoria)
    • Simplificación de datos (estructura simplificada de las observaciones)
    • Identificar relaciones
  • Seleccionar variables
    • La técnica no distingue variables relevantes de variables irrelevantes
    • Los resultados son muy sensibles a las variables seleccionadas
    • Seleccionar variables en pos de los objetivos.

Paso 3: Supuestos

  • Técnica no paramétrica
  • Normalidad, linealidad y homocedasticidad no son supuestos relevantes
  • Supuestos críticos
    • Representatividad (el análisis de cluster es tan bueno como la representatividad de la muestra)
    • Multicolinearidad: variables correlacionadas tienen mayor ponderación y por lo tanto tiene mayores posibilidades de afectar la medida de similitud. Usar en lo posible variables con baja MC o bien, grupos de variables correlacionadas de igual tamaño.

Diferencia entre jerárquico y k-medias

Los jerárquicos van haciendo conglomerados, van juntando los casos, parten de que cada caso es un conglomerado y van juntándolos hasta llegar a un solo conglomerado y tú ves dónde lo cortas (para eso el dendograma). Los k-medias parten de un solo conglomerado grande y dividen en más grupos según tú le pidas. Además, si tienes muchos casos es mejor k-medias y el k-medias te considera todas las variables como nominales.

¿Qué es el análisis de correspondencias?

  • Técnica que, a partir de los resultados arrojados por una tabla de contingencia, permite identificar dimensiones subyacentes al conjunto de categorías que la conforman.
  • Por medio de ellas se puede representar gráficamente la estructura de relaciones entre dos variables cualitativas, profundizando la interpretación de la información contenida en una tabla de contingencia.
  • Generalmente una de las variables (ubicada en la columna de la tabla) corresponde a grupos o segmentos en los que se clasifican los sujetos de la muestra y la otra (ubicada en las filas de la tabla) corresponde a atributos, características o comportamientos de los sujetos.
  • La representación gráfica de las relaciones encontradas entre las categorías de las variables se realiza a través de mapas de posicionamiento.

¿Cuáles son las condiciones necesarias para la aplicación?

  • Niveles de medición de las variables: Nominal u ordinal. Se puede trabajar con medidas escalares, para lo cual se recomienda su recodificación en categorías ordinales.
  • Relación entre variables: Variables asociadas (verificar mediante chi cuadrado). Relaciones no lineales entre variables escalares.
  • Función de las variables: Variable de segmentación u objeto asume la función de variable independiente. Variable de comportamiento asume la función de variable dependiente.

Verificación de condiciones de aplicación

  • A partir de las tablas de chi-cuadrado, se verifica las condiciones de aplicación del análisis. Se busca establecer si existe una relación entre las variables o no.
  • El punto de partida del análisis de correspondencias siempre será una tabla de contingencia donde se muestra el cruce (frecuencias) de las categorías de las variables involucradas en el modelo.

Entradas relacionadas: