Estadística Descriptiva: Conceptos y Aplicaciones en Análisis Univariable y Bivariable

Enviado por Chuletator online y clasificado en Matemáticas

Escrito el en español con un tamaño de 5,6 KB

Análisis Univariable: Distribución de una Variable

El análisis univariable se centra en la descripción de una sola variable. Se utilizan diversas herramientas para comprender su comportamiento, incluyendo:

  • Frecuencias: Tablas de frecuencia absoluta y relativa.
  • Medidas de centralidad: Moda, media y mediana.
  • Medidas de dispersión: Rango, desviación típica y coeficiente de variación.
  • Medidas de distribución: Asimetría y curtosis.
  • Gráficos: Diagramas de barras, diagramas de sectores e histogramas.

Variables Categóricas y Cuantitativas

  • Variables Categóricas: Se analizan mediante tablas de frecuencia absoluta y relativa, así como con gráficos de barras y de sectores.
  • Variables Cuantitativas: Se analizan utilizando medidas como la moda, la media, la mediana, el rango, la desviación típica, la asimetría y la curtosis. Además, se emplean histogramas para visualizar su distribución.

Nota: Cuanto más próximo a 100% sea el coeficiente de variación, mayor será la variación existente en la variable.

Medidas de Centralidad

  • Moda: Es el valor más frecuente en una distribución. Es simple de calcular e intuitiva, pero puede perder información relevante, dando una impresión errónea sobre los datos. Se puede utilizar en variables nominales, ordinales y cuantitativas.
  • Mediana: Es el valor central que divide a la población en dos subpoblaciones iguales. Representa la posición central en una distribución ordenada.

Coeficiente de Variación

El coeficiente de variación (CV) permite comparar la dispersión de dos variables con escalas diferentes. Se calcula dividiendo la desviación típica por la media y multiplicando el resultado por 100. Un CV de 0% indica mucha homogeneidad, mientras que valores superiores a 100% indican mucha heterogeneidad. Advertencia: Cuando el valor de la media es cercano a 0, el CV puede proporcionar valores muy elevados y perder su significado.

Asimetría

  • Asimetría positiva (o a la derecha): El índice de asimetría es mayor que 0. La media es mayor que la moda.
  • Asimetría negativa (o a la izquierda): El índice de asimetría es menor que 0. La media es menor que la moda.

Una distribución también puede ser bimodal o no tener una distribución clara.

Curtosis

La curtosis es una medida de la forma de la distribución, específicamente del grado de apuntamiento. Indica el grado de concentración o dispersión de los valores de una distribución en torno a su valor central.

Análisis Bivariable: Relación entre Dos Variables

El análisis bivariable compara la distribución de una variable en las categorías de otra variable. Estudia la covariación entre dos variables mediante herramientas como:

  • Tablas de contingencia.
  • Comparación de medias.
  • Análisis de correlación.

El objetivo es analizar la hipótesis de asociación entre variables.

Fuerza de la Asociación

La fuerza de la asociación indica el grado en que dos variables están asociadas, es decir, cómo varían conjuntamente. La asociación puede ser débil, moderada, media o alta. Los estadísticos de asociación suelen tomar valores entre 0 y 1:

  • 0: Indica una asociación no relevante.
  • 1: Indica una asociación perfecta.

Grado de Significación Estadística

El grado de significación estadística indica la certeza de que la asociación hallada en los casos estudiados se producirá en el conjunto de la población y no es un resultado aleatorio de la muestra, especialmente cuando esta es pequeña.

Herramientas para el Análisis Bivariable

  • Tablas de contingencia: Se utilizan para analizar la covariación o asociación entre dos variables categóricas. Expresan la proporción o frecuencia de casos que se encuentran en dos categorías. Se basan en: 1) la preparación y el análisis de la tabla, 2) el análisis de estadísticos de fuerza como la V de Cramer y 3) la prueba de significación estadística.
  • Regresión logística simple.

Interpretación de las Tablas de Contingencia

En las tablas de contingencia, la variable independiente se coloca generalmente en las columnas, y la variable dependiente en las filas. Cada columna representa una categoría de la variable independiente, y cada fila representa una categoría de la variable dependiente.

V de Cramer

La V de Cramer es un estadístico que mide la fuerza de la asociación entre dos variables categóricas. Sus valores oscilan entre 0 y 1. No se debe utilizar el chi-cuadrado como medida de fuerza.

Fuerza de la Asociación (Phi, V de Cramer, C de Contingencia)

  • 0.0: No hay asociación.
  • 0.1 a 0.29: Asociación débil.
  • 0.30 a 0.49: Asociación moderada.
  • 0.5 a 0.69: Asociación media.
  • 0.70 a 0.89: Asociación fuerte.
  • 0.90 a 1: Asociación muy fuerte (cercana a perfecta).

Correlación

  • -1: Correlación negativa perfecta.
  • 0: No hay correlación.
  • 1: Correlación positiva perfecta.

Entradas relacionadas: