Análisis de Variables Cualitativas y Cuantitativas Bivariantes
Enviado por Chuletator online y clasificado en Matemáticas
Escrito el en español con un tamaño de 11,48 KB
Análisis de Variables Cualitativas y Cuantitativas Bivariantes
Estudio de 2 Variables Cualitativas: X e Y
Descripción de los Datos
¿Están relacionadas las variables?
Asociación de las Variables
¿Influye una en la otra?
La asociación de variables no siempre significa que haya una causalidad directa. Variables Bivariantes: analiza 2 características simultáneamente.
Ejemplo (Contraste de Asociación)
Tabla de Doble Entrada o de Distribución Conjunta de las Variables
(Agrupamos los datos de 2 variables en una misma tabla)
Fij = Frecuencia absoluta de la casilla (fila, columna)
K = número de filas (2)
P = número de columnas (5)
Las distribuciones marginales están en el exterior de la tabla, las condicionadas en el interior.
Ejemplo:
X = Afición a la fotografía (individuos)
Y = SI usar ropa de marca (SI) / No usar ropa de marca (NO) (características)
Tabla de Doble Entrada
X/Y | S | N |
P | 5 | 20 |
N | 10 | 15 |
M | 25 | 4 |
Distribución Marginal de X e Y
De X
(Distribución marginal de la variable X sin tener en cuenta Y)
X/Y | S | N | fi. |
P | 5 | 20 | 25 25 personas poco aficionadas a la foto sin tener en cuenta si usan o no ropa de marca. |
N | 10 | 15 | 25 |
M | 25 | 4 | 29 |
79 79 personas es el total de personas = n, la suma de todas las personas que son aficionadas en diferentes niveles a la foto sin tener en cuenta si usan o no ropa de marca. |
De Y
(Distribución marginal de la variable Y sin tener en cuenta X)
X/Y | S | N | |
P | 5 | 20 | 40 personas si usan ropa de marca sin tener en cuenta su afición a la fotografía. |
N | 10 | 15 | 39 personas no usan ... |
M | 25 | 4 | |
f.j | 40 | 39 | 79 |
Frecuencia Absoluta de f3,2
4 = Hay muchas personas aficionadas a la foto, las cuales, no usan ropa de marca.
Distribución Condicionada de la Variable X, Condicionada a que la Variable Y es NO
X/Y = NO
P N M
X/Y=NO 20 15 4
Son los aficionados 20 (poco), 15 (normal), 4 (muchos) que hay a la fotografía teniendo en cuenta que no usan ropa de marca.
Distribución Condicionada de la Variable Y, Condicionada a que la Variable X es Poco Aficionada
Y/X = Poco aficionada
SÍ NO
Y/X=P 5 20
5 personas usan ropa de marca y son poco aficionadas a la fotografía.
20 personas no usan ropa de marca y son poco aficionadas a la fotografía.
¿Cuántos Individuos son Muy Aficionados a la Foto y Usan Ropa de Marca?
25 ---> f3,1 25 individuos son muy aficionados a la foto y usan ropa de marca.
Tabla de Frecuencias Relativas
Dividir la frecuencia absoluta por el total de observaciones:
hij = fij / n
(Todos los números entre 0 y 1, incluso las marginales)
Coeficiente de Contingencia
¿Qué es? Al analizar los datos desde un punto de vista descriptivo, podemos analizar la dependencia de 2 variables cualitativas mediante el coeficiente de contingencia. Mide la asociación entre variables. Está comprendido entre los valores 0 y 1 → 0 ≤ C ≤ 1
Interpretación: cuanto más cerca de 0, las variables tienen menos relación, son independientes; y cuanto más cerca de 1, tienen más relación, mayor grado de asociación.
Fórmula:
C = √(X2 / (n + X2))
Contraste de Chi-cuadrado de Independencia (entre variables cualitativas) (X2)
Consiste en que la hipótesis nula (H0) va a ser siempre que las variables son independientes, es decir, que no tienen relación la una con la otra. (En el ejemplo de los lagartos, lo que esta hipótesis afirmaría sería que no tienen nada que ver la vegetación con la presencia de lagartos). La hipótesis alternativa (H1) es la contraria, que X e Y son dependientes, hay una relación entre ellas.
Variables Bivariantes Cuantitativas (2 variables cuantitativas juntas)
X = X1, X2, X3, X4… Xn
Y = Y1, Y2, Y3, Y4… Yn
n pares de valores
(Xn, Yn) → 1 variable
Ejemplo: | X | Y |
X: horas de estudio | X1 | Y1 |
Y: nota media que sacas | X2 | Y2 |
n = pares de valores | X3 | Y3 |
Diagrama de Dispersión
Consiste en representar los datos (pares de puntos) en un sistema de ejes de coordenadas, de modo que si en el eje horizontal representamos los valores de la variable X y en el eje vertical los de la variable Y, el par (Xn, Yn) se corresponde con el punto del plano con coordenadas. (Nube de puntos)
A partir de este diagrama de dispersión podemos sacar conclusiones:
- Asociación creciente o positiva (Conforme va creciendo la X crece la Y ---> Forma creciente)
- Asociación decreciente o negativa (Conforme va decreciendo la X decrece la Y ---> Forma decreciente)
Cuanto más rectos están los puntos (armonía), es lineal. Podremos tener una aproximación mejor o peor.
¿Qué Tipo de Relación Puede Haber Entre Dos Variables Cuantitativas?
- Positiva
- Negativa
- Independencia (falta de relación)
- Cuadrática (distinta de la lineal)
Covarianza
Sirve para medir el grado de asociación de las variables. La covarianza tiene ventajas e inconvenientes.
La ventaja es que me indica si hay una asociación positiva (>0) entre las variables X e Y, si hay una asociación negativa (
El inconveniente es que no me indica la intensidad de la relación o el grado de asociación y que su valor está influenciado por las unidades de medida, es decir, que sea muy grande o pequeña no me da ninguna información, lo único que sirve es si es positiva o negativa.
Relación positiva: cuando una aumenta la otra también, va una al ritmo de la otra.
Relación negativa: cuando una aumenta la otra decrece.
Coeficiente de Correlación
Es el siguiente paso de la covarianza.
Fórmula: Cxy = Covxy / (Sx * Sy)
Propiedades:
- Es adimensional, es decir, no depende de las unidades en que se mide.
- -1 ≤ pxy ≤ 1
La interpretación positiva o negativa es igual que la covarianza.
No solo me dice si la asociación es positiva o negativa, sino que también me dice si el nivel de asociación es muy bueno o no es bueno. Cuando se acerca mucho a 1 tengo una relación lineal casi perfecta.
- Si se acerca a 1 (positivo) tengo una relación lineal casi perfecta creciente.
- Si se acerca a -1 tengo una relación lineal casi perfecta decreciente.
Hay una intensidad de relación más fuerte con el que sea más alto (sin tener en cuenta el signo).
La relación lineal casi perfecta (positiva o negativa) se interpreta a través de la recta de mínimos cuadrados.
Similitud: Los dos me dicen si hay asociación positiva o negativa.
Diferencias: La covarianza está influenciada por las unidades de medida, mientras que el coeficiente de correlación no porque es adimensional.
La covarianza se queda solo en si es positiva o negativa, no me da más información, y el coeficiente de correlación me da el valor de la intensidad de la relación entre las dos variables.
Recta de Mínimos Cuadrados. Recta de Regresión
Cuando hago un diagrama de dispersión, hay veces que se ve que la asociación es positiva pero no el grado. Si se ve que parece una línea casi perfecta, significa que hay una relación lineal casi perfecta, que se traduce en una recta de regresión lineal, llamada recta de mínimos cuadrados. Lo que me dice es que las 2 variables pueden relacionarse de una forma casi exacta mediante esta expresión matemática (la fórmula de la recta).
Sirve para predecir valores de la variable Y en función de la variable X.
Puede ser muy representativa (si los puntos están muy encima de la recta) o muy poco representativa (puntos más separados de la recta).
Y = a + bx
Coeficiente de Determinación
R2 = Es el coeficiente de correlación al cuadrado. Al elevarlo al cuadrado, el signo se elimina. Este valor indica el grado de fiabilidad de la recta de regresión. Este valor nos dice si la recta ajusta bien o ajusta mal.
El valor está entre 0 y 1 (0 ≤ R2 ≤ 1). Si su valor está muy cerca de uno (0,75), consideramos que el modelo es suficientemente bueno y mejor se ajusta a la recta de regresión, y cuanto más se acerque a 0, menos se ajusta la recta de regresión.