Análisis Exploratorio de Datos: Importancia y Etapas
Enviado por Chuletator online y clasificado en Matemáticas
Escrito el en español con un tamaño de 4,63 KB
Importancia del Análisis Exploratorio de Datos (AED)
En particular, permite la detección de fallos en el diseño y toma de datos, el tratamiento y/o la evaluación de datos ausentes, la identificación de valores atípicos y la comprobación de los supuestos requeridos por parte de las técnicas geoestadísticas.
Etapas de un Análisis Exploratorio de Datos
- Realizar un examen gráfico de las relaciones entre las variables y un análisis descriptivo numérico que cuantifique el grado de interrelación existente entre ellas.
- Evaluar algunos supuestos básicos subyacentes a muchas técnicas estadísticas, por ejemplo, normalidad, probabilidad, correlación, linealidad, etc.
- Identificar los posibles valores atípicos (outliers) y evaluar el impacto potencial que puedan ejercer en análisis estadísticos posteriores.
- Evaluar el impacto potencial que pueden tener los datos ausentes (missing) sobre la representatividad de los datos analizados.
Herramientas Importantes para el Análisis Exploratorio de Datos
- Estadística univariada
- Estadística multivariada
- Regresión lineal y mínimos cuadrados
Estadística Univariada
La estadística univariada se puede dividir en tres grandes capítulos:
- Teoría de Probabilidades
- Estadística Descriptiva
- Inferencia Estadística
Teoría de Probabilidades
Se ocupa del estudio de un modelo matemático, que formaliza ciertos elementos de regularidad que sugieren leyes. Estas leyes se expresan en forma de axiomas lógicos desarrollando las consecuencias de los axiomas, produciendo así un conjunto de teoremas o proposiciones.
Estadística Descriptiva
Se ocupa del estudio de datos, los cuales se disponen en la forma más conveniente para su análisis o inspección.
Inferencia Estadística
Se ocupa de las relaciones entre el modelo matemático y la práctica, constituyendo, en cierta forma, la rama aplicada de la estadística. Es una rama de las matemáticas aplicada que trata lo concerniente a la asignación y manejo de probabilidades.
Esperanza Matemática de una Variable Aleatoria (V.A.) X
Es sencillamente la generalización de la noción de la media ponderada por la frecuencia de ocurrencia.
Estadística Descriptiva
Descripción y análisis de conjuntos de datos o población. Los conceptos más utilizados en el análisis estadístico son:
- Población o Universo: Conjunto completo de individuos, objetos o medidas los cuales poseen una característica común observable y que serán considerados en un estudio.
- Muestra: Es un subconjunto o una porción de la población.
- Variable: Característica o fenómeno de una población o muestra que será estudiada, la cual puede tomar diferentes valores.
- Datos: Números o medidas que han sido recopiladas como resultado de la observación o realización.
- Estadístico: Es una medida, un valor que se calcula para describir una característica a partir de una sola muestra.
- Parámetro: Es una característica cuantificable de una población.
Desviación Estándar
La desviación estándar es la medida de dispersión más común, que indica qué tan dispersos están los datos con respecto a la media.
Error Estándar
Describe el grado de conocimiento de los datos y se puede calcular por: ε = √(σ2 / n)
Coeficiente de Variación
Es una medida de la variación relativa de los datos y puede ser calculado por: CV = S/Xm
Prueba Chi-Cuadrado
Se utiliza para determinar si la distribución es normal, lognormal o alguna otra distribución probabilística.
Prueba t-Student
Se utiliza para determinar si en una distribución bimodal las medias de las poblaciones son estadísticamente diferentes.
¿Qué Características de la Distribución de los Datos se Manifiestan en un Box-plot?
- Muestra los cinco números resúmenes - Muestra una medida de posición robusta ⇒ MEDIANA - Muestra una medida de dispersión robusta ⇒ DISTANCIA INTERCUARTIL - Permite estudiar la simetría de la distribución - Nos da un criterio de detección de datos outliers o atípicos En resumen un diagrama caja nos proporciona la siguiente información: ✓ Posición ✓ Dispersión ✓ Asimetría ✓ Longitud de las colas o bigotes (dispersión con sesgos a la derecha e izquierda) ✓ Puntos anómalos o outliers. (valores atípicos)