Guia

Enviado por Programa Chuletas y clasificado en Otras materias

Escrito el en español con un tamaño de 36,05 KB

Que son las herramientas OLAP? OLAP  es utilizado para contestar queries que proporcionan información  acerca del negocio. OLAP queries típicamente ejecutan cálculos complejos, tal como comparaciones periodo sobre periodo, encontrar los N productos mas altos, análisis de series de tiempo y pronósticos de ventas. Los datos analizados a lo largo de múltiples dimensiones, tal como productos, geografía y tiempo. Por lo tanto este tipo de datos es frecuentemente llamado datos multidimensionales.   Defina un cubo de datos. Un cubo de datos permite a los datos a ser modelados y vistos  en múltiples dimensiones. Esta definido por dimensiones y hechos.   Que es una jerarquía de concepto? Ejemplifique. Una jerarquía de concepto define una secuencia de mapeos desde un conjunto de conceptos de bajo nivel a un de alto nivel, conceptos mas generales. Considere una jerarquía de concepto para la dimensión localidad. Los valores de ciudad  para la localidad incluyen Torornto, New York, Vancouver y Chicago. Cada ciudad, sin embargo, puede ser mapeada  a una  provincia o estado a la cual pertenece. Las provincias y estados pueden a su vez, ser mapeados a un país al cual pertenecen, tal como Canada, USA o México. Estos mapas forman una jerarquía de conceptos para la dimensión localidad, que hace un mapeo de un conjunto de conceptos de bajo nivel (ciudades) a un nivel superior, un concepto mas general (países). El ejemplo anterior se puede ilustrar en la siguiente figura:

TODO

CANADAUSAONTARIOTORONTOILLINOISCHICAGONEW YORKNEW YORKBUFALOVANCOUVERCOLUMBIA B.VICTORIA                     
Cual es el tema central de un modelo de datos multidimensional. El modelo de datos multidimensional esta típicamente organizado alrededor de un tema central, como las ventas por ejemplo. Este tema es representado por una tabla de hechos. Los hechos son medidas numéricas. Piense en ellos como cantidades por medio de las cuales queremos analizar relaciones entre dimensiones. Ejemplo de hechos para las ventas de un data warehouse incluyen: pesos_vendidos (cantidad de ventas en pesos),  unidades_vendidas (número de unidades vendidas), cantidad_presupuestada. La tabla de hechos contiene los nombres de los hechos, o medidas, así como llaves a cada una  de las tablas de dimensión relacionadas.                             Que es una jerarquía de conceptos? Una jerarquía de concepto define una secuencia de mapeos desde un conjunto de conceptos de bajo nivel a un de alto nivel, conceptos mas generales.  Elabora la jerarquía de conceptos para las localidades de OLTP que se vio en clase.  Elabora la jerarquía de conceptos para vendedores.  En que consiste una operación roll-up?, explique y ejemplifique. Roll-up: La  operación roll-up (también llamada drill-up)  ejecuta agregación sobre el cubo de datos, ya sea subiendo en la jerarquía de conceptos para una dimensión o por reducción de dimensión. La figura 2.10 muestra el resultado de una operación roll-up realizada en en cubo central subiendo la jerarquía de conceptos para una dada localidad.  Esta operación muestra los agregados de datos ascendiendo la jerarquía localidad desde el nivel de ciudad a el nivel de país.   En que consiste una operación drill-down? Explique y ejemplifique. Drill-down: Esta es la operación inversa del Roll-up. Navega desde datos menos detallados a datos mas detallados. Drill-down  se puede realizar o por bajando una jerarquía de conceptos  para una dimensión o introduciendo dimensiones adicionales. La figura 2.10 muestra el resultado de una operación drill-own. realizada en el cubo central.    En que consiste una operación Slice? Explique y ejemplifique. Slice and dice: La operación slice ejecuta una selección sobre una dimensión de un cubo dado, resultando un subcubo. La figura 2.10 muestra una operación slice donde los datos de venta son seleccionados desde el cubo central para la dimensión tiempo utilizando el criterio time = Q1. La operación dice define un subcubo realizando una selección sobre dos o mas dimensiones.   En que consiste una operación Dice? Explique y ejemplifique. La operación dice define un subcubo realizando una selección sobre dos o mas dimensiones.   En que consiste una operación Pivot? Explique y ejemplifique. Pívot (rotar): es una operación de visualización que rota los ejes de datos en la vista para proporcionar una presentación alternativa de los datos.   Explique la escuela ROLAP en la industria OLAP. Desde que comenzó la industria OLAP, ha existido un debate acerca de la mejor manera de almacenar datos multidimensionales. Una escuela del pensamiento se avocó a almacenar los datos en tablas en bases de datos relacionales, las cuales son conocidas por su habilidad para escalar grandes cantidades de datos. Esta es conocida como Relational OLAP (ROLAP). En este caso el análisis de datos es hecho utilizando queries SQL. Todas las características discutidas en SQL serian útiles para ROLAP.   Mencione las desventajas de la escuela MOLAP. Sin embargo, un problema mayor con esta aproximación es que los datos tienen que ser movidos desde la base de datos relacional, donde esta típicamente almacenado,  a una base datos multidimensional  para análisis. Esto significa que los datos tienen que ser replicados y podrían quedar fuera de sincronización.   Explique tres componentes de la arquitectura OLAP para Oracle 9i. -Oracle 9i database y motor SQL          -Espacios de trabajo analitico (Analytic workspaces)-Motor de calculos OLAP                     -Lenguaje de comandos DML de OLAP-Funciones de tablas SQL                    -Catalogo OLAP-ALAP API                                           -BI beans   Explique que es un espacio de trabajo analítico en Oracle Los espacios de trabajo analíticos permiten almacenar datos en una forma multidimensional. Como con la tablas relacionales, un espacio de trabajo analítico es poseído por algún esquema y utiliza una tablespace de Oracle para almacenarse. Se pueden utilizar espacios de trabajo analítico para almacenar datos  que son utilizados en cálculos como son los pronósticos y asignaciones.   Que es una dimensión en un formato multidimensional. Dimensión: a diferencia del objeto de dimensión de SQL, el cual expresa relaciones entre columnas, una dimensión en este mundo corresponde a una lista de valores. Estos son llamados dimensiones de valor. Por ejemplo una dimensión ciudad puede consistir de los valores Boston, Londres, San Francisco. Así no hay jerarquía que este implicada por una dimensión en si misma. Para especificar alguna relación entre varios valores en la dimensión, tu debes crear la relación.   Explique la diferencia entre una dimensión basada en nivel y una padre – hijo 

REGION

Se puede pensar una relación como una tabla de dimensión entre padre – hijo  en un esquema relacional. La siguiente figura muestra la diferencia entre una dimensión basada en nivel y una tabla de dimensión padre – hijo en el mundo real.   CIUDADESTADOREGIONMonterreyNuevo León

ESTADO

NorteDFDFCentroSan Juan del RióQuerétaroBajíoVillahermosaTabascoSureste

CIUDAD

    HijoPadreMonterrey

HIJO

PADRE

Nuevo LeónNuevo LeónNorteSuresteN/DSan Juan del RíoBajío   Que son la variables en un modelo multidimensional. Variable: Una variables es utilizada para almacenar datos y es equivalente a una tabla de hechos. Es definida con respecto a un conjunto especifico de dimensiones. LA siguiente figura muestra una fotografía conceptual de cómo los datos son almacenados en una variable. En este ejemplo la variable ventas es dimensionada por la geografía y el tiempo.   Que es el OLAP DML? OLAP DML es un lenguaje poderoso pero muy simple que nos permite expresar un gran variedad de cálculos y hacer reportes tipo hojas de trabajo (Excel) sobre los datos almacenados en una área de trabajo analítica. Proporciona funciones para pronósticos, asignación, agregación, y cálculos financieros. Se puede ejecutar OLAP DML utilizando OALP Worksheet en el Oracle Enterprise Manager, utilizando el paquete DBMS_AW PL/SQL., o utilizando la clase SPLExecutor de OLAP API.   Que son la dimensiones y variables en OLAP DML? Las dimensiones y variables son los elementos básicos de un formato de almacenamiento multidimensional. Se mostrará brevemente como son definidos, de modo que se puedan entender los ejemplos siguientes. Este ejemplo define un equivalente de la dimensión cliente con la jerarquía clinumero, cliciudad y cliestado:             DEFINE clinumero        DIMENSION TEXT            DEFINE clicuidad         DIMENSION TEXT            DEFINE cliestado         DIMENSION TEXT            DEFINE clientes           DIMENSION CONCAT (cli cuidad cliestado clinumero)            DEFINE cliente.padres  RELATION clientes    Para que sirve el comando DEFINE? Para definir una variable  Para que sirve el comando COMPOSITE? Lo siguiente es definir una dimensión COMPOSITE, la cual especifica que dimensiones se utilizaran juntas. Esto es útil cuando los datos no tienen todas la combinaciones de valores de clientes y tiempodim; en este caso un composite solo almacenará los pares relevantyes : DEFINE dims COMPOSITE      Defina Minería de datos (Data mining)Minería de Datos es definido como el proceso de descubrir patrones (o modelos) de comportamiento en los datos. Simplemente podemos establecer que minería de datos se refiere a la extracción o “minería” de conocimiento de grandes cantidades de datos. Minería es un termino vivido que caracteriza el proceso que encuentra una pequeña cantidad de piedras preciosas de una gran cantidad de materia prima (roca). Así el término inapropiado minería nos lleva a los datos de manera análoga.  ¿Qué es Knowledge Discovery?Mucha gente toma la minería de datos  como un sinónimo de otro término popularmente utilizado, Knowledge Discovery in Databases (Descubrimiento del conocimiento en Bases de datos) o KDD. Data Transformation (Transformación de datos): donde los datos son transformados o consolidados en formas apropiadas para minería por medio de operaciones de agregación o resúmenes.Data mining (Minería de datos): proceso esencial donde métodos inteligentes son aplicados para extraer patrones de datos.  Explique las siguientes fases de Knowledge Discovery:Data Ceaning, Data Integration y Data SelectionData Ceaning (Limpiado de datos): remoción de datos inconsistentes y ruido.Data Integration (Integración de datos): Múltiples fuentes de datos pueden ser combinadas.Data Selection (Selección de datos): donde datos relevantes a la tarea de análisis son recuperados de la base de datos)   En que consiste la fase Pattern evaluation en Knowledge Discovery?Pattern evaluation (Evaluación de patrones): para identificar los patrones interesantes verdaderos representando el conocimiento  basado en algunas medidas de interés.Knowledge Pesentation (Presentación del conocimiento): Donde técnicas de representación del conocimiento y visualización son utilizadas para presentar el conocimiento minado a el usuario.  Explique como se clasifican las tareas de minería de datos, explique cada una.En general las tareas de minería de datos se pueden clasificar en dos categorías: descriptivas y predictivas:
  • Las tareas de minería descriptivas señalan las propiedades generales de los datos en la base de datos.
  • Las tareas de minería predictivas realizan inferencia sobre los datos actuales para hacer predicciones.
  Explique la tarea de minería de datos:Descripciones Concepto / clase: caracterización y discriminaciónDescripciones Concepto / clase: caracterización y discriminación. Los datos pueden ser asociados a clases o conceptos. Por ejemplo podemos tener en una tienda clases que abarquen computadoras, impresoras,  etc., y conceptos de los clientes  que incluyan a los que gastan mucho y los que gastan por presupuesto. De esto puede ser útil describir clases y conceptos individuales en términos concisos, resumidos e inclusive precisos. Tales descripciones de una clase o concepto son llamadas descripciones clase / concepto. Estas descripciones pueden ser derivadas por la (1) caracterización  de datos,  resumiendo los datos de la clase bajo estudio (frecuentemente llamada clase objetivo) en términos generales, o por medio de (2) discriminación de datos comparando la clase objetivo con una o un conjunto de clases comparativas (frecuentemente llamadas clases de contraste), o (3) ambos,  tanto caracterización de datos como discriminación.a.     La caracterización de datos es un resumen de las características generales o rasgos de una clase objetivo de datos. Los datos correspondientes a las clases especificadas de los usuarios son típicamente recopiladas por un query de una bases datos. Existen varios métodos para la resumir y caracterizar datos en forma efectiva. Por ejemplo,  los datos en operaciones de roll-up basadas en cubos. Se pueden utilizar para realizar resúmenes de datos controlados por el usuario. La salida de la caracterización de datos se puede presentar de varias formas. Graficas de pie, graficas de barra , curvas, cubos de datos multidimensionales y tablas multidimensionales, etc. Ejemplo: un sistema de minería de datos deberá poder producir una descripción resumiendo las características de los clientes que gastan mas de 1,000 dólares  al año, tal que ellos tengan una edad entre 40 –50 años, empleados, y tener un excelente historial crediticio.. El sistema deberá permitir a los usuarios realizar drill down en cualquier dimensión, tal como la ocupación para ver estos clientes de acuerdo al tipo de empleo.b.La discriminación de datos es una comparación de las características generales de objetos de datos de una clase objetivo con las características generales de objetos de una o un conjunto de clases de contraste. Las clases objetivos y de contraste pueden ser especificadas por el usuario y los objetos de datos correspondientes recuperados a través de quries  de bases de datos. Los métodos utilizados para la discriminación de datos son similares a aquellos utilizados por la caracterización de datos. Ejemplo: un sistema de minería de datos deberá poder comparar dos grupos de clientes que compran productos de computo regularmente (mas de dos veces al mes) contra aquellos que rara vez compran dichos productos (menos de tres veces al año). La descripción resultante podría ser un perfil comparativo general de los clientes, tales que 80% de los clientes que frecuentemente compran productos de computo tienen una edad entre 20 y 40 años y educación universitaria, mientras que el 60% de los clientes que no compran tan frecuentemente son personas mayores o muy jóvenes y no tienen grado universitario .Por medio de un drill down en la ocupación, o añadiendo nuevas dimensiones como nivel de ingresos podría ayudar a encontrar mas características discriminatorias entre estas dos clases.    Explique la clase de patrón de minería de datos: Análisis de asociaciónAnálisis de asociación. Es el descubrimiento de reglas de asociación que muestran condiciones valor-atributo que ocurren frecuentemente juntas en un dado conjunto de datos. Mas foralmente, las reglas de asociación son de la forma  X Þ Y, esto es, “A1 ^....^Am Þ B1^.....^Bn”, donde  Ai  y Bk son pares atributo – valor. LA regla de asociación A ÞB es interpretada como “ las tuplas de bases de datos que satisfacen las condiciones en X están  también adecuadas a satisfacer las condiciones en Y”. Ejemplo: dada una base de datos relaciones, un sistema de minería de datos podrían encontrar reglas de asociación como:      Edad(X, “20...29”) ^ ingresos(X, “ 20000....39000”) Þcomprar(X, “CD player”)  Explique la clase de patrón de minería de datos: Clasificación y predicción.Clasificación y predicción. La clasificación es el proceso de encontrar un conjunto de modelos (o funciones) que describan y distingan clases de datos o conceptos, para el propósito de poder utilizar el modelo para predecir la clase de objetos cuya etiqueta de clase es desconocida. El modelo derivado esta basado en el análisis de un conjunto de datos de entrenamiento. El modelo derivado puede ser representado de varias formas, tales como reglas de clasificación (IF-THEN), árboles de decisiones, formulas matemáticas o redes neuronales. Un árbol de decisiones es una estructura de árbol semejante a un diagrama de flujo, donde cada nodo denota una prueba de un valor de atributo, cada rama representa un resultado de la prueba, y las hojas del árbol representan clases o distribuciones de clases. El árbol de decisiones puede ser convertido a reglas de clasificación. Una red neuronal, cuando se utiliza para clasificar, es típicamente una colección de unidades de procesamiento semejantes a neuronas con conexiones valoradas entre unidades. La clasificación se puede utilizar para predecir etiquetas de clases de objetos de datos.  Explique la clase de patrón de minería de datos: Análisis de clusters.Análisis de clusters. A diferencia de la clasificación y predicción, la cual analiza objetos de datos etiquetados en una clase, clustering analiza objetos de datos sin consultar etiquetas de clases conocidas. En general las etiquetas de clase no están presentes en el entrenamiento de datos simplemente porque ellas no saben con cual comenzar. Clustering puede ser utili para generar tales etiquetas. Los clusters de objetos están formados de modo que los objetos dentro del cluster tienen alta similitud.  Ejemplo: análisis de cluster  puede ser realizado en datos de clientes para identificar subpoblaciones homogéneas de clientes. Estos clusters pueden representar grupos objetivo individuales para mercadeo.  Explique la clase de patrón de minería de datos: Análisis de evoluciónAnálisis de evolución. Describe y modela regularidades o tendencias de objetos cuyo comportamiento cambia a través del tiempo. Aunque esto puede incluir caracterización, discriminación, asociación, clasificación o clustering de datos relacionados al tiempo, distintas características de tal análisis incluyen análisis de datos en series de tiempo, secuencias o periodicidad de patrones y analiss de datos basados en similitudes.  Explique la clase de patrón de minería de datos: Análisis outlier.Análisis outlier. Una base de datos puede contener objetos de datos que  no cumplan con el comportamiento general o modelo de datos. Estos objetos de datos son outliers. La mayoría de los métodos de minería de datos descartan estos datos como ruidos o excepciones. Sin embargo en algunas aplicaciones tales como la detección de fraudes, los eventos raros pueden ser mas interesantes que los que ocurren regularmente.  Clasifique los siguientes ejemplos de acuerdo a la clase de patrón de minería de datos que utilizaría y explique por que (puede utilizar dos o mas):a.     Pronósticos de acciones en la bolsa mexicana de valores. b.    Comportamiento de las ventas en una empresa utilizando funciones de forecast. c.     Analizar las fechas de pago de las colegiaturas en una universidad. d.    En un departamento de cuentas por cobrar, se desea analizar la cobranza en los últimos seis años en una empresa. e.     Pronostico del tiempo. f.     Análisis de ingresos por familia en toda la republica mexicana a partir del ultimo censo. g.    Frecuencia de utilización de tarjetas de crédito en un banco, tomando las siguientes características de los usuarios: estado civil, ingresos, tiendas mas solicitadas. h.     Análisis de señales de radio provenientes del espacio exterior. i.      Análisis de declaraciones anuales de personas físicas, tomando sus siguientes características: edad, dirección, honorarios médicos declarados. j.      Control de la calidad de productos químicos en una empresa Industrial. k.     Densidad de la población en un país.  Mencione las tres técnicas que utiliza Oracle para hacer minería de datos.
  • Asociación (indirecto)
  • Clustering (indirecto)
  • Clasificación (directo)
  Porque se utilizan las técnicas de reglas de asociación en el market-basket  En que consiste la minería de datos por reglas de asociación?Hacer minería con reglas de asociación abarca el conteo de cuantas veces un cierto grupo de hechos ocurren juntos. En este caso, no se sabe necesariamente que combinación buscar – por lo tanto esto cae bajo la categoría de aprendizaje indirecto no supervisado. El algoritmo de asociación sugiere reglas del tipo “A Þ B”.  En que consiste la cantidad soporte que se propone en las reglas de asociación?Suporte nos dice el porcentaje de las transacciones donde la combinación de los hechos A y B ocurren juntos. Ayuda  identificando combinaciones que son suficientemente frecuentes  (Ej. Compra de pescado o compra de pescado y limón).  En que consiste la cantidad confianza que se propone en las reglas de asociación?Confianza nos dice que porcentaje de transacciones que tiene un hecho A también tiene un hecho B (Ej. Cuantas transacciones que tienen pescado también tienen limones).  Explique el algoritmo que utiliza la técnica de reglas de asociaciónEl algoritmo utilizado por Oracle en minería de datos para las reglas de asociación es llamado A priori. El usuario proporciona un soporte y confianza mínimo deseado. El algoritmo primero encuentra artículos simples que ocurren frecuentemente y que tienen el mínimo soporte – por ejemplo el pescado. Entonces encuentra pares de artículos que tienen el mínimo soporte tales que al menos un artículo en el par estaba ocurriendo frecuentemente – por ejemplo el pescado y los limones. Se repite el proceso para proponer combinaciones mas grandes en forma incremental de artículos hasta que no encuentre ni una mas. Una vez que ha encontrado todos los conjuntos de artículos frecuentes, localiza a aquellos entre todos los que cumplan el mínimo de requerimiento de confianza del usuario. Estos son reportados como reglas de asociación.  En que consiste la técnica de clustering?Clustering es una técnica utilizada para dividir un gran conjunto de datos con muchos atributos en un número pequeño de grupos compactos parecidos. Tales grupos no son fácilmente “visibles” al ojo humano debido al gran número de atributos que envueltos. Por ejemplo, suponga que tiene datos del ultimo censo poblacional, incluyendo varios atributos tales como la edad, ocupación, ocurrencia de enfermedades, y así sucesivamente. Agrupando (clustering) estos datos, podrías encontrar que existen varios puntos donde ciertas enfermedades prevalecen, posiblemente indicando un suministro de agua contaminada en aquellas regiones. Ya que no tenemos ninguna idea definitiva de lo que podríamos encontrar, este es otro ejemplo de aprendizaje no supervisado.  En que tipo de modelos se utiliza clustering?en la segmentación de mercados  Que algoritmos utiliza Oracle para hacer minería de datos por medio de clustering?La minería de datos de Oracle soporta dos algoritmos para clustering: k-means mejorado y O-cluster.             El algoritmo O-cluster define clusters utilizando rangos de valores de atributos. El usuario no necesita proporcionar el número de clusters para generarlo. Este atributo puede utilizarse para atributos no numéricos que tengan un conjunto de valores discretos.   Explique el método k-means para clustering?El algoritmo k-means es un algoritmo que agrupa datos en un numero especificado de k clusters. Agrupa artículos en clusters basadas en sus distancias relativas entre cada uno. De modo que todos los puntos en un cluster están mas cerca uno de otro que los puntos de otros clusters.  Explique el método k-means mejorado para clustering?El algoritmo k-means mejorado es una variación del anterior, el cual forma cluster de un manera jerárquica. Comienza con todos los datos que pertenezcan a un solo cluster y entonces divide sucesivamente estos datos en clusters mas pequeños hasta que el número de clusters deseado es obtenido. Es muy eficiente comparado con el k-means tradicional, ya que solo requiere una pasada a través de los datos y por lo tanto puede manejar grandes conjuntos de datos. Trabaja bien aun para conjuntos de datos con menos de diez atributos. La distancia métrica utilizada por k-means puede ser definida solamente por atributos numérico; por lo tanto, si tu tienes valores discretos (ejemplo los colores) k-means no se puede utilizar.  Que métodos indirectos utiliza Oracle para minería de datos?
  • Asociación (indirecto)
  • Clustering (indirecto)
  Explique en que consiste el método de clasificación?Suponga que usted quiere enfocar una promoción para una cámara digital nueva y le gustaría saber cuales de sus clientes son probables compradores de la cámara. La clasificación es una técnica de la minería de datos que es útil para esta aplicación. La clasificación divídelos datos en dos o mas clases bien definidas. A diferencia de clustering, donde no se sabe que grupos serán generados, en la clasificación se sabe exactamente lo que cada grupo representa. En el ejemplo previo, los dos grupos son clientes que probablemente compraran una cámara y clientes que probablemente no compran una cámara. Esto es un ejemplo de aprendizaje supervisado.  Para que tipos de datos funciona el método k-means?CLUSTERING,   Que algoritmos utiliza Oracle para hacer minería de datos por medio de clasificación?Oracle ofrece dos algoritmos principales para la clasificación: el Algoritmo Naive Bayes y el algoritmo de redes Bayes adaptado.            El algoritmo Naive Bayes (NB) esta basado en el teorema de probabilidad conocido como teorema de Bayes y supone que cada atributo es independiente de los otros. Una propiedad interesante para este algoritmo NV es  que se puede construir  y validar en forma cruzada el modelo utilizando los mismos datos. Este algoritmo trabaja mejor con un pequeño número de atributos predictores (menos de 200).            EL algoritmo de redes de Bayes adaptado (ABN) produce un modelo en la forma de un árbol de decisiones tal como se muestra en la siguiente figura: 

Entradas relacionadas: