Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Clase 7 BASE DE DATOS FAC.DE INGENIERIA - UNJu Business Intelligence (BI) o Inteligencia de Negocios Es 1 conj.de estrategias y herramientas enfocadas a la administr. y creación de conocimiento mediante el análisis de datos existentes en 1 organización (Medina la Plata, 2009) Los sistemas de BI obtienen datos de los Sistemas Operacionales y los convierten en información valiosa usada en los niveles tácticos y estratégicos. Inconvenientes de los Sistemas de Información (SI) tradicionales Gran rigidez a la hora de extraer datos (se usan informes ya definidos) Necesidad de conocimientos técnicos Largos tiempos de respuesta (las consultas complejas requieren la unión de grandes tablas complejas) Deterioro en el rendimiento del SI (las consultas pueden causar grandes degradaciones del sistema) Falta de integración que genera “islas de datos” (en general las instituciones trabajan sus BD sin estar integradas) Datos erróneos, obsoletos o incompletos (mala calidad de los datos) Problemas para adecuar la información al cargo del Us.en la organiz. Ausencia de información histórica (los sistemas operacionales trabajan con información diaria y no con datos de años anteriores) Pautas para garantizar el exito en BI (Medina la Plata, 2012) Apoyo de la Gerencia Compromiso de los usuarios Metodología de la Implementación Selección de la Herramienta analítica Rapidez de Implementación Experiencia (se necesitan profesionales con experiencia en BI) Errores comunes al implementar BI (Medina la Plata, 2012) Enfoque netamente técnico Mala selección del equipo de trabajo o de la tecnología que se emplee Mala calidad de datos Falta de Planificación de la iniciativa de BI Presupuesto inadecuado (costos de licencias, infraestructura tecnológica, consultoría, ampliación de requerimientos, etc) Mala selección de herramientas No propiciar el cambio necesario Cuadrante mágico de Gartner para BI 2018 Data Warehouse (DW) Es una BD corporativa que se caracteriza por integrar y depurar información de 1 o más fuentes distintas, para luego procesarla permitiendo su análisis desde infinidad de perspectivas y con grandes velocidades de respuesta. Ventaja: en las estructuras se almacena la información (modelos de tablas en estrella/copo de nieve, cubos relacionales... etc). Este tipo de persistencia de la inform.es homogénea y fiable, y permite la consulta y el tratamiento jerarquizado. DW: Características Orientado al tema: la información se clasifica en base a los aspectos que son de interés para la empresa (cliente, vendedor, actividad, etc). Integrado: la información está integrada en convenciones de nombres consistentes, medida uniforme de variables, codificación de estructuras consistentes, atrib.físicos, fuentes múltiples, etc De tiempo variante: la información en el DW puede ser solicitada en cualquier momento y los datos encontrados en el depósito se llaman de "tiempo variante o Batch". No volátil: La informac.es estable a diferencia de datos operacionales que cambian continuamente. Diferencias con una BD Operacional Data Marts (DM) Es un subconjunto de un DW hecho a la medida de un dpto. (Inmon et al, 1998) Metodología Inmon Metodología Kimball Existe una variante muy sencilla llamada Metodología HEFESTO (de Bernabeu) Extract, Transform y Load (ETL) Conj. de procesos mediante los cuales los datos origen son preparados para el DW. Consiste en extraer datos operacionales de una aplicación de origen, transformarlo, cargarlo e indexarlo, asegurando su alta calidad y publicación. (Kimball et al, 2002) ETL (continuación) Extracción: de datos los sist. de origen, los cuales pueden tener formatos distintos (BD Relacionales, ficheros planos, BD no Relacionales, etc). Convierte datos a 1 formato diseñado para el proceso de transformac., analizando y rechazando si corresponde. Transformación: aplica fciones. (reglas de negocio) a los datos extraídos con el fin de convertirlos a un formato útil para su carga. Puede incluir manipulaciones de distintos tipos, tales como juntar columnas o desagregarlas, aplicar funciones de agrupamiento (realizar conteos, sumarizaciones, promedios, etc), generación de claves, unificación de múltiples fuentes, transformar valores de los campos, etc. Carga: los datos ya transformados se cargan en la nueva BD del DW. Dependiendo de cómo se diseñe esta fase se puede modificar la información antigua o agregar solamente los nuevos registros. Hay 2 formas de desarrollar este proceso, por “acumulación simple” que consiste en realizar funciones de agrupamiento y guardar esos resultados en la BD del DW o realizar un “rolling” en donde se mantiene un cierto nivel de granularidad, manteniendo información resumida por niveles jerárquicos en una o más dimensiones del DW. CUBOS DE INFORMACION OLAP Conj. de todas las posibles vistas de un cubo definidas sobre una lista de dimensiones, una tabla base y medidas de agregación. (Hurtado et al, 2006) Conceptos Indicadores o Coeficientes: son var.que se obtienen por medio de operaciones matemáticas que se realizan sobre un hecho o expresiones de 1 tabla de hechos Atributos: referencia campos/criterios de análisis, pertenec.a tablas de dimens. Nivel de Agregación o Jerarquía de Dimensión: es 1 relac.lógica entre 2 o + atrib Data Mining (DM) o Minería de Datos Def.1: Es la extracción de información oculta y predecible de grandes BD, q ayuda a las compañías a concentrarse en la información + importante de sus BD o DW. Def.2: Es el proceso de detectar la información procesable de conjuntos grandes de datos. Utiliza el análisis matemático para deducir los patrones y tendencias que existen en los datos. (Microsoft, 2017) Estos patrones no se pueden detectar con la exploración tradicional de los datos porque las relaciones son demasiado complejas o porque hay demasiado datos. Tecnologías en las que se apoya DM Recolección masiva de datos Potentes computadoras con multiprocesadores Algoritmos de Data Mining KDD (Knowledge Discovery in Databases) Es el proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y, en última instancia, comprensibles a partir de datos. Metodologías de DM SEMMA: tiene una perspectiva más amplia respecto a los objetivos empresariales del proyecto, es más completa y flexible en cuanto a su relación con herramientas comerciales. Se enfoca en características técnicas del desarrollo del proceso, es muy limitada en cuanto a las herramientas ya que se encuentra muy ligada a productos SAS. CRISP-DM se compone de 4 niveles de abstracción, organizados de forma jerárquica en tareas que van desde el nivel más general hasta los casos más específicos (Chapman, 1999), consta de 6 etapas, las cuales van iterando y adaptándose al resultado final que es en sí la toma de decisiones. Cuadrante mágico de Gartner para Data Mining 2018
Compartir