Vista previa del material en texto
- 1 - UNIVERSIDAD CATÓLICA DE CUENCA Comunidad Educativa al Servicio del Pueblo UNIDAD ACADÉMICA DE TECNOLOGÍAS DE LA INFORMACIÓN Y COMUNICACIÓN(TIC) CARRERA DE INGENIERIA DE SISTEMAS INTELIGENCIA DE NEGOCIOS APLICADA AL ÁREA DE COMERCIALIZACIÓN DE LA EMPRESA PÚBLICA MUNICIPAL DE AGUA POTABLE, ALCANTARILLADO Y SANEAMIENTO AMBIENTAL (EMAPAL-EP) DE AZOGUES TRABAJO DE TITULACIÓN PREVIO A LA OBTENCIÓN DEL TÍTULO DE INGENIERO DE SISTEMAS AUTOR: DARWIN ARMANDO RIVERA SANCHEZ DIRECTOR: BLANCA LUCIA AVILA CORREA AZOGUES - ECUADOR 2020 - 2 - DECLARACIÓN Yo, DARWIN ARMANDO RIVERA SÁNCHEZ, declaro bajo juramento que el trabajo descrito es de mi autoría, ya que no ha sido previamente presentada para ningún grado o calificación profesional; y que he consultado las referencias bibliográficas que se incluyen en este documento La Universidad Católica puede hacer uso de los derechos correspondientes a este trabajo, según lo establecido por la Ley de Propiedad Intelectual, por su Reglamento y la normativa institucional vigente DARWIN ARMANDO RIVERA SÁNCHEZ - 3 - CERTIFICACIÓN Certifico que le presente trabajo fue desarrollado por Darwin Armando Rivera Sánchez, bajo mi supervisión. BLANCA LUCIA AVILA CORREA DIRECTORA - 4 - AGRADECIMIENTOS Este proyecto de investigación quiero agradecer principalmente a Dios, por prestarme la vida y llenarme de fuerzas para seguir día a día el camino correcto, la lucha contra momentos de dificultad y que pensé haberme caído. Quiero agradecer a mis padres: Jaime e Inés, por ser quienes me impulsaron a seguir este sueño, implantando valores, consejos y buenos principios. Así mismo quiero expresar mi reconocimiento a la Empresa Pública Municipal de Agua Potable, Alcantarillado y Saneamiento Ambiental EMAPAL-EP, de la ciudad de Azogues, por su disposición en información brindada para realizar este trabajo. Finalmente quiero plasmar mi más sincero agradecimiento a mi tutora: Ing. Blanca Ávila, que con su gran conocimiento me oriento al desarrollo y culminación exitosa de este trabajo de titulación. - 5 - DEDICATORIA Dedico esta tesis a mis padres quienes me han forjado como persona; este logro se lo debo a ustedes, gracias por sembrar en mí principios, esfuerzo y las ganas de cumplir mis sueños sin temor a las adversidades. - 6 - ÍNDICE DE CONTENIDO DECLARACIÓN............................................................................................................. - 1 - CERTIFICACIÓN ........................................................................................................... - 3 - AGRADECIMIENTOS ................................................................................................... - 4 - DEDICATORIA .............................................................................................................. - 5 - ÍNDICE DE CONTENIDO ............................................................................................. - 6 - LISTA DE FIGURAS ..................................................................................................... - 9 - LISTA DE TABLAS ..................................................................................................... - 10 - LISTA DE ILUSTRACIONES ..................................................................................... - 11 - LISTA DE ANEXOS .................................................................................................... - 12 - RESUMEN ................................................................................................................... - 13 - ABSTRACT .................................................................................................................. - 14 - CAPITULO I. FUNDAMETACION TEORICA .......................................................... - 15 - 1.1. INTRODUCCIÓN ............................................................................................ - 15 - 1.2. FUNCIONAMIENTO DE BI EN LAS ORGANIZACIONES ........................ - 17 - 1.3. DATA WAREHOUSE -DWH. ......................................................................... - 18 - 1.3.1. Objetivos del Data Warehouse................................................................... - 19 - 1.3.2. Arquitectura de dwh ................................................................................... - 19 - 1.3.2.1. Data Sources o Fuentes de Datos ......................................................... - 20 - 1.3.2.2. Arquitectura del Sistema ETL .............................................................. - 20 - 1.3.2.2.1. Extracción. ..................................................................................... - 21 - 1.3.2.2.2. Limpiar y Conformar. .................................................................... - 22 - 1.3.2.2.3. Integración y Entrega .................................................................... - 22 - 1.3.2.2.4. Servicios de Gestión ETL .............................................................. - 23 - 1.3.2.2.5. Almacenes de Datos ETL .............................................................. - 23 - 1.3.2.2.6. Metadatos ETL .............................................................................. - 24 - 1.3.2.2.7. Data Mart. ..................................................................................... - 24 - 1.4. ARQUITECTURA DE BI ................................................................................ - 25 - 1.4.1. Tipos de aplicaciones de BI ....................................................................... - 26 - 1.4.1.1. Gestión de Servicios de BI. [13] .......................................................... - 28 - 1.4.1.2. Almacenes de datos de BI. [13] ........................................................... - 28 - 1.5. MINERÍA DE DATOS (DATA MINING) ...................................................... - 28 - - 7 - 1.6. OLAP (PROCESAMIENTO ANALÍTICO EN LÍNEA) ................................. - 29 - 1.6.1. Modelos de Datos ...................................................................................... - 29 - 1.6.1.1. Esquema Estrella .................................................................................. - 30 - 1.6.1.2. Esquema Copo de Nieve ...................................................................... - 31 - 1.6.1.3. Normalizado – 3FN .............................................................................. - 31 - 1.6.2. ENFOQUES PARA DESARROLLO DE APLICACIONES BI .............. - 32 - 1.6.2.1. Enfoques de diseño del almacén de datos ............................................ - 32 - 1.6.2.2. Evaluación de la metodología de diseño del almacén de datos ........... - 34 - 1.6.3. BENEFICIOS DE BI. ................................................................................ - 35 - 1.6.3.1. Manejo del crecimiento de la empresa. ................................................ - 36 - 1.6.3.2. Control de costos. ................................................................................. - 36 - 1.6.3.3. Clientes. ................................................................................................ - 36 - 1.6.3.4. Indicadores de gestión .......................................................................... - 36 - 1.6.4. METODOLOGÍA DE IMPLEMENTACIÓN DE BI ............................... - 36 - 1.6.4.1. Definición. ............................................................................................ - 38 - 1.6.4.2. Levantamiento de información. ........................................................... - 38 - 1.6.4.3. Diseño. .................................................................................................- 39 - 1.6.4.4. Desarrollo. ............................................................................................ - 39 - 1.6.4.5. Pruebas ................................................................................................. - 40 - 1.6.4.6. Puesta en producción. ........................................................................... - 40 - 1.6.5. HERRAMIENTAS PARA EL DESARROLLO DEL PROYECTO ........ - 41 - 1.6.5.1. Power Desginer. ................................................................................... - 41 - 1.6.5.2. Exasol ................................................................................................... - 41 - 1.6.5.3. Exaplus. ................................................................................................ - 42 - 1.6.5.4. PostregSQL. ......................................................................................... - 42 - 1.6.5.5. Knime. .................................................................................................. - 42 - 1.6.5.6. Tableau. ................................................................................................ - 43 - 1.6.6. Costo Total de propiedad de las herramietas ............................................. - 44 - CAPITULO 2. DIAGNOSITCO SITUACIONAL ....................................................... - 47 - 2.1. ANTECEDENTES ............................................................................................... - 47 - 2.2. DEFINICIÓN DEL PROBLEMA ............................................................................ 49 2.3. JUSTIFICACIÓN ..................................................................................................... 50 2.4. OBJETIVOS ............................................................................................................. 50 - 8 - 2.4.1. objetivo General ................................................................................................. 50 2.4.2. Objetivos Específicos ......................................................................................... 50 2.5. ALCANCE ............................................................................................................... 51 2.6. TRABAJOS RELACIONADOS ............................................................................. 51 CAPITULO 3. PROPUESTA............................................................................................. 53 3.1. Definición: .............................................................................................................. 53 3.2. Levantamiento de la Información: ......................................................................... 56 3.3. Diseño..................................................................................................................... 62 3.3.1. Diseño del Modelo Dimensional ........................................................................ 63 3.4. desarrollo ................................................................................................................ 70 3.4.1. Creación del Data Mart....................................................................................... 70 3.5. Proceso ETL ....................................................................................................... 73 3.6. Pruebas. .................................................................................................................. 76 3.6.1. Instalación del ambiente de pruebas. .............................................................. 77 3.6.2. Verificación del Data Mart ............................................................................. 77 3.6.3. Pruebas ETL ................................................................................................... 77 3.6.4. Pruebas de Interfaces de Visualización .......................................................... 77 3.7. Puesta en marcha. ................................................................................................... 77 3.8. RESULTADOS ...................................................................................................... 79 CONCLUSIONES. ............................................................................................................. 84 RECOMENDACIONES .................................................................................................... 84 BIBLIOGRAFÍA ................................................................................................................ 86 - 9 - LISTA DE FIGURAS Fig. 1. Datos, Información y Conocimiento. [1] ........................................................... - 15 - Fig. 2. BI en las Organizaciones.. [6] ............................................................................ - 18 - Fig. 3. Arquitectura de DWH. [11] ............................................................................... - 20 - Fig. 4. Arquitectura ETL. [13] ...................................................................................... - 21 - Fig. 5. Data Marts. [17] ................................................................................................. - 24 - Fig. 6 Front End. [20] .................................................................................................... - 26 - Fig. 7. Tipos de Aplicaciones BI. [13] ......................................................................... - 27 - Fig. 8. Esquema en Estrella. .......................................................................................... - 30 - Fig. 9. Esquema Copo de Nieve. [17] ........................................................................... - 31 - Fig. 10. Esquema. [17] .................................................................................................. - 31 - Fig. 11. Esquema en FN. [17] ....................................................................................... - 32 - Fig. 12. Arquitectura de almacenamiento de Kimball. [13] .......................................... - 33 - Fig. 13. Arquitectura de almacenamiento de Inmon. [22]............................................. - 34 - Fig. 14. Metodnologia Scrum. [28] ............................................................................... - 37 - Fig. 15. Cuandrante Mágico de Garter de las Herramientas de Calidad de los Datos. [31] .. - 41 - Fig. 16. Cuadrante mágico para plataformas de ciencia de datos y aprendizaje automático. [37] ..................................................................................................................................... - 43 - Fig. 17 Cuadrante Mágico de las Plataformas de Analítica e Inteligencia de Negocios. [40] ............................................................................................................................................ - 44 - Fig. 18. Organigrama de EMAPAL. [42] ........................................................................... 48 Fig. 19. Modelo Lógico del Negocio. Autor (2020) .......................................................... 67 Fig. 20. Modelo Físico. Autor (2020) ................................................................................ 69 Fig. 21. Conexión a la Base de Datos Analítica. Autor (2020) .......................................... 71 Fig. 22. Esquema del Data Mart - Exaplus. Autor (2020)................................................. 73 Fig. 23. DWH. Autor(2020) ............................................................................................... 75 Fig. 24 Tarifas Recaudadas. Autor (2020) ......................................................................... 79 Fig. 25 Abonados Por Mes. Autor (2020) .......................................................................... 80 Fig. 26. M3 Consumidos. Autor (2020) .............................................................................81 Fig. 27 M3 de Cliente. Autor (2020) .................................................................................. 82 Fig. 28 Dashboard Emapal. Autor (2020) .......................................................................... 83 file:///C:/Users/SEIAARONS/Downloads/15112020%20Darwin%20Rivera%20EN%20REVISION.docx%23_Toc56454220 file:///C:/Users/SEIAARONS/Downloads/15112020%20Darwin%20Rivera%20EN%20REVISION.docx%23_Toc56454242 - 10 - LISTA DE TABLAS TABLA I ....................................................................................................................... - 35 - TABLA II. .................................................................................................................... - 44 - TABLA III .................................................................................................................... - 45 - TABLA IV. ................................................................................................................... - 45 - TABLA V...................................................................................................................... - 46 - TABLA VI. ................................................................................................................... - 46 - TABLA VII . ..................................................................................................................... 54 Tabla VIII. ......................................................................................................................... 55 TABLA IX ......................................................................................................................... 56 TABLA X........................................................................................................................... 57 TABLA XI. ........................................................................................................................ 57 TABLA XII. ...................................................................................................................... 58 TABLA XIII ...................................................................................................................... 59 TABLA XIV. ..................................................................................................................... 60 TABLA XV. ....................................................................................................................... 61 TABLA XVI. ..................................................................................................................... 62 TABLA XVII..................................................................................................................... 63 TABLA XVIII. .................................................................................................................. 63 TABLA XIX. ..................................................................................................................... 63 TABLA XX. ....................................................................................................................... 64 TABLA XXI. ..................................................................................................................... 64 TABLA XXII..................................................................................................................... 65 Tabla XXIII ....................................................................................................................... 70 Tabla XXIV ....................................................................................................................... 70 Tabla XXV......................................................................................................................... 78 - 11 - LISTA DE ILUSTRACIONES Ilustración 1. Generar Modelo Físico del Datawarehouse. Autor (2020) ......................... 68 - 12 - LISTA DE ANEXOS ANEXO. A ANTIPLAGIO .............................................................................................. 90 ANEXO. B PERMISO DE SUBIR LA TESIS AL REPOSITORIO .......................... 91 ANEXO. C. CERTIFICADO DE NO ADEUDAR LIBROS A LA BIBLIOTECA ... 92 ANEXO. D ACTA DE CONSTITUCION DEL PROYECTO ..................................... 93 ANEXO. E CERTIFICADO DEL PROYECTO REALIZADO EN LA EMPRESA 95 ANEXO. F ESPECIFICACIONES DEL SERVIDOR ................................................. 96 - 13 - RESUMEN En la actualidad, la información es uno de los activos más importantes de las organizaciones. Su análisis es la base fundamental que les permite mejorar sus procesos y la entrega de bienes y servicios de mejor calidad. A pesar de ello, no todas las organizaciones hacen una gestión eficiente y eficaz de la información; muy pocas en nuestro medio apuestan por ello y aprecian los beneficios que proporciona un adecuado análisis de información a través de las herramientas de Inteligencia de Negocios. En efecto, la Inteligencia de Negocios permite que las organizaciones se conozcan a sí mismas, a sus clientes, y a sus competidores, lo que contribuye a logar ventaja competitiva. El presente trabajo consiste en dotar de una solución de inteligencia de negocios, que apoye de manera vertiginosa la disponibilidad de la información requerida para la toma de decisiones informada a nivel gerencial, táctico y operativo en el área de comercialización de la Empresa Pública Municipal de Agua Potable, Alcantarillado y Saneamiento Ambiental EMAPAL-EP de la ciudad de Azogues. Este documento se encuentra desarrollado en tres amplios capítulos. En el CAPÍTULO I se aborda una breve introducción y el marco teórico que fundamenta los aspectos de la Inteligencia de Negocios y el Data Warehouse, que van desde los conceptos, arquitectura hasta sus metodologías y herramientas. En el CAPÍTULO II se abordan los antecedentes, la problemática, el objetivo, justificación y alcance que tendrá este trabajo. Finalmente, el en CAPÍTULO III se hace una descripción detallada de la solución a la problemática, en base a los requerimientos planteados. De esta manera pretende apoyar con información oportuna, relevante, precisa para la toma de decisiones. Palabras clave: Inteligencia de Negocios, Data Warehouse, Toma de decisiones informada. - 14 - ABSTRACT . - 15 - CAPITULO I. FUNDAMETACION TEORICA 1.1. INTRODUCCIÓN Con el pasar del tiempo la informática ha sido considerada una herramienta con la única funcionalidad de dar soporte a las funciones operativas, esta idea debe ser modificada, debido a que las herramientas informáticas no son sólo instrumentos para la reducción de costos, sino que además son útiles para el mejor manejo de la información que dispone la empresa, generar ventajas competitivas y obtener nuevos beneficios. Actualmente gran parte de las organizaciones dedican gran parte del tiempo y de recursos económicos y humanos a la obtención, proceso, aplicación y proyección de información, es por esto por lo que la información se convierte en el activo más importante dentro del ámbito empresarial. Frecuentemente, quienes conforman la Alta Dirección de las empresas encuentran pocos beneficios en la información en bruto que producen las transacciones que a diario se registran en los sistemas de información empresariales. Su necesidad transciende a un nivel superior en la que la información se convierte en conocimiento. El análisis de los datos operativos proporciona conocimiento en forma de tablas, gráficos de pastel, líneas de tendencia, gráficos de barras, y otras herramientas estadísticas. Este análisis requiere acceder a una variedad de fuentes de datos que son transformadosy visibilizados a través de interfaces amigables y fáciles de usar e interpretar [1]. La diferencia entre dato, información y conocimiento es claramente definida por Springer [1], donde manifiesta que: los Datos son “recopilados diariamente en forma de bits, números, símbolos u objetos”; Información son “datos organizados que se procesan, limpian, organizan en estructuras y carece de redundancia” y finalmente el conocimiento se refiere a la información integrada, que incluyen sucesos o hechos y relaciones percibidos. Ver figura 1. Esta perspectiva del conocimiento fundamenta la toma de decisiones en las organizaciones; razón por la cual es necesario que las empresas implementen soluciones de Inteligencia de D A T O S I N F O R M A C I Ó N C O N O C I M I E N T O PREPARACIÓN DE DATOS MINERÍA DE DATOS Fig. 1. Datos, Información y Conocimiento. [1] - 16 - Negocios. La Inteligencia de Negocios permite una toma de decisiones informada, que responda a las necesidades gerenciales y lograr ventaja competitiva. A través de la Inteligencia de Negocios las empresas pueden contar con información clave de sus clientes, proveedores e incluso de sus competidores; para ello deben intensificar sus estrategias para integrar grandes cantidades de datos que se encuentran dispersos en diversas fuentes [2]. Soejarto como se citó en [3] hace referencia que a pesar de que la Inteligencia de negocios sea un término de uso no muy común hoy en día, sigue creciendo incluso cuando la demanda de más productos de TI es baja. Diariamente va incrementando la necesidad de saber que ocurre en las empresas y organizaciones, pero la disposición de tiempo de las personas encargadas de este proceso es limitada, es por ello que se ha visto la necesidad de obtener toda esa información en el menor tiempo posible. La Inteligencia de Negocios o en inglés llamada Business Intelligence, es conocida como un medio que nos facilita a la toma de decisiones en técnicas de negocios, comúnmente llamada como “BI”, nos ayuda en el proceso interactivo que busca y compara información organizada sobre un sitio para descubrir procesos, de los cuales obtendremos ideas y mediante la misma la obtención de una conclusión y conocimientos [4]. Muchos autores definen a la BI de manera diferente: Según Calzada [5], el termino Inteligencia de Negocios procura caracterizar una amplia variedad de tecnologías, plataformas de software, especificaciones de aplicaciones y procesos. El objetivo principal que propone todo autor en la Inteligencia de Negocios es contribuir a tomar mejores decisiones que mejoren el desempeño de la empresa y promover su ventaja competitiva en el mercado. Este concepto se requiere analizar desde tres perspectivas: Hacer mejores decisiones en menos tiempo, convertir datos en información, y usar una aplicación relacional para la administración Hatch [2] menciona que: “es la combinación de prácticas, capacidades y tecnologías usadas por las compañías para recopilar e integrar información, aplicar reglas de negocio y asegurar la visibilidad de la información en función de una mejor comprensión del mismo y, en última instancia, para mejorar el desempeño” Para Médes [2] es; “El conjunto de herramientas y aplicaciones para la ayuda a la toma de decisiones que posibilitan acceso interactivo, análisis y multiplicación de la información corporativa de misión crítica. Estas aplicaciones aportan un conocimiento valioso sobre la información operativa identificando problemas y oportunidades de negocio. Con ellas los usuarios son capaces de acceder a grandes cantidades de información para establecer y analizar relaciones y comprender tendencias que, a la postre, soportarán decisiones de negocio.” Al analizar las definiciones, se puede observar que existe coincidencia en algunos aspectos que se deben resaltar: 1. La Inteligencia de Negocios engloba; herramientas, tecnologías y metodologías que apoyan la toma de decisiones. - 17 - 2. La Inteligencia de Negocios, permite visibilizar con mayor comprensión el conocimiento producto de procesar grandes cantidades de información. 3. No se debe confundir la gestión de grandes cantidades de información con su almacenamiento [2]. Entonces; la Inteligencia de Negocios es el nexo para que las organizaciones utilicen sus datos mediante herramientas puestas al servicio de los usuarios para facilitar la de tomar decisiones informada, incluyendo el funcionamiento actual de la empresa o el anticipo de futuros eventos. El problema más común de la mayoría de las empresas es la carencia de integración, la cual es posible realizar mediante herramientas, técnicas y conceptos que se han crecido exponencialmente, como son: El Data Warehouse (DWH). El Data Mining, (DM) y el On-line Analytical Processing, (OLAP). Para cubrir los problemas de integración, las herramientas de Inteligencia de Negocios permiten esta integración, proporcionando mayor velocidad en la obtención de datos y ahorro de tiempo. Para que esto se consolide es necesario agrupar grandes cantidades de información de los sistemas transaccionales, sin importar la fuente, en una bodega de datos denominada; Data Warehouse, donde a través de una transformación se cargan para su posterior visualización. El proceso de extraer de las fuentes, transformar y cargar se conoce como ETL y tiene por objeto depurar y preparar los datos que se obtienen de las fuentes de datos antes de cargarlos en el almacén o bodega de datos (DWH). El objetivo principal de las soluciones de BI es proporcionar la mayor cantidad de información procesable en el debido momento, lugar y de forma adecuada con los insumos adecuados para dar soporte a las personas encargadas de las tomas de decisiones. 1.2. FUNCIONAMIENTO DE BI EN LAS ORGANIZACIONES Cada área organizativa genera datos pertenecientes a su propia actividad dentro de la empresa; y sus interrelaciones entre estos. Las soluciones tecnológicas como: CRM (Customer Relationship Management), SCM (Supply Chain Management), ERP (Enterprise Resource Planning), EIS (Executive Information System), entre otras, son los principales sistemas de información que gestionan los procesos de esas áreas de la empresa. BI debe actuar de manera estructurada y organizada para que se obtengan resultados efectivos. En este contexto, se deben definir tres niveles organizacionales a los que apoya BI: estratégico, táctico y operativo: (ver figura 2). [2] A nivel Estratégico, BI apoya en lograr ventaja competitiva. Requiere de una aplicación innovadora de tecnologías de información enfocadas por ejemplo en fidelizar clientes, ampliar el nicho de mercado, proveer productos o servicios con valor agregado. - 18 - A nivel táctico, BI apoya en la toma de decisiones mediante sistemas de información que ayuden a los gerentes y profesionales de los negocios a decidir sobre aspectos relacionados a sus áreas. Por ejemplo: lanzar o retirar portafolio de servicios o productos. Finalmente, a nivel operativo las BI apoyan los procesos de negocio definiendo aspectos del día a día del personal de operaciones; Por ejemplo: registrar compras, mantener el inventario al día, evaluar nuevas tendencias, etc. Fig. 2. BI en las Organizaciones.. [6] 1.3. DATA WAREHOUSE -DWH. Sinnexus [7] afirma que Data Warehouse es un término que hace referencia a un almacén de datos. Es una base de datos corporativa, su principal característica es integrar y depurar un gran volumen de datos en el cual está integrada la información obtenida de una o diversas fuentes (CRM, Google Analytics, Twitter, sistemas contables, administrativos y fiscales, datos de ficheros de texto, ficheros Excel, comentarios de blogs, etc.) que previamente pasaron por un procesoETL de esta manera se integra de forma homogénea para posteriormente procesarla permitiendo el análisis desde una infinidad de perspectivas que incluye grandes velocidades de respuesta. Mendez [8] redacta que la creación de Data Warehouse constituye la primera fase para implementar una solución segura y confiable de BI, debido a que ofrece una visión integrada de la información, particularmente orientada hacia la toma de decisiones por parte de la administración de la organización. ESTRATÉGICO Alta Gerencia TÁCTICO Gerencia Media - Analistas de Información OPERATIVO Personal Operativo BALANCED SCORED CARE DASHBOARDS HERRAMIETAS DE CONSULTA OLAP REPORTES PREFORMATEAD OS – INTEGRACIÓN CON HOJAS DE CÁLCULO - 19 - El Data Warehouse presenta diversas ventajas, sin embargo, el principal beneficio radica en las estructuras donde se reúne la información, de esta manera permite la consulta y el tratamiento jerarquizado de la información [9]. Este término es debatido por dos grandes autores: Ralph Kimball [10] Indica que “el Data Warehouse es una copia de las transacciones de datos específicamente estructurada para la consulta y el análisis; es la unión de todos los Data Marts de una entidad” Bill Inmon [10] determina que “el Data Warehouse es una colección de datos orientados al tema, integrados, no volátiles e historiados, organizados para el apoyo de un proceso de ayuda a la decisión”. 1.3.1. OBJETIVOS DEL DATA WAREHOUSE. La aplicación de un Data Warehouse tiene como propósito varios estándares, entre los más destacados: conciben que toda la información de la organización sea accesible, incluyendo que los contenidos abordados sean entendibles y navegables, además el acceso es caracterizado por el rápido desempeño, es decir un cero tiempo de espera. Por otro lado, proporciona que la información sea consistente, adaptable y elástica. Otro de los objetivos principales es que protege los valores de la información, por último, es la fundación de la toma de decisiones, debido a que contiene los datos adecuados para soportar las aplicaciones de toma de decisiones. 1.3.2. ARQUITECTURA DE DWH Para que se concrete el apoyo de BI en el logro de ventajas competitivas, toma de decisiones o procesos de negocio, es necesario que la información de los almacenes de datos esté disponible y actualizada periódicamente con información de los Sistemas de Datos Operativos, por sus siglas en inglés ODS. No es necesario información en tiempo real, sin embargo, la información debe estar disponible en el momento oportuno. Antes de cargarse en el DWH los datos deben limpiarse y estandarizarse – proceso ETL para finalmente aplicar procesos de visualización de datos mediante herramientas BI. Este proceso define la arquitectura típica de las soluciones de BI que se indican en la figura 3. [11] - 20 - Fig. 3. Arquitectura de DWH. [11] 1.3.2.1. Data Sources o Fuentes de Datos Munch [3] indica que las fuentes de datos es el componente principal de BI ya que hace referencia a toda la información que se va a obtener, de la cual dependerá la calidad de los datos. El origen de estos datos puede ser interno o externo. T. Balagueró [4] señala que el origen interno de los datos incluye esencialmente fuentes como: Sistemas; CRM, ERP, SRC, Bases de Datos, etc; así como también software de inventario, hojas de cálculo, entre otros. En tanto el origen externo, engloba los datos de redes sociales, como también las fuentes de datos abiertos gubernamentales. Una vez identificado el origen de las fuentes de datos, procedemos a realizar el proceso ETL. 1.3.2.2. Arquitectura del Sistema ETL El ETL, gestiona los procesos ETL anteriormente mencionados. Es un componente esencial en la estructura de BI, ya que con su combinación permite el traslado de datos de una fuente a otra [12]. Esto se da gracias a la ejecución de tres acciones que comprende este proceso: Extracción, Transformación y Carga (ETL). La Fig. 4 muestra la arquitectura de un sistema ETL [13]. - 21 - Fig. 4. Arquitectura ETL. [13] 1.3.2.2.1. Extracción. Tejada [14] explica que la extracción interna o externa de los datos puede llevarse a cabo de dos maneras; ya sea manual o por medio de herramientas de ETL. La extracción manual, requiere programar rutinas a través de lenguajes de programación con el fin de extraer los datos de las fuentes de datos origen. Sin embargo, la opción más productiva es la que proporcionan las herramientas especializadas de ETL, debido a que son prediseñadas para elaboración esta función, y se hace más factible monitorear el proceso. El desafío en el proceso de extracción de datos es determinar; qué datos extraer y qué clase de filtros aplicar. Campos que pertenecen a varios usuarios, valores que probablemente no existan, transacciones hechas de cuentas que no pueden ser creadas y otros errores. En este punto es necesario entender los requerimientos de los procesos de extracción que pueden determinar cuáles de los siguientes servicios se pueden necesitar [13]. Perfil de los datos Cambiar captura de datos Sistema de Extracción. - 22 - 1.3.2.2.2. Limpieza y Conformación. La limpieza y conformación de datos son el núcleo de la calidad de los datos en el proceso ETL. En este punto se realizan una serie de transformaciones para convertir los datos en algo valioso y presentable para la organización. Los cinco servicios más importantes, para la limpieza y conformación de datos son: Sistema de limpieza de datos, rastreo de eventos de error, creación de dimensión de auditoria, eliminación de duplicidad y conformación [13]. Prudenciano [15] manifiesta que, al extraer los datos de los sistemas transaccionales, existe la probabilidad de que estos datos no fueran depurados en su totalidad, por lo cual posteriormente deben ser limpiados. ETL, cuenta con herramientas propias para llevar a cabo esta acción. El proceso de limpieza de los datos previene errores que pueden alterar los datos, debido a varios motivos, entre los más relevantes: valores por defecto, carencia de valor, campos con diversas utilidades, valores crípticos, uso inadecuado de los campos, identificadores que no son exclusivos, entre otros. Prudenciano [15] añade que el proceso de limpieza cuenta con cinco subprocesos: Depuración: Se refiere al reconocimiento de manera individual de los componentes de la información a fin de aislarlos en los ficheros destino. Corrección: Se basa en una corrección en cuanto a los valores individuales de los atributos empleando algoritmos de corrección además de fuentes externas. Estandarización: En esta etapa de adaptan rutinas de conversión con el objetivo de transformar los valores en formatos definidos además de consistentes, esto se da a través de la aplicación de procedimientos de estandarización definidos previamente por las reglas del negocio. Relación: Constituye la identificación y relación de valores de los registros, para posteriormente corregirlos y estandarizarlos en base a las reglas de negocio, con la finalidad de suprimir los duplicados. Consolidación: Examina y reconoce las relaciones, entre los registros relacionados, para luego juntarlos en una sola representación para que pueda continuar al proceso de la transformación. Muñoz [16], establece que una vez que los datos culminan el proceso de limpieza, empiezan por la transformación, esta etapa realiza tareas como: filtración de datos, cambios de formato, conversión de códigos, y finalmente los valores derivados y/o agregados. En el caso de los valores agregados, como en la suma de las ventas, por lo general se pre calculan y se alojan para de esta manera obtener mayores rendimientos al momento de lanzar las consultas que necesiten el cálculo de totales al DWH. Además, en esta fase, seajusta el nivel de detalle; es decir, se puede obtener detalle a nivel de líneas de factura en los datos previamente extraídos, sin embargo, en el DWH lo que se almacena son las ventas ya sean semanales o mensuales. 1.3.2.2.3. Integración y Entrega La data limpia y alineada debe prepararse para para su consumo y entrega en la capa de presentación. Los subsistemas en el Back End de un sistema ETL están conformados por: - 23 - Administrador de cambio lento de dimensión (SCD : Slowly Changing Dimension Manager), Generador de claves subrogadas, Administrador de Jerarquía, Administrador de Dimensiones especiales, Constructor de tablas de hechos, Constructor de cubos OLAP, Administrador de propagación de datos, constructor de agregaciones, sistema proveedor de tablas de hechos, entre otros [13]. En esta etapa, se culmina el proceso, y se refiere a la integración en el DWH; es decir, es el instante en el cual cargamos los datos, posteriormente debe verificarse si coinciden con la información que se encontraba previamente en el sistema transaccional. Además, se debe corroborar que los valores que presentan los registros cargados se corresponden a los definidos en el DWH. Es esencial cerciorarse que el proceso se haya desarrollado de manera correcta, en su defecto existe la posibilidad de llevar a decisiones de tipo erróneas a los usuarios [4]. El proceso de carga de los datos en un DWH, se hace con herramientas especializadas para llevar a cabo acciones, entre ellas: [4] Diseño Gráfico: Herramienta que brinda acceso a los desarrolladores para que se pueda establecer la relación entre las fuentes de datos, transformaciones, procesos y tareas, con el propósito de desarrollar la carga. Una vez realizado el diseño, se debe alojar en un repositorio Meta data. Gestión de Meta data: Proporciona un repositorio en el cual se define, documenta y se gestiona la información desarrollada en el proceso ETL y su ejecución. Además, esta herramienta debería ser alcanzable desde distintas aplicaciones. Extracción: Extrae la información a través de conectores como: ODBC65, SQL, los cuales deben acceder al Meta data para de esta manera establecer que información deberá será extraída y que forma. Transformación: Proporcionan librerías de transformación, así pues, otorgan acceso a los desarrolladores para poder transformar los datos origen en los destinos, implementando los nuevos componentes creando tablas de agregación con el propósito de mejorar la calidad del rendimiento. Carga: Permite el uso de adaptadores que servirán para agregar o modificar los datos en el DWH. Administración y operación: Brinda acceso a los administradores a: programar, ejecutar y monitorear las tareas de ETL, resultados, además gestionar errores, recuperar fallos y finalmente agrupar los resultados con los sistemas originales. 1.3.2.2.4. Servicios de Gestión ETL Estos servicios incluyen: Calendario de tareas, Sistema de respaldos, Recuperación y reinicio, control de versión, control de migración, monitor de flujo de trabajo, Ordenamiento, Ascendencia y Dependencia, Problemas de escalabilidad, paralelismo y canalización, la gestión de la conformidad, seguridad y el repositorio de metadatos [13]. 1.3.2.2.5. Almacenes de Datos ETL Los almacenes de datos son lugares de asentamientos ser temporales o permanentes de los sistemas DWH o BI. El tipo almacén de datos tiene implicaciones en la arquitectura de los - 24 - sistemas DWH o BI. Pueden ser: Almacenes de Datos del Sistema ETL, tablas de búsqueda y decodificación, almacenes de datos de calidad. 1.3.2.2.6. Metadatos ETL Los objetos de la meta data del ETL se clasifican en tres categorías: de Procesos tales como las operaciones estáticas, resultados de auditoría o pantallas de resultados de calidad; Técnicos como sistemas de inventario que incluye el número de la versión, descripción de las fuentes, métodos de acceso, etc. y metadatos del negocio, tales como especificaciones de pantallas de calidad de datos, diccionario de datos, mapa lógico de datos, reglas lógicas del negocio [13]. 1.3.2.2.7. Data Mart. Un data mart, es un tipo especial de almacén de datos de un área funcional específica del negocio. Corresponde en sí a un subconjunto o pequeños DWH centrados en un tema. Su objetivo es ayudar en la toma de decisiones a las áreas específicas de una organización, Ver Fig. 5. Fig. 5. Data Marts. [17] Pueden ser explotados por los usuarios de las áreas funcionales de forma diversa de acuerdo a sus necesidades. Las consultas se hacen a través de herramientas OLAP (On Line Analytical Processing – Procesamiento Analítico en Línea) el cual ofrece una visión multidimensional de la información. Para diferenciar un Data Mart de un DWH [18] propone el análisis comparativo breve que se indica en la Tabla I. CARACTERÍSTICA DWH Data Mart Tamaño Más de 100 Gb. Menos de 100 GB. Asunto Trata Varios temas Trata un solo tema en específico. Fuentes Fuentes Internas y Externas de datos empresariales. Herramientas específicas para el negocio. Alcance Trabaja con múltiples líneas de la empresa. Un solo lineamiento en la empresa o un departamento multifuncional. - 25 - Decisión Respalda decisiones estratégicas que afectan a toda la empresa. Apoyo en las decisiones según los objetivos de un solo departamento. Integración Todas las integraciones comerciales. Las que sean necesarias para un solo departamento. Nota: Análisis de la diferencia entre DWH y Data Mart de acuerdo a sus descripciones. [18] Un Data Warehouse es un repositorio donde se almacena grandes volúmenes de información provenientes de diferentes fuentes, tanto internas como externas, esta información debe ser depurada, mientras que un Data Mart es una herramienta de alcance limitado, el cual está orientado a satisfacer las necesidades de un área en específico, o solo a un grupo de usuarios en específico. Debido a que la implementación de DHW corresponde a una tarea significativa que se desarrolla en períodos largos de tiempo, los data marts permiten hacer implementaciones más cortas de áreas específicas de la organización. Estas implementaciones pueden ir evolucionando de forma natural. [19] El propósito de los data marts según Ballard [19] se resume en: Brindar acceso rápido a la información para necesidades analíticas específicas. Controlar el acceso del usuario final a la información Representa la visión del usuario final y la interfaz de datos en el DWH. Crear una vista multidimensional de los datos para mejorar el análisis Almacenar información cargada previamente para mejorar los tiempos de respuesta d en las consultas. 1.4. ARQUITECTURA DE BI En el Front End de la Arquitectura están los sistemas BI. La arquitectura BI comprende lo que el usuario del negocio puede ver y con lo que puede trabajar el día a día. Podría comprenderse como la interfaz de usuario del DWH. En esta capa de la arquitectura los usuarios desconocen el tiempo, energía y recursos que están por debajo (Back End) y el acceso a los datos es complejo. Sin embargo, el Modelo Dimensional ayuda a reducir esa complejidad, pero los negocios abundan en reglas y excepciones que deben ser incluidas en las bodegas de datos de manera que los analistas de negocios puedan entender su impacto. [13] La coyuntura de los sistemas DWH/BI permiten que el acceso a la información sea posible de manera clara y con formatos entendibles; por lo tanto, es necesario construir aplicaciones de BI que ayuden a buscarla y encontrarla. [13] La arquitectura de BI (figura 6) muestra el Front End de la Arquitectura técnica de los sistemas DWH/BI. En ésta se agrupan todas las diferentes aplicaciones y los servicios BI para desplegar la información para los usuarios y gestionar el medioambiente.- 26 - Fig. 6 Front End. [20] 1.4.1. TIPOS DE APLICACIONES DE BI Existe una amplia gama de aplicaciones que demandan datos desde el servidor de presentación que deben ser diseñadas de forma simétrica, flexible y escalable que soporten diferentes clases de solicitudes simultáneamente. Estas aplicaciones son: Herramientas de consulta de escritorio, que permiten dar respuesta a las solicitudes de información de los usuarios del negocio: [13] Reportes estándares que proporciona reportes periódicos desde un portal de BI o hojas de cálculo o PDFs de librerías en línea; Aplicaciones analíticas que contienen poderosos algoritmos de análisis para consultas de BD relacionales. Incluyen presupuestos, previsión y seguimiento de la actividad empresarial. - 27 - Fig. 7. Tipos de Aplicaciones BI. [13] Dashboards y Scorecards son interfaces de usuario multiuso que gestionan indicadores clave de rendimiento (KPIs) a través de gráficos y texto. Minería de Datos y modelos, proporcionan análisis exploratorio de grandes conjuntos de observación, generalmente descargados del DWH al software de minería de datos. La minería de datos usada también para crear modelos usados por aplicaciones analíticas y operativas. BI Operacional, permite consultas en tiempo real de estado operativo, frecuentemente acompañadas de interface de transacciones de escritura. Estas aplicaciones llegan a los usuarios de negocio a través de aplicaciones como: [13] Portales de BI e interfaces personalizadas, proporcionan fácil acceso a aplicaciones BI basadas en la web o consultas complejas específicas y resultados de pantalla interfaces de dispositivos portátiles; diseñadas para pantallas portátiles y dispositivos de entrada. BI instantáneo, con una arquitectura de datos en tiempo real y conexión directa desde el sistema de transacciones de la pantalla de origen del usuario. - 28 - 1.4.1.1. Gestión de Servicios de BI. [13] La demanda de clientes ligeros, los costos de los sistemas DWH/BI y el impulso que ha tenido la industria de las tecnologías de información para migrar a las arquitecturas orientadas a servicios SOA, han hecho que el acceso a los datos, pasen de los equipos de escritorio a las aplicaciones. Los sistemas DWH/BI. La gestión de los servicios de BI abarca desde los servicios compartidos que residen en el servidor de presentación hasta los servicios de escritorio que normalmente se presentan a nivel de usuario u que pertenecen a la definición de informes y visualización de resultados: Servicios compartidos, Servicios de seguridad, servicios de metadatos, monitoreo de uso, gestión de consultas, servicios de reportes empresariales, acceso web, servicios del portal. 1.4.1.2. Almacenes de datos de BI. [13] Aunque a simple vista no debe haber un almacén de datos en el Front End del sistema DWH/BI, los datos que residen en el servidor de presentación, se recuperan cuando sea necesario un análisis o informe. En realidad, cuando la respuesta configurada para una solicitud de datos específica sale del servidor de presentación, generalmente termina en el navegador del usuario y puede guardarse como parte del archivo del informe. Alternativamente, el conjunto de resultados puede introducirse en un almacén analítico local como un motor OLAP, Acces o Excel puede terminar en una aplicación de BI. En este grupo se encuentran: Informes Almacenados, Cachés del Servidor de Aplicaciones (cachés locales de los servicios orientados a datos), Bases de Datos de Usuario Local, Almacenes de Datos Analíticos Temporales, Resultados de Aplicaciones Analíticas, Sistemas descendentes, seguridad del almacén de datos. 1.5. MINERÍA DE DATOS (DATA MINING) Data mining hace referencia a una etapa que consiste en compilar los beneficios de varias áreas dentro de un proceso mayor denominado extracción de conocimiento en bases de datos en un entorno comercial. Dicho de otra manera, data mining es considerado una tecnología que se encuentra estructurada por fases que incluye varias áreas. En la actualidad existen diversas aplicaciones o herramientas comerciales de data mining de gran potencial las cuales contiene un sinnúmero de utilidades, que tienen la función de que el desarrollo de un proyecto sea de una manera factible. [21] Aplicaciones de uso. En general el proceso de data mining se estructura de cuatro etapas: [21] Determinación de objetivos. Pre procesamiento de datos. Determinación del modelo. Análisis de resultados. - 29 - 1.6. OLAP (PROCESAMIENTO ANALÍTICO EN LÍNEA) Procesamiento analítico en línea El procesamiento analítico en línea (OLAP) es una tecnología clave en el almacenamiento de datos. La funcionalidad OLAP se caracteriza por un análisis multidimensional dinámico de datos empresariales consolidados que respaldan las actividades analíticas y de navegación del usuario final. Proporciona una interfaz intuitiva y fácil de usar para los usuarios comerciales y puede procesar los datos de manera muy eficiente. [19] Algunas de las capacidades funcionales de OLAP se resumen en: [19] Cálculos y modelado aplicados en todas las dimensiones, a través de jerarquías y/o entre miembros. Análisis de tendencias en períodos de tiempo secuenciales Seccionar subconjuntos para visualización en pantalla Desglosar a niveles más profundos de consolidación Alcance a datos detallados subyacentes Rotación a nuevas comparaciones dimensionales en el área de visualización Algunas variantes de OLAP comunes son: [19] MOLAP: se refiere a un OLAP multidimensional. Aquí, la base de datos se almacena en una estructura especial, típicamente propietaria, que está optimizada (a través del cálculo previo) para un tiempo de respuesta de consulta muy rápido y un análisis multidimensional. Tiene limitaciones en lo que respecta a la escalabilidad y es posible que no permita la actualización. • ROLAP: Significa OLAP relacional. Aquí, el modelo de base de datos también es multidimensional MOLAP, pero se utiliza una base de datos relacional estándar y el modelo de datos puede ser un esquema de estrella o un esquema de copo de nieve. Proporcionando un tiempo de respuesta rápido a la consulta, pero eso se rige en gran medida por la complejidad del SQL utilizado, así como por el número y tamaño de las tablas que deben unirse para satisfacer la consulta. Su ventaja está en la escalabilidad significativa lograda ya que está alojada en una base de datos relacional estándar. HOLAP: habilita una versión híbrida de OLAP. Es un híbrido de ROLAP y MOLAP. Se puede pensar en una base de datos HOLAP como una base de datos virtual en la que los niveles superiores de la base de datos se implementan como MOLAP y los niveles inferiores de la base de datos como ROLAP. 1.6.1. MODELOS DE DATOS Los modelos de datos que típicamente se utilizan para diseñar bases de datos, data marts y data warehouses se basan en diferentes tecnologías que están destinadas a proporcionar el tipo de soporte de acceso a datos, organización y rendimiento, deseado en una situación - 30 - particular. Los más comunes son: Esquema de Estrella (desnormalizado) y Esquema de Copo de Nieve y Esquema Normalizado - 3FN) [19]. La elección del modelo a usar depende de: el rendimiento, la facilidad para comprender y navegar por el modelo de datos. 1.6.1.1. Esquema Estrella Es muy común en los Data Marts y DWH debido a que proporciona mejor rendimiento en las consultas que el modelo relacional. Es de fácil comprensión. Como ya se mencionó en el apartado (TABLA I) consta de una tabla de Hechos y una serie de tablas con datos descriptivos que se relacionan con la tabla central denominadas Tablas de Dimensiones. Ver figura 8. Fig. 8. Esquema en Estrella. Los elementos del esquema estrella son: Tabla de Hechos. Los hechos corresponden a las transacciones o eventos; que se refieren a los datos de contexto y las métricas. Tabla de Dimensiones. Colección de miembros o unidades que describen los datos de hechos desde un punto de vista particular. Cada tabla de hechos está ligada a las dimensiones a través de una clave principal, la que puede ser subrogada, natural o combinada. Métricas. Es un atributo numérico de un hecho, que representa el desempeño o comportamiento de la empresa en relación con las dimensiones. - 31 - 1.6.1.2. Esquema Copo de Nieve Corresponde a un modelo estrella expandido que se forma precisamente cuando hay la necesidad de definir dimensiones de las dimensiones a través de una clave primaria que las relacione. (ver figura 9) Fig. 9. Esquema Copo de Nieve. [17] El esquema copo de nieve se puede crear cuando es necesario definir niveles de granularidad de las entidades de las dimensiones y cuando es más probable que las dos entidades sean suministradas por un sistema fuente diferente (Ver Figura 10). [19] . Fig. 10. Esquema. [17] 1.6.1.3. Normalizado – 3FN Usada en el procesamiento OLTP (OnLine Transaction Processing – Procesamiento de Transacciones en línea). Una tabla está en 3FN: Si cada columna NO-CLAVE es independiente de las otras columnas NO-CLAVE y depende de una sola clave. Otra forma de definirla es “La clave, la clave completa y nada más que la clave” - 32 - Un esquema en 3FN puede verse como el de la Figura 11. Fig. 11. Esquema en FN. [17] 1.6.2. ENFOQUES PARA DESARROLLO DE APLICACIONES BI Antes de plantar una metodología para aplicarla en el presente trabajo, es necesario conocer los conceptos y métodos establecidos por Ralph Kimball y Bill Inmon ya que son los enfoques más ampliamente discutidos, es decir, cuál de estas dos metodologías es la más eficaz para el uso de las empresas. Hasta la actualidad no existe una respuesta establecida ya que ambos métodos presentan sus beneficios y desventajas, para elegir el uso de una de las dos metodologías varía en función de las necesidades y requerimientos de la empresa 1.6.2.1. Enfoques de diseño del almacén de datos Antes de establecer el ciclo de vida del proyecto de Inteligencia de Negocios, es necesario comprender las metodologías diseño del almacén de datos o DWH desde los enfoques propuestos por Ralph Kimball y Bill Inmon. La elección del enfoque depende de las necesidades y requerimientos de la organización. Kimball propone un enfoque ascendente de diseño de arquitectura de datos. En efecto, su propuesta consiste en definir primero los Data Marts basados en los requisitos del negocio que luego se irán cargando en un modelo dimensional desnormalizado. El modelo dimensional desnormalizado por naturaleza está compuesto por una tabla de hechos (tabla central) y varias tablas de dimensiones (modelo estrella o copo de nieve). Cada data mart puede integrarse por dimensiones de datos conformadas. Estas dimensiones conformadas son como tablas de dimensiones compartidas entre diferentes tablas de hechos dentro del almacén o como las mismas tablas de dimensiones en varios data marts [9], de modo que se garantice la integridad y consistencia de la información. - 33 - Kimball también propone una herramienta de diseño de “matriz de bus empresarial de Kimball” que es frecuentemente usada por los equipos de gestión empresarial para priorizar qué dimensiones conformadas deben implementarse primero. Es un enfoque Táctico se deriva de la visión de Kimball, quien prescribe un enfoque dimensional de abajo hacia arriba para BI basado en data marts funcionales que finalmente se agregan al DWH corporativo. La Figura 12 indica la arquitectura básica de almacenamiento propuesta por Kimball Fig. 12. Arquitectura de almacenamiento de Kimball. [13] Para Bill Inmon el desarrollo del almacén de datos debe comenzar con el diseño del modelo de datos del almacén corporativo, que incluya las principales funciones y entidades de la organización y a partir de este se crea un modelo lógico para el producto con todos los atributos asociados a esa entidad. [9] Este enfoque usa la forma normalizada en la construcción de la estructura de cada entidad, de esta forma se evita, en lo posible, la redundancia de los datos. Este enfoque integra los data marts de cada área funcional creados por separado garantizado integridad y coherencia, debido a que la única fuente de datos es el almacén corporativo. [9] La Figura 13 ilustra la arquitectura básica de almacenamiento de datos propuesta por Inmon. - 34 - Fig. 13. Arquitectura de almacenamiento de Inmon. [22] Este enfoque Inmon es consistente con un enfoque estratégico que según Davenport y Harris (2007 y el Gartner’s Businesss Intellifens and Performance Management Framework en el que se define “un simple repositorio organizacional de datos de toda la empresa en varias líneas del negocio y sujeto a áreas que contienen masivamente datos Es estratégico de arriba hacia-abajo prescrito por Dave & Harris y el marco de referencia de Gartner como: Un único repositorio organizacional holístico, de muchas líneas de negocios y áreas temáticas que contiene datos masivos e integrados; representa la visión organizacional completa de la información necesaria para administrar y comprender el negocio. 1.6.2.2. Evaluación de la metodología de diseño del almacén de datos A la hora de elegir la metodología para desplegar soluciones BI, es necesario preguntarse ¿Qué metodología permitirá un enfoque más ágil de la inteligencia de negocios en organizaciones con limitaciones de recursos y experiencia? . [23] Las organizaciones que buscan implementar ágiles niveles de BI, pero necesitan medios efectivos para evaluar el estado actual y la madurez de sus prácticas de gestión de la información empresarial para identificar y abordar las brechas críticas que podrían inhibir los retornos deseados en inversiones exitosas. [23] Las organizaciones con limitaciones de recursos y experiencia necesitan una metodología que resuelva la dicotomía entre contar con un BI estratégico de escala empresaria y un perfil más ágil y de menor costo de las BI centradas en áreas funcionales específicas. [23] Un reporte de Gartner publicado en 2019 enfatiza la necesidad de marcos de referencia estructurados que ayude a los líderes de negocios y de TI a “diseñar un plan más completo para BI, análisis y gestión del rendimiento (PM) que alinee las personas, los procesos y las aplicaciones y, en última instancia, produzca mejores rendimientos “ [24]; es decir que cada organización debe hacer configuraciones apropiadas (hoja de ruta) en función de sus propios objetivos estratégicos y circunstancias comerciales. [23] - 35 - La selección entre la necesidad de un enfoque estratégico (Inmon) o Táctico se basa en el análisis de las características que diferencian a uno y de acuerdo a la necesidad de la organización. La Tabla II. sintetiza las características favorables: TABLA I KIMBALL VS. INMON CARACTERÍSTICA FAVORECE KIMBALL FAVORECE INMON Naturaleza de los requisitos de apoyo a la toma de decisiones de la organización Táctico Estratégico Requerimientos de Integración de Datos Áreas individuales del negocio Integración a lo largo de toda la organización Estructura de Datos Métricas de Negocio, medidas de rendimiento y Scorecards (Registros de puntuación) datos no métricos y datos que se aplicarán para satisfacer múltiples y variadas necesidades de información. Escalabilidad Necesidad de adaptarse a necesidades altamente volátiles dentro de un alcance limitado. El alcance creciente y los requisitos cambiantes son fundamentales. Persistencia de los datos Sistemas fuente son relativamente estables Alto grado decambio de las fuentes de datos Requerimientos de personal y habilidades equipos pequeños de generalistas Equipos grandes de especialistas Tiempo de entrega Necesidad de la primera aplicación de Data Warehouse es urgente Los requisitos organizacionales permiten un tiempo de puesta en marcha más largo Costos de despliegue Menores costos de puesta en marcha, con cada proyecto subsiguiente costando aproximadamente lo mismo Mayores costos de puesta en marcha, con menores costos de desarrollo de proyectos posteriores. Nota: Directrices del apoyo de Kimball y FAVORECE INMON con sus características. [23] De acuerdo con el análisis comparativo de [25] en la tabla I; la propuesta de Kimball es ágil y permite reducir costos en la puesta en marcha y despliegue más rápido de la solución de BI táctica que está enfocada en un área funcional específica del negocio. Sin embargo, para los críticos, éste enfoque tiende a carecer de integridad debido a la falta de enfoque estratégico. Por su parte, la propuesta de Inmon está orientada precisamente para lograr integridad empresarial, aunque los costos de puesta en marcha son mayores, los tiempos de despliegue más largos y suele ser rígido y difícil de implementar, especialmente para empresas con habilidades, recursos y tiempo limitados. 1.6.3. BENEFICIOS DE BI. Los beneficios que nos proporciona unas soluciones de Inteligencia de negocios son diversos, por lo cual se hace factible para una mejor comprensión clasificarlos: [26] - 36 - 1.6.3.1. Manejo del crecimiento de la empresa. Toda empresa tiene como principal objetivo evolucionar, es decir crecer a través de los cambios que se vayan implicando. Lo cual la Inteligencia de negocios es una solución fundamental para monitorear que tan eficaces son los procesos para enfrentar dichos cambios y las necesidades puntuales de la empresa. 1.6.3.2. Control de costos. El control de los costos en un negocio es usualmente el que obliga a la empresa a considerar el uso de una solución de inteligencia de negocios, para que de esta manera se pueda medir los gastos y posteriormente ver esto a un nivel de detalle que identifique la línea de negocio, producto, centro de costo, etc. 1.6.3.3. Clientes. Todas las empresas reúnen una infinita cantidad de información de suma importancia relacionada a los clientes. El objetivo de las empresas es transformar esta información en conocimiento y posteriormente este conocimiento es dirigido a una gestión comercial que simbolice un tipo de ganancia para la empresa. Las ventas, cruzadas e incrementales junto a la retención de clientes, anticipos de oportunidades, identificación de patrones de compra y el comportamiento de los clientes hacen de BI un elemento esencial para lograr los objetivos de la empresa. 1.6.3.4. Indicadores de gestión Estos indicadores representan las medidas dirigidas al desempeño organizacional con la capacidad de representar la estrategia organizacional en: objetivos, métricas, iniciativas y tareas enfocadas a un grupo o individuos en la organización. En las capacidades funcionales de indicadores incluyen: Monitoreo. Es decir, monitorea procesos cruciales de negocio además de las actividades esto se lleva a cabo con el uso de métricas que dan una alerta acerca de un problema potencial. Análisis. Hacer un análisis del origen de los problemas, inspeccionando la información desde diversas perspectivas en múltiples niveles de detalles. Administración. En este punto se administra los recursos y procesos para dirigir la toma de decisiones, además de optimizar el desempeño. Posteriormente podremos obtener una visión global de la empresa con una capacidad de dirigir la organización en la dirección adecuada. 1.6.4. METODOLOGÍA DE IMPLEMENTACIÓN DE BI En función de la Evaluación de la metodología de diseño del almacén de datos realizada en el apartado 1.6.2.2. y en base a la necesidad de la EMAPAL que ha llevado a la realización del presente trabajo, la cual es analizada en el capítulo II; es apropiado basar la metodología de trabajo en la propuesta de Kimball. - 37 - En este sentido, una metodología ágil, como SCRUM, para el desarrollo de soluciones de software, bien puede ser adaptada en proyectos de DWH y consecuentemente para soluciones de BI. Esto se debe a que las metodologías ágiles tienden a ser usadas por organizaciones pequeñas y departamentos, permiten entregas rápidas a necesidades urgentes en aplicaciones analíticas y de reporting. “En la práctica, los métodos ágiles aplicados correctamente a grandes proyectos de integración de datos y visualización de información han reducido las horas de desarrollo necesarias y los defectos de codificación a cero” [27]. Los métodos ágiles para proyectos de BI contribuyen en gran medida a resolver las necesidades de información de los usuarios. Sin embargo, puesto que las soluciones BI están ligadas a los proyectos de DWH, que requieren frecuentemente una integración significativa de datos, estos métodos pueden no estar preparados para cumplir con este desafío. [27] Para evitar que el fracaso en las primeras iteraciones será necesario hacer una adaptación del método para respaldar de mejor manera el trabajo de integración. [27] No es parte de este trabajo explicar sobre SRUM; sin embargo, la Figura 14 ilustra cómo trabaja este método y los roles que deben cumplir. Fig. 14. Metodología Scrum. [28] El presente trabajo toma a SCRUM como el marco de trabajo para el desarrollo del primer sprint de la solución de BI que se plantea. La estructura del trabajo ha sido adecuada en base al trabajo de titulación denominado: Metodología de desarrollo de proyecto de Inteligencia de Negocios desarrollado por Elka Buitrago de la Universidad Andrés Bello. [29] La metodología que plantea Buitrago [29], es una adaptación de las fases de ejecución de un proyecto como: Levantamiento de información, Diseño, Desarrollo, Pruebas, Puesta en - 38 - Marcha, Entrenamiento y Cierre. Su enfoque adaptado considera la construcción de la solución de BI en varias etapas o iteraciones, precisamente tal como lo plantea el SCRUM (ver Figura 14). Este enfoque asegura la que los requerimientos a corto plazo se visibilicen en versiones del producto (solución de BI) y que al mismo tiempo se vayan incorporando nuevas funcionalidades que podrían ir complementado las necesidades de áreas del negocio relacionadas [29]. La idea de Elka Buitrago [29] es tener una visión global de las necesidades del negocio, las cuales se vayan organizando en etapas que precisen las actividades requeridas. Estas fases son: Definición, Levantamiento de información, Diseño, Desarrollo, Pruebas, Puesta en Producción, Entrenamiento y Cierre, y se describen en los siguientes apartados: 1.6.4.1. Definición. En esta etapa se debe concretar el inicio del proyecto. Se desarrolla en base a una reunión, en la cual se incluye a todos los involucrados y tiene por objeto dar a conocer sobre el inicio de proyecto (ver Anexo D). Es importante que en esta etapa se defina el alcance, las funcionalidades, áreas, procesos y por último objetos del negocio que se van a desarrollar. Además, es necesario conformar el equipo de trabajo, identificando los principales involucrados, tanto el personal de negocio, como el personal técnico. Por último, en esta etapa se debe definir el plan de trabajo, lo cual hace referencia a la elaboración de una guía la cual se ampliará al momento del levantamiento de información [29]. Es importante documentar esta etapa con la Aceptación formal del proyecto, documentar el alcance, las especificaciones del equipo técnico y el plan de trabajo [29]. 1.6.4.2. Levantamiento de información. En esta etapa se debe realizar diversas actividades con el fin de conocer el modelo de negocio y los requerimientos deinformación en las áreas específicas. Se debe llevar a cabo la identificación de áreas y procesos del negocio, para conocer cómo funciona el negocio. Se involucra el levantamiento de la infraestructura tecnológica, el cual consiste en identificar las facilidades tecnológicas que se tiene para la implementación de la plataforma de BI. También se debe determinar las aplicaciones operacionales, las cuales suministran información a las bases de datos de la organización. Asimismo, se deberá desarrollar la identificación de los requerimientos de la información, en la organización cada área requiere de información por lo cual en esta etapa se identificarán cuáles son esos requerimientos [29]. La identificación de requerimientos de la aplicación, requiere la definición de cómo los usuarios desean acceder a dicha información y qué funcionalidad debe tener la aplicación. También se definirán los requerimientos no funcionales como: el tiempo, seguridad, rendimientos, capacidad, escalabilidad y actualizaciones. Por último, se debe realizar un análisis de las fuentes de datos y los requerimientos para así tener en cuenta la disponibilidad de la información [29]. Los entregables en esta etapa se resumen en: documentación de las áreas del negocio y sus responsables, documentación de las facilidades de la infraestructura tecnológica y - 39 - recomendaciones de cambio si es necesario, documentación de riesgos y limitaciones, documentación de las aplicaciones, bases de datos y otras fuentes de datos [29]. La identificación de requerimientos funcionales y no funcionales se documentarán incluyendo información de los usuarios, la especificación de los requerimientos de reportes o consultas, especificación de los almacenes de datos históricos, casos de uso, documentación de fuentes de datos, el documento de los requerimientos no funcionales y la identificación de la disponibilidad de la información, entre otros [28]. 1.6.4.3. Diseño. En esta etapa se agrupan las sub-tareas de diseño de los componentes que estructuran BI, en función del resultado del levantamiento de información. Los entregables que se requieren en esta fase son [28]: Diseño del modelo del negocio, que incluya las áreas del negocio, los objetos de información que se manejan y su interrelación. Diseño del Data warehouse el cual se hace a partir de las necesidades de información que requieren los usuarios y en base a la disponibilidad de los datos. Diseño del ETL esto con el fin de poblar el Data warehouse con los datos que se encuentran en las distintas fuentes de datos de la organización. Diseño de reportes y otras interfaces de análisis. Se puede incluir el diseño de los reportes tabulares y gráficos, como también las interfaces para el análisis de datos y esquemas gráficos del negocio. Diseño de indicadores, se debe diseñar cuales son los indicadores de gestión que se quieren evidenciar para la toma de decisiones. Deben orientarse a medir el cumplimiento de las metas de negocio de acuerdo a os objetivos estratégicos. Diseño del modelo de análisis o diseño de OLAP, el cual incluye el diseño de los esquemas que se usan en la visualización de la información mediante reportes dinámicos y análisis. Diseño de la aplicación, en la que se integran los reportes para el análisis y visualización de los indicadores previamente definidos. Debe incluir la arquitectura de la información, así como también la navegación y el diseño de los componentes que se requieren para su implementación de las funcionalidades necesarias. Por último, el Capacity Planning, en donde se determina los recursos que posee el hardware y software teniendo en cuenta los requerimientos de almacenamiento de datos, el número de usuarios, demanda de recursos de la aplicación. 1.6.4.4. Desarrollo. Corresponde propiamente a la elaboración de la solución, incluyendo los diferentes componentes de la misma, basada en el diseño previamente establecido. Esta tapa se abarca [28]: Instalación de la infraestructura de desarrollo, la cual hace referencia a la instalación y configuración de software, herramientas y los equipos a ser utilizados en el desarrollo. La - 40 - construcción del Data warehouse, que consiste en crear la base de datos asociada al Data warehouse. La construcción de procedimientos ETL; es decir, se desarrollan los procesos que van a permitir la extracción de datos desde las bases de datos fuente, su transformación y posterior carga al Data warehouse. La construcción de la aplicación, contempla el desarrollo de los elementos de software previamente diseñados para la implementación de las funcionalidades. La construcción de esquemas OLAP, consiste en elaborar los esquemas OLAP, que van a ser utilizados en el análisis de los datos mediante las interfaces graficas establecidas. La construcción de reportes y otras interfaces de visualización, se elaboran en función del diseño previamente realizado. Se deberá además desarrollar documentación técnica, se debe abarcar las especificaciones para la posterior instalación y configuración del ambiente en el cual se implementará la solución de BI. 1.6.4.5. Pruebas En esta etapa se ejecuta tareas las cuales posteriormente permiten verificar el correcto funcionamiento de todos los componentes de la solución de BI. Este proceso incluye [28]: La definición del plan de pruebas, en el cual se debe realizar dos tipos de pruebas: integradas y formales dirigidas a cada uno de los elementos de BI. La instalación del ambiente de pruebas, aquí se valida la instalación y configuración requerida de los equipos, así como también del software previa a su puesta en producción, con lo cual se asegura la solución de conflictos. La verificación del Data warehouse, para corroborar que el Data warehouse elaborado cumpla con todos los requerimientos que fueron establecidos anteriormente. Pruebas de procedimientos ETL, aquí se debe verificar la ejecución de los programas de extracción de las fuentes de datos y su posterior carga al Data warehouse. Pruebas de reportes e interfaces de visualización, para verificar que todos los reportes e interfaces cumplan con los requerimientos establecidos por los usuarios. 1.6.4.6. Puesta en producción. Cuando las pruebas fueron exitosas en su totalidad se procede a la puesta en producción de la plataforma, para lo cual se requiere la previa preparación e instalación del software requerido, así como también los productos propiamente desarrollados para la plataforma [28]. En este proceso se abarca dos subprocesos: Preparación del ambiente de producción, se incluye la instalación y configuración de los equipos en el ambiente de producción para de esta manera empezar la puesta en marcha de la solución de BI. También en esta etapa se abarca la verificación del ambiente de producción, luego de que fue realizada a instalación se debe realizar una verificación, para de esta manera asegurarnos que el ambiente como la solución de BI, se encuentre en su correcto funcionamiento [28]. - 41 - 1.6.5. HERRAMIENTAS PARA EL DESARROLLO DEL PROYECTO Para el desarrollo de este proyecto se hace un análisis de todas las herramientas que serán utilizadas, respaldadas por diferentes consultoras y de investigación de tecnologías de la información en el cual perfilan el ranking de las mejores herramientas, en este apartado se detalla cada una de estas herramientas. 1.6.5.1. Power Desginer. Tiene la capacidad para modelar Datos y la gestión de metadatos nivel físico y conceptual, esta herramienta puede alinearse a los requisitos, el lenguaje y los modelos de datos de las empresas, SAP es una de las empresas líderes en el cuadrante mágico de Gartner para la solución de metadatos en el 2019, ya que permite visualizar y manejar de manera ordenada los datos [30]. Fig.