Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
1 ANTECEDENTES Y MARCO TEORICO: Antecedentes de las carreras informáticas en Argentina y en la UNJu Para llegar a comprender la situación actual de la carrera Licenciatura en Sistemas de la Facultad de Ingeniería, ámbito en el cual se desarrollan los temas vistos en el actual Proyecto de Trabajo Final de Memoria Docente, se plantea una línea de tiempo con los principales antecedentes de computación, de las carreras informáticas en el país y en la UNJu (Universidad Nacional de Jujuy): 1.955: El Doctor Manuel Sadosky se incorpora a la Facultad de Ciencias Exactas y Naturales como profesor del Departamento de Matemática de la UBA (Universidad de Buenos Aires) y comienza a plantearse el desarrollo de la matemática aplicada en el país (Jacovskis, 2.004). 1.956: el Ingeniero Jorge Santos en Bahía Blanca de la Universidad Nacional del Sur constituye el Seminario de Computadores con alumnos avanzados de la carrera de Ingeniero Electricista 1957: la UBA (Universidad de Buenos Aires) comienza la construcción de su nuevo edificio, el Pabellón I, en la Ciudad Universitaria, en donde el doctor Manuel Sadosky plantea obtener una computadora para la Facultad, que sirviera tanto para tareas científicas como servicio para diversos usuarios, y crear un Instituto de Matemática Aplicada, que sirva de base institucional al uso de la computadora, aprobándose un año después el presupuesto de dicho Pabellón gracias al Doctor Rolando García Vicepresidente del CONICET 1.960: comienza a funcionar el primer Instituto de Cálculo de la UBA siendo aprobado por el Consejo Superior en 1962 y su director es el Dr. Manuel Sadosky 1.961: se incorpora la primer computadora al Pabellón I, la misma es utilizada hasta 1.966 (Czemerinski y Jacovkis: 2.012) 1.961: comienza el proyecto CEUNS (Computadora Electrónica de la Universidad Nacional del Sur) dirigido por el Ing. Jorge Santos (Carnota y Rodriguez: 2.010) cuyo desafío es diseñar y construir la primer computadora en Argentina 1.962: se crea la primera Carrera de “Computador Científico”, la cual es aprobada por el Consejo Directivo de la Facultad de Ingeniería de la UBA en dicho año, y por el Consejo Superior en 1963. Tiene menor duración que las tradicionales licenciaturas, y su objetivo es formar "auxiliares de científicos": programadores, analistas, etc. 2 1.966: se crea la primera Carrera de “Computador Científico”, En el año 1966 la Universidad Nacional de La Plata (UNLP) creo la carrera de Calculista Científico, en el Departamento de Matemáticas de la Facultad de Ciencias Exactas. Es una carrera con fuerte contenido matemático, orientada a incorporar la programación de aplicaciones sobre computadoras, especialmente dentro del ámbito científico.1 1.982: Creación de la licenciatura en computación en Buenos Aires. A partir de estas fechas se crean innumerables carreras de grado y postgrados en informática a lo largo del país. 1.992: la Facultad de Ingeniería de la Universidad Nacional de Jujuy crea la primer carrera universitaria informática en Jujuy, de pregrado “Técnico Universitario en Informática”, posteriormente convalidada por el Ministerio de Cultura y Educación por Resolución Nº724/97 y del Consejo Superior Resolución de la UNJu Nº150/952 1.995: en la Universidad Nacional de Jujuy el Consejo Académico de la Facultad de Ingeniería aprueba la primer carrera universitaria informática en Jujuy de grado “Ingeniería en Informática” mediante Resolución CAFI Nº 151/95 y posteriormente convalidada por el Ministerio de Cultura y Educación por Resolución Nº722/97 y del Consejo Superior de la UNJu Resolución Nº204/963. En dicha Resolución del Ministerio de Cultura y Educación también se le otorga reconocimiento oficial a la carrera de pregrado Analista Programador Universitario solicitado por el Consejo Superior de la UNJu Resolución Nº150/95 2.002: por Resolución Nº5784 del Ministerio de Educación, Ciencia y Tecnología otorga el reconocimiento oficial y validez nacional a la carrera Licenciatura en Sistemas, aprobada previamente por resolución del Consejo Superior de la UNJu Nº 049/01. Es importante mencionar que uno de los alcances que el mismo plantea es “Investigar fenómenos desarrollados con los procesos de diseños conceptuales de sistemas, así como para valorar estrategias de búsqueda de fuentes de 1 Página de la Universidad Nacional de la Plata. Disponible en http://www.info.unlp.edu.ar/resena_historica. Accedido en Julio del 2.013 2 Resolución 724 del ministerio de cultura y educación. Disponible en http://repositorio.educacion.gov.ar/dspace/bitstream/handle/123456789/83297/5645.pdf?sequence=1. Accedido en Julio del 2.013. 3 Resolución 722 del ministerio de cultura y educación. Disponible en http://repositorio.educacion.gov.ar/dspace/bitstream/handle/123456789/83294/5643.pdf?sequence=1. Accedido en Julio del 2.013. 4 Resolución Nº578 del Ministerio de Educación, Ciencia y Tecnología. Disponible en http://repositorio.educacion.gov.ar:8080/dspace/bitstream/handle/123456789/86065/8884.pdf?sequence=1. Accedido en Julio del 2.013. 3 información de manera de lograr comunicar en forma efectiva los resultados de la investigación”, ya que este plantea las bases de conceptos que luego dieron lugar al “Data Warehouse”. 2.012: la Facultad de Ingeniería de la de la UNJu acredita la carrera de Licenciatura en Sistemas mediante Resolución de la CONEAU Nº 1230/12, por un período de tres (3) años con los compromisos de desarrollar proyectos de investigación, incrementar la cantidad de docentes con postgrados e incrementar las dedicaciones de los docentes5 Data Warehouse y Cubos de Información OLAP como exigencia de la CONEAU En el punto 3 del actual Proyecto de Trabajo Final de Memoria Docente se mencionó que el tema de “Data Warehouse” y Cubos de Información OLAP, son considerados como un punto clave que se requiere a las Facultades con Carreras Informáticas para su Acreditación. Esto se afirma cuando en la memoria anual del año 2.0056 solicita en los proyectos de acreditación que sean “tenidos en cuenta otros aspectos concernientes a su integración con futuros proyectos. Se detallan a continuación dos posibles vías de desarrollo” en donde uno de ellos menciona “la utilización de los datos enviados por las instituciones para discernir relaciones entre los datos y extraer conclusiones de los mismos a través del uso de herramientas de datawarehousing (tales como Análisis estadístico, consultas OLAP, etc.)”. Esto muestra a las claras las necesidades de incorporar dicho tema a la competencia del profesional informático. En el año 2.009 CONEAU7 exige como contenido mínimo específico para la acreditación de la carrera Licenciatura en Sistemas en el área Ingeniería de Software, Base de Datos y Sistemas de Información (cantidad de horas para el área 650 en total), se incorpore los temas de “Data Warehouse” y “Data Mining”. El autor del actual Proyecto de Trabajo Final es integrante de la subcomisión de autoevaluación en la acreditación de la carrera Ingeniería en Informática, y participe en múltiples reuniones para la acreditación de la Licenciatura en Sistemas de la Facultad de Ingeniería en el año 2.009 (Resolución de la Facultad de Ingeniería Nº159/10). En dichas reuniones los referentes nombrados por el señor decano con la guía de la CONEAU informan a todos los participantes los contenidos 5 Resolución CONEAU Nº1230/12. Disponible en http://www.coneau.gov.ar/archivos/resoluciones/Res1230- 12E804086610.pdf. Accedido en Julio del 2.013. 6 Resolución CONEAU Nº657/05. Disponible en http://www.coneau.gob.ar/archivos/657.pdf. Accedido en Julio del 2.013. 7 Resolución CONEAU Nº789/09. Disponible en http://www.coneau.gov.ar/archivos/Res786_09.pdf. Accedidoen Julio del 2.013. 4 mínimos específicos y las horas que debían cumplir las cátedras que incluyan “Data Warehouse” y “Data Mining”. En el año 2.010 la Facultad de Ingeniería de la Universidad Nacional de Jujuy mediante resolución CAFI 005/10 agrega el nuevo plan de estudios 2.010 para la carrera Licenciatura en Sistemas8, en el cual incorpora un 5to.año y en el mismo, la materia “Aplicación de Base de Datos 1” en el primer cuatrimestre, con una carga horaria semanal de 5 hs. y una carga horaria total de 75 hs. Dicha materia actualmente es dictada por la persona que escribe el actual Proyecto de Trabajo Final de Memoria Docente; tiene como contenido mínimo fundamental el tema de “Data Warehouse”, con todos los conceptos que el mismo involucra, en donde unos de los ítems principales que posee son los Cubos de Información OLAP y “Business Intelligence”. Como se mencionó antes, en el año 2.012 se acredita la carrera Licenciatura en Sistemas de la Facultad de Ingeniería, Universidad de Jujuy, donde uno de los puntos más importantes de dicha resolución de la CONEAU es que ante la falta de dichos temas en los planes de estudios anteriores, solicita que “con el objeto de subsanar los déficits detectados se agreguen al plan de transición anterior Módulos Complementarios a los aprobados por Resolución CAFI N° 086/11”, con lo cual, requiere, entre otras cosas la creación de un “Taller de Aplicación de Base de Datos” que tenga como contenido mínimo principal “Data Warehouse” para los planes de estudios anterior de la licenciatura 2.001 y 2.007. Relación en Business Intelligence de Base de Datos Relacionales, Data Marts, Data Warehouse, Cubos de Información OLAP y ETL Para comprender en profundidad los diferentes conceptos que rodean a Business Intelligence, los cuales se detallan a continuación se muestra el Gráfico Nº1 en el cual se observa una primera aproximación en la relación entre Base de Datos Relaciones, Data marts, Data Warehouse, Cubos de Información OLAP y ETL. 8 Plan de Estudios de la carrera Licenciatura en Sistemas, aprobado por resolución CAFI 005 del 2.010. Disponible en http://www.fi.unju.edu.ar/component/option,com_docman/task,doc_download/gid,183/. Accedido en Julio del 2.013. 5 Gráfico Nº1: Relación en Business Intelligence de Base de Datos Relacionales, Data marts, Data Warehouse, Cubos de Información OLAP y ETL Base de Datos (BD) Diversas son las definiciones que mencionan distintos autores sobre Base de Datos: Date (2.001: 10) sostiene que una BD es un conjunto de datos persistentes, que se emplean en los sistemas informáticos de alguna organización. Elmasri y Navathe (2.007: 4) y Silberschatz, Korth y Sudarshan (2.002: 1) mencionan definiciones similares al afirma que las BD están formadas por una colección de datos, que se encuentran con una relación lógica, y que al mismo tiempo necesitan de Sistemas de Información para acceder a ellos. Para todos estos autores este conjunto o colección de datos es tan ampliamente usado por todas las organizaciones de la sociedad que se pierde noción de la importancia significativa que tienen dentro de cada una de ellas; se pueden ver en todos aquellos lugares en donde se necesite almacenar información, desde las principales instituciones modernas que conforman la sociedad tales como hospitales, bancos, universidades, etc hasta las más pequeñas como un kiosco o un almacén. Todas requieren almacenar registros de la información que se procesan dentro de ella. Es impensado creer que una institución como un Hospital puede existir en la actualidad sin llevar registros de sus pacientes, tratamientos o remedios. O que un banco puede realizar cualquier operación 6 crediticia sin conocer fehacientemente la situación financiera de sus clientes. A pesar de lo expresado en general no se es consciente de la gran importancia que tienen las BD en la vida diaria. Por ejemplo, sin ellas las empresas telefónicas no podrían registrar las llamadas que se realizan a diario y por lo tanto no habría comunicaciones, o las compras que se realizan tan naturalmente en un supermercado no existirían como tales. El mismo internet que se usa a diario no podría almacenar información alguna y dejaría de existir como tal. Conjuntamente con la BD debe existir un software de aplicación para el usuario (tal como se mencionó anteriormente), del tipo Cliente-Servidor que permita acceder a ellas desarrollado tanto en ambientes de escritorios como en ambientes web. Base de Datos Relacionales Las Bases de Datos Relacionales son BD que cumplen con un modelo bien formado de datos, lo que implica cumplir con aspectos estructurales, de integridad y de manipulación que forman un tipo de relación especial, con cierto vínculo entre las diferentes tablas de información que forman las BD (Date, 2.001: 59-82), tal como se puede ver en el Gráfico Nº2. Gráfico Nº2: Caso de una Base de Datos Relacional de Ventas En dicho gráfico se observan los componentes principales en los que se basa el modelo relacional: tabla, fila, columna y relaciones. Estos componentes se encuentran especialmente desarrollados en el libro de Elmasri y Navathe (2.007: 123-144)) donde se hace fuerte hincapié en las restricciones que se le imponen a la Base de Datos Relacional para ser considerada como tal, distinguiendo claramente los conceptos de Dominio, Atributos, Tuplas o Registros y Relaciones. 7 Este modelo relacional se basa en una lógica de predicados y teoría de conjunto cuyos principios se postularon en 1970 por Edgar Frank Codd y que a partir de esa fecha se ha convertido en el estándar usado en BD (Silberschatz et al., 2002: 1-3). Si bien existen antes otros modelos para el manejo de datos como el Modelo Jerárquico y el de Red, los mismos tienen innumerables inconvenientes que se superaron con el Modelo Relacional. Actualmente el modelo que está empezando a tener auge es el Modelo Orientado a Objetos, el cual puede ser llegado a considerar como una extensión del Modelo Relacional, ya que además de las características definidas por este incorpora los conceptos de Objetos, Clases y Herencia, permitiendo que unos objetos se construyan a partir de otros objetos con un comportamiento específico. En la actualidad el Modelo imperante en gran parte de las BD del mundo sigue siendo el Relacional. Business Intelligence (BI) Laudon y Laudon (2.008: 12-19) afirman que “muchos gerentes operan en un banco de niebla en relación con la información, ya que nunca tienen la información correcta en el momento adecuado para tomar una decisión informada. Por el contrario, se apoyan en pronósticos, buenos deseos y la suerte”, esto lo dicen para remarcar la necesidad que existe en una toma de decisiones gerencial mejorada, en obtener una ventaja competitiva en relación con sus competidores y sobrevivir en el competitivo mundo actual. Remarcan las características que deben satisfacer los sistemas de información gerenciales. Edison Medina la Plata (2009:2-3) define BI o Inteligencia de Negocios como “el conjunto de estrategias y herramientas enfocadas a la administración y creación de conocimiento mediante el análisis de datos existentes en una organización” es decir que la misma organización se gestiona en base a los registros que ella misma genera a diario. Se debe tener en cuenta que la información de una organización puede clasificarse en Operacional, Táctica y Estratégica según el usuario que la utilice tal cual lo muestra el Gráfico Nº3: 8 Gráfico Nº3: Tipos de Información y Usuarios que la emplean Los sistemas de BI toman los datos diarios registrados por los Sistemas Operacionales y los convierte en información valiosa usada en los niveles tácticos y estratégicos. Es muy difícil que esta transformación que sea realizada por los Sistemasde Información (SI) tradicionales por las siguientes razones (Sinnexus, 2007): Gran rigidez a la hora de extraer datos: porque el usuario utiliza los informes ya definidos Necesidad de conocimientos técnicos: ya que la generación de nuevos informes necesita de personal técnico Largos tiempos de respuesta: porque consultas complejas requieren la unión de grandes tablas complejas Deterioro en el rendimiento del SI: debido a que las consultas antes mencionadas pueden causar grandes degradaciones del sistema Falta de integración que implica islas de datos: porque por lo general las instituciones trabajan sus base de datos sin estar integradas Datos erróneos, obsoletos o incompletos: por la calidad de los datos de la organización Problemas para adecuar la información al cargo del usuario: porque la información se debe adecuar al usuario según la posición que el mismo ocupe en la organización Ausencia de información histórica: en los sistemas operacionales se trabaja con la información diaria, no permitiéndose comparar con la de años anteriores 9 Es por ello que las BI se basan en la integración y universalización de la información, no solo de la información que se genera en cada sector o departamento del mismo sino en toda la organización en su conjunto. Existen una serie de factores que se deben cumplir para garantizar el éxito de las BI (Medina la Plata, 2009:6-7): Apoyo de la Gerencia: sin el soporte del personal directivo o de la/s persona/s que toman las decisiones en la organización el BI está destinado a fracasar Compromiso de los usuarios: hay usuarios que son claves para el proyecto, sin ellos no se puede recopilar la información necesaria Metodología de la Implementación: los primeros proyectos de BI fracasaron por no contar con una metodología que defina claramente los pasos que a seguir, porque se intenta en muchos casos realizar la implementación de forma similar a la de los sistemas de información tradicionales Selección de la Herramienta analítica: existen en la actualidad diferentes herramientas que facilitan el análisis gerencial y directivo, cada una con sus características propias, es por ello que se debe seleccionar el más adecuado para el proyecto de estudio. Rapidez de Implementación: el realizar un proyecto de BI, si su implementación demora una excesiva cantidad de tiempo hará fracasar al mismo. Los cambios que se producen en la organización obligan a que el sistema que se desarrolle para la toma de decisión se realice con la mayor celeridad posible Experiencia: realizar un proyecto de este tipo necesita de profesionales con experiencia en BI que garanticen el mejor aprovechamiento de los recursos disponibles También existen una serie de errores comunes que se realizan en la implementación de las BI y que se deben evitar (Medina la Plata, 2012:2-6): Enfoque netamente técnico: implementar una solución de BI no es solamente generar un nuevo repositorio de datos (Data Warehouse o Data Smart), con información más limpia y preparada; implica además sumar un valor agregado que se obtiene de un estudio de las necesidades de la gestión de la organización Mala selección del equipo de trabajo o de la tecnología que se emplee: ya sea que el proyecto de BI se desarrolle en forma interna o por una empresa externa, el mismo debe contar con expertos en el tema, no basta con que sean expertos en 10 soluciones transaccionales sino que deben serlo en soluciones de BI. La elección de la tecnología que se utilice también es clave ya que han aparecido varias y la tecnología elegida debe cubrir las necesidades globales de la organización y no solamente la de un departamento o sector en particular Mala calidad de datos: si el origen del cual se obtienen los datos no tienen la calidad suficiente el proyecto de BI se verá comprometido, por lo cual al inicio del mismo se debe analizar este problema y trabajar en atenuarlos Falta de Planificación de la iniciativa de BI: antes de empezar con el proyecto de BI se debe analizar y planificar cuales son las áreas de la empresa que demandan este tipo de iniciativa, cual es la tecnología a usar, cuales son las necesidades de información, las funcionalidades que se solicitan y la calidad de los datos existentes Presupuesto inadecuado: una iniciativa de BI demanda un adecuado cálculo de los costos que el mismo involucra: licencias, infraestructura tecnológica, consultoría, ampliación de requerimientos, etc Mala selección de herramientas: existen muchas herramientas a utilizar para BI, es por ello que se debe elegir cuidadosamente la que mejor se adapta al proyecto en cuestión No propiciar el cambio: las variaciones que implica BI debe atender a las necesidades de gestión, propiciando e impulsando cambios en la organización centralizando la información en BI, alineando las expectativas en una estrategia de negocios, fortaleciendo los equipos técnicos, mostrando además a los usuarios del negocio las ventajas del BI y generando proyectos que sean dinámicos, con un área dedicada al soporte de estas soluciones Data Warehouse El mismo Edgar Codd afirma que las Base de Datos Relacionales no son suficientes para trabajar en BI, es por ello que se comienza a hablar de Data Warehouse (DWH) con dos importantes autores que escriben libros sobre este tema (considerados como los pilares del DWH) Ralph Kimball y William Inmon, con muchos puntos en común pero con filosofías muy distintas a la hora de diseñar la estrategia de datos. William H. Inmon (al cual también se lo conoce en mucha bibliografía como Bill Inmon y el padre del DWH), acuñó el término de Data WareHouse en 1.992 en su libro “Building the 11 Data Warehouse” como aplicaciones para la toma de decisiones, afirmando que el mismo es un almacén de datos con ciertas características (Inmon, 2.005: 29-33): Orientado al sujeto: Los datos de la BD están organizados de manera que todos los elementos de datos relativos al mismo evento u objeto del mundo real quedan unidos entre sí Integración: esta característica refiere al hecho de que la misma se obtiene a partir de diferentes Base de Datos Operacionales, las cuales pueden no tener siempre la misma estructura y encontrarse sobre distintos motores de BD (SQL Server, Oracle, MySql, PostgreSQL, etc) De Tiempo Variante: en el ambiente operacional la información solicitada es obtenida en el momento en el que se realizó el requerimiento, mientras que en una Base de Datos DWH el almacenamiento es usado como un depósito en el que el horizonte de tiempo de la información obtenida, ronda de 5 a 10 años, lo cual implica además que la información almacenada no puede sufrir modificaciones, como en cambio si lo hacen continuamente las Base de Datos Operacionales No volátil: en una Base de Datos Operacional la información cambia o se actualiza continuamente en tiempo real, a diferencia de una Base de Datos DWH en la cual la información una vez cargada no sufre modificaciones Inmon utiliza un enfoque Top-down o ir de arriba hacia abajo, en donde la información debe estar en los máximos niveles de detalle, los Data marts (concepto que se explicará en los siguientes párrafos), son tratados como subconjuntos del DWH. Es decir que lo primero a la hora de desarrollar el DWH es establecer una estructura de datos en 3FN (tercera forma normal), perfectamente normalizada y limpia. Los datos se insertan en esta estructura, siendo depurados antes de pasar a la estructura normalizada del DWH. A partir de esa estructura, se pueden establecer una serie de Data marts que agrupen de una forma más lógica (y si se quiere multidimensional) la información del DWH principal. A continuación se muestra el gráfico Nº4 con el diseño Top-down planteado por Inmon Gráfico Nº4 Diseño Top-down aplicando Inmon 12El otro gran autor de DWH es Ralph Kimball (1.996: 310) quien afirma que el DWH es “a copy of transaction data specifically structured for query and analysis” o “una copia de las transacciones de datos específicamente estructurada para la consulta y el análisis”, también menciona que un DWH no es más que “la unión de todos los Data marts de una entidad”. Por lo tanto lo que este autor plantea a la hora de diseñar un DWH es que la metodología que se emplee sea la ascendente o bottom-up o ir de abajo a arriba, es decir que las partes individuales se diseñan con detalle y luego se enlazan para formar componentes más grandes, que a su vez se enlazan hasta que se forma el sistema completo. A continuación se muestra el gráfico Nº5 con el diseño Bottom-up de Kimball Gráfico Nº5 Diseño Bottom-up aplicando Kimball Kimball parte de los datos y procesos existentes y modela el DWH para que se adapte a ellos, tomando como premisas la eficiencia en tiempo y la representación natural de datos a costa de la normalización. El cálculo de los datos sirve para que la toma de decisiones sea rápida, por lo que estructura los datos del DWH sigue patrones dimensionales. Esto mejora el rendimiento a la hora de realizar consultas y organiza los datos de una forma más intuitiva y natural para los usuarios. Roberto Espinosa el cual es un escritor muy reconocido sobre BI afirma en su artículo “Kimball vs Inmon. Ampliación de conceptos del Modelado Dimensional” (2.010) que “el enfoque Inmon es más apropiado para sistemas complejos, donde además queremos asegurar su perdurabilidad y consistencia aunque cambien los procesos de negocio en la organización. Pero para pequeños proyectos, donde además queremos asegurar la usabilidad de los usuarios con un sistema fácil de entender y el rápido desarrollo de la solución, el enfoque Kimball es más apropiado”, es decir que según sean las características del proyecto de BI que se encare conviene seguir con el enfoque de Inmon o el de Kimball. 13 Data marts (DM) Inmon, Imhoff y Sousa definen DM como as “a subset of a data warehouse that has been customized to fit the needs of a department" (1.998, 70) o sea un subconjunto de un DW que se ha hecho a la medida de un departamento. Lo que afirma es que un DM es un subconjunto de los datos del DWH con el objetivo de responder a un determinado análisis, función o necesidad y con una población de usuarios específica. Kimball también trabaja con DM, pero para el se define por procesos y no por departamentos. También insiste en que las dimensiones deben ser conformadas/compartidas entre los distintos DM, a lo que llama “bus architecture”. Un DM puede ser dependiente o independiente de un DWH, tal cual puede observarse en el Gráfico Nº6 que se muestra a continuación, lo cual depende si el DM se encuentra en el mismo equipo del DWH (imagen de la derecha) o si el DM está en otro equipo independiente del DWH (imagen de la izquierda) (Inmon, 2.005: 384-385): Gráfico Nº6 DM independiente de un DWH DM dependiente de un DWH Dependiendo el tipo de proyecto esta independencia puede ser o no conveniente para algunos casos y para otros no. Entonces la principal diferencia entre un DM y un DWH es el alcance. El DM está pensado para cubrir las necesidades de un grupo de trabajo o de un determinado departamento dentro de la organización, mientras que el ámbito del DWH es la organización en su conjunto o sea que trabajan con los datos corporativos comunes. 14 ETL ETL son las siglas en ingles de Extract, Transform y Load o sea extracción, transformación y carga. Kimball y Ross (2.002, 401) define ETL como el “conjunto de procesos mediante los cuales los datos origen son preparados para el DWH … Consiste en extraer los datos operacionales de una aplicación de origen , transformarlo, cargarlo e indexarlo, asegurando su alta calidad y publicación”. Inmon (2.005, 18) por su parte menciona la grandes ventajas que tiene el uso del ETL el cual “puede automatizar gran parte del tedioso proceso de la integración de datos complejos. Además, este proceso de integración se debe realizar sólo una vez”. Adzic, Fiore y Sisto (2.006, 89-90) señalan claramente el ambiente donde trabaja ETL al afirmar que se lleva a cabo en “una amplia zona entre el origen de datos y una base de datos de destino en el sistema de gestión (DWH); en el medio, están todos las condiciones necesarias para llevar y mantener los datos históricos en una forma adecuada para el análisis”. A continuación en el Gráfico Nº7 puede observarse el escenario con el que se trabaja en ETL: Gráfico Nº7 Escenario de ETL Espinosa Roberto cuando escribe en DATAPRIX (2.010) afirma que ETL es el proceso que permite a las organizaciones mover datos desde múltiples fuentes, reformatearlos y limpiarlos, cargándolos en otra BD, DM, o DWH para analizar, o en otro sistema operacional para apoyar el BI. Este proceso ETL se caracteriza por: Extracción: realizar un proceso de extracción con un software ETL consiste en EXTRAER los datos de los sistemas de origen, los cuales generalmente provienen de diferentes sistemas de origen que pueden tener formatos distintos (Base de Datos Relacionales, ficheros planos, Base de Datos no Relacionales, etc). Esta fase de extracción convierte los datos a un formato diseñado para el proceso de transformación, analizando los mismos y rechazándolos si correspondiera. Este proceso debe ser diseñado cuidadosamente ya que debido al volumen de datos 15 puede ocasionar que el sistema operacional tenga una sobrecarga y los usuarios del personal operativo no puedan trabajar, es por ello que generalmente se programa en horarios de poca o ninguna actividad Transformación: transformar los datos usando herramientas ETL significa aplicar funciones a los datos extraídos con el fin de convertirlos a un formato útil para su carga, estas funciones también se les llama reglas de negocio, ya que describe las definiciones de la información en la organización. Esta transformación puede incluir manipulaciones sobre las mismas que pueden ser de tipos variados tales como juntar columnas o desagregarlas, aplicar funciones de agrupamiento (realizar conteos, sumarizaciones, promedios, etc), generación de claves, unificación de múltiples fuentes, transformar valores de los campos, etc. Carga: en este proceso los datos ya transformados de la etapa anterior se cargan en la nueva Base de Datos del DWH. Dependiendo de cómo se diseñe esta fase se puede sobreescribir la información antigua o agregar solamente los nuevos registros. Existen incluso reglamentaciones legales de esta fase, ya que la modificación de registros ya existentes no es permitida porque las decisiones gerenciales se basan en las mismas y una modificación en ella puede provocar cambios en el rumbo de la organización. Hay dos formas de desarrollar este proceso, por “acumulación simple” que consiste en realizar funciones de agrupamiento y guardar esos resultados en la Base de Datos del DWH o realizar un “rolling” en donde se opta por mantener un cierto nivel de granularidad, manteniendo información resumida por niveles jerárquicos en una o más dimensiones del DWH. Los procesos ETL son generalmente complejos y deben ser planificados cuidadosamente para evitar inconvenientes. Se debe estudiar la calidad de datos existente en las Base de Datos Operacionales y las diferentes herramientas existentes en el mercado, tanto Software Propietario como Software Libre (u Open Source). Las herramientas más populares en el momento en el que se escribe el actual Proyecto Final de Memoria Docente son: IBM Webspher Pentaho Data Integration (Kettle ETL) (Herramienta Open Source BI) SAS ETL Studio Oracle Warehouse Builder 16 Informatica PowerCenter Cognos Decisionstream Ab Initio BusinessObjects Data Integrator (BODI) Microsoft SQL Server Integration Services (SSIS) Cubos de Información OLAP Una de las herramientas más importantes a la hora de trabajar con “Data Warehouse” es el llamado Cubo de Información OLAP, el término original OLAP (Date, 2.001:715) ("Procesamiento Analítico en Línea") fue acuñado en el artículo “Providing OLAP (Online Analytic Processing) to User-Analysts: An IT Mandate” escrito por el mismo Edgar Codd para Arbor Software Corp. en 1993 y puede ser definido como "el proceso interactivo de crear, mantener, analizar y elaborar informes sobre datos". Es usual asumir que los datos en cuestión son percibidos y manejados como si estuvieran almacenados en un "arreglo multidimensional", a diferencia del modelo relacional que plantea las tablas con filas y columnas. Hurtado y Gutierrez (2.006, 37) define que “un cubo de datos es el conjunto de todas las posibles vistas del cubo definidas sobre una lista de dimensiones, una tabla base y medidas agregación”, aquí también se observa que aparecen conceptos nuevos como dimensiones y medidas de agregación, que se verán en detalle a continuación. Bernabeu (2.010: 33) simplifica este concepto afirmando que un Cubo de Datos “representa o convierte los datos planos que se encuentran en filas y columnas, en una matriz de N dimensiones”. Es decir, que la información deja de considerarse en dos dimensiones, tal cual sería el caso de una planilla Excel, y pasa a tener N dimensiones de análisis, en donde la cantidad de dimensiones depende del estudio del problema en cuestión. La definición clásica que menciona Roberto Espinosa en “El Rincón del BI” (2.009) es que “son las herramientas que se basan en la capacidad de analizar y explorar por los datos”, y que tiene un enfoque, el cual a través de las herramientas OLAP de reportes, permite analizar el “¿por qué está pasando?” a través de navegar y profundizar en los datos y ya no solamente observar el “¿qué está pasando?” tradicional. Estas herramientas OLAP permite hacer un análisis interactivo de las dimensiones e indicadores (estos conceptos también se explicarán a continuación), permitiendo 17 “moverse” en ellas, es decir se seleccionan las dimensiones e indicadores que se tengan disponibles y en base a eso obtendrá diferentes reportes de los datos, resultando esto totalmente transparente al usuario. Inclusive no es necesario que el usuario directivo o gerencial tenga conocimientos avanzados de informática (aunque es recomendable que tenga cierto manejo del mismo) ya que con un conocimiento de las reglas del negocio podrá “navegar” entre las diferentes dimensiones que tenga disponible, obteniendo distintas visiones del negocio. Como se mencionó arriba para trabajar con cubos OLAP es necesario operar con los siguientes conceptos: Indicadores o Coeficientes de Gestión: son variables que se obtienen por medio de operaciones matemáticas que se realizan sobre algún hecho o expresiones basadas en estas, pertenecientes a una tabla de hechos. Atributos: hacen referencia a los campos o criterios de análisis, pertenecientes a tablas de dimensiones. Nivel de Agregación o Jerarquía de la Dimensión: las cuales representan una relación lógica entre dos o más atributos. Existen una serie de acciones que se pueden realizar con los conceptos arriba mencionados: Swap: rota filas por columnas o sea permuta dos dimensiones de análisis Down: bajar el nivel de visualización en las filas a una jerarquía inferior Drilldown: genera un detalle de una fila en concreto, de datos a un nivel inferior Expand: similar al anterior sin perder la información a nivel superior para éste y el resto de los valores. Collapse: operación inversa de la anterior A continuación en el Gráfico Nº8 se muestra la forma de representar un indicador a través de los atributos en un cubo de información multidimensional. 18 Gráfico Nº8: Cubos de Información Multidimensional En el Gráfico Nº9 se muestra un caso con el uso de fecha en la aplicación de jerarquías en un Data Warehouse Gráfico 9: Jerarquía de fecha en un Cubo de Información Es importante mencionar que tal como afirman Elmasri y Navathe (2.007: 854) “el rendimiento de la consulta en las matrices multidimensionales puede ser mucho mejor que en el modelo de datos relacional” y este es el objetivo principal que se persigue al utilizar cubos multidimensionales de información en Base de Datos DWH sobre el empleo de las BD Operativas. Es cierto que se pueden obtener los mismos resultados, pero no es lo mismo para un gerente tomar una decisión crítica en el que esté en juego el futuro en la organización en un par de segundos con cubos multidimensionales a tener una espera de minutos o hasta horas de consulta en las tradicionales Base de Datos Operativas. En este nivel los sistemas de información deben dar respuestas acordes a las circunstancias, que permitan obtener estadísticas, proyecciones y consultas en forma rápida y eficiente. 19 11.- BIBLIOGRAFIA CITADA Y DE CONSULTA Adzic Jovanka, Fiore Valter y Sisto Luisella, 2.006. “Capítulo 4: Extraction, Transformation, and Loading Processes” de “Data Warehouses and OLAP: Concepts, Architectures and Solutions” de Wrembel Robert y Koncilia Christian. Hershey. Idea Group Inc Bernabeu Ricardo Dario. 2.010. “HEFESTO – Data Warehousing: Investigación y Sistematización de Conceptos - Hefesto: Metodología para la Construcción de un Data Warehouse. Disponible en http://sourceforge.net/projects/bihefesto/files/Hefesto/HEFESTO.gz/download. Versión Digital 2.0. Accedido en Julio 2.103. Carnota Raúl y Rodriguez Ricardo. 2.010. “Fulgor y Ocaso de CEUNS. Una apuesta a la tecnología nacional en el Sur de Argentina”. “Proyecto SAMCA (Salvando la Memoria de la Computación Argentina)”.Disponible en http://www.cos.ufrj.br/shialc/content/docs/2.1_30SHIALCCarnota_Paper.v2.pdf. Accedido en Julio del 2.013 Czemerinski Hernan y Jacovkis Pablo. 2.012. “La llegada de la computación a la Universidad de Buenos Aires”. “Revista iberoamericana de ciencia tecnología y sociedad”. Disponible en http://www.scielo.org.ar/scielo.php?pid=S1850- 00132012000100006&script=sci_arttext. Accedido en Julio del 2.013 Date Christopher. 2.001. “Introducción a los Sistemas de Bases de Datos”. México. Pearson Educación. 7ma Edición. Elmasri Ramez y Navathe Shamkant. 2.007. “Fundamentos de Sistemas de Bases de Datos”. Madrid. 5ta. Edición. Pearson Educación. Espinosa Roberto. 2.009. “El Rincón del BI: Descubriendo el Business Intelligence”. Artículo “Cubos OLAP (On-Line Analytic Processing)”. Disponible en http://churriwifi.wordpress.com/2009/11/24/2-2-cubos-olap-on-line-analytic- processing/. Ultimo acceso Julio 2.013 20 Espinosa Roberto. 2.010. “El Rincón del BI: Descubriendo el Business Intelligence”. Artículo “Kimball vs Inmon. Ampliación de conceptos del Modelado Dimensional”. Disponible en http://churriwifi.wordpress.com/2010/04/19/15-2-ampliacion- conceptos-del-modelado-dimensional/. Ultimo acceso Julio 2.013. Espinosa Roberto. 2.010. “DATAPRIX Knowledge Is the Goal” Artículo “Herramientas ETL. ¿Que son, para que valen?. Productos más conocidos. ETL´s Open Source.”. Disponible en http://www.dataprix.com/blogs/respinosamilla/herramientas-etl-que-son-para-que- valen-productos-mas-conocidos-etl-s-open-sour. Ultimo acceso Julio 2.013 Jacovskis Pablo M. 2.004. “Breve resumen de la historia de la computación en Argentina”. Disponible en http://www.sadio.org.ar/modules.php?op=modload&name=News&file=article&sid=5 0. Accedido en Julio del 2.013. Garcia Sevilla Julia. 2.008. “El aprendizaje basado en problemas en la enseñanza universitaria”. Murcia. EDITUM. Goleman Daniel. 1.998. “La práctica de la Inteligencia Emocional”. Disponibleen http://webs.uvigo.es/pmayobre/master/textos/evangelina_garcia/practica_inte_emo cional.pdf. Accedido en Julio 2.103. Barcelona. Kairós S.A. Hurtado Carlos y Gutierrez Claudio. 2.006. “Capítulo 2: Handling Structural Heterogeneity in OLAP” de “Data Warehouses and OLAP: Concepts, Architectures and Solutions” de Wrembel Robert y Koncilia Christian. Hershey. Idea Group Inc Inmon William, Imhoff Claudia y Sousa Ryan. 1.998. “Corporate Information Factory”.NY, John Wiley & Sons, Ltd. Inmon. 2.005. “Building the Data Warehouse”. Indianápolis. Wiley Publishing, inc. 4ta. Edición. Laudon Kenneth C. y Laudon Jane P. 2.008. “Sistemas de Información Gerencial: administración de la empresa digital”. México. Pearson Educación. 10ma Edición. 21 Medina la Plata, Edison. 2.009. “Business Intelligence: la información como arma competitiva”. Portal de revistas UPC (Universidad Peruana de Ciencias Aplicadas): Sinergia e Innovación. Revista Nº5. Disponible en http://revistas.upc.edu.pe/index.php/sinergia/article/view/112/77. Ultimo acceso Julio 2.013 Medina la Plata, Edison. 2.012. “Business Intelligence: Errores comunes en su implementación”. Portal de revistas UPC (Universidad Peruana de Ciencias Aplicadas): Sinergia e Innovación. Revista Nº17. Disponible en http://revistas.upc.edu.pe/index.php/sinergia/article/view/30/20. Ultimo acceso Julio 2.013 Kimball Ralph. 1.996. “The Data Warehouse Toolkit: Practical Techniques for Building Dimensional Data Warehouses”. NY. John Wiley & Sons, Ltd. Kimball Ralph y Ross Margy. 2.002. “The Data Warehouse Toolkit”, “The Complete Guide to Dimensional Modeling”. NY. John Wiley & Sons, Inc. Pérez López Cesar y González Daniel Santín. 2.008. “Minería de Datos: técnicas y herramientas”. Madrid. Thompson. 2da. Edición Silberschatz Abraham, Korth Henry F., Henry y Sudarshan S. 2.002. “Fundamentos de Base de Datos”. Madrid. Mc Graw-Hill. 4ta. Edición. Sinnexus. “Manual de Business Intelligence”. “Sinergia e Inteligencia de Negocio S.L.”. Disponible en http://www.sinnexus.com/business_intelligence/index.aspx. Accedido en Julio 2.013. Vizcarro Carmen y Juárez Elvira. 2008. “¿Qué es y cómo funciona el aprendizaje basado en problemas?” En García Sevilla, J. (coord.). “El aprendizaje basado en problemas en la enseñanza universitaria”. Murcia. EDITUM. SIE - Servicio de Innovación Educativa. 2.008. “Aprendizaje Basado en Problemas: Guías rápidas sobre nuevas tecnologías”. Madrid. Disponible en http://innovacioneducativa.upm.es/guias/Aprendizaje_basado_en_problemas.pdf. Accedido en Julio 2.103.
Compartir