Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Página 1 UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE ESTUDIOS SUPERIORES “ARAGON” INGENIERÍA MECÁNICA ELÉCTRICA EJECUCIÓN DE UN PROYECTO DE LIMPIEZA DE BASE DE DATOS (HIGIENIZACIÓN, ESTANDARIZACIÓN Y CRUCE DE INFORMACIÓN) ELABORÓ: JORGE OROZCO CHIA o c t u b r e d e 2 0 0 6 UNAM – Dirección General de Bibliotecas Tesis Digitales Restricciones de uso DERECHOS RESERVADOS © PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL Todo el material contenido en esta tesis esta protegido por la Ley Federal del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). El uso de imágenes, fragmentos de videos, y demás material que sea objeto de protección de los derechos de autor, será exclusivamente para fines educativos e informativos y deberá citar la fuente donde la obtuvo mencionando el autor o autores. Cualquier uso distinto como el lucro, reproducción, edición o modificación, será perseguido y sancionado por el respectivo titular de los Derechos de Autor. Página 2 AGRADECIMIENTOS Página 3 AGRADECIMIENTOS En primer lugar a mi Dios, que me da la oportunidad día a día de tener sueños y anhelos que tarde o temprano resultan ser reales y totalmente satisfactorios, acompañado de familia y verdaderos amigos. El esfuerzo dedicado en el presente trabajo lo dedico con un especial cariño a mi mamita que me vigila desde el rincón más especial de mi corazón. Gracias ¡Cucha!. También a mi familia que no nos pueden acompañar físicamente pero están presentes en los recuerdos y nuestros corazones. Y de igual forma a mi papá que es reflejo vivo del esfuerzo de lucha por vivir y del cual me estas dando la mejor de las lecciones. ¡Apá!, ¡godito!, mil gracias. A mis hermanos. Me tocó ser el último de los cuatro y esto me da la gran oportunidad de aprender de cada uno de ustedes. Cuando era niño (no hace mucho ¿verdad?), siempre fueron mi ideal a seguir, déjenme decirles que hoy siguen siendo mis héroes infinitos. Gracias Paty. Por todo tu apoyo cuando mas lo necesité, y por demostrar que pase lo que pase, al final demuestras ser la mas bellas de las mujeres que lo dan todo con tal de ayudar. Me da mucho orgullo decir que eres mi hermana y poder contar a los demás la calidad humana que posees y que es difícil de cuantificar. Fer, eres un claro ejemplo de esfuerzo. Siempre me lo demostraste cuando era niño: me regalaste alegrías en una época en la que la crisis económica agudizaba la familia y siempre consideraste en los reyes magos, en poner a mi alcance los mejores juguetes, y arrancar así la felicidad de niño que lleva uno por siempre en el corazón. Y hoy, eres un claro ejemplo de cando se quiere salir adelante a pesar de toda adversidad, ¡se puede!. Página 4 Poncho, compañero de juego, que por cierto ¿cómo eran de defectuosos verdad?.. jeje. De ti aprendo el valor más grande que pueda poseer: construye castillos en el cielo. Cucha siempre me dijo que tenía que aprender de ti por luchón y trabajador, jamás se equivocó, lo sigues siendo y me lo demuestras en el cariño y esfuerzo reflejado en tu esposa, hijo y nuestro papá. Lilí, vaya que tienes los pantalones mejor puestos que muchos hombres. Tienes el valor y la garra de decir no me caigo y no me tumba nadie pase lo que pase. Que suerte de mujer se topó Fer. Tus esfuerzos se remunerarán, no lo dudes. Cundo te conocí en los campos de fucho, dije es un payaso de primera, no a cambiado mucho ...jeje. Juanito, siempre demuestras ser el más noble y extendiste la mano cuando más falta me hacía, con mi mamá, con mi papá y ahora con este trabajo. Todo aquel que te conoce sabe que siempre puede contar con tigo en todo. Anita, vales mil veces en oro de lo que te consideras. Lo que mas se distingue de ti es tu sinceridad y tu apoyo desinteresado. Que suerte el conocerte a fondo y ver que mi hermano tiene una mujerzota por lo que vale. A cada uno de mis sobrinos muchas gracias por estar aquí y darnos a conocer que un mundo puede cambiarse con el solo hecho de imaginarlo, verán que después esta imaginación es necesaria para lograr metas y recompensar así, a sus padres, familia y amigos que los quieren. A todas mis Tías y tíos. Tere, Naty, Lupe, Nico. Y todos aquellos que no alcanzo a nombrar porque sería inmensa la lista de todos aquellos que forjaron cado en sus trincheras la familia que somos y el méxico que queremos. Por su cariño, comprensión y apoyo, mil gracias. Página 5 A todos mis primos y sus familias respectivamente. Lety, Juanis, Carlos, Luis... a todos gracias por compartir momentos buenos y malos y que hasta hora siguen demostrando la calidad humana que poseen. Gracias a toda la banda de la FES Aragón. Claudio, César, Lee, Lalo, Uriel, Hugo, Araceli y a todos aquellos que no alcanzo a nombrar en este apartado y que extiendo las gracias por todo momento compartido y por cada examen y tarea que me pasaron... jeje. La vida apenas comienza cuado salimos de la universidad. Gracias a todos por compartir su amistad. A todos mis maestros. Que clase tras clase demuestran que el profesionista se forja día a día, y por dar en las aulas el mejor de los esfuerzos para llevarnos lo mejor de ustedes. Gracias profesores y amigos. A los jefes de mi chamba, David, Jasón, Gabriel, Emanuel. Me da orgullo decir que cuento con los jefes idóneos y que están donde están porque así lo merecieron. Lo demuestran día a día y en cada una de sus trincheras. Aprendo gracias a ustedes. A todos mis amigos y compañeros de todos los días, David, Jasón, Irma, Lizette, Jair, Elizabeth Hilario (puse tu nombre completo para que no te enojaras), Elizabeth Gómez, Erasmo, Miguel, Raúl, Edgar y todos aquellos que no alcanzo a nombrar no por hacerlos menos, sino porque a más texto más cara sale la impresión, jeje.. no es cierto. A todos por igual, mil gracias por compartir día a día las batallas que libramos en la oficina. Gracias por compartirme sus anhelos y sentimientos que reflejan la calidad humana de lo que están hechos. Página 6 Y como en este apartado hago lo que se me da la gana.. jeje. Extiendo un especial agradecimiento a Liz. Por nuestro fugaz noviazgo de menos de un mes y por copartir 11 meses en la misma casa. Te agradezco porque desde que te conocí se me quedó grabado algo que ya me lo habían dicho pero, saliendo de ti, hizo eco en mi corazón que llevo por siempre: tienes que creer primero en ti para lograr lo que quieres. Gracias por todo chiquitita. Finalmente agradezco a todos aquellos que se me escaparon de nombrar pero que muy seguramente estoy ínfimamente agradecido por cada momento de la vida compartidos (y lo que falta ¿verdad?). A todos mil gracias de todo corazón. POR MI RAZA HABLARÁ EL ESPÍRITU Página 7 CONTENIDO Página INTRODUCCION …………………………………………………………………..……. 9 CAPITULO 1. Antecedentes de una Limpieza de Datos …………………………… 10 Calidad de datos: mejora y éxito en los negocios de la información. ………13 La validación y la limpieza o higiene de bases de datos como metodos optados para mejorar la calidad en los datos. ………………………………..14 Limpieza de datos, factor necesario para un Data Warehouse …………….16 CAPITULO 2. Aplicaciones empleadas para el proceso de Limpieza de Datos, Estandarización y cruce …………………………………. 23 Trillium Software System …………………………………… 31 CAPITULO 3. Metodología implementada en los procesos de Limpieza de Datos, estandatización y cruce de información …………………….… 36 Premisas del procedimiento general de higiene para una fuente de información ……………………………………………………………. 40 Reglas de negocio para la higienización de una fuente de Información ……………………………………………………….…… 43 CAPITULO 4. Ejemplo detallado de una Limpieza de Datos ……………………. 60 Pasos del proyecto de limpieza de datos ...................................................60 Orígenes de la fuente de información .......................................................... 60 Ejecución del proyecto de limpieza de datos ……………………………... 62 Proyecto Trillium ………………………………………………………………. 69 Página 8 Estandarización por catálogo de Calle y Colonia ………………………..…. 82 Cruce de información ………………………………………….…………..…. 89 Elaboración del reporte final ...................................................................... 91 CAPITULO 5. Dimensionamiento de un proyecto entregado por el departamento a uno de sus clientes ………………………. 102 CONCLUSIONES ……………………………………………………………….…………. 107 BIBLIOGRAFIA …………………………………………………………………………. 109 Página 9 INTRODUCCION Hoy en día seria imposible dejar de comprender todo lo que conocemos por servicios de no ser por el avance que dan los medios electrónicos y en específico las computadoras, las cuales dan un sobregiro a cada instante para acortar los tiempos de ejecución de los procesos sin dejar de lado la consistencia en la estructura de la información. Sin embargo, todo este alto desempeño queda de lado si no contamos con buenos métodos para organizar nuestra información y hacer más congruente y ordenada la información con que contamos. La organización de la información otorga creces al momento de saber que es confiable y ágil al momento de realizar decisiones que definan el rumbo de los negocios; en términos prácticos, nos hace más competitivos y esto se traduce en el incremento de ganancias. Limpieza de Datos busca homogenizar y catalogar la información entre distintas bases de datos que se tiene en una organización, logrando consistencia entre ellas y que en lo sucesivo, la información resulte en esquemas de consultas de información a temas de un carácter complejo y específico por el cliente que solicita el servicio de temas orientados a negocios de la información, mejor conocido como Data Warehouse. La limpieza de datos es fundamental como primer paso para lograr confiabilidad y organización al momento que se carece de un elemento en común y confiable a lo largo de toda una cadena de información, este campo en una tala de datos de información es conocido como campo llave. Por otro lado, una vez que los datos son procesados por los módulos del proyecto de limpieza, se busca mediante porcentajes de concordancia, relaciones entre otras fuentes de información, dando por resultado, aquellos datos que guardan una relación en su contenido. Esta tarea, a lo largo del desarrollo del trabajo se conocerá como un cruce de información. En el Capítulo 1: Justificación y Definición de una Limpieza de Datos, se detalla de manera amplia la necesidad de organizar la información, su relevancia en la calidad de datos y muy en particular, el caso que involucra la necesidad de crear el departamento de Limpieza de datos en una de las mejores instituciones con que cuenta el país y que posee inmensos volúmenes de registros; es el caso del SAT (Servicio de Administración Tributaria), órgano desconcentrado de la Secretaría de Hacienda y Crédito Público. Es importante señalar que muchos de los conceptos nombrados en este trabajo fueron establecidos por el departamento de limpieza de datos. Para ello se presentarán las reglas de negocio y metodología que se siguen en el departamento. En los capítulos sucesivos se dará un ejemplo detallado de un proceso de limpieza, estandarización y cruce paso a paso de una base de datos del orden público, obtenida del SIEM (Sistema Empresarial Mexicano). También se presentará una documentación de una base de datos, que detalla un proyecto Limpieza de Datos real elaborado por el departamento de limpieza de datos donde describe la estructura de la información de entrada, sus inconsistencias y las modificaciones que sufre en el proyecto de limpieza. Página 10 CAPÍTULO 1 ANTECEDENTES DE UNA LIMPIEZA DE BASE DE DATOS Página 11 CAPITULO 1. Antecedentes de una Limpieza de base de Datos Las acciones mejor implantadas en cualquier negocio serán el llevar un paso adelante en lo que está por acontecer en el mercado. Y para hacer de esto la tarea base del éxito de la empresa, es necesario tener información relevante (ventas, ganancias, clientes, compras, etc.), que sea oportuna y con un grado de exactitud muy confiable. ¿Cuánto tengo?, ¿cuánto gano?, ¿a quién le vendo más?, ¿la información con que cuento sobre mi negocio, es suficiente para saber si es oportuno invertir más recursos en la empresa? y, ¿cuánto tiempo tomará responder a estas preguntas?. Son algunas de las interrogantes que se plantea cualquier empresa que involucra una administración basada en la información. Basándose en un modelo de empresa que usa diversos módulos con distinta información como: cartera de clientes, reporte de ventas, productos. El tiempo que se toma en consultar ¿qué cliente(s) son los más recurrentes y qué productos son los más solicitados por cliente?, tomará un tiempo considerable, además del costo de recursos (humano y económico) el hecho de ordenar la información para que cuadre, o bien, implica dedicar un doble esfuerzo para mantener actualizada la información individual contra la solicitada por las personas de toma de decisiones; y el problema se incrementa, si dicha empresa es de un volumen considerable. Por lo tanto, al tratarse de una empresa cuya administración está basada en la información (que hoy en día es más que necesario integrarse rápida y eficientemente para equilibrar la eficiencia productiva con la competencia en el mercado), conviene llevar a cabo ajustes que cubran apropiadamente los objetivos. La solucionar este problema de interrelación, es necesario optar por contar con una sola fuente de información, con datos buenos o malos desde un inicio, pero que exista relación entre ambas. El paso siguiente será el hacer que la información sea correcta, clara y que los datos sean consistentes con que describen y que sobre todo, mantenga un alto grado de confianza para realizar consultas complejas de la información de forma rápida y que sea capaz de reflejar todos los puntos tangibles desde un mismo ángulo (algo que no es posible de mostrar con simple query de SQL). Pero sobre todo: que estos objetivos al cumplirse, cubran por completo las necesidades del cliente. Desde el inicio se topa con una barrera de contención. Por un lado se tienen errores internos de los distintos departamentos o estructuras que se pretenden integrar, tales como reportes incompletos de los distintos departamentos (almacén, requisiciones, ventas, cartera de clientes), se suman errores de captura, y los errores en los mismos sistemas de información al momento de hacer migraciones de un sistema a otro. Página 12 En una de las empresas estratégicas más relevantes con que cuenta México, el SAT (Servicio de Administración Tributaria) no es ajeno al problema de la integración de las distintas fuentes de información con que cuenta para elaborar de manera eficiente y ágil las tareas para el cual fue encomendado. El Servicio de Administración Tributaria (SAT) es un órgano desconcentrado de la Secretaría de Hacienda y Crédito Público (SHCP) que tiene la responsabilidad de aplicar la legislación fiscal y aduanera, con el fin de que las personas físicas y morales, contribuyan proporcional y equitativamente al gasto público; de fiscalizar a los contribuyentes para que cumplan con las disposiciones tributarias; de facilitar e incentivar el cumplimiento voluntario; y, de generar y proporcionar la información necesaria para el diseño y la evaluación de la política tributaria. El SAT al tratarse de una enorme empresa de la información, no es ajena a la problemática de la integración de los distintos sistemas de información del cual se integra, aunado a esto, día a día recibe constantes modificaciones de múltiplesfuentes de información donde mantiene actualizada las base de datos de los contribuyentes; por tal motivo, la infraestructura informática del que se integra, está diseñado para que cuente con las herramientas necesarias y se tomen a nivel gerencial las decisiones oportunas y eficientes, cubriendo así un objetivo primordial: llevar acabo una correcta recaudación conforme a la ley marca en base a una eficiente industria informática. Sin embargo, la demanda de mantener por un lado actualizada la información con que cuenta el organismo y por otra, el de ampliar la base de contribuyentes en base de información pública; han hecho que día a día se implementen más y mejores métodos para cubrir los objetivos. Tanto para el SAT como a cualquier empresa dedicada al manejo de la información, es de una gran necesidad el poder tener una fuente de información confiable y flexible al momento de consultar la información para tomar decisiones, sin embargo, si esta información o datos que contiene, son inconsistentes, la fuente no será capaz de aportar la información necesaria o carecerá de veracidad, para ello, se establece que una pobre calidad de los datos (de la cual se compone la información), va en contra de la correcta administración de los recursos humanos, financieros y capitales de cualquier compañía, y que impacta los niveles de servicio y en general, reduce la eficiencia de las operaciones e impacta la credibilidad a todos los niveles de una compañía. Página 13 Calidad de Datos. Mejora y éxito en los negocios basados en información. La calidad de datos es definida como la capacidad de mantener y proporcionar información que ayude a lograr los objetivos de la empresa, sin importar la forma en como se obtiene los datos o la forma en como están almacenados. Las características de los datos con calidad son: • Asociadas con las vistas de los datos: consultas de la información • Asociadas con los valores de los datos: exactitud, consistencia y actualidad • Asociadas a la presentación de los datos: formato y facilidad de interpretación • Otras como privacidad, seguridad propiedad Existen muchas metodologías aplicables al mejoramiento a la calidad de la información, a continuación se explicará brevemente una metodología que según los expertos en la materia ha dado resultados en varios negocios: El método empleado para mejorar la Calidad en los Datos se establece como: 1. Identificar la información critica del negocio. Se define qué información es altamente sustantiva para mantener ágil la relación informativa entre los departamentos haciendo un balance entre aquella que me defina la situación actual y que se equilibre con las expectativas que se esperan obtener una vez aplicadas las mejoras. 2. Definir criterios de Calidad de datos. Es necesario contar con reglas que permitan establecer si la información es confiable o no. 3. Realizar mediciones iniciales. Este paso es un diagnóstico para medir la calidad de la información crítica definida y definir así los problemas de Calidad de Datos. 4. Generar indicadores de Calidad en información. En este paso se realizan programas que apoyen a medir periódicamente la Calidad de la Información, lo que no se puede medir no se puede administrar y no se puede mejorar. Estos medidores deben estar al alcance de las personas que serán las responsables de monitorear y mejorar la calidad de la información. 5. Definir responsables de la calidad en los datos Se debe definir un o varios responsables de cada indicador de la información determinada y se deben monitorear las tendencias del indicador y realizar planes de acción encaminados a la mejora de estos indicadores. 6. Establecer diagnósticos de la calidad en los datos. En estos diagnósticos se determinan las posibles causas de la mala calidad de Datos y se definen planes de acción con responsables para mejorar el indicador. Página 14 Entre los planes de acción normalmente se incluye el establecer controles preventivos y correctivos para la mejora de la Calidad de Datos. 7. Establecer un monitoreo de los indicadores en la calidad de la información. Es importante que los indicadores de Calidad de Datos se revisen periódicamente, asegurando su seguimiento y mejora continua. La implementación de esta metodología orientada a resolver los problemas de la Calidad de la Información, es pieza clave para la implantación de un sistema de administración de los recursos de la empresa (ERP´s) y para mejorar la toma de decisiones en cualquier organización, se encontrará que dedicar tiempo y recursos a la mejora de este importante activo tiene un alto impacto en el retorno del capital humano y financiero invertido. Método para Mejorar la Calidad de Datos Validación y Limpieza de Base de Datos, pasos óptimos para la mejora de la Calidad de Datos Para cumplir con los puntos señalados en el método para alcanzar una fuente de información con calidad, a la par que se realizan las mediciones y correcciones se deberá de contar con criterios que definan que los datos en la información son correctos o no. A este proceso es nombrado validación. La validación es un proceso usado para determinar si un dato es inexacto, incompleto o incomprensible. Dentro de las funciones que desempeña se encuentran: Identificar la información crítica del negocio Definir criterios de Calidad de Datos Realizar Mediciones Iniciales Indicadores de Calidad de Información Diagnósticos de Calidad de Datos Definir responsables de Calidad de Datos Monitoreo de Indicadores Página 15 • Localizar y obtener el acceso a los diccionarios de datos que describen el contenido de la base de datos a utilizar. Estos diccionarios pueden ser diagramas lógicos, tablas de bases de datos relacionales, hojas de cálculos o documentos de texto que contienen información sobre los siguientes puntos: o Contenido esperado de cada columna de datos. o Descripción del origen de los datos (como se obtuvieron o calcularon) o Perspectivas de evaluación y uso de los datos. • Verificar columna por columna su integridad, prestando especial atención a las siguientes cuestiones: o Porcentaje de valores perdidos. o Tipo de datos no coincidentes entre el diccionario de datos y los datos reales. o Valores no esperados de acuerdo con la definición del diccionario de datos. Por ejemplo, se supone que el sexo es H (Hombre) o M (Mujer) y los datos reales sólo contienen B y G. o Valores fuera de los límites esperados. Por ejemplo, no es nada tranquilizador encontrar en la base de datos demasiados consumidores de 150 años de edad. Una vez localizadas las inconsistencias en los datos de la información, se procede a ejecutar procesos de mejora encaminados para alcanzar los objetivos de consistencia en la información y la incorporación a modelos de integración capaz de realizar consultas con un alto grado de detalle. El proceso de Limpieza de Datos, consiste en corregir los errores en los datos que se detectaron durante el proceso de validación. Es importante que durante el proceso de limpieza no se pierdan datos o se cambie su significado, es recomendable mantener tanto el dato original como el dato procesado, ya que si ocurre un error en el proceso de limpieza, el dato original puede ser recuperado. En un proceso de Limpieza de Datos se realizan las siguientes actividades: 1. Se definen y determinan los tipos de errores 2. Se buscan e identifican ejemplos de errores 3. Se corrigen los errores 4. Se documentan los errores Los alcances para la Limpieza de Datos son: 1. Sincronización de los nombres y de las direcciones 2. Eliminación general de las duplicidades en los datos Página 16 3. Corrección de los errores o de los datos no válidos Limpieza de Datos, factor necesario para un Data Warehouse El proceso de limpieza consiste encorregir los errores en los datos que se detectaron durante el proceso de validación. Es importante que durante el proceso de limpieza no se pierdan datos o se cambie su significado, es recomendable mantener tanto el dato original como el dato procesado, ya que si ocurre un error en el proceso de limpieza, el dato original puede ser recuperado. El proceso de Limpieza de Datos se: • Define y determina los tipos de errores • Se buscan e identifican ejemplos de errores • Se corrigen los errores • Se documentan los errores Dentro de las actividades realizadas en la limpieza de datos se encuentra • Sincronización de los nombres y de las direcciones, • Eliminación general de las duplicidades en los datos. • Corrección de los errores o de los datos no válidos. Una vez que se ha implementado el mecanismo correcto para contar con una información que cumpla con los lineamientos establecidos por los procesos de Validación de la Información, es necesario establecer un mecanismo de consulta que sea capaz de cubrir los requerimientos del cliente, que sea capaz de dar las respuestas que lleven a acciones orientadas a la mejora de los objetivos planteados. Esto y más es lo que resuelve un Data Warehouse. Data warehousing es el centro de la arquitectura para los sistemas de información en la década de los '90. Soporta el procesamiento informático al proveer una plataforma sólida, a partir de los datos históricos para hacer el análisis. Facilita la integración de sistemas de aplicación no integrados. Organiza y almacena los datos que se necesitan para el procesamiento analítico, informático sobre una amplia perspectiva de tiempo. Un Data Warehouse o Depósito de Datos es una colección de datos orientado a temas, integrado, no volátil, de tiempo variante, que se usa para el soporte del proceso de toma de decisiones gerenciales. Se puede caracterizar un data warehouse haciendo un contraste de cómo los datos de un negocio almacenados en un data warehouse, difieren de los datos operacionales usados por las aplicaciones de producción. Página 17 D - I 1 D - I 2 D - I 3 DATA WAREHOUSE Infraestructura del DW Sistema de consulta: * Creíble * Orientado a Temas * Integrado * Enfoque de Negocio Información interna y externa para la toma de decisiones Base de Datos Operacional Data Warehouse Datos Operacionales Datos del negocio para Información Orientado a la aplicación Orientado al sujeto Actual Actual + histórico Detallada Detallada + más resumida Cambia continuamente Estable Diferentes tipos de información El ingreso de datos en el data warehouse viene desde el ambiente operacional en casi todos los casos. El data warehouse es siempre un almacén de datos transformados y separados físicamente de la aplicación donde se encontraron los datos en el ambiente operacional. Las características principales de un Data Warehouse se tienen que es: • Orientado al temas Una primera característica del data warehouse es que la información se clasifica en base a los aspectos que son de interés para la empresa. Siendo así, los datos tomados están en contraste con los clásicos procesos orientados a las aplicaciones. El ambiente operacional se diseña alrededor de las aplicaciones y funciones tales como préstamos, ahorros, tarjeta bancaria y depósitos para una institución financiera. Por ejemplo, una aplicación de ingreso de órdenes puede accesar a los datos sobre clientes, productos y cuentas. La base de datos combina estos elementos en una estructura que acomoda las necesidades de la aplicación. AMBIENTE OPERACIONAL Transformación de Datos a Información De los Datos al Conocimiento Página 18 En el ambiente data warehouse se organiza alrededor de sujetos tales como cliente, vendedor, producto y actividad. Por ejemplo, para un fabricante, éstos pueden ser clientes, productos, proveedores y vendedores. Para una universidad pueden ser estudiantes, clases y profesores. Para un hospital pueden ser pacientes, personal médico, medicamentos, etc. Otra diferencia importante está en la interrelación de la información. Los datos operacionales mantienen una relación continua entre dos o más tablas basadas en una regla comercial que está vigente. Las del data warehouse miden un espectro de tiempo y las relaciones encontradas en el data warehouse son muchas. Muchas de las reglas comerciales (y sus correspondientes relaciones de datos) se representan en el data warehouse, entre dos o más tablas. • Integrado El aspecto más importante del ambiente data warehouse es que la información encontrada al interior está siempre integrada. La integración de datos se muestra de muchas maneras: en convenciones de nombres consistentes, en la medida uniforme de variables, en la codificación de estructuras consistentes, en atributos físicos de los datos consistentes, fuentes múltiples y otros. • De tiempo variante Toda la información del data warehouse es requerida en algún momento. Esta característica básica de los datos en un depósito, es muy diferente de la información encontrada en el ambiente operacional. En éstos, la información se requiere al momento de acceder. En otras palabras, en el ambiente operacional, cuando se accede a una unidad de información, se espera que los valores requeridos se obtengan a partir del momento de acceso. Como la información en el data warehouse es solicitada en cualquier momento (es decir, no "ahora mismo"), los datos encontrados en el depósito se llaman de "tiempo variante". Los datos históricos son de poco uso en el procesamiento operacional. La información del depósito por el contraste, debe incluir los datos históricos para usarse en la identificación y evaluación de tendencias. • No volátil La información es útil sólo cuando es estable. Los datos operacionales cambian sobre una base momento a momento. La perspectiva más grande, esencial para el análisis y la toma de decisiones, requiere una base de datos estable. La actualización (insertar, borrar y modificar), se hace regularmente en el ambiente operacional sobre una base de registro por registro. Pero la manipulación básica de los datos que ocurre en el data warehouse es mucho más simple. Hay dos únicos tipos de operaciones: la carga inicial de datos y el acceso a los mismos. No hay actualización de datos (en el sentido general de actualización) en el depósito, como una parte normal de procesamiento. Página 19 Base de Datos Operacional Data Warehouse Uso del Data Warehose e implementación de una Limpieza de Datos Los datos operacionales y los datos del data warehouse son accesados por usuarios que usan los datos de maneras diferentes. Maneras diferentes de uso de datos Uso de Base de Datos Operacionales Uso de Data Warehouse Muchos usuarios concurrentes Pocos usuarios concurrentes Consultas predefinidas y actualizables Consultas complejas, frecuentemente no anticipadas. Cantidades pequeñas de datos detallados Cantidades grandes de datos detallados Requerimientos de respuesta inmediata Requerimientos de respuesta no críticos Los usuarios de un data warehouse necesitan acceder a los datos complejos, frecuentemente desde fuentes múltiples y de formas no predecibles. Los usuarios que acensan a los datos operacionales, comúnmente efectúan tareas predefinidas que, generalmente requieren acceso a una sola base de datos de una aplicación. Por el contrario, los usuarios que acensan al data warehouse, efectúan tareas que requieren acceso a un conjunto de datos desde fuentes múltiples y frecuentemente no son predecibles. Lo único que se conoce (si es modelada correctamente) es el conjunto inicial de datos que se han establecido en el depósito. Los datos de entrada que residen en la entrada de la información requerida por el Data Warehouse, requieren ser estandarizados e higienizados. y en su momento generar antesde hacer entrar esta información, es conveniente generar grupos de reporte que determinen las relaciones entre registros. Esto es lo que cumplen los procesos de Limpieza de Datos, que además de higienizar, estandarizar y hacer cruces de información para encontrar relaciones entre registros de distintas Bases de Datos; cumple con los lineamientos de una Calidad de la Información para posteriormente integrar la información a un sistema diversificado a temas y a consultas que no estén definidas, que sean de una gran complejidad de La Base de Datos es actualizada registro por registro: inserta, remplaza, cambia, etc. Los datos de entrada son cargados en el depósito de datos y es acezada allí, pero una vez hecha la carga de la información, los datos en el depósito no cambian. Página 20 detalle y ante todo cubra las expectativas del cliente trasladando la información finalmente a un ambiente de consulta al alcance de la mano y confiable. Double-click here and type notes. Title Double-click to type notes. Subselect "Title" to edit the title. Data Warehouse Base de Datos Integradora Limpieza de Datos Esquema conceptual de la relación entre un Data Warehouse y una Limpieza Base de Datos ¿Por qué limpiar una base de datos? La Limpieza de bases de Datos surge en respuesta al cumplimiento con los lineamientos establecidos para una óptima Calidad de Datos o calidad de la información. Lo anterior se resuelve por medio del establecimiento de parámetros o reglas para determinar si un dato es válido o no, y se ejecutan estrategias para hacer cumplir los requerimientos acordados y que impacte en elaborar una correcta limpieza de datos o higienización de datos. Una vez que la información de salida fue validada por medio de procesos de calidad, se homogeniza la información respecto a su contenido y a diccionarios proporcionados por el cliente, para elaborar la estandarización de la información y lograr la homogeneidad no alcanzada por la higiene de datos. Posteriormente se buscan relaciones de registros entre distintas bases de datos (fuentes de información) que cumplan con parte o la totalidad de la estructura en cuanto a las tablas relacionadas (nombre con nombre, calle con calle, colonia con colonia, etc.), con el fin de verificar qué registros guardan una relación de coincidencia, este proceso es llamado cruce de información. Sin la higienización y estandarización no se pueden llevar a cabo una corecto cruce de información dado que el porcentaje de registros relacionados carecería de buenos resultados. El cruce de información suele ser una necesidad, por ejemplo, es el caso de México, que carece de un identificador único de cada una de las personas que se encuentran registradas en cualquier padrón público o privado, por lo que se tienen que buscar las coincidencias en los datos de los registros que guardan distintas bases, Información de original Sistema de consulta Página 21 para ubicar que se está hablando de un mismo dato en fuentes de información distintas. Posteriormente, se incorpora la información estandarizada a un Data Warehouse, que resuelve complejos modelos de consulta de información orientado a temas y a proporcionar de manera global, las respuestas necesarias al cliente para la toma de decisiones en una empresa. El camino de la limpieza, estandarización y cruce de información para la implementación a modelos de consulta avanzados: Data Warehouse. Base de Datos Operacion al Data Warehouse Se recibe la información de distintas fuentes y con estructuras cada una diferentes (abreviaturas, puntuación, errores de ortografía, total de registros, la distribución en columnas, etc.). La información es analizada y preparada para su corrección según lo establecido por los lineamientos acordados por parte del cliente y el responsable de la calidad de la información Se procesan los datos de la inforación y se obtiene de cada fuente, para obtener una estructura uniforme con cada uno de sus elementos identificados, desduplicados y estandarizados. Se buscan relaciones entre las fuentes (cruce de información, para que el cliente tome sus desiciones con esta información. La información es montada en la estructura de un Data Warehouse para una óptima explotación de la información higienizada, estandarizaday relacionada (cruce de Página 22 CAPITULO 2 APLICACIONES EMPLEADAS PARA EL PROCESO DE LIMPIEZA DE DATOS, ESTANDARIZACIÓN Y CRUCE Página 23 CAPITULO 2. Aplicaciones empleadas para el proceso de limpieza de datos, estandarización y cruce Para implementar las labores de limpieza es necesario contar con las herramientas adecuadas para llevar a cabo la tarea de limpieza de datos. Antes de describir las aplicaciones que actualmente se emplean por el departamento de limpieza de datos, se mencionará que no existe un camino único para realizar este trabajo, por decir, igual se puede emplear programación por decir Basic o Java, herramientas que todos conocemos como Excel, Access, pero lo que no se podrá garantizar serán dos cosas: el tiempo de respuesta y la posibilidad de ejecutar nuevamente el proceso con distintos datos pero con las mismas características en el menor tiempo posible. Actualmente se alcanzan esos objetivos en su totalidad. Para empezar será necesario hacer una división de las aplicaciones en base a las tareas que desempeñan, estas tareas son: 1. Repositorio de la información de entrada / salida a. SQL Server 2. Diagnóstico y preparación de la información de entrada / salida a. TS Discovery b. SQL Server c. Aplicaciones desarrolladas por el departamento 3. Higienización y estandarización de elementos de la BD de entrada a. Aplicaciones desarrolladas por el departamento b. Trillium Software System c. SQL Server d. MS Access e. MS Excel f. UltraEdit 4. Estandarización por catálogos de la información limpia a. Omikron AdressCenter b. MS Access c. SQL Server 5. Cruce de información de la BD limpia a. Omikron AdressCenter b. MS Access c. SQL Server Cabe mencionar que una o varias herramientas pueden ser utilizadas en forma individual o conjunta para atacar una misma tarea. Lo mismo es convertir a caracteres mayúsculas determinada parte de la información utilizando SQL, de forma más manual con Access o Excel, o el mismo manejador de textos. Lo que se pretende Página 24 buscar es alcanzar un desempeño preciso, rápido y que sea capaz de repetirse en el menor tiempo posible. Existen circunstancias en las cuales van de la mano entre la elección de una u otra aplicación, y esto se rige según el tamaño de información que se está trabajando y la tarea que se pretende desempeñar en su momento. Por ejemplo: si pretendo agregar un número determinado de columnas a una base de 20 registros, no emplearé un motor de base de datos como SQL, pero será óptimo su uso en el caso que fueran millones de registros. Por tal motivo, este tipo de decisiones se derivan en base al requerimiento de la tarea y a la capacidad de la aplicación. A continuación se describirán las herramientas necesarias para llevar a cabo los procesos de Limpieza de Datos y Cruce de Información: SQL Server Structured Query Language Server no es más que un lenguaje estándar de comunicación con bases de datos. Se trata de un lenguaje normalizado que permite trabajar con cualquier tipo de lenguaje (ASP o PHP) en combinación con cualquier tipo de base de datos (MS Access, SQL Server, MySQL...). El hecho de que sea estándar no quiere decir que sea idéntico para cada base de datos. En efecto, determinadas bases de datos implementan funciones específicas que no tienen necesariamente que funcionar en otras. Aparte de esta universalidad, el SQL Server posee otras dos características muy apreciadas. Por una parte, presenta una potencia y versatilidad notables que contrastadado que a diferencia de otros manejadores de BD se limitan en cuanto al tamaño y otra característica es el tiempo de respuesta que toma el ejecutar una tarea, por otra, con su accesibilidad de aprendizaje. Funciones características que son aplicadas para el proceso de Limpieza de Datos: • Importa / exporta la fuente de información • Prepara la información de entrada para empezar a higienizas la información de entrada • Repositorio de información: almacena las BD de entrada (no procesados) y las que fueron procesadas Página 25 TS Discovery Trillium Software Discovery es una aplicación que componen a la suite de Trillium Software Data Quality y está diseñada para que, de manera conjunta, brinden las capacidades necesarias para lograr una estrategia de Calidad de Datos que responda a los requerimientos corporativos de forma satisfactoria. Antes de que se puedan mejorar los datos, se deben entender, tanto en lo que contienen como en lo que no. En esta etapa es posible apoyarse en la herramienta TS Discovery para poder localizar elementos como los siguientes: • Frecuencia de ocurrencias en un campo, incluyendo espacios y ceros. • Mascarillas de los datos en un campo, tales como xxx-xxx-xxxx para un número telefónico. • Registros Únicos. Número de registros no duplicados. • Patrones. Número de patrones que se pueden aplicar al campo. • Longitud Máxima. Lo máximo que puede medir el campo. • Longitud Mínima. Lo mínimo que puede medir el campo. • Nulos. Número de registros nulos. • Tipo. Tipo de dato: numérico, cadena, decimales, etc. • Cadenas Únicas. Número de registros cuyo contenido no se duplica. • Enteros Únicos. Número de registros que sólo son enteros. • Metaphones. Número de registros que tienen sonidos similares. Página 26 MS Access Microsoft Office Access es un programa de administración de bases de datos que proporciona una experiencia amable al usuario, así como la capacidad para importar y exportar archivos de datos en diferentes modalidades (txt, xml, html, etc), y trabajar con los mismos. Funciones características que son aplicadas para el proceso de Limpie.za de Datos: • Importa / exporta la fuente de información. • Prepara la información de entrada para empezar a higienizas la información de entrada (aplicado a fuentes de información cuyo tamaño sea de un tamaño que no limite los recursos de la aplicación y el ambiente de trabajo). • Otorga un mantenimiento asistido de la información que procede de la salida de los procesos de Calidad de Datos que otorga la aplicación Trillium Software System. • Sirve como medio para revisar la información en base a Consultas de Selección y tomar decisiones correctivas a los procesos Limpieza de Datos • Auxiliar para generar las BD entregables al cliente con las reglas de negocio de limpieza de datos acordadas y con el formato e índices solicitados. • Empleando consultas de actualización permite al usuario construir los módulos requeridos por los módulos de trabajo de los procesos de Trillium Software System. Página 27 MS Excel Microsoft Office Excel es un programa del tipo Hoja de Cálculo que permite realizar múltiples acciones en base a fórmulas con datos organizados en una cuadrícula. Funciones características que son aplicadas para el proceso de Limpie.za de Datos: • Auxiliar para el manejo de la información en cualquier nivel de trabajo, empleando filtros de consulta principalmente • Con el manejo de fórmulas, es posible construir los módulos de trabajo del proceso de Limpieza de Datos que requiere la aplicación Trillium Software System UltraEdit Página 28 UltraEdit es un editor de textos dinámico. Puede editar varios archivos a la vez de tamaño ilimitado y permite hacer cosas como el "reemplazar" de un texto en todo un conjunto de archivos. Estas ventajas sobrepasan las características que puede entregar el Notepad de Windows. Funciones características que son aplicadas para el proceso de Limpie.za de Datos: • Auxiliar para el manejo de la información en formato plano en cualquier nivel de trabajo (txt, html, xml, Java, bat, etc.), empleando métodos de búsqueda avanzados que aporta la herramienta principalmente • Visualización simultánea de los archivos de trabajo de la aplicación Trillium Software System. Omikron AdressCenter Es una aplicación que realiza búsquedas de coincidencias entre fuentes de información, sean exactas o en base a los criterios de búsqueda establecidos, genera aproximaciones porcentuales entre uno o varios elementos de Tablas de de una Base de Datos. Funciones características que son aplicadas para el proceso de Limpie.za de Datos: • Estandarización de columnas. Ayuda a generar una columna de información alterna en base a otra definida como Tabla Base, donde completa o corrige aquellos valores identificados como coincidentes. Por ejemplo, MARRIA por MARIA, GRAL ANAYA por GENERAL ANAYA. • Generación de Cruces de Información. Al igual que la forma de trabajo que la estandarización, esta aplicación permite generar una matriz de trabajo Página 29 en donde puede calificar la información en base a las distintas aproximaciones pero en esta ocasión lo hará entre las distintas Bases de Datos. Con esto es posible encontrar coincidencias entre las BD y poder determinar si existen relaciones entre los registros. Por ejemplo, mismo nombre, misma dirección en dos bases de datos distintas. Aplicaciones desarrolladas por el departamento de Limpieza de Datos En base a la necesidad de contar con herramientas que ayuden al rendimiento u optimización del trabajo en cualquiera de las fases de trabajo de la Limpieza de Datos, se desarrollaron dos aplicaciones: • Analizador de Símbolos. Esta aplicación genera búsqueda y frecuencias de los caracteres distintos a letras (A – Z) y números (0 – 9), para después determinar en base a las Reglas de Negocio establecidas para la higienización de los datos. Permite que la búsqueda se en base a una Base de Datos de SQL Server, MS Access u Trillium. Página 30 • Generador de Muestras. Permite generar una muestra de una tabla determinada de una Base de Datos en formato de MS Access. De entrada, en esta aplicación se indica el número total de registros, en base a esto, construye una nueva tabla empleando aproximaciones matemáticas definidas que sean capaces de entregar como producto final, los registros verdaderamente representativos del total de la Base de Datos. El resultado es revisado minuciosamente para poder calificar el trabajo de salida de la higienización de la información, esto con el fin de poder hacer las correcciones. • Página de construcción de módulos de higiene de caracteres. Una vez detectados los caracteres no válidos para la Base de Datos final, se analizan previamente qué caracteres son aptos para ser alterados y construir así, mediante esta página Web, el módulo del proyecto de Limpieza de Datos que permita llevar a cabo estas acciones. Página 31 Trillium Software System Trillium Software System es una aplicación que compone a la suite de Trillium Software Data Quality, y está diseñada para otorgar una metodología de Calidad de Datos. Dentro de las funciones que reúne esta aplicación, para la implementación de proyectos de Higienización y Estandarización de la información, su trabajo es basado en módulos donde se realizan procesos de ejecución con los parámetros determinados, se describen a continuación los procesos o módulos que intervienen: • Tudelim. Se emplea para convertir archivos de texto plano con delimitador de columnas por un caracter (ya sea un tabulador, una coma, o pipes (|), etc) a Página 32 una archivo de texto plano de ancho fijo determinado por un diccionario de datos. • Tumdelim. Este móduloconvierte la información de entrada que es de formato plano de ancho fijo determinado por un diccionario de datos, a un archivo de texto plano con delimitador de columnas por un caracter (tabulador, coma, pipe (|), etc.). • Converter. Este módulo puede altera los registros en base a los parámetros y líneas de búsqueda de contenido definidos. Hace acciones como: modificar el contenido de los registros, desplazar datos en distintas columnas, justificar los espacios, entre otras. • Parser. Una vez que los datos fueron preparados por uno o varios módulos de converter, ingresan al proceso de Parser, el cual identifica los términos y patrones correspondientes de los valores de campo de trabajo, es decir, califica el destino de la información presentada para ser depositada en los distintos campos que cuente. Para hacer eso posible, por un lado, la herramienta necesita del trabajo entregado por el módulo de Tabla de Mantenimiento, y por otro, los patrones identificados por la herramienta Parser Tuner. • Tabla de Mantenimiento. Esta herramienta transforma dos archivos que tiene a la entrada en otros dos que alimenta de información al módulo Parser. Uno de los archivos de entrada es el catálogo de frases a identificar, donde puede ser que cuente con información de nombres de calles, colonias, apellidos y nombres de personas. El otro archivo de entrada son los patrones de comportamiento identificados por la herramienta Parser Tuner. • Reconstructor. Este módulo es una utilidad para alterar la información que a diferencia del módulo Converter, su trabajo es dinámico en función que las acciones están determinadas por un archivo de texto plano llamado rule, y permite a través de su propio lenguaje de programación, hacer un sin fin de acciones, que a diferencia del módulo Converter, simplifica varios eventos en un solo paso. • Utcopy. Es una utilidad copiadora de archivos en base a un criterio de selección de valores que tenga que identificar en una de las columnas mencionadas. La lógica que emplea (igual, menor, mayor que, etc.) puede ser comparada con valores absolutos que sean comparados con una columna determinada y dividir la información de entrada distintos archivos de salida. • Pfsort. Este paso se emplea cuando es requerido un ordenamiento de los registros de la información en base a una columna, ya sea ascendente (A–Z) o descendente (Z-A). Página 33 Dentro de las herramientas de trabajo que cuenta trillium, cuenta con otras que ayudan al análisis, construcción y/o transformación. Estas herramientas son como a continuación se describen: • DDL Editor. Es el editor de diccionarios para archivos de texto plano de ancho definido. En este son mencionados los nombres de las distintas columnas que cuenta el archivo así como el tipo de información (ASCII character, ASCII numeric,etc.), la posición de inicio y el ancho de columna. • Data Browser. Es un visualizador de archivos de formato plano de ancho fijo determinados por un diccionario de datos (DDL). Y entre sus herramientas que presenta, puede filtrar información o exportar ésta a otro formato de texto plano separados por un caracter. Página 34 • Parser Tuner. Es una herramienta que muestra la información contenida en una de las columnas de la Tabla de la base de datos y sirve para generar los patrones de comportamiento en base a que presenta la información de forma agrupada de acuerdo al contenido y estructura de la información. Como resultado se obtiene un archivo de patrones que es parte de uno de los archivos de entrada del módulo Tabla de Mantenimiento. Una de las herramientas que presenta es Tucnvtab, el cual convierte de Tabla de Definiciones a un archivo de MS Excel, o bien, en sentido contrario. Esto ayuda en gran medida para el análisis de los distintos argumentos que se puede contar, dado que su contenido puede alcanzar varios millares de líneas. Página 35 CAPITULO 3 METODOLOGIA EMPLEADA EN EL PROCESO DE LIMPIEZA DE BASE DE DATOS, ESTANDARIZACIÓN Y CRUCE DE INFORMACIÓN Página 36 CAPITULO 3. Metodología empleada en el proceso de Limpieza de Base de Datos, Estandarización y Cruce de Información El Sistema de Administración Tributaria (SAT), dentro de la administración de transformación y consistencia de base de datos, realiza la integración de la información basadas en un Data Warehouse. Por tal motivo, y como necesidad de operación de integrar la nueva información (información de entrada) a la estructura actual de información, se establece el departamento de Limpieza de base de datos, el cual basa sus esfuerzos por obtener calidad en los datos en base a reglas establecidas por los clientes; para ello ejecuta procesos de limpieza de bases de datos, estandarización y cruces de información. En el siguiente apartado se darán a conocer los pasos a seguir en cumplimiento a los alcances de una Calidad de datos. Así mismo, se describirán los tecnicismos propios del departamento de Limpieza de Base de Datos. Los objetivos de una limpieza de datos se dividen en cuatro fases, las cuales son: 1. Investigación - Permite determinar el grado de ajuste que tiene la información disponible en la organización respecto a las reglas de negocio, dentro de los límites y requerimientos que la misma organización considere aceptables. 2. Higienización - Su objeto es identificar, verificar y normalizar todos los datos que ingresan al área de limpieza de datos, de cualquiera de las entidades e instituciones que la proporcionen. 3. Estandarización - Aprovecha información de fuentes externas (catálogos) para corregir y mejorar los datos de las fuentes. 4. Detección de relaciones - Identifica y reúne registros pertenecientes a distintas entidades y fuentes por nombres y direcciones. Además localiza registros similares, a través de métodos de agrupación complejos. Para que el cumplimiento de estos objetivos, se emplean la siguiente metodología: 1. Recepción de fuente • Almacenar en disco. Se almacena la información en un repositorio de información con una estructura de carpetas bien identificada para un rápido acceso a ellas. • Análisis de metadatos. Se realiza un análisis de las variables de la fuente de datos, para determinar cuales serán trabajadas. • Conteo de registros. Para fines estadísticos, estimaciones de tiempos, determinar tamaños de muestra, detectar registros duplicados. Página 37 • Generación de llave primaria. Los registros deben contar con un identificador único, esto tiene dos usos: primero, los datos que no tienen utilidad en los procesos de limpieza son separados pero deben ser regresados después de procesada la información); segundo, hacer comparativos entre la fuente original y la fuente procesada. • Análisis preeliminar. Con base a la experiencia y a un análisis primario de las variables a trabajar se verifica la integridad de los datos a procesar, se proponen los módulos de limpieza que mejor se ajustan a la fuente, se calcula el espacio de almacenamiento requerido para trabajar la fuente y estiman tiempos de proceso para la misma. • Reporte de la información recibida. El análisis preeliminar permite la generación de un reporte con los siguientes elementos: o Fecha y Hora. La fecha y la hora de la recepción de la fuente. o Registros. Total de registros de la fuente; si es posible detectar duplicados también se reporta. o Variables. Las variables que se usarán durante los procesos de limpieza, detallando el estado de cada variable; así como información adicional que contenga la fuente, que aunque no serán usados en los procesos de higiene serán reportados. o Observaciones del análisis preeliminar. Comentarios relevantes sobre el estado de la fuente recibida. o Tiempos de proceso. Con base al número de registros, y la integridad delos datos, el estado de las variables y el análisis preeliminar, se obtiene una propuesta de los tiempos de proceso y entrega. 2. Análisis de variables • Generación de frecuencias. La generación de frecuencias permite la identificación de caracteres no válidos y de abreviaturas; dependiendo la complejidad de cada variable se determina la carga de trabajo. Se cuenta con parámetros de corrección de caracteres y abreviaturas, sin embargo este análisis permite determinar que caracteres deben sustituirse o borrarse, y debido a que no todas las fuentes son iguales, no siempre se sustituyen algunos caracteres o abreviaturas. La generación de frecuencias se realiza con máscara (identificando letras, número y caracteres especiales). • Generación de muestra. Por cada variable se genera una muestra y se realiza un análisis más extenso que el preeliminar para determinar la integridad de la información, los patrones de comportamiento de la información y si de los módulos existentes se puede aplicar alguno o algunos o es necesario desarrollar uno que se ajuste a las necesidades de la información. Página 38 • Ejecutar los procesos de higiene. De acuerdo con los modelos de datos existentes. Tomar los módulos de limpieza que mejor se ajusten a la información y ejecutar los procesos. • Generar modelos de datos que no existen para las variables analizadas. La generación de frecuencias, el análisis de la información, así como el análisis de los datos de las distintas variables, para que permitan la generación de nuevos modelos de datos y que puedan ser utilizados por fuentes similares en el futuro. 3. Tipificar variables • Identificar que módulos de procesamiento son adecuados para la fuente. Una vez analizada la información se procede a aplicar el módulo que mejor ajustó a la fuente, los converter* que se ejecuten generan estadísticas sobre los registros procesados, de esta forma los registros que no fueron procesados son separados y son asistidos fuera de los procesos de Trillium. • Tipificar Nombres, Apellidos, Calles, Colonias, y Datos Varios†. Los catálogos de abreviaturas de las distintas variables son actualizados. • Identificar patrones. El análisis de las variables, permite detectar que patrones (para nombres o domicilios) pueden ser aplicados en la fuente, ya que no todos los patrones son válidos para todas las fuentes. • Adaptación de los módulos. Proponer módulos o mejoras en los mismos de acuerdo al análisis de las variables. Generalizar los módulos para que puedan ser aplicados a la mayoría de las fuentes. 4. Investigación • Búsqueda de rutinas para la mejora de tiempos y procesos. Un módulo siempre se puede mejorar para agilizar tiempos o la calidad de la limpieza, es necesario investigar el uso de la herramienta o el proceso en sí para que dicha mejora sea real. • Actualizar herramientas de trabajo. En el mercado siempre hay herramientas que son unas más apropiadas que otras, según el trabajo requerido, estar al día sobre este tipo de noticias es importante. La actualización de versiones o parches sobre la herramienta que se usa también es importante. * Es importante mencionar que los converter (módulos de higiene) son para cada variable, esto es: Nombre, Apellidos, Calle, Número Exterior, Número Interior, Colonia, etc. † Datos Varios: Información que permite la clasificación e identificación de otras variables; ejemplos de este tipo de información son: Domicilio Conocido, Calificador de Número (#, N°, NUM, SN, etc.), Referencias (EN FRENTE DE, ATRÁS DE, ESQUINA CON, etc.). Página 39 • Datos de cada fuente. Algunas fuentes de información tienen datos que no son útiles para el fin de la higiene y el cruce, pero considerando las metas a nivel institucional, es útil saber con que tipo de información extra se cuenta en la fuente. • Reglas de negocio. Las reglas de negocio para la estandarización, la homologación y/o el cruce no siempre son las mismas o pueden cambiar (que vá según lo acordado con el cliente y con la estructura de la información presentada en la propia base de datos), mantenerse al día sobre los requerimientos de los datos es necesario, ya que son importante modificaciones en la mayoría de los módulos. 5. Entrega del producto final • Validación por el departamento de calidad. Se realiza un análisis exhaustivo de la información procesada contra la original para detectar fallas en los procesos y aplicar los correctivos pertinentes. • Base de datos entregable. Se arma una estructura de base con dos tablas, una que es la totalmente original, y otra tabla que contenga la base original más la procesada. • Diccionario de datos. Se describe mediante un documento las características y descripción de cada columna de la tabla de datos que contiene los originales mas los procesados. • El reporte fina. El reporte final debe contener lo siguiente: Fecha de recepción de la información. Fecha de entrega de la información. Total de registros. Total de registros procesados. Total de registros con Calle estandarizada. Total de registros con Colonia estandarizada. Total de registros con Nombre (o razón social) y apellidos higienizados. Total de actualizaciones al catálogo de Calles y Colonias. Total de actualizaciones al catálogo de Nombres. Total de actualizaciones al catálogo de patrones de Domicilios. Total de actualizaciones al catálogo de patrones de Nombres. Total de registros cruzados contra otra fuente de información. Página 40 Premisas del procedimiento general de higiene para una fuente de información El procedimiento global requerido para una fuente de información recibida, deberá de cumplir con los siguientes requisitos generales: Higiene de Nombre: • Corrección de Caracteres Nombre (o Razón Social) • Corrección de Caracteres Apellido Paterno • Corrección de Caracteres Apellido Materno • Expansión de Abreviaturas Nombre • Expansión de Abreviaturas Apellido Paterno • Expansión de Abreviaturas Apellido Materno • Identificar tipo de persona (Física o Moral) • Tipo de sociedad (aplica solamente para Personas Morales) • Nombre segmentado (en nombre, apellido paterno, apellido materno y tipo de sociedad). Higiene de Domicilio Básica (Necesaria para un cruce de información) • Corrección de Caracteres Calle • Corrección de Caracteres Colonia • Corrección de Caracteres Número Exterior • Expansión de Abreviaturas Calle (incluye corrección y extracción de frases como: DOMICILIO CONOCIDO, SIN CALLE, etc) • Expansión de Abreviaturas Colonia (incluye corrección y extracción de leyendas como: SIN COLONIA, SIN ASIGNAR, etc) • Separa Asentamiento • Separa Vialidad • Segmentar LOTE, MANZANA, EDIFCIO, LOCAL, etc • Información segmentada (parser) • Corregir Número Exterior (únicamente valores numéricos en el campo de Número Exterior) Higiene de Domicilio Estándar (No necesaria para un cruce de información) • Los mismos procesos que la Higiene de Domicilio Básica • Segmenta Referencia (no aplica para todas las fuentes; pone la información correspondiente en Calle1, Calle2 y Referencia) • Corrección de Caracteres Referencia • Corrección de Caracteres Calle1 • Corrección de Caracteres Calle2 • Expansión de Abreviaturas Calle1 • Expansión de Abreviaturas Calle2 • Separa Vialidad1 • Separa Vialidad2 Página 41 • Corrección de Caracteres CP • Corrección de CP • Corrección de Caracteres Teléfono • Corrección de Teléfono • Higienización de caracteres no válidos por las reglas de negocio, en el resto de los campos que contenga la fuente de información (fechas, e-mail, número de empleados, ganancias, etc). Clasificación de registros Debido a la diversidad de procesos necesarios para la higiene de un registro, se debe hacer la distinción entre Registro Higienizado, Registro Procesado y Registro Afectado.Registro Procesado Aquel registro que entró al proceso global de higiene independientemente de si fue afectado por alguno de los procesos individuales o si fue higienizado. Registro Afectado Aquel registro que entró al proceso global de higiene y que por lo menos fue “afectado” por alguno de los procesos individuales de higiene, ejemplos: Información Original: nombre ap_paterno ap_materno ELENA MARTZ LPZ Información Afectada por un proceso: nombre ap_paterno ap_materno ELENA MARTINEZ LPZ nombre ap_paterno ap_materno ELENA MARTINEZ LOPEZ Información Afectada por 2 procesos: nombre ap_paterno ap_materno ELENA MARTINEZ LOPEZ Información Original: Página 42 calle CALZ E. IZTAPALAPA #25 ESQ B. JUAREZ LTE 17 MZA 242 AMPL HEROES DE LA INDEP. A LADO DE IMSS NO. 196 Información Afectada por un proceso: calle CALZ ERMITA IZTAPALAPA #25 ESQ B. JUAREZ LTE 17 MZA 242 AMPL HEROES DE LA INDEP. A LADO DE IMSS NO. 196 calle CALZ ERMITA IZTAPALAPA #25 ESQ BENITO JUAREZ LTE 17 MZA 242 AMPL HEROES DE LA INDEP. A LADO DE IMSS NO. 196 Información Afectada por 2 procesos: calle no_exterior_alfa CALZ ERMITA IZTAPALAPA #25 ESQ BENITO JUAREZ AMPL HEROES DE LA INDEP. A LADO DE IMSS NO. 196 LOTE 17 MANZANA 242 Registro Higienizado Aquel registro que entró al proceso global de higiene y que en la medida que cumpla con las reglas de negocio acordadas, puede ser considerado como un registro higienizado. Página 43 Reglas de negocio para la higienización de una fuente de información Nombre del campo: tipo Descripción del campo: Contiene la información con respecto al tipo de persona física y moral asignada al nombre de cada registro. Reglas de negocio: Se escribe en la columna “tipo” la variable correspondiente cuando cumpla con la correspondiente descripción: Variable Descripción M Indica que se trata de una Persona Moral F Indica que se trata de una Persona Física I Indica que la información que presenta es una inconsistencia, ya que carece de elementos para determinar si es una persona física o moral NS Indica que el registro no se procesó Nombre del campo: tipo_soc Descripción del campo: Contiene la información con respecto al tipo de sociedad asignada a cada persona moral. Reglas de negocio: • Los registros deben ser en letra mayúscula y sin palabras acentuadas. • Este campo debe contener la información del tipo de sociedad de la persona moral. • No debe contener caracteres especiales (.,-()[]´°!”#$%&/()=?¡) etc. La siguiente tabla presenta algunos casos representativos de los tipos de sociedad: tipo_soc Descripción A C Asociación Civil S C Sociedad Civil S N C Sociedad en Nombre Colectivo S EN C Comandita Simple S EN C POR A Comandita por Acciones S A Sociedad Anónima S DE R L Sociedad de Responsabilidad Limitada SC Sociedad Cooperativa A P Asociación en Participación S M S V D Sociedad Mutualista de Seguros de Vida o de Daños Página 44 S DE R L DE I P Sociedad de Responsabilidad Limitada de Interés Público SNC Sociedad Nacional de Crédito y/o Institución de Banca de Desarrollo tipo_soc Descripción I B M Institución de Banca Múltiple S I Sociedades de Inversión A F Agrupaciones Financieras SOFOL Sociedad Financiera de Objeto Limitado AFORE Administradoras de Fondos para el Retiro SIEFORE Sociedades de Inversión Especializada de Fondos para el Retiro S DE R L MI Sociedad de Responsabilidad Limitada Microindustrial S DE S S Sociedad de Solidaridad Social O A C Organizaciones Auxiliares del Crédito ARIC Asociaciones Rurales de Interés Colectivo SPR Sociedades de Producción Rural Nombre del campo: nombre Descripción del campo: Contiene la información con respecto al nombre o nombres, así como la razón social asignadas a cada persona física o moral. Reglas de negocio: • Los registros deben ser en letra mayúscula y sin palabras acentuadas. • Este campo debe contener la información del nombre ó nombres de la persona física o moral. • No debe contener caracteres especiales (.,-()[]´°!”#$%&/()=?¡) etc. Para el caso del ampersan (&) es válido siempre y cuando se refiera a Personas Morales. Nombre del campo: ap_paterno Descripción del campo: Contiene la información referente al apellido paterno de cada persona física. Reglas de negocio: • Los registros deben ser en letra mayúscula y sin palabras acentuadas. • No debe contener caracteres especiales (.,-()[]´°!”#$%&/()=?¡) etc. Nombre del campo: ap_materno Descripción del campo: Contiene la información referente al apellido materno de cada persona física. Página 45 Reglas de negocio: • Los registros deben ser en letra mayúscula y sin palabras acentuadas. • No debe contener caracteres especiales (.,-()[]´°!”#$%&/()=?¡) etc. Nombre del campo: vialidad Descripción del campo: este campo debe contener el tipo de vialidad que es la correspondiente al campo “calle”, como a continuación se muestra TIPO DE VIALIDAD AUTOPISTA CERRADA ANDADOR CORREDOR AVENIDA PRIVADA BOULEVARD PROLONGACION CIRCUNVALACION CAMINO* LIBRAMIENTO CARRETERA PASAJE CIRCUITO CALLE DIAGONAL CALLEJON RETORNO CALZADA VEREDA * Referente a “camino”, verificar como aparece en la información y como esta designado en los catálogos Reglas de negocio: • En este campo solo debe presentar el tipo de vialidad, no debe estar acompañado del nombre de la calle. • No debe contener caracteres especiales (.,-()[]´°!”#$%&/()=?¡) etc. Nombre del campo: calle Descripción del campo: Nombre propio asignado a la vialidad para su identificación, dado por la autoridad o la costumbre, este campo debe contener el nombre de la calle o el espacio transitable donde esta la ubicación física de las personas físicas y morales. Reglas de negocio: • Este campo solo debe contener el nombre de la calle. • No debe contener caracteres especiales (.,-()[]´°!”#$%&/()=?¡) etc. • Si el campo contiene la leyenda de “domicilio conocido”, esta se debe eliminar. Nombre del campo: xcalle Página 46 Descripción del campo: Este campo contiene información de la calle estandarizada. Reglas de negocio: • No debe contener caracteres especiales (.,-()[]´°!”#$%&/()=?¡) etc. • Este campo debe contener información que corresponda a la estandarización del campo calle. El campo puede contener valores nulos. Nombre del campo: fcalle Descripción del campo: La información que contiene este campo es la integración entre los campos calle y xcalle. Reglas de negocio: • No debe contener caracteres especiales (.,-()[]´°!”#$%&/()=?¡) etc. • Este campo debe contener información que corresponda exactamente igual al campo xcalle y en vez de contener valores nulos fcalle, estos son llenados con la información del campo calle. Nombre del campo: no_exterior Descripción del campo: Número que identifica el predio en una vialidad debe contener solo valores numéricos, los cuales indican el número exterior del bien inmueble en el cual esta localizada la persona ya sea física o moral. Reglas de negocio: • Este campo solo debe contener valores numéricos. • No debe contener caracteres especiales (.,-()[]´°!”#$%&/()=?¡) etc. Nombre del campo: no_exterior_alfa Descripción del campo: Este espacio comprende los números y/o letras que acompañen o complementen a la información del campo “número exterior”. Reglas de negocio: • No debe contener caracteres especiales (.,-()[]´°!”#$%&/()=?¡) etc. Página 47 • Este campo debe contener valores alfanuméricos que son el complemento de número exterior y los casos son los siguientes: Concepto Descripción Justificación Km Se refiere a un determinado número de kilómetros en donde se encuentra la ubicación de alguna persona ya sea física o moral en un tramo especifico ya se de algunavialidad o carretera. Ya que no es un número exterior exacto, sino una aproximación ó referencia del lugar donde se encuentra físicamente el contribuyente Lote Se refiere al espacio geográfico con superficie variable, y esta conformado por una o varias viviendas. Dado que es un espacio geográfico, no se define con exactitud su núm. Exterior, por lo que la información es asignada al campo no_exterior_alfa Manzana Espacio geográfico de superficie variable, que puede estar conformado por una o más viviendas, industrias, comercios, servicios o lotes baldíos. Es considerada como un espacio geográfico con superficie variable conformado por varias viviendas, por lo que la información es asignada al campo no_exterior_alfa Bis Se considera como "dos veces" en el número exterior de casa, establecimientos, locales, departamentos, módulos, etc.., es decir que es añadido a cualquier número entero; como consecuencia indica que tal número se ha repetido por segunda vez. No es tomado como número exterior, ya que las reglas de negocio indican que en el campo "no_exterior", deben ir solamente caracteres numéricos y este funciona como complemento de este ya que los caracteres son alfanuméricos. Nombre del campo: no_interior Descripción del campo: Este campo contiene información complementaria de los campos “no _ exterior” y “no_exterior_alfa”; se refiere a los distintos conceptos referentes a viviendas interiores, departamentos, oficinas, locales, etc.. Reglas de negocio: • No debe contener caracteres especiales (.,-()[]´°!”#$%&/()=?¡) etc. • Este campo debe contener valores alfanuméricos que son el complemento de los campos “no _ exterior” y “no_exterior_alfa” y los casos son los siguientes: Página 48 Concepto Descripción Justificación Despacho Habitación o conjunto de salas destinadas al estudio, a ciertos trabajos intelectuales o a recibir clientes o personas con las que se tratan los negocios Por lo que es un espacio interior dentro de otro y complementa en la ubicación con respecto al campo “no_exterior” y “no_exterior_alfa” Departamento Vivienda de pequeñas dimensiones, que consta de una o dos habitaciones, con una cocina y un cuarto de baño pequeños, y que generalmente está situada en un edificio en el que hay otras similares Por lo que es un espacio interior dentro de otro y complementa en la ubicación con respecto al campo “no_exterior” y “no_exterior_alfa” Interior Se define como parte de dentro de una cosa, de un edificio o de sus dependencias, que puede fungir como establecimiento, local, vivienda, etc… Por lo que es un espacio interior dentro de otro y complementa en la ubicación con respecto al campo “no_exterior” y “no_exterior_alfa” Pisos 1 en Adelante Se refiere a cada una de las diferentes plantas que se superponen y forman su altura de un inmueble, en el cual se pueden asentar locales, establecimientos, viviendas, etc… Por lo que es un espacio interior dentro de otro y complementa en la ubicación con respecto al campo “no_exterior” y “no_exterior_alfa” Bodega Se refiere al lugar en el que se almacena algún tipo de producto y que a su vez puede fungir como algún tipo de oficina, local, etc.… Por lo que es un espacio interior dentro de otro y complementa en la ubicación con respecto al campo “no_exterior” y “no_exterior_alfa” Puesto Establecimiento comercial pequeño, que puede ser desmontable y se coloca en algún tipo de vía o dentro de algún centro comercial o inmueble en particular. Por lo que es un espacio interior dentro de otro y complementa en la ubicación con respecto al campo “no_exterior” y “no_exterior_alfa” Oficina Lugar en el que se realizan algún tipo de labores ya sea de índole comercial o burocrático, que por lo general están situadas al interior de un inmueble. Por lo que es un espacio interior dentro de otro y complementa en la ubicación con respecto al campo “no_exterior” y “no_exterior_alfa” Local Se define como un lugar cubierto y cerrado, generalmente situado en la parte baja de un edificio que se puede emplear para la comercialización de algún producto o servicio. Por lo que es un espacio interior dentro de otro y complementa en la ubicación con respecto al campo “no_exterior” y “no_exterior_alfa” Accesoria Se define como un lugar cubierto y cerrado, generalmente situado en la Por lo que es un espacio interior dentro de otro y Página 49 Concepto Descripción Justificación parte baja de un edificio que se puede emplear para la comercialización de algún producto o servicio. complementa en la ubicación con respecto al campo “no_exterior” y “no_exterior_alfa” Edificio Construcción destinada generalmente a servir de vivienda o de espacio para una actividad, conformada por varios departamentos, oficinas o locales. Dado que es un conglomerado de deptos, oficinas o locales, no es posible asignar un num. exacto para cada uno de ellos, por lo que la información entra a no_exterior_alfa Pent House Ser refiere a una habitación de dimensiones regulares a grandes, situado en la parte alta de un inmueble o edificio que sirve para vivienda, oficina, establecimiento comercial etc.. Por lo que es un espacio interior dentro de otro y complementa en la ubicación con respecto al campo “no_exterior” y “no_exterior_alfa” Plantas Bajas Se refiere a la planta baja de un edificio o condominio, en el cual puede haber o tener varias establecimientos, así como locales o viviendas (deptos). Es considerado como un espacio geográfico con superficie variable conformado por 1 o más establecimientos o viviendas, por lo que la información es asignada al campo no_exterior_alfa Altos Hace referencia a la parte alta de un inmueble, que puede estar conformado por una o mas viviendas, así como locales o establecimientos, es un sinónimo de planta alta. Dado que es una descripción referencial de la ubicación del domicilio fiscal, esta información se asigna a no_exterior_alfa Bajos Hace referencia a la parte baja de un inmueble, que puede estar conformado por una o mas viviendas, así como locales o establecimientos, es un sinónimo de planta baja. Dado que es una descripción referencial de la ubicación del domicilio fiscal, esta información se asigna a no_exterior_alfa Módulos Pieza o conjunto unitario de piezas que se repiten en una construcción de cualquier tipo, para hacerla más fácil, regular y económica, el cual tiene como finalidad albergar un establecimiento, oficina o local. Dado que no cuenta con un número exterior que lo diferencie, y tiene la característica de que puede ser movible, la información se asigna a no_exterior_alfa Naves Se refiere a un espacio determinado entre muros, generalmente de un solo piso que se utiliza como almacén o sección de mercados o centros comerciales. Dado que no cuenta con un número exterior que lo diferencie, y puede albergar varios locales, oficinas o establecimientos, la información se asigna a no_exterior_alfa Postes Madero, piedra o columna que se colocan verticalmente y que sirven de apoyo o de señal. Dado que es una descripción referencial de la ubicación del domicilio fiscal, esta información se asigna a no_exterior_alfa. Página 50 Concepto Descripción Justificación Casa Edificación en el que vive una persona o bien, que puede servir como un establecimiento industrial o mercantil. Dado que es una descripción referencial de la ubicación del domicilio fiscal, esta información se asigna a no_exterior_alfa. Block Se define como edificio grande que tiene como particularidad varias viviendas de características parecidas y que se encuentra en un núcleo de población Dado que no cuenta con un número exterior que lo diferencie, y puede albergar varios locales, oficinas o establecimientos, la información
Compartir