Logo Studenta

Ejecucion-de-un-proyecto-de-limpieza-de-base-de-datos--higienizacion-estandarizacion-y-cruce-de-informacion

¡Este material tiene más páginas!

Vista previa del material en texto

Página 1 
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO 
FACULTAD DE ESTUDIOS SUPERIORES “ARAGON” 
INGENIERÍA MECÁNICA ELÉCTRICA 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
EJECUCIÓN DE UN PROYECTO DE LIMPIEZA DE BASE 
DE DATOS (HIGIENIZACIÓN, ESTANDARIZACIÓN Y 
CRUCE DE INFORMACIÓN) 
 
 
 
 
 
 
 
 
ELABORÓ: JORGE OROZCO CHIA 
 
 
 
 
 
 
 
 
 
o c t u b r e d e 2 0 0 6
 
UNAM – Dirección General de Bibliotecas 
Tesis Digitales 
Restricciones de uso 
 
DERECHOS RESERVADOS © 
PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL 
 
Todo el material contenido en esta tesis esta protegido por la Ley Federal 
del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). 
El uso de imágenes, fragmentos de videos, y demás material que sea 
objeto de protección de los derechos de autor, será exclusivamente para 
fines educativos e informativos y deberá citar la fuente donde la obtuvo 
mencionando el autor o autores. Cualquier uso distinto como el lucro, 
reproducción, edición o modificación, será perseguido y sancionado por el 
respectivo titular de los Derechos de Autor. 
 
 
 
 
 Página 2 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
AGRADECIMIENTOS 
 
 
 Página 3 
AGRADECIMIENTOS 
 
 
En primer lugar a mi Dios, que me da la oportunidad
día a día de tener sueños y anhelos que tarde o
temprano resultan ser reales y totalmente
satisfactorios, acompañado de familia y verdaderos
amigos. 
El esfuerzo dedicado en el presente trabajo lo dedico con un
especial cariño a mi mamita que me vigila desde el rincón más
especial de mi corazón. Gracias ¡Cucha!. 
 
También a mi familia que no nos pueden acompañar físicamente
pero están presentes en los recuerdos y nuestros corazones. 
 
Y de igual forma a mi papá que es reflejo vivo del esfuerzo de
lucha por vivir y del cual me estas dando la mejor de las lecciones.
¡Apá!, ¡godito!, mil gracias. 
A mis hermanos. Me tocó ser el último de los cuatro y
esto me da la gran oportunidad de aprender de cada
uno de ustedes. 
 
Cuando era niño (no hace mucho ¿verdad?), siempre
fueron mi ideal a seguir, déjenme decirles que hoy
siguen siendo mis héroes infinitos. 
Gracias Paty. Por todo tu apoyo cuando mas lo
necesité, y por demostrar que pase lo que pase, al final
demuestras ser la mas bellas de las mujeres que lo dan
todo con tal de ayudar. Me da mucho orgullo decir que
eres mi hermana y poder contar a los demás la calidad
humana que posees y que es difícil de cuantificar. 
 
Fer, eres un claro ejemplo de esfuerzo. Siempre me lo demostraste
cuando era niño: me regalaste alegrías en una época en la que la
crisis económica agudizaba la familia y siempre consideraste en
los reyes magos, en poner a mi alcance los mejores juguetes, y
arrancar así la felicidad de niño que lleva uno por siempre en el
corazón. Y hoy, eres un claro ejemplo de cando se quiere salir
adelante a pesar de toda adversidad, ¡se puede!. 
 
 Página 4 
Poncho, compañero de juego, que por cierto ¿cómo eran de
defectuosos verdad?.. jeje. De ti aprendo el valor más grande que
pueda poseer: construye castillos en el cielo. Cucha siempre me
dijo que tenía que aprender de ti por luchón y trabajador, jamás se
equivocó, lo sigues siendo y me lo demuestras en el cariño y
esfuerzo reflejado en tu esposa, hijo y nuestro papá. 
Lilí, vaya que tienes los pantalones mejor puestos que muchos
hombres. Tienes el valor y la garra de decir no me caigo y no me
tumba nadie pase lo que pase. Que suerte de mujer se topó Fer.
Tus esfuerzos se remunerarán, no lo dudes. 
Cundo te conocí en los campos de fucho, dije es un payaso de
primera, no a cambiado mucho ...jeje. Juanito, siempre
demuestras ser el más noble y extendiste la mano cuando más
falta me hacía, con mi mamá, con mi papá y ahora con este
trabajo. Todo aquel que te conoce sabe que siempre puede
contar con tigo en todo. 
Anita, vales mil veces en oro de lo que te consideras. Lo que mas
se distingue de ti es tu sinceridad y tu apoyo desinteresado. Que
suerte el conocerte a fondo y ver que mi hermano tiene una
mujerzota por lo que vale. 
A cada uno de mis sobrinos muchas gracias por estar aquí y
darnos a conocer que un mundo puede cambiarse con el solo
hecho de imaginarlo, verán que después esta imaginación es
necesaria para lograr metas y recompensar así, a sus padres,
familia y amigos que los quieren. 
A todas mis Tías y tíos. Tere, Naty, Lupe, Nico. Y todos aquellos
que no alcanzo a nombrar porque sería inmensa la lista de todos
aquellos que forjaron cado en sus trincheras la familia que somos
y el méxico que queremos. Por su cariño, comprensión y apoyo,
mil gracias. 
 
 Página 5 
A todos mis primos y sus familias respectivamente. Lety, Juanis,
Carlos, Luis... a todos gracias por compartir momentos buenos y
malos y que hasta hora siguen demostrando la calidad humana
que poseen. 
Gracias a toda la banda de la FES Aragón. Claudio, César, Lee,
Lalo, Uriel, Hugo, Araceli y a todos aquellos que no alcanzo a
nombrar en este apartado y que extiendo las gracias por todo
momento compartido y por cada examen y tarea que me
pasaron... jeje. La vida apenas comienza cuado salimos de la
universidad. Gracias a todos por compartir su amistad. 
A todos mis maestros. Que clase tras clase demuestran que el
profesionista se forja día a día, y por dar en las aulas el mejor de
los esfuerzos para llevarnos lo mejor de ustedes. Gracias
profesores y amigos. 
A los jefes de mi chamba, David, Jasón, Gabriel, Emanuel. Me da
orgullo decir que cuento con los jefes idóneos y que están donde
están porque así lo merecieron. Lo demuestran día a día y en cada
una de sus trincheras. Aprendo gracias a ustedes. 
A todos mis amigos y compañeros de todos los días, David, Jasón,
Irma, Lizette, Jair, Elizabeth Hilario (puse tu nombre completo
para que no te enojaras), Elizabeth Gómez, Erasmo, Miguel, Raúl,
Edgar y todos aquellos que no alcanzo a nombrar no por hacerlos
menos, sino porque a más texto más cara sale la impresión, jeje..
no es cierto. A todos por igual, mil gracias por compartir día a día
las batallas que libramos en la oficina. Gracias por compartirme
sus anhelos y sentimientos que reflejan la calidad humana de lo
que están hechos. 
 
 Página 6 
 Y como en este apartado hago lo que se me da la gana.. jeje.
Extiendo un especial agradecimiento a Liz. Por nuestro fugaz
noviazgo de menos de un mes y por copartir 11 meses en la misma
casa. Te agradezco porque desde que te conocí se me quedó
grabado algo que ya me lo habían dicho pero, saliendo de ti, hizo
eco en mi corazón que llevo por siempre: tienes que creer primero
en ti para lograr lo que quieres. Gracias por todo chiquitita. 
Finalmente agradezco a todos aquellos que se me escaparon de
nombrar pero que muy seguramente estoy ínfimamente agradecido
por cada momento de la vida compartidos (y lo que falta ¿verdad?). A
todos mil gracias de todo corazón. 
POR MI RAZA HABLARÁ EL ESPÍRITU 
 
 Página 7 
CONTENIDO 
 Página 
 
 
INTRODUCCION …………………………………………………………………..……. 9 
 
 
CAPITULO 1. Antecedentes de una Limpieza de Datos …………………………… 10 
 
 
Calidad de datos: mejora y éxito en los negocios de la información. ………13 
 
La validación y la limpieza o higiene de bases de datos como metodos optados 
para mejorar la calidad en los datos. ………………………………..14 
 
Limpieza de datos, factor necesario para un Data Warehouse …………….16 
 
 
 
 
CAPITULO 2. Aplicaciones empleadas para el proceso de Limpieza de 
 Datos, Estandarización y cruce …………………………………. 23 
 
 Trillium Software System …………………………………… 31 
 
 
 
 
CAPITULO 3. Metodología implementada en los procesos de Limpieza de Datos, 
estandatización y cruce de información …………………….… 36 
 
 Premisas del procedimiento general de higiene para una fuente de 
información ……………………………………………………………. 40 
 
 Reglas de negocio para la higienización de una fuente de 
 Información ……………………………………………………….…… 43 
 
CAPITULO 4. Ejemplo detallado de una Limpieza de Datos ……………………. 60 
 
 Pasos del proyecto de limpieza de datos ...................................................60 
 
 Orígenes de la fuente de información .......................................................... 60 
 
 Ejecución del proyecto de limpieza de datos ……………………………... 62 
 
 Proyecto Trillium ………………………………………………………………. 69 
 
 
 
 Página 8 
 Estandarización por catálogo de Calle y Colonia ………………………..…. 82 
 
 Cruce de información ………………………………………….…………..…. 89 
 
 Elaboración del reporte final ...................................................................... 91 
 
 
CAPITULO 5. Dimensionamiento de un proyecto entregado por el departamento a 
uno de sus clientes ………………………. 102 
 
CONCLUSIONES ……………………………………………………………….…………. 107 
 
 
BIBLIOGRAFIA …………………………………………………………………………. 109 
 
 
 
 Página 9 
INTRODUCCION 
 
 
Hoy en día seria imposible dejar de comprender todo lo que conocemos por servicios 
de no ser por el avance que dan los medios electrónicos y en específico las 
computadoras, las cuales dan un sobregiro a cada instante para acortar los tiempos 
de ejecución de los procesos sin dejar de lado la consistencia en la estructura de la 
información. Sin embargo, todo este alto desempeño queda de lado si no contamos 
con buenos métodos para organizar nuestra información y hacer más congruente y 
ordenada la información con que contamos. La organización de la información otorga 
creces al momento de saber que es confiable y ágil al momento de realizar decisiones 
que definan el rumbo de los negocios; en términos prácticos, nos hace más 
competitivos y esto se traduce en el incremento de ganancias. 
 
Limpieza de Datos busca homogenizar y catalogar la información entre distintas bases 
de datos que se tiene en una organización, logrando consistencia entre ellas y que en 
lo sucesivo, la información resulte en esquemas de consultas de información a temas 
de un carácter complejo y específico por el cliente que solicita el servicio de temas 
orientados a negocios de la información, mejor conocido como Data Warehouse. 
 
La limpieza de datos es fundamental como primer paso para lograr confiabilidad y 
organización al momento que se carece de un elemento en común y confiable a lo 
largo de toda una cadena de información, este campo en una tala de datos de 
información es conocido como campo llave. Por otro lado, una vez que los datos son 
procesados por los módulos del proyecto de limpieza, se busca mediante porcentajes 
de concordancia, relaciones entre otras fuentes de información, dando por resultado, 
aquellos datos que guardan una relación en su contenido. Esta tarea, a lo largo del 
desarrollo del trabajo se conocerá como un cruce de información. 
 
En el Capítulo 1: Justificación y Definición de una Limpieza de Datos, se detalla de 
manera amplia la necesidad de organizar la información, su relevancia en la calidad 
de datos y muy en particular, el caso que involucra la necesidad de crear el 
departamento de Limpieza de datos en una de las mejores instituciones con que 
cuenta el país y que posee inmensos volúmenes de registros; es el caso del SAT 
(Servicio de Administración Tributaria), órgano desconcentrado de la Secretaría de 
Hacienda y Crédito Público. 
 
Es importante señalar que muchos de los conceptos nombrados en este trabajo fueron 
establecidos por el departamento de limpieza de datos. Para ello se presentarán las 
reglas de negocio y metodología que se siguen en el departamento. En los capítulos 
sucesivos se dará un ejemplo detallado de un proceso de limpieza, estandarización y 
cruce paso a paso de una base de datos del orden público, obtenida del SIEM 
(Sistema Empresarial Mexicano). 
 
También se presentará una documentación de una base de datos, que detalla un 
proyecto Limpieza de Datos real elaborado por el departamento de limpieza de datos 
donde describe la estructura de la información de entrada, sus inconsistencias y las 
modificaciones que sufre en el proyecto de limpieza. 
 
 Página 10 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
CAPÍTULO 1 
 
 
ANTECEDENTES DE UNA LIMPIEZA DE BASE DE 
DATOS 
 
 
 Página 11 
CAPITULO 1. Antecedentes de una Limpieza de 
base de Datos 
 
Las acciones mejor implantadas en cualquier negocio serán el llevar un paso adelante 
en lo que está por acontecer en el mercado. Y para hacer de esto la tarea base del éxito 
de la empresa, es necesario tener información relevante (ventas, ganancias, clientes, 
compras, etc.), que sea oportuna y con un grado de exactitud muy confiable. 
 
¿Cuánto tengo?, ¿cuánto gano?, ¿a quién le vendo más?, ¿la información con que 
cuento sobre mi negocio, es suficiente para saber si es oportuno invertir más recursos 
en la empresa? y, ¿cuánto tiempo tomará responder a estas preguntas?. Son algunas 
de las interrogantes que se plantea cualquier empresa que involucra una 
administración basada en la información. 
 
Basándose en un modelo de empresa que usa diversos módulos con distinta 
información como: cartera de clientes, reporte de ventas, productos. El tiempo que se 
toma en consultar ¿qué cliente(s) son los más recurrentes y qué productos son los más 
solicitados por cliente?, tomará un tiempo considerable, además del costo de recursos 
(humano y económico) el hecho de ordenar la información para que cuadre, o bien, 
implica dedicar un doble esfuerzo para mantener actualizada la información 
individual contra la solicitada por las personas de toma de decisiones; y el problema 
se incrementa, si dicha empresa es de un volumen considerable. 
 
Por lo tanto, al tratarse de una empresa cuya administración está basada en la 
información (que hoy en día es más que necesario integrarse rápida y eficientemente 
para equilibrar la eficiencia productiva con la competencia en el mercado), conviene 
llevar a cabo ajustes que cubran apropiadamente los objetivos. 
 
La solucionar este problema de interrelación, es necesario optar por contar con una 
sola fuente de información, con datos buenos o malos desde un inicio, pero que exista 
relación entre ambas. 
 
El paso siguiente será el hacer que la información sea correcta, clara y que los datos 
sean consistentes con que describen y que sobre todo, mantenga un alto grado de 
confianza para realizar consultas complejas de la información de forma rápida y que 
sea capaz de reflejar todos los puntos tangibles desde un mismo ángulo (algo que no 
es posible de mostrar con simple query de SQL). 
 
Pero sobre todo: que estos objetivos al cumplirse, cubran por completo las 
necesidades del cliente. 
 
Desde el inicio se topa con una barrera de contención. Por un lado se tienen errores 
internos de los distintos departamentos o estructuras que se pretenden integrar, tales 
como reportes incompletos de los distintos departamentos (almacén, requisiciones, 
ventas, cartera de clientes), se suman errores de captura, y los errores en los mismos 
sistemas de información al momento de hacer migraciones de un sistema a otro. 
 
 
 Página 12 
En una de las empresas estratégicas más relevantes con que cuenta México, el SAT 
(Servicio de Administración Tributaria) no es ajeno al problema de la integración de 
las distintas fuentes de información con que cuenta para elaborar de manera eficiente 
y ágil las tareas para el cual fue encomendado. 
 
El Servicio de Administración Tributaria (SAT) es un órgano desconcentrado de la 
Secretaría de Hacienda y Crédito Público (SHCP) que tiene la responsabilidad de 
aplicar la legislación fiscal y aduanera, con el fin de que las personas físicas y morales, 
contribuyan proporcional y equitativamente al gasto público; de fiscalizar a los 
contribuyentes para que cumplan con las disposiciones tributarias; de facilitar e 
incentivar el cumplimiento voluntario; y, de generar y proporcionar la información 
necesaria para el diseño y la evaluación de la política tributaria. 
 
El SAT al tratarse de una enorme empresa de la información, no es ajena a la 
problemática de la integración de los distintos sistemas de información del cual se 
integra, aunado a esto, día a día recibe constantes modificaciones de múltiplesfuentes 
de información donde mantiene actualizada las base de datos de los contribuyentes; 
por tal motivo, la infraestructura informática del que se integra, está diseñado para 
que cuente con las herramientas necesarias y se tomen a nivel gerencial las decisiones 
oportunas y eficientes, cubriendo así un objetivo primordial: llevar acabo una correcta 
recaudación conforme a la ley marca en base a una eficiente industria informática. 
 
Sin embargo, la demanda de mantener por un lado actualizada la información con que 
cuenta el organismo y por otra, el de ampliar la base de contribuyentes en base de 
información pública; han hecho que día a día se implementen más y mejores métodos 
para cubrir los objetivos. 
 
Tanto para el SAT como a cualquier empresa dedicada al manejo de la información, es 
de una gran necesidad el poder tener una fuente de información confiable y flexible al 
momento de consultar la información para tomar decisiones, sin embargo, si esta 
información o datos que contiene, son inconsistentes, la fuente no será capaz de 
aportar la información necesaria o carecerá de veracidad, para ello, se establece que 
una pobre calidad de los datos (de la cual se compone la información), va en contra de 
la correcta administración de los recursos humanos, financieros y capitales de 
cualquier compañía, y que impacta los niveles de servicio y en general, reduce la 
eficiencia de las operaciones e impacta la credibilidad a todos los niveles de una 
compañía. 
 
 Página 13 
Calidad de Datos. Mejora y éxito en los negocios basados en 
información. 
 
La calidad de datos es definida como la capacidad de mantener y proporcionar 
información que ayude a lograr los objetivos de la empresa, sin importar la forma en 
como se obtiene los datos o la forma en como están almacenados. 
 
Las características de los datos con calidad son: 
 
• Asociadas con las vistas de los datos: consultas de la información 
• Asociadas con los valores de los datos: exactitud, consistencia y actualidad 
• Asociadas a la presentación de los datos: formato y facilidad de interpretación 
• Otras como privacidad, seguridad propiedad 
 
Existen muchas metodologías aplicables al mejoramiento a la calidad de la 
información, a continuación se explicará brevemente una metodología que según los 
expertos en la materia ha dado resultados en varios negocios: 
 
El método empleado para mejorar la Calidad en los Datos se establece como: 
 
1. Identificar la información critica del negocio. 
Se define qué información es altamente sustantiva para mantener ágil la relación 
informativa entre los departamentos haciendo un balance entre aquella que me 
defina la situación actual y que se equilibre con las expectativas que se esperan 
obtener una vez aplicadas las mejoras. 
 
2. Definir criterios de Calidad de datos. 
Es necesario contar con reglas que permitan establecer si la información es 
confiable o no. 
 
3. Realizar mediciones iniciales. 
Este paso es un diagnóstico para medir la calidad de la información crítica 
definida y definir así los problemas de Calidad de Datos. 
 
4. Generar indicadores de Calidad en información. 
En este paso se realizan programas que apoyen a medir periódicamente la Calidad 
de la Información, lo que no se puede medir no se puede administrar y no se puede 
mejorar. Estos medidores deben estar al alcance de las personas que serán las 
responsables de monitorear y mejorar la calidad de la información. 
 
5. Definir responsables de la calidad en los datos 
Se debe definir un o varios responsables de cada indicador de la información 
determinada y se deben monitorear las tendencias del indicador y realizar planes 
de acción encaminados a la mejora de estos indicadores. 
 
6. Establecer diagnósticos de la calidad en los datos. 
En estos diagnósticos se determinan las posibles causas de la mala calidad de 
Datos y se definen planes de acción con responsables para mejorar el indicador. 
 
 Página 14 
Entre los planes de acción normalmente se incluye el establecer controles 
preventivos y correctivos para la mejora de la Calidad de Datos. 
 
7. Establecer un monitoreo de los indicadores en la calidad de la información. 
Es importante que los indicadores de Calidad de Datos se revisen periódicamente, 
asegurando su seguimiento y mejora continua. 
 
La implementación de esta metodología orientada a resolver los problemas de la 
Calidad de la Información, es pieza clave para la implantación de un sistema de 
administración de los recursos de la empresa (ERP´s) y para mejorar la toma de 
decisiones en cualquier organización, se encontrará que dedicar tiempo y recursos a la 
mejora de este importante activo tiene un alto impacto en el retorno del capital 
humano y financiero invertido. 
 
 
Método para Mejorar la Calidad de Datos 
 
 
Validación y Limpieza de Base de Datos, pasos óptimos para la 
mejora de la Calidad de Datos 
 
Para cumplir con los puntos señalados en el método para alcanzar una fuente de 
información con calidad, a la par que se realizan las mediciones y correcciones se 
deberá de contar con criterios que definan que los datos en la información son 
correctos o no. A este proceso es nombrado validación. 
 
La validación es un proceso usado para determinar si un dato es inexacto, incompleto 
o incomprensible. Dentro de las funciones que desempeña se encuentran: 
 
Identificar la información 
crítica del negocio 
 
Definir criterios de 
Calidad de Datos 
 
Realizar Mediciones 
Iniciales 
 
Indicadores de 
Calidad de 
Información 
Diagnósticos de 
Calidad de Datos 
 
Definir responsables de 
Calidad de Datos 
 
Monitoreo de 
Indicadores 
 
 
 Página 15 
• Localizar y obtener el acceso a los diccionarios de datos que describen el contenido 
de la base de datos a utilizar. 
 
Estos diccionarios pueden ser diagramas lógicos, tablas de bases de datos 
relacionales, hojas de cálculos o documentos de texto que contienen información 
sobre los siguientes puntos: 
 
o Contenido esperado de cada columna de datos. 
o Descripción del origen de los datos (como se obtuvieron o calcularon) 
o Perspectivas de evaluación y uso de los datos. 
 
• Verificar columna por columna su integridad, prestando especial atención a las 
siguientes cuestiones: 
 
o Porcentaje de valores perdidos. 
 
o Tipo de datos no coincidentes entre el diccionario de datos y los datos reales. 
 
o Valores no esperados de acuerdo con la definición del diccionario de datos. Por 
ejemplo, se supone que el sexo es H (Hombre) o M (Mujer) y los datos reales 
sólo contienen B y G. 
 
o Valores fuera de los límites esperados. Por ejemplo, no es nada tranquilizador 
encontrar en la base de datos demasiados consumidores de 150 años de edad. 
 
Una vez localizadas las inconsistencias en los datos de la información, se procede a 
ejecutar procesos de mejora encaminados para alcanzar los objetivos de consistencia 
en la información y la incorporación a modelos de integración capaz de realizar 
consultas con un alto grado de detalle. 
 
El proceso de Limpieza de Datos, consiste en corregir los errores en los datos que se 
detectaron durante el proceso de validación. Es importante que durante el proceso de 
limpieza no se pierdan datos o se cambie su significado, es recomendable mantener 
tanto el dato original como el dato procesado, ya que si ocurre un error en el proceso 
de limpieza, el dato original puede ser recuperado. 
 
En un proceso de Limpieza de Datos se realizan las siguientes actividades: 
 
1. Se definen y determinan los tipos de errores 
2. Se buscan e identifican ejemplos de errores 
3. Se corrigen los errores 
4. Se documentan los errores 
 
Los alcances para la Limpieza de Datos son: 
 
1. Sincronización de los nombres y de las direcciones 
2. Eliminación general de las duplicidades en los datos 
 
 Página 16 
3. Corrección de los errores o de los datos no válidos 
 
 
Limpieza de Datos, factor necesario para un Data Warehouse 
 
El proceso de limpieza consiste encorregir los errores en los datos que se detectaron 
durante el proceso de validación. Es importante que durante el proceso de limpieza no 
se pierdan datos o se cambie su significado, es recomendable mantener tanto el dato 
original como el dato procesado, ya que si ocurre un error en el proceso de limpieza, 
el dato original puede ser recuperado. 
 
El proceso de Limpieza de Datos se: 
• Define y determina los tipos de errores 
• Se buscan e identifican ejemplos de errores 
• Se corrigen los errores 
• Se documentan los errores 
 
Dentro de las actividades realizadas en la limpieza de datos se encuentra 
• Sincronización de los nombres y de las direcciones, 
• Eliminación general de las duplicidades en los datos. 
• Corrección de los errores o de los datos no válidos. 
 
Una vez que se ha implementado el mecanismo correcto para contar con una 
información que cumpla con los lineamientos establecidos por los procesos de 
Validación de la Información, es necesario establecer un mecanismo de consulta que 
sea capaz de cubrir los requerimientos del cliente, que sea capaz de dar las respuestas 
que lleven a acciones orientadas a la mejora de los objetivos planteados. Esto y más es 
lo que resuelve un Data Warehouse. 
 
Data warehousing es el centro de la arquitectura para los sistemas de información en 
la década de los '90. Soporta el procesamiento informático al proveer una plataforma 
sólida, a partir de los datos históricos para hacer el análisis. Facilita la integración de 
sistemas de aplicación no integrados. Organiza y almacena los datos que se necesitan 
para el procesamiento analítico, informático sobre una amplia perspectiva de tiempo. 
 
Un Data Warehouse o Depósito de Datos es una colección de datos orientado a temas, 
integrado, no volátil, de tiempo variante, que se usa para el soporte del proceso de 
toma de decisiones gerenciales. 
 
Se puede caracterizar un data warehouse haciendo un contraste de cómo los datos de 
un negocio almacenados en un data warehouse, difieren de los datos operacionales 
usados por las aplicaciones de producción. 
 
 
 Página 17 
D - I 1
D - I 2
D - I 3
DATA
WAREHOUSE
Infraestructura del DW
Sistema de consulta:
* Creíble
* Orientado a Temas
* Integrado
* Enfoque de Negocio
 
Información interna y externa para la toma de decisiones 
 
 
Base de Datos Operacional Data Warehouse 
Datos Operacionales Datos del negocio para Información 
Orientado a la aplicación Orientado al sujeto 
Actual Actual + histórico 
Detallada Detallada + más resumida 
Cambia continuamente Estable 
Diferentes tipos de información 
 
El ingreso de datos en el data warehouse viene desde el ambiente operacional en casi 
todos los casos. El data warehouse es siempre un almacén de datos transformados y 
separados físicamente de la aplicación donde se encontraron los datos en el ambiente 
operacional. 
 
Las características principales de un Data Warehouse se tienen que es: 
• Orientado al temas 
Una primera característica del data warehouse es que la información se 
clasifica en base a los aspectos que son de interés para la empresa. Siendo así, 
los datos tomados están en contraste con los clásicos procesos orientados a las 
aplicaciones. 
El ambiente operacional se diseña alrededor de las aplicaciones y funciones 
tales como préstamos, ahorros, tarjeta bancaria y depósitos para una 
institución financiera. Por ejemplo, una aplicación de ingreso de órdenes puede 
accesar a los datos sobre clientes, productos y cuentas. La base de datos 
combina estos elementos en una estructura que acomoda las necesidades de la 
aplicación. 
 
AMBIENTE 
OPERACIONAL 
Transformación de Datos 
a Información 
De los Datos al Conocimiento 
 
 Página 18 
En el ambiente data warehouse se organiza alrededor de sujetos tales como 
cliente, vendedor, producto y actividad. Por ejemplo, para un fabricante, éstos 
pueden ser clientes, productos, proveedores y vendedores. Para una 
universidad pueden ser estudiantes, clases y profesores. Para un hospital 
pueden ser pacientes, personal médico, medicamentos, etc. 
 
Otra diferencia importante está en la interrelación de la información. Los datos 
operacionales mantienen una relación continua entre dos o más tablas basadas 
en una regla comercial que está vigente. Las del data warehouse miden un 
espectro de tiempo y las relaciones encontradas en el data warehouse son 
muchas. Muchas de las reglas comerciales (y sus correspondientes relaciones 
de datos) se representan en el data warehouse, entre dos o más tablas. 
 
• Integrado 
El aspecto más importante del ambiente data warehouse es que la información 
encontrada al interior está siempre integrada. 
La integración de datos se muestra de muchas maneras: en convenciones de 
nombres consistentes, en la medida uniforme de variables, en la codificación de 
estructuras consistentes, en atributos físicos de los datos consistentes, fuentes 
múltiples y otros. 
 
• De tiempo variante 
Toda la información del data warehouse es requerida en algún momento. Esta 
característica básica de los datos en un depósito, es muy diferente de la 
información encontrada en el ambiente operacional. En éstos, la información 
se requiere al momento de acceder. En otras palabras, en el ambiente 
operacional, cuando se accede a una unidad de información, se espera que los 
valores requeridos se obtengan a partir del momento de acceso. 
 
Como la información en el data warehouse es solicitada en cualquier momento 
(es decir, no "ahora mismo"), los datos encontrados en el depósito se llaman de 
"tiempo variante". 
Los datos históricos son de poco uso en el procesamiento operacional. La 
información del depósito por el contraste, debe incluir los datos históricos para 
usarse en la identificación y evaluación de tendencias. 
 
• No volátil 
La información es útil sólo cuando es estable. Los datos operacionales cambian 
sobre una base momento a momento. La perspectiva más grande, esencial para 
el análisis y la toma de decisiones, requiere una base de datos estable. 
 
La actualización (insertar, borrar y modificar), se hace regularmente en el 
ambiente operacional sobre una base de registro por registro. Pero la 
manipulación básica de los datos que ocurre en el data warehouse es mucho 
más simple. Hay dos únicos tipos de operaciones: la carga inicial de datos y el 
acceso a los mismos. No hay actualización de datos (en el sentido general de 
actualización) en el depósito, como una parte normal de procesamiento. 
 
 
 Página 19 
Base de Datos 
Operacional
Data 
Warehouse
 
 
 
Uso del Data Warehose e implementación de una Limpieza de Datos 
 
Los datos operacionales y los datos del data warehouse son accesados por usuarios 
que usan los datos de maneras diferentes. 
 
Maneras diferentes de uso de datos 
Uso de Base de Datos Operacionales Uso de Data Warehouse 
Muchos usuarios concurrentes Pocos usuarios concurrentes 
Consultas predefinidas y actualizables Consultas complejas, frecuentemente 
no anticipadas. 
Cantidades pequeñas de datos detallados Cantidades grandes de datos 
detallados 
Requerimientos de respuesta inmediata Requerimientos de respuesta no 
críticos 
 
Los usuarios de un data warehouse necesitan acceder a los datos complejos, 
frecuentemente desde fuentes múltiples y de formas no predecibles. 
 
Los usuarios que acensan a los datos operacionales, comúnmente efectúan tareas 
predefinidas que, generalmente requieren acceso a una sola base de datos de una 
aplicación. Por el contrario, los usuarios que acensan al data warehouse, efectúan 
tareas que requieren acceso a un conjunto de datos desde fuentes múltiples y 
frecuentemente no son predecibles. Lo único que se conoce (si es modelada 
correctamente) es el conjunto inicial de datos que se han establecido en el depósito. 
 
Los datos de entrada que residen en la entrada de la información requerida por el 
Data Warehouse, requieren ser estandarizados e higienizados. y en su momento 
generar antesde hacer entrar esta información, es conveniente generar grupos de 
reporte que determinen las relaciones entre registros. 
 
Esto es lo que cumplen los procesos de Limpieza de Datos, que además de higienizar, 
estandarizar y hacer cruces de información para encontrar relaciones entre registros 
de distintas Bases de Datos; cumple con los lineamientos de una Calidad de la 
Información para posteriormente integrar la información a un sistema diversificado a 
temas y a consultas que no estén definidas, que sean de una gran complejidad de 
La Base de Datos es
actualizada registro por
registro: inserta,
remplaza, cambia, etc. 
Los datos de entrada son
cargados en el depósito de datos
y es acezada allí, pero una vez
hecha la carga de la
información, los datos en el
depósito no cambian. 
 
 Página 20 
detalle y ante todo cubra las expectativas del cliente trasladando la información 
finalmente a un ambiente de consulta al alcance de la mano y confiable. 
 
Double-click here and type 
notes.
Title
Double-click to type 
notes. Subselect "Title"
to edit the title.
Data Warehouse
Base de Datos 
Integradora
Limpieza de Datos 
Esquema conceptual de la relación entre un Data Warehouse y una Limpieza Base de 
Datos 
 
¿Por qué limpiar una base de datos? 
 
La Limpieza de bases de Datos surge en respuesta al cumplimiento con los 
lineamientos establecidos para una óptima Calidad de Datos o calidad de la 
información. Lo anterior se resuelve por medio del establecimiento de parámetros o 
reglas para determinar si un dato es válido o no, y se ejecutan estrategias para hacer 
cumplir los requerimientos acordados y que impacte en elaborar una correcta 
limpieza de datos o higienización de datos. 
 
Una vez que la información de salida fue validada por medio de procesos de calidad, 
se homogeniza la información respecto a su contenido y a diccionarios 
proporcionados por el cliente, para elaborar la estandarización de la información y 
lograr la homogeneidad no alcanzada por la higiene de datos. 
 
Posteriormente se buscan relaciones de registros entre distintas bases de datos 
(fuentes de información) que cumplan con parte o la totalidad de la estructura en 
cuanto a las tablas relacionadas (nombre con nombre, calle con calle, colonia con 
colonia, etc.), con el fin de verificar qué registros guardan una relación de 
coincidencia, este proceso es llamado cruce de información. 
 
Sin la higienización y estandarización no se pueden llevar a cabo una corecto cruce de 
información dado que el porcentaje de registros relacionados carecería de buenos 
resultados. El cruce de información suele ser una necesidad, por ejemplo, es el caso de 
México, que carece de un identificador único de cada una de las personas que se 
encuentran registradas en cualquier padrón público o privado, por lo que se tienen 
que buscar las coincidencias en los datos de los registros que guardan distintas bases, 
Información de original 
Sistema de consulta 
 
 Página 21 
para ubicar que se está hablando de un mismo dato en fuentes de información 
distintas. 
 
Posteriormente, se incorpora la información estandarizada a un Data Warehouse, que 
resuelve complejos modelos de consulta de información orientado a temas y a 
proporcionar de manera global, las respuestas necesarias al cliente para la toma de 
decisiones en una empresa. 
 
 
 
 
 
El camino de la limpieza, estandarización y cruce de información para la 
implementación a modelos de consulta avanzados: Data Warehouse. 
 
Base de 
Datos 
Operacion
al
Data Warehouse
Se recibe la
información de
distintas fuentes y
con estructuras
cada una
diferentes 
(abreviaturas, 
puntuación, 
errores de
ortografía, total
de registros, la
distribución en
columnas, etc.). 
La información es
analizada y
preparada para su
corrección según
lo establecido por
los lineamientos
acordados por
parte del cliente y
el responsable de
la calidad de la
información 
Se procesan los
datos de la
inforación y se
obtiene de cada
fuente, para
obtener una
estructura 
uniforme con
cada uno de sus
elementos 
identificados, 
desduplicados y
estandarizados. 
Se buscan
relaciones entre
las fuentes (cruce
de información,
para que el cliente
tome sus
desiciones con
esta información. 
La información es
montada en la
estructura de un
Data Warehouse
para una óptima
explotación de la
información 
higienizada, 
estandarizaday 
relacionada 
(cruce de
 
 Página 22 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
CAPITULO 2 
 
 
APLICACIONES EMPLEADAS PARA EL PROCESO 
DE LIMPIEZA DE DATOS, ESTANDARIZACIÓN Y 
CRUCE 
 
 Página 23 
CAPITULO 2. Aplicaciones empleadas para el 
proceso de limpieza de datos, estandarización y 
cruce 
 
Para implementar las labores de limpieza es necesario contar con las herramientas 
adecuadas para llevar a cabo la tarea de limpieza de datos. Antes de describir las 
aplicaciones que actualmente se emplean por el departamento de limpieza de datos, 
se mencionará que no existe un camino único para realizar este trabajo, por decir, 
igual se puede emplear programación por decir Basic o Java, herramientas que todos 
conocemos como Excel, Access, pero lo que no se podrá garantizar serán dos cosas: el 
tiempo de respuesta y la posibilidad de ejecutar nuevamente el proceso con distintos 
datos pero con las mismas características en el menor tiempo posible. Actualmente se 
alcanzan esos objetivos en su totalidad. 
 
Para empezar será necesario hacer una división de las aplicaciones en base a las tareas 
que desempeñan, estas tareas son: 
 
1. Repositorio de la información de entrada / salida 
a. SQL Server 
 
2. Diagnóstico y preparación de la información de entrada / salida 
a. TS Discovery 
b. SQL Server 
c. Aplicaciones desarrolladas por el departamento 
 
3. Higienización y estandarización de elementos de la BD de entrada 
a. Aplicaciones desarrolladas por el departamento 
b. Trillium Software System 
c. SQL Server 
d. MS Access 
e. MS Excel 
f. UltraEdit 
 
4. Estandarización por catálogos de la información limpia 
a. Omikron AdressCenter 
b. MS Access 
c. SQL Server 
 
5. Cruce de información de la BD limpia 
a. Omikron AdressCenter 
b. MS Access 
c. SQL Server 
 
Cabe mencionar que una o varias herramientas pueden ser utilizadas en forma 
individual o conjunta para atacar una misma tarea. Lo mismo es convertir a 
caracteres mayúsculas determinada parte de la información utilizando SQL, de forma 
más manual con Access o Excel, o el mismo manejador de textos. Lo que se pretende 
 
 Página 24 
buscar es alcanzar un desempeño preciso, rápido y que sea capaz de repetirse en el 
menor tiempo posible. 
 
Existen circunstancias en las cuales van de la mano entre la elección de una u otra 
aplicación, y esto se rige según el tamaño de información que se está trabajando y la 
tarea que se pretende desempeñar en su momento. Por ejemplo: si pretendo agregar 
un número determinado de columnas a una base de 20 registros, no emplearé un 
motor de base de datos como SQL, pero será óptimo su uso en el caso que fueran 
millones de registros. Por tal motivo, este tipo de decisiones se derivan en base al 
requerimiento de la tarea y a la capacidad de la aplicación. 
 
A continuación se describirán las herramientas necesarias para llevar a cabo los 
procesos de Limpieza de Datos y Cruce de Información: 
 
 
 
SQL Server 
 
Structured Query Language Server no es más que un lenguaje estándar de 
comunicación con bases de datos. Se trata de un lenguaje normalizado que permite 
trabajar con cualquier tipo de lenguaje (ASP o PHP) en combinación con cualquier 
tipo de base de datos (MS Access, SQL Server, MySQL...). 
 
 
El hecho de que sea estándar no quiere decir que sea idéntico para cada base de datos. 
En efecto, determinadas bases de datos implementan funciones específicas que no 
tienen necesariamente que funcionar en otras. 
 
 
Aparte de esta universalidad, el SQL Server posee otras dos características muy 
apreciadas. Por una parte, presenta una potencia y versatilidad notables que contrastadado que a diferencia de otros manejadores de BD se limitan en cuanto al tamaño y 
otra característica es el tiempo de respuesta que toma el ejecutar una tarea, por otra, 
con su accesibilidad de aprendizaje. 
 
Funciones características que son aplicadas para el proceso de Limpieza de Datos: 
 
• Importa / exporta la fuente de información 
• Prepara la información de entrada para empezar a higienizas la información de 
entrada 
• Repositorio de información: almacena las BD de entrada (no procesados) y las 
que fueron procesadas 
 
 Página 25 
 
 
 
TS Discovery 
 
Trillium Software Discovery es una aplicación que componen a la suite de Trillium 
Software Data Quality y está diseñada para que, de manera conjunta, brinden las 
capacidades necesarias para lograr una estrategia de Calidad de Datos que responda a 
los requerimientos corporativos de forma satisfactoria. 
 
Antes de que se puedan mejorar los datos, se deben entender, tanto en lo que 
contienen como en lo que no. En esta etapa es posible apoyarse en la herramienta TS 
Discovery para poder localizar elementos como los siguientes: 
 
 
• Frecuencia de ocurrencias en un campo, incluyendo espacios y ceros. 
• Mascarillas de los datos en un campo, tales como xxx-xxx-xxxx para un número 
telefónico. 
• Registros Únicos. Número de registros no duplicados. 
• Patrones. Número de patrones que se pueden aplicar al campo. 
• Longitud Máxima. Lo máximo que puede medir el campo. 
• Longitud Mínima. Lo mínimo que puede medir el campo. 
• Nulos. Número de registros nulos. 
• Tipo. Tipo de dato: numérico, cadena, decimales, etc. 
• Cadenas Únicas. Número de registros cuyo contenido no se duplica. 
• Enteros Únicos. Número de registros que sólo son enteros. 
• Metaphones. Número de registros que tienen sonidos similares. 
 
 
 Página 26 
 
 
MS Access 
 
Microsoft Office Access es un programa de administración de bases de datos que 
proporciona una experiencia amable al usuario, así como la capacidad para importar y 
exportar archivos de datos en diferentes modalidades (txt, xml, html, etc), y trabajar 
con los mismos. 
 
 
Funciones características que son aplicadas para el proceso de Limpie.za de Datos: 
 
• Importa / exporta la fuente de información. 
• Prepara la información de entrada para empezar a higienizas la información de 
entrada (aplicado a fuentes de información cuyo tamaño sea de un tamaño que 
no limite los recursos de la aplicación y el ambiente de trabajo). 
• Otorga un mantenimiento asistido de la información que procede de la salida 
de los procesos de Calidad de Datos que otorga la aplicación Trillium Software 
System. 
• Sirve como medio para revisar la información en base a Consultas de Selección 
y tomar decisiones correctivas a los procesos Limpieza de Datos 
• Auxiliar para generar las BD entregables al cliente con las reglas de negocio de 
limpieza de datos acordadas y con el formato e índices solicitados. 
• Empleando consultas de actualización permite al usuario construir los módulos 
requeridos por los módulos de trabajo de los procesos de Trillium Software 
System. 
 
 
 Página 27 
 
 
MS Excel 
 
Microsoft Office Excel es un programa del tipo Hoja de Cálculo que permite realizar 
múltiples acciones en base a fórmulas con datos organizados en una cuadrícula. 
 
Funciones características que son aplicadas para el proceso de Limpie.za de Datos: 
• Auxiliar para el manejo de la información en cualquier nivel de trabajo, 
empleando filtros de consulta principalmente 
• Con el manejo de fórmulas, es posible construir los módulos de trabajo del 
proceso de Limpieza de Datos que requiere la aplicación Trillium Software 
System 
 
 
 
UltraEdit 
 
 
 Página 28 
UltraEdit es un editor de textos dinámico. Puede editar varios archivos a la vez de 
tamaño ilimitado y permite hacer cosas como el "reemplazar" de un texto en todo un 
conjunto de archivos. Estas ventajas sobrepasan las características que puede entregar 
el Notepad de Windows. 
 
Funciones características que son aplicadas para el proceso de Limpie.za de Datos: 
 
• Auxiliar para el manejo de la información en formato plano en cualquier nivel 
de trabajo (txt, html, xml, Java, bat, etc.), empleando métodos de búsqueda 
avanzados que aporta la herramienta principalmente 
 
• Visualización simultánea de los archivos de trabajo de la aplicación Trillium 
Software System. 
 
 
 
Omikron AdressCenter 
 
Es una aplicación que realiza búsquedas de coincidencias entre fuentes de 
información, sean exactas o en base a los criterios de búsqueda establecidos, genera 
aproximaciones porcentuales entre uno o varios elementos de Tablas de de una Base 
de Datos. 
 
Funciones características que son aplicadas para el proceso de Limpie.za de Datos: 
• Estandarización de columnas. Ayuda a generar una columna de 
información alterna en base a otra definida como Tabla Base, donde completa 
o corrige aquellos valores identificados como coincidentes. Por ejemplo, 
MARRIA por MARIA, GRAL ANAYA por GENERAL ANAYA. 
 
• Generación de Cruces de Información. Al igual que la forma de trabajo 
que la estandarización, esta aplicación permite generar una matriz de trabajo 
 
 Página 29 
en donde puede calificar la información en base a las distintas aproximaciones 
pero en esta ocasión lo hará entre las distintas Bases de Datos. Con esto es 
posible encontrar coincidencias entre las BD y poder determinar si existen 
relaciones entre los registros. 
 
Por ejemplo, mismo nombre, misma dirección en dos bases de datos distintas. 
 
 
 
 
 
 
 
 
 
Aplicaciones desarrolladas por el departamento de Limpieza de Datos 
 
En base a la necesidad de contar con herramientas que ayuden al rendimiento u 
optimización del trabajo en cualquiera de las fases de trabajo de la Limpieza de Datos, 
se desarrollaron dos aplicaciones: 
 
 
 
• Analizador de Símbolos. Esta aplicación genera búsqueda y frecuencias de 
los caracteres distintos a letras (A – Z) y números (0 – 9), para después 
determinar en base a las Reglas de Negocio establecidas para la higienización 
de los datos. Permite que la búsqueda se en base a una Base de Datos de SQL 
Server, MS Access u Trillium. 
 
 
 Página 30 
 
 
• Generador de Muestras. Permite generar una muestra de una tabla 
determinada de una Base de Datos en formato de MS Access. De entrada, en 
esta aplicación se indica el número total de registros, en base a esto, construye 
una nueva tabla empleando aproximaciones matemáticas definidas que sean 
capaces de entregar como producto final, los registros verdaderamente 
representativos del total de la Base de Datos. El resultado es revisado 
minuciosamente para poder calificar el trabajo de salida de la higienización de 
la información, esto con el fin de poder hacer las correcciones. 
 
 
 
• Página de construcción de módulos de higiene de caracteres. Una vez 
detectados los caracteres no válidos para la Base de Datos final, se analizan 
previamente qué caracteres son aptos para ser alterados y construir así, 
mediante esta página Web, el módulo del proyecto de Limpieza de Datos que 
permita llevar a cabo estas acciones. 
 
 
 Página 31 
 
 
Trillium Software System 
 
Trillium Software System es una aplicación que compone a la suite de Trillium 
Software Data Quality, y está diseñada para otorgar una metodología de Calidad de 
Datos. 
 
 
 
Dentro de las funciones que reúne esta aplicación, para la implementación de 
proyectos de Higienización y Estandarización de la información, su trabajo es basado 
en módulos donde se realizan procesos de ejecución con los parámetros 
determinados, se describen a continuación los procesos o módulos que intervienen: 
 
• Tudelim. Se emplea para convertir archivos de texto plano con delimitador de 
columnas por un caracter (ya sea un tabulador, una coma, o pipes (|), etc) a 
 
 Página 32 
una archivo de texto plano de ancho fijo determinado por un diccionario de 
datos. 
 
• Tumdelim. Este móduloconvierte la información de entrada que es de 
formato plano de ancho fijo determinado por un diccionario de datos, a un 
archivo de texto plano con delimitador de columnas por un caracter (tabulador, 
coma, pipe (|), etc.). 
 
• Converter. Este módulo puede altera los registros en base a los parámetros y 
líneas de búsqueda de contenido definidos. Hace acciones como: modificar el 
contenido de los registros, desplazar datos en distintas columnas, justificar los 
espacios, entre otras. 
 
• Parser. Una vez que los datos fueron preparados por uno o varios módulos de 
converter, ingresan al proceso de Parser, el cual identifica los términos y 
patrones correspondientes de los valores de campo de trabajo, es decir, califica 
el destino de la información presentada para ser depositada en los distintos 
campos que cuente. 
Para hacer eso posible, por un lado, la herramienta necesita del trabajo 
entregado por el módulo de Tabla de Mantenimiento, y por otro, los patrones 
identificados por la herramienta Parser Tuner. 
 
• Tabla de Mantenimiento. Esta herramienta transforma dos archivos que 
tiene a la entrada en otros dos que alimenta de información al módulo Parser. 
Uno de los archivos de entrada es el catálogo de frases a identificar, donde 
puede ser que cuente con información de nombres de calles, colonias, apellidos 
y nombres de personas. El otro archivo de entrada son los patrones de 
comportamiento identificados por la herramienta Parser Tuner. 
 
• Reconstructor. Este módulo es una utilidad para alterar la información que 
a diferencia del módulo Converter, su trabajo es dinámico en función que las 
acciones están determinadas por un archivo de texto plano llamado rule, y 
permite a través de su propio lenguaje de programación, hacer un sin fin de 
acciones, que a diferencia del módulo Converter, simplifica varios eventos en 
un solo paso. 
 
• Utcopy. Es una utilidad copiadora de archivos en base a un criterio de 
selección de valores que tenga que identificar en una de las columnas 
mencionadas. La lógica que emplea (igual, menor, mayor que, etc.) puede ser 
comparada con valores absolutos que sean comparados con una columna 
determinada y dividir la información de entrada distintos archivos de salida. 
 
• Pfsort. Este paso se emplea cuando es requerido un ordenamiento de los 
registros de la información en base a una columna, ya sea ascendente (A–Z) o 
descendente (Z-A). 
 
 
 Página 33 
Dentro de las herramientas de trabajo que cuenta trillium, cuenta con otras que 
ayudan al análisis, construcción y/o transformación. Estas herramientas son como a 
continuación se describen: 
 
• DDL Editor. Es el editor de diccionarios para archivos de texto plano de 
ancho definido. En este son mencionados los nombres de las distintas 
columnas que cuenta el archivo así como el tipo de información (ASCII 
character, ASCII numeric,etc.), la posición de inicio y el ancho de columna. 
 
 
 
• Data Browser. Es un visualizador de archivos de formato plano de ancho fijo 
determinados por un diccionario de datos (DDL). Y entre sus herramientas que 
presenta, puede filtrar información o exportar ésta a otro formato de texto 
plano separados por un caracter. 
 
 
 
 
 Página 34 
• Parser Tuner. Es una herramienta que muestra la información contenida en 
una de las columnas de la Tabla de la base de datos y sirve para generar los 
patrones de comportamiento en base a que presenta la información de forma 
agrupada de acuerdo al contenido y estructura de la información. Como 
resultado se obtiene un archivo de patrones que es parte de uno de los archivos 
de entrada del módulo Tabla de Mantenimiento. 
 
 
 
Una de las herramientas que presenta es Tucnvtab, el cual convierte de Tabla 
de Definiciones a un archivo de MS Excel, o bien, en sentido contrario. Esto 
ayuda en gran medida para el análisis de los distintos argumentos que se puede 
contar, dado que su contenido puede alcanzar varios millares de líneas. 
 
 
 
 
 Página 35 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
CAPITULO 3 
 
 
METODOLOGIA EMPLEADA EN EL PROCESO DE 
LIMPIEZA DE BASE DE DATOS, 
ESTANDARIZACIÓN Y CRUCE DE INFORMACIÓN 
 
 Página 36 
CAPITULO 3. Metodología empleada en el proceso 
de Limpieza de Base de Datos, Estandarización y 
Cruce de Información 
 
El Sistema de Administración Tributaria (SAT), dentro de la administración de 
transformación y consistencia de base de datos, realiza la integración de la 
información basadas en un Data Warehouse. Por tal motivo, y como necesidad de 
operación de integrar la nueva información (información de entrada) a la estructura 
actual de información, se establece el departamento de Limpieza de base de datos, el 
cual basa sus esfuerzos por obtener calidad en los datos en base a reglas establecidas 
por los clientes; para ello ejecuta procesos de limpieza de bases de datos, 
estandarización y cruces de información. 
 
En el siguiente apartado se darán a conocer los pasos a seguir en cumplimiento a los 
alcances de una Calidad de datos. Así mismo, se describirán los tecnicismos propios 
del departamento de Limpieza de Base de Datos. 
 
Los objetivos de una limpieza de datos se dividen en cuatro fases, las cuales son: 
 
1. Investigación - Permite determinar el grado de ajuste que tiene la información 
disponible en la organización respecto a las reglas de negocio, dentro de los límites 
y requerimientos que la misma organización considere aceptables. 
 
2. Higienización - Su objeto es identificar, verificar y normalizar todos los datos que 
ingresan al área de limpieza de datos, de cualquiera de las entidades e 
instituciones que la proporcionen. 
 
3. Estandarización - Aprovecha información de fuentes externas (catálogos) para 
corregir y mejorar los datos de las fuentes. 
 
4. Detección de relaciones - Identifica y reúne registros pertenecientes a distintas 
entidades y fuentes por nombres y direcciones. Además localiza registros 
similares, a través de métodos de agrupación complejos. 
 
Para que el cumplimiento de estos objetivos, se emplean la siguiente metodología: 
 
1. Recepción de fuente 
 
• Almacenar en disco. Se almacena la información en un repositorio de 
información con una estructura de carpetas bien identificada para un rápido 
acceso a ellas. 
 
• Análisis de metadatos. Se realiza un análisis de las variables de la fuente de 
datos, para determinar cuales serán trabajadas. 
 
• Conteo de registros. Para fines estadísticos, estimaciones de tiempos, 
determinar tamaños de muestra, detectar registros duplicados. 
 
 Página 37 
 
• Generación de llave primaria. Los registros deben contar con un identificador 
único, esto tiene dos usos: primero, los datos que no tienen utilidad en los 
procesos de limpieza son separados pero deben ser regresados después de 
procesada la información); segundo, hacer comparativos entre la fuente original y 
la fuente procesada. 
 
• Análisis preeliminar. Con base a la experiencia y a un análisis primario de las 
variables a trabajar se verifica la integridad de los datos a procesar, se proponen 
los módulos de limpieza que mejor se ajustan a la fuente, se calcula el espacio de 
almacenamiento requerido para trabajar la fuente y estiman tiempos de proceso 
para la misma. 
 
• Reporte de la información recibida. El análisis preeliminar permite la 
generación de un reporte con los siguientes elementos: 
 
o Fecha y Hora. La fecha y la hora de la recepción de la fuente. 
o Registros. Total de registros de la fuente; si es posible detectar duplicados 
también se reporta. 
o Variables. Las variables que se usarán durante los procesos de limpieza, 
detallando el estado de cada variable; así como información adicional que 
contenga la fuente, que aunque no serán usados en los procesos de higiene 
serán reportados. 
o Observaciones del análisis preeliminar. Comentarios relevantes sobre el 
estado de la fuente recibida. 
o Tiempos de proceso. Con base al número de registros, y la integridad delos 
datos, el estado de las variables y el análisis preeliminar, se obtiene una 
propuesta de los tiempos de proceso y entrega. 
 
2. Análisis de variables 
 
• Generación de frecuencias. La generación de frecuencias permite la 
identificación de caracteres no válidos y de abreviaturas; dependiendo la 
complejidad de cada variable se determina la carga de trabajo. Se cuenta con 
parámetros de corrección de caracteres y abreviaturas, sin embargo este análisis 
permite determinar que caracteres deben sustituirse o borrarse, y debido a que no 
todas las fuentes son iguales, no siempre se sustituyen algunos caracteres o 
abreviaturas. La generación de frecuencias se realiza con máscara (identificando 
letras, número y caracteres especiales). 
 
• Generación de muestra. Por cada variable se genera una muestra y se realiza 
un análisis más extenso que el preeliminar para determinar la integridad de la 
información, los patrones de comportamiento de la información y si de los 
módulos existentes se puede aplicar alguno o algunos o es necesario desarrollar 
uno que se ajuste a las necesidades de la información. 
 
 
 Página 38 
• Ejecutar los procesos de higiene. De acuerdo con los modelos de datos 
existentes. Tomar los módulos de limpieza que mejor se ajusten a la información y 
ejecutar los procesos. 
 
• Generar modelos de datos que no existen para las variables analizadas. 
La generación de frecuencias, el análisis de la información, así como el análisis de 
los datos de las distintas variables, para que permitan la generación de nuevos 
modelos de datos y que puedan ser utilizados por fuentes similares en el futuro. 
 
3. Tipificar variables 
 
• Identificar que módulos de procesamiento son adecuados para la 
fuente. Una vez analizada la información se procede a aplicar el módulo que 
mejor ajustó a la fuente, los converter* que se ejecuten generan estadísticas sobre 
los registros procesados, de esta forma los registros que no fueron procesados son 
separados y son asistidos fuera de los procesos de Trillium. 
 
• Tipificar Nombres, Apellidos, Calles, Colonias, y Datos Varios†. Los 
catálogos de abreviaturas de las distintas variables son actualizados. 
 
• Identificar patrones. El análisis de las variables, permite detectar que patrones 
(para nombres o domicilios) pueden ser aplicados en la fuente, ya que no todos los 
patrones son válidos para todas las fuentes. 
 
• Adaptación de los módulos. Proponer módulos o mejoras en los mismos de 
acuerdo al análisis de las variables. Generalizar los módulos para que puedan ser 
aplicados a la mayoría de las fuentes. 
 
4. Investigación 
 
• Búsqueda de rutinas para la mejora de tiempos y procesos. Un módulo 
siempre se puede mejorar para agilizar tiempos o la calidad de la limpieza, es 
necesario investigar el uso de la herramienta o el proceso en sí para que dicha 
mejora sea real. 
 
• Actualizar herramientas de trabajo. En el mercado siempre hay 
herramientas que son unas más apropiadas que otras, según el trabajo requerido, 
estar al día sobre este tipo de noticias es importante. La actualización de versiones 
o parches sobre la herramienta que se usa también es importante. 
 
 
* Es importante mencionar que los converter (módulos de higiene) son para cada variable, esto es: 
Nombre, Apellidos, Calle, Número Exterior, Número Interior, Colonia, etc. 
† Datos Varios: Información que permite la clasificación e identificación de otras variables; ejemplos de 
este tipo de información son: Domicilio Conocido, Calificador de Número (#, N°, NUM, SN, etc.), 
Referencias (EN FRENTE DE, ATRÁS DE, ESQUINA CON, etc.). 
 
 Página 39 
• Datos de cada fuente. Algunas fuentes de información tienen datos que no son 
útiles para el fin de la higiene y el cruce, pero considerando las metas a nivel 
institucional, es útil saber con que tipo de información extra se cuenta en la fuente. 
 
• Reglas de negocio. Las reglas de negocio para la estandarización, la 
homologación y/o el cruce no siempre son las mismas o pueden cambiar (que vá 
según lo acordado con el cliente y con la estructura de la información presentada 
en la propia base de datos), mantenerse al día sobre los requerimientos de los 
datos es necesario, ya que son importante modificaciones en la mayoría de los 
módulos. 
 
5. Entrega del producto final 
 
• Validación por el departamento de calidad. Se realiza un análisis 
exhaustivo de la información procesada contra la original para detectar fallas en 
los procesos y aplicar los correctivos pertinentes. 
 
• Base de datos entregable. Se arma una estructura de base con dos tablas, una 
que es la totalmente original, y otra tabla que contenga la base original más la 
procesada. 
 
• Diccionario de datos. Se describe mediante un documento las características y 
descripción de cada columna de la tabla de datos que contiene los originales mas 
los procesados. 
 
• El reporte fina. El reporte final debe contener lo siguiente: 
 Fecha de recepción de la información. 
 Fecha de entrega de la información. 
 Total de registros. 
 Total de registros procesados. 
 Total de registros con Calle estandarizada. 
 Total de registros con Colonia estandarizada. 
 Total de registros con Nombre (o razón social) y apellidos higienizados. 
 Total de actualizaciones al catálogo de Calles y Colonias. 
 Total de actualizaciones al catálogo de Nombres. 
 Total de actualizaciones al catálogo de patrones de Domicilios. 
 Total de actualizaciones al catálogo de patrones de Nombres. 
 Total de registros cruzados contra otra fuente de información. 
 
 
 Página 40 
Premisas del procedimiento general de higiene para una fuente 
de información 
 
El procedimiento global requerido para una fuente de información recibida, deberá de 
cumplir con los siguientes requisitos generales: 
 
Higiene de Nombre: 
 
• Corrección de Caracteres Nombre (o Razón Social) 
• Corrección de Caracteres Apellido Paterno 
• Corrección de Caracteres Apellido Materno 
• Expansión de Abreviaturas Nombre 
• Expansión de Abreviaturas Apellido Paterno 
• Expansión de Abreviaturas Apellido Materno 
• Identificar tipo de persona (Física o Moral) 
• Tipo de sociedad (aplica solamente para Personas Morales) 
• Nombre segmentado (en nombre, apellido paterno, apellido materno y tipo de 
sociedad). 
 
Higiene de Domicilio Básica (Necesaria para un cruce de información) 
• Corrección de Caracteres Calle 
• Corrección de Caracteres Colonia 
• Corrección de Caracteres Número Exterior 
• Expansión de Abreviaturas Calle (incluye corrección y extracción de frases 
como: DOMICILIO CONOCIDO, SIN CALLE, etc) 
• Expansión de Abreviaturas Colonia (incluye corrección y extracción de 
leyendas como: SIN COLONIA, SIN ASIGNAR, etc) 
• Separa Asentamiento 
• Separa Vialidad 
• Segmentar LOTE, MANZANA, EDIFCIO, LOCAL, etc 
• Información segmentada (parser) 
• Corregir Número Exterior (únicamente valores numéricos en el campo de 
Número Exterior) 
 
Higiene de Domicilio Estándar (No necesaria para un cruce de información) 
• Los mismos procesos que la Higiene de Domicilio Básica 
• Segmenta Referencia (no aplica para todas las fuentes; pone la información 
correspondiente en Calle1, Calle2 y Referencia) 
• Corrección de Caracteres Referencia 
• Corrección de Caracteres Calle1 
• Corrección de Caracteres Calle2 
• Expansión de Abreviaturas Calle1 
• Expansión de Abreviaturas Calle2 
• Separa Vialidad1 
• Separa Vialidad2 
 
 Página 41 
• Corrección de Caracteres CP 
• Corrección de CP 
• Corrección de Caracteres Teléfono 
• Corrección de Teléfono 
• Higienización de caracteres no válidos por las reglas de negocio, en el resto de 
los campos que contenga la fuente de información (fechas, e-mail, número de 
empleados, ganancias, etc). 
 
Clasificación de registros 
 
Debido a la diversidad de procesos necesarios para la higiene de un registro, se debe 
hacer la distinción entre Registro Higienizado, Registro Procesado y Registro 
Afectado.Registro Procesado 
 
Aquel registro que entró al proceso global de higiene independientemente de si fue 
afectado por alguno de los procesos individuales o si fue higienizado. 
 
Registro Afectado 
 
Aquel registro que entró al proceso global de higiene y que por lo menos fue 
“afectado” por alguno de los procesos individuales de higiene, ejemplos: 
 
Información Original: 
 
nombre ap_paterno ap_materno 
ELENA MARTZ 
LPZ 
 
 
Información Afectada por un proceso: 
 
nombre ap_paterno ap_materno 
ELENA 
MARTINEZ LPZ 
 
 
nombre ap_paterno ap_materno 
ELENA MARTINEZ 
LOPEZ 
 
 
Información Afectada por 2 procesos: 
 
nombre ap_paterno ap_materno 
ELENA MARTINEZ LOPEZ 
 
Información Original: 
 
 Página 42 
calle 
CALZ E. IZTAPALAPA #25 ESQ B. JUAREZ LTE 17 MZA 242 
AMPL HEROES DE LA INDEP. A LADO DE IMSS NO. 196 
 
Información Afectada por un proceso: 
 
calle 
CALZ ERMITA IZTAPALAPA #25 ESQ B. JUAREZ LTE 17 MZA 242 
AMPL HEROES DE LA INDEP. A LADO DE IMSS NO. 196 
 
calle 
CALZ ERMITA IZTAPALAPA #25 ESQ BENITO JUAREZ LTE 17 MZA 
242 AMPL HEROES DE LA INDEP. A LADO DE IMSS NO. 196 
 
Información Afectada por 2 procesos: 
 
calle no_exterior_alfa 
CALZ ERMITA IZTAPALAPA #25 ESQ BENITO JUAREZ 
AMPL HEROES DE LA INDEP. A LADO DE IMSS NO. 196 
LOTE 17 
MANZANA 242 
 
Registro Higienizado 
 
Aquel registro que entró al proceso global de higiene y que en la medida que cumpla 
con las reglas de negocio acordadas, puede ser considerado como un registro 
higienizado. 
 
 
 Página 43 
Reglas de negocio para la higienización de una fuente de 
información 
Nombre del campo: tipo 
 
Descripción del campo: Contiene la información con respecto al tipo de persona 
física y moral asignada al nombre de cada registro. 
 
Reglas de negocio: 
Se escribe en la columna “tipo” la variable correspondiente cuando cumpla con la 
correspondiente descripción: 
 
Variable Descripción 
M Indica que se trata de una Persona Moral 
F Indica que se trata de una Persona Física 
I 
Indica que la información que presenta es una 
inconsistencia, ya que carece de elementos para 
determinar si es una persona física o moral 
NS Indica que el registro no se procesó 
 
Nombre del campo: tipo_soc 
 
Descripción del campo: Contiene la información con respecto al tipo de sociedad 
asignada a cada persona moral. 
 
Reglas de negocio: 
 
• Los registros deben ser en letra mayúscula y sin palabras acentuadas. 
• Este campo debe contener la información del tipo de sociedad de la persona 
moral. 
• No debe contener caracteres especiales (.,-()[]´°!”#$%&/()=?¡) etc. 
 
La siguiente tabla presenta algunos casos representativos de los tipos de sociedad: 
 
tipo_soc Descripción 
A C Asociación Civil 
S C Sociedad Civil 
S N C Sociedad en Nombre Colectivo 
S EN C Comandita Simple 
S EN C POR A Comandita por Acciones 
S A Sociedad Anónima 
S DE R L Sociedad de Responsabilidad Limitada 
SC Sociedad Cooperativa 
A P Asociación en Participación 
S M S V D Sociedad Mutualista de Seguros de Vida o de Daños 
 
 Página 44 
S DE R L DE I P 
Sociedad de Responsabilidad Limitada de Interés 
Público 
SNC 
Sociedad Nacional de Crédito y/o Institución de 
Banca de Desarrollo 
tipo_soc Descripción 
I B M Institución de Banca Múltiple 
S I Sociedades de Inversión 
A F Agrupaciones Financieras 
SOFOL Sociedad Financiera de Objeto Limitado 
AFORE Administradoras de Fondos para el Retiro 
SIEFORE 
Sociedades de Inversión Especializada de Fondos para 
el Retiro 
S DE R L MI 
Sociedad de Responsabilidad Limitada 
Microindustrial 
S DE S S Sociedad de Solidaridad Social 
O A C Organizaciones Auxiliares del Crédito 
ARIC Asociaciones Rurales de Interés Colectivo 
SPR Sociedades de Producción Rural 
 
Nombre del campo: nombre 
 
Descripción del campo: Contiene la información con respecto al nombre o 
nombres, así como la razón social asignadas a cada persona física o moral. 
 
Reglas de negocio: 
 
• Los registros deben ser en letra mayúscula y sin palabras acentuadas. 
• Este campo debe contener la información del nombre ó nombres de la persona 
física o moral. 
• No debe contener caracteres especiales (.,-()[]´°!”#$%&/()=?¡) etc. Para el caso 
del ampersan (&) es válido siempre y cuando se refiera a Personas Morales. 
 
Nombre del campo: ap_paterno 
 
Descripción del campo: Contiene la información referente al apellido paterno de 
cada persona física. 
 
Reglas de negocio: 
 
• Los registros deben ser en letra mayúscula y sin palabras acentuadas. 
• No debe contener caracteres especiales (.,-()[]´°!”#$%&/()=?¡) etc. 
 
Nombre del campo: ap_materno 
 
Descripción del campo: Contiene la información referente al apellido materno de 
cada persona física. 
 
 Página 45 
 
Reglas de negocio: 
 
• Los registros deben ser en letra mayúscula y sin palabras acentuadas. 
• No debe contener caracteres especiales (.,-()[]´°!”#$%&/()=?¡) etc. 
 
 
 
Nombre del campo: vialidad 
 
Descripción del campo: este campo debe contener el tipo de vialidad que es la 
correspondiente al campo “calle”, como a continuación se muestra 
 
TIPO DE VIALIDAD 
AUTOPISTA CERRADA 
ANDADOR CORREDOR 
AVENIDA PRIVADA 
BOULEVARD PROLONGACION 
CIRCUNVALACION CAMINO* 
LIBRAMIENTO CARRETERA 
PASAJE CIRCUITO 
CALLE DIAGONAL 
CALLEJON RETORNO 
CALZADA VEREDA 
 
* Referente a “camino”, verificar como aparece en la información y como esta designado en los catálogos 
 
Reglas de negocio: 
 
• En este campo solo debe presentar el tipo de vialidad, no debe estar 
acompañado del nombre de la calle. 
• No debe contener caracteres especiales (.,-()[]´°!”#$%&/()=?¡) etc. 
 
Nombre del campo: calle 
 
Descripción del campo: Nombre propio asignado a la vialidad para su 
identificación, dado por la autoridad o la costumbre, este campo debe contener el 
nombre de la calle o el espacio transitable donde esta la ubicación física de las 
personas físicas y morales. 
 
Reglas de negocio: 
 
• Este campo solo debe contener el nombre de la calle. 
• No debe contener caracteres especiales (.,-()[]´°!”#$%&/()=?¡) etc. 
• Si el campo contiene la leyenda de “domicilio conocido”, esta se debe eliminar. 
 
Nombre del campo: xcalle 
 
 
 Página 46 
Descripción del campo: Este campo contiene información de la calle 
estandarizada. 
 
Reglas de negocio: 
 
• No debe contener caracteres especiales (.,-()[]´°!”#$%&/()=?¡) etc. 
 
• Este campo debe contener información que corresponda a la estandarización 
del campo calle. El campo puede contener valores nulos. 
 
Nombre del campo: fcalle 
 
Descripción del campo: La información que contiene este campo es la integración 
entre los campos calle y xcalle. 
 
Reglas de negocio: 
 
• No debe contener caracteres especiales (.,-()[]´°!”#$%&/()=?¡) etc. 
 
• Este campo debe contener información que corresponda exactamente igual al 
campo xcalle y en vez de contener valores nulos fcalle, estos son llenados con 
la información del campo calle. 
 
 
 
Nombre del campo: no_exterior 
 
Descripción del campo: Número que identifica el predio en una vialidad debe 
contener solo valores numéricos, los cuales indican el número exterior del bien 
inmueble en el cual esta localizada la persona ya sea física o moral. 
 
Reglas de negocio: 
 
• Este campo solo debe contener valores numéricos. 
• No debe contener caracteres especiales (.,-()[]´°!”#$%&/()=?¡) etc. 
 
 
 
Nombre del campo: no_exterior_alfa 
 
Descripción del campo: Este espacio comprende los números y/o letras que 
acompañen o complementen a la información del campo “número exterior”. 
 
Reglas de negocio: 
 
• No debe contener caracteres especiales (.,-()[]´°!”#$%&/()=?¡) etc. 
 
 
 Página 47 
• Este campo debe contener valores alfanuméricos que son el complemento de 
número exterior y los casos son los siguientes: 
 
 
Concepto Descripción Justificación 
Km Se refiere a un determinado número de kilómetros 
en donde se encuentra la ubicación de alguna 
persona ya sea física o moral en un tramo 
especifico ya se de algunavialidad o carretera. 
Ya que no es un número 
exterior exacto, sino una 
aproximación ó referencia 
del lugar donde se encuentra 
físicamente el contribuyente 
Lote Se refiere al espacio geográfico con superficie 
variable, y esta conformado por una o varias 
viviendas. 
Dado que es un espacio 
geográfico, no se define con 
exactitud su núm. Exterior, 
por lo que la información es 
asignada al campo 
no_exterior_alfa 
Manzana Espacio geográfico de superficie variable, que 
puede estar conformado por una o más viviendas, 
industrias, comercios, servicios o lotes baldíos. 
Es considerada como un 
espacio geográfico con 
superficie variable 
conformado por varias 
viviendas, por lo que la 
información es asignada al 
campo no_exterior_alfa 
Bis Se considera como "dos veces" en el número 
exterior de casa, establecimientos, locales, 
departamentos, módulos, etc.., es decir que es 
añadido a cualquier número entero; como 
consecuencia indica que tal número se ha repetido 
por segunda vez. 
No es tomado como número 
exterior, ya que las reglas de 
negocio indican que en el 
campo "no_exterior", deben 
ir solamente caracteres 
numéricos y este funciona 
como complemento de este 
ya que los caracteres son 
alfanuméricos. 
 
 
Nombre del campo: no_interior 
 
Descripción del campo: Este campo contiene información complementaria de los 
campos “no _ exterior” y “no_exterior_alfa”; se refiere a los distintos conceptos 
referentes a viviendas interiores, departamentos, oficinas, locales, etc.. 
 
Reglas de negocio: 
 
• No debe contener caracteres especiales (.,-()[]´°!”#$%&/()=?¡) etc. 
 
• Este campo debe contener valores alfanuméricos que son el complemento de 
los campos “no _ exterior” y “no_exterior_alfa” y los casos son los 
siguientes: 
 
 
 
 
 Página 48 
Concepto Descripción Justificación 
Despacho 
Habitación o conjunto de salas 
destinadas al estudio, a ciertos trabajos 
intelectuales o a recibir clientes o 
personas con las que se tratan los 
negocios 
Por lo que es un espacio 
interior dentro de otro y 
complementa en la ubicación 
con respecto al campo 
“no_exterior” y 
“no_exterior_alfa” 
Departamento 
Vivienda de pequeñas dimensiones, que 
consta de una o dos habitaciones, con 
una cocina y un cuarto de baño 
pequeños, y que generalmente está 
situada en un edificio en el que hay otras 
similares 
Por lo que es un espacio 
interior dentro de otro y 
complementa en la ubicación 
con respecto al campo 
“no_exterior” y 
“no_exterior_alfa” 
Interior 
Se define como parte de dentro de una 
cosa, de un edificio o de sus 
dependencias, que puede fungir como 
establecimiento, local, vivienda, etc… 
Por lo que es un espacio 
interior dentro de otro y 
complementa en la ubicación 
con respecto al campo 
“no_exterior” y 
“no_exterior_alfa” 
Pisos 1 en 
Adelante 
Se refiere a cada una de las diferentes 
plantas que se superponen y forman su 
altura de un inmueble, en el cual se 
pueden asentar locales, 
establecimientos, viviendas, etc… 
Por lo que es un espacio 
interior dentro de otro y 
complementa en la ubicación 
con respecto al campo 
“no_exterior” y 
“no_exterior_alfa” 
Bodega 
Se refiere al lugar en el que se almacena 
algún tipo de producto y que a su vez 
puede fungir como algún tipo de oficina, 
local, etc.… 
Por lo que es un espacio 
interior dentro de otro y 
complementa en la ubicación 
con respecto al campo 
“no_exterior” y 
“no_exterior_alfa” 
Puesto 
 
Establecimiento comercial pequeño, que 
puede ser desmontable y se coloca en 
algún tipo de vía o dentro de algún 
centro comercial o inmueble en 
particular. 
Por lo que es un espacio 
interior dentro de otro y 
complementa en la ubicación 
con respecto al campo 
“no_exterior” y 
“no_exterior_alfa” 
Oficina 
Lugar en el que se realizan algún tipo de 
labores ya sea de índole comercial o 
burocrático, que por lo general están 
situadas al interior de un inmueble. 
Por lo que es un espacio 
interior dentro de otro y 
complementa en la ubicación 
con respecto al campo 
“no_exterior” y 
“no_exterior_alfa” 
Local 
Se define como un lugar cubierto y 
cerrado, generalmente situado en la 
parte baja de un edificio que se puede 
emplear para la comercialización de 
algún producto o servicio. 
Por lo que es un espacio 
interior dentro de otro y 
complementa en la ubicación 
con respecto al campo 
“no_exterior” y 
“no_exterior_alfa” 
Accesoria 
Se define como un lugar cubierto y 
cerrado, generalmente situado en la 
Por lo que es un espacio 
interior dentro de otro y 
 
 Página 49 
Concepto Descripción Justificación 
parte baja de un edificio que se puede 
emplear para la comercialización de 
algún producto o servicio. 
complementa en la ubicación 
con respecto al campo 
“no_exterior” y 
“no_exterior_alfa” 
Edificio 
Construcción destinada generalmente a 
servir de vivienda o de espacio para una 
actividad, conformada por varios 
departamentos, oficinas o locales. 
Dado que es un 
conglomerado de deptos, 
oficinas o locales, no es 
posible asignar un num. 
exacto para cada uno de ellos, 
por lo que la información 
entra a no_exterior_alfa 
Pent House 
 
Ser refiere a una habitación de 
dimensiones regulares a grandes, 
situado en la parte alta de un inmueble o 
edificio que sirve para vivienda, oficina, 
establecimiento comercial etc.. 
Por lo que es un espacio 
interior dentro de otro y 
complementa en la ubicación 
con respecto al campo 
“no_exterior” y 
“no_exterior_alfa” 
Plantas Bajas 
Se refiere a la planta baja de un edificio 
o condominio, en el cual puede haber o 
tener varias establecimientos, así como 
locales o viviendas (deptos). 
Es considerado como un 
espacio geográfico con 
superficie variable 
conformado por 1 o más 
establecimientos o viviendas, 
por lo que la información es 
asignada al campo 
no_exterior_alfa 
Altos 
Hace referencia a la parte alta de un 
inmueble, que puede estar conformado 
por una o mas viviendas, así como 
locales o establecimientos, es un 
sinónimo de planta alta. 
Dado que es una descripción 
referencial de la ubicación del 
domicilio fiscal, esta 
información se asigna a 
no_exterior_alfa 
Bajos 
Hace referencia a la parte baja de un 
inmueble, que puede estar conformado 
por una o mas viviendas, así como 
locales o establecimientos, es un 
sinónimo de planta baja. 
Dado que es una descripción 
referencial de la ubicación del 
domicilio fiscal, esta 
información se asigna a 
no_exterior_alfa 
Módulos 
Pieza o conjunto unitario de piezas que 
se repiten en una construcción de 
cualquier tipo, para hacerla más fácil, 
regular y económica, el cual tiene como 
finalidad albergar un establecimiento, 
oficina o local. 
Dado que no cuenta con un 
número exterior que lo 
diferencie, y tiene la 
característica de que puede 
ser movible, la información se 
asigna a no_exterior_alfa 
Naves 
Se refiere a un espacio determinado 
entre muros, generalmente de un solo 
piso que se utiliza como almacén o 
sección de mercados o centros 
comerciales. 
Dado que no cuenta con un 
número exterior que lo 
diferencie, y puede albergar 
varios locales, oficinas o 
establecimientos, la 
información se asigna a 
no_exterior_alfa 
Postes 
Madero, piedra o columna que se 
colocan verticalmente y que sirven de 
apoyo o de señal. 
Dado que es una descripción 
referencial de la ubicación del 
domicilio fiscal, esta 
información se asigna a 
no_exterior_alfa. 
 
 Página 50 
Concepto Descripción Justificación 
Casa 
Edificación en el que vive una persona o 
bien, que puede servir como un 
establecimiento industrial o mercantil. 
Dado que es una descripción 
referencial de la ubicación del 
domicilio fiscal, esta 
información se asigna a 
no_exterior_alfa. 
Block 
Se define como edificio grande que tiene 
como particularidad varias viviendas de 
características parecidas y que se 
encuentra en un núcleo de población 
Dado que no cuenta con un 
número exterior que lo 
diferencie, y puede albergar 
varios locales, oficinas o 
establecimientos, la 
información

Continuar navegando