5-2-2-ProcesodeCienciadeDatos

Ciencias

•
UNAM

Rosa Jaqueline Zamarripa
31/10/2023
¡Este material tiene más páginas!
Vista previa del material en texto
18/04/2022
1
PROCESO DE CIENCIA 
DE DATOS
Recopiló: Dra. María del Pilar Angeles
Libro: Data Science Concepts and Techniques, Jiawei Han, Micheline
Kamber, Jian Pei
AGENDA
 Introducción a la Ciencia de datos
 Aprendizaje automático
 KDD
 Multidisciplinas involucradas en la Ciencia de datos
 Tareas de ciencia de datos
 Algoritmos de aprendizaje
 Proceso de ciencia de datos
1
2
18/04/2022
2
 Proceso Ciencia de Datos (CRISP-DM)
○ 1. Conceptos básicos
○ 2. Conocimiento previo- Exploración de datos
■ Tipos de atributos
■ Descripción por estadística 
● Tendencia
● Dispersión
● Graficas
● Visualización
● Varianza
● Similitud
● Proximidad
● distancia
AGENDA
3. Preparación de datos
■ Calidad de datos
■ Limpieza
■ Integración
■ Reducción
■ Transformación
■ Correlación
■ discretización
AGENDA
3
4
18/04/2022
3
4. Modelado
Patrones
Clasificación
Arboles de decisión
Métodos bayesianos
Reglas
Predicción numérica
AGENDA
5. Evaluación de modelado
Matriz de confusión
Accuracy
Sensitivity
Specificity
Recall
Validación cruzada
Métodos de ensambñe
Análisis de cluster
AGENDA
5
6
18/04/2022
4
INTRODUCCIÓN - CIENCIA DE DATOS
● Colección de técnicas utilizadas para extraer valor de los datos. 
● Las técnicas se basan en encontrar patrones y relaciones 
dentro de los datos.
● El término ciencia de datos comúnmente se uso de manera 
intercambiable con descubrimiento de conocimiento, 
aprendizaje automático, análisis predictivo y minería de datos. 
● Sin embargo, cada término tiene una connotación ligeramente 
diferente según el contexto. 
INTRODUCCIÓN - CIENCIA DE DATOS
● La ciencia de datos es la aplicación comercial de:
○ Inteligencia artificial (PLN, lingüística, planeación, visión,
robótica, aprendizaje automático, etc.)
○ Estadísticas
○ Visualización
○ Matemáticas
La ciencia de datos es un campo interdisciplinario que extrae
valor de los datos que depende en gran medida del
aprendizaje automático y a veces se llama minería de datos.
7
10
18/04/2022
5
INTRODUCCIÓN CIENCIA DE DATOS
● Los términos inteligencia artificial, aprendizaje automático y 
ciencia de datos a menudo se usan indistintamente. 
● Sin embargo, estos tres campos son distintos según el contexto. 
● La figura 1.1 muestra la relación entre inteligencia artificial, 
aprendizaje automático y Ciencia de los datos.
INTRODUCCIÓN - CIENCIA DE DATOS
11
12
18/04/2022
6
APRENDIZAJE AUTOMÁTICO
● El aprendizaje automático es una subárea de la inteligencia 
artificial que proporciona a las máquinas la capacidad de 
aprender a través de la experiencia.
● La experiencia en este caso se da a través de los datos. 
● Los datos que se usan para enseñar a las máquinas se llama 
datos de entrenamiento. 
● El aprendizaje de máquina cambió diametralmente el modelo 
de programación tradicional . 
APRENDIZAJE AUTOMÁTICO
● Un programa es un conjunto de instrucciones
donde una computadora transforma las señales de
entrada en señales de salida a través de reglas y
relaciones predeterminadas.
● Los algoritmos de aprendizaje automático
(learners, estudiantes) toman las señales de
entrada y de salida (datos de entrenamiento) para
“descifrar” un modelo para el programa que
convierte la entrada en la salida
13
14
18/04/2022
7
CIENCIA DE DATOS
Ejemplos de casos de uso de ciencia de datos son:
● Motores de recomendación que pueden recomendar películas 
para un determinado usuario
● Modelo de alerta de fraude que detecta transacciones 
fraudulentas con tarjeta de crédito
● Modelo que encuentra clientes que probablemente 
abandonarán el próximo mes o predecirán ingresos para el 
siguiente trimestre
CARACTERÍSTICAS DE UN BUEN 
PATRÓN
• Fácilmente entendible por humanos
• Válido en datos nuevos o de prueba con cierto grado 
de certeza
• Potencialmente útil
• Novedoso
• Representa CONOCIMIENTO
16
17
18/04/2022
8
CIENCIA DE DATOS - CONSTRUYENDO MODELOS 
REPRESENTATIVOS:
● Modelo: 
○ Estadística: representación de una relación entre variables en un conjunto 
de datos. Un modelo puede describir cómo se relacionan dichas 
variables.
○ Una vez que se crea el modelo representativo, se puede utilizar para 
predecir el valor de la salida con base en las variables de 
entrada(descriptivo) o para comprender la relación entre variable de 
salida y todas las variables de entrada (descriptivo).
CIENCIA DE DATOS – TAREAS 
● Muchos de estos algoritmos se desarrollaron en las 
últimas décadas y son parte de aprendizaje 
automático e inteligencia artificial. 
● Algunos algoritmos se basan en los fundamentos de las 
teorías probabilísticas bayesianas y el análisis de 
regresión, originario de hace cientos de años. Estos 
algoritmos iterativos automatizan el proceso de 
búsqueda de una solución óptima para un problema 
de datos determinado.
● Según el problema, existen diversas tareas:
○ Clasificación 
○ Análisis de asociación
○ Agrupamiento
○ Regresión. 
18
27
18/04/2022
9
PROCESO DE CIENCIA DE DATOS
● Mientras empecemos por el proceso de Ciencia de datos
● Existen diversas propuestas para el proceso de ciencia de datos:
○ CRISP-DM –ya revisado en asignatura anterior-
○ KDD PROCESS
○ SEMMA SAMPLE, EXPLORE, MODIFY MODEL AND ASSESS (SAS INSTITUTE)
○ DMAIC DEFINE MESURE, ANALYZE IMPROVE AND CONROL SIX SIGMA
● El más extendido es CRISP y lo repasaremos a continuación.
KDD
Knowledge data 
discovery/Knowl
edge discovery 
in databases 
Proceso no trivial 
de identificación 
de patrones 
válidos, 
novedosos, 
potencialmente 
útiles y en última 
instancia 
comprensibles 
que permite 
detectar 
relaciones 
dentro de los 
datos para 
tomar decisiones 
importantes 
(Fayyad, 
Piatetsky-shapiro 
y Smyth, 1996). 
5. Escoger tarea de minería de datos
6. Escoger técnica de minería de datos
7. Aplicar algoritmo
29
43
18/04/2022
10
RESUMIENDO EL PROCESO DE CIENCIA DE 
DATOS
PROCESO DE CIENCIA DE DATOS
● Una vez conocido el proceso de ciencia de datos
veremos a detalle cada uno de estos pasos
○ Terminología utilizada
○ Conocimiento previo del negocio y de los datos  exploración de datos
○ Preparación o preprocesamiento de datos  limpieza, transformación, etc.
○ Modelado
○ Aplicación del modelo
○ Conocimiento posterior
44
45
18/04/2022
11
CONCEPTOS BÁSICOS
● Terminología relevante:
Conjunto de datos /dataset (conjunto de ejemplos) es una colección de 
datos con una estructura definida, a veces a la estructura se le 
denominada “dataframe o marco de datos".
Un punto de datos / data point (registro, objeto o ejemplo) es una 
instancia única en el conjunto de datos. Cada instancia contiene la 
misma estructura que el conjunto de datos.
Un atributo (característica, entrada, dimensión, variable o predictor) es 
una sola propiedad del conjunto de datos. Los atributos pueden ser 
numéricos, categóricos, fecha-hora, texto o datos booleanos.
CONCEPTOS BÁSICOS
Terminología relevante:
Etiqueta (etiqueta de clase, salida, predicción, objetivo o respuesta) es 
el atributo a predecir en función de todos los atributos de entrada. 
Los identificadores son atributos especiales que se utilizan para localizar 
o proporcionar contexto a registros individuales.
Por ejemplo, atributos comunes como nombres, números de 
cuenta y números de identificación de empleados son identificadores 
atributos. 
Los identificadores se usan a menudo como claves de búsqueda 
para unir múltiples conjuntos de datos.
Los Ids no contienen información adecuada para construir datos 
modelos científicos y, por lo tanto, deben excluirse durante el modelado 
real.
46
47
18/04/2022
12
CONOCIMIENTO PREVIO
● Información que ya se conoce acerca del tema en cuestión.
● Ayuda a definir el problema a resolver, como encaja en el 
negocio o investigación
● Ayuda a identificar los datos que se requieren para resolver el 
problema
CONOCIMIENTO PREVIO
● Objetivo
El proceso empieza por la necesidad de:
Análisis
Una pregunta
Un objetivo de negocio
Dado que es un proceso iterativo, escomún regresar a pasos 
anteriores, revisar lo asumido, la estrategia, la táctica, pero el 
objetivo es lo más importante tener claro antes de empezar.
48
49
18/04/2022
13
CONOCIMIENTO PREVIO
● Area de conocimiento/aplicación
Dado que la ciencia de datos puede descubrir muchos patrones 
y relaciones entre los atributos, el científico debe examinar los 
patrones expuestos y aceptar los que sean válidos y relevantes 
para la respuesta del objetivo.
Se debe estar familiarizado con el tema, su contexto y con el 
proceso de negocio que genera los datos.
CONOCIMIENTO PREVIO
● Datos
También se requiere conocimiento sobre los datos. 
Entender como son colectados, almacenados, transformados, 
reportados y utilizados.
Factores que se deben considerar:
Calidad de los datos
Cantidad de los datos
Disponibilidad de los datos
Datos que no se tienen
Si no hay datos, el científico tendría que cambiar la 
pregunta/objetivo.
Al final de este paso es tener los datos que ayudarán a responder la 
respuesta o a lograr el objetivo.
Entender que un modelo es tan bueno como los datos que se usaron 
para crearlo.
50
51
18/04/2022
14
CONOCIMIENTO PREVIO
● Causa vs. Correlación
Considere la pregunta:
Si la tasa de interés de prestatarios anteriores con una gama de 
puntajes de crédito es conocida, ¿se puede predecir la tasa de 
interés para un nuevo prestatario?
Ahora suponga que se invierte la pregunta:
Con base en la Tabla 2.1, ¿Se puede predecir la calificación 
crediticia del prestatario en función de la tasa de interés?
CONOCIMIENTO PREVIO
La respuesta es sí- pero no tiene sentido comercial. 
De la experiencia de dominio existente, se sabe que el puntaje de crédito 
influye en la tasa de interés del préstamo. 
Predecir puntaje de crédito basado en la tasa de interés invierte la dirección 
de la relación causal. 
Esta pregunta expone uno de los aspectos clave de la construcción de 
modelos. 
La correlación entre los atributos de entrada y salida no garantiza la 
causalidad. 
Por lo tanto es importante estipular correctamente la pregunta de la ciencia 
de datos utilizando el conocimiento existente sobre dominio del problema y 
los datos. 
En este ejemplo de ciencia de datos, la tasa de interés del nuevo prestatario 
con una tasa de interés desconocida se predecirá con base en el patrón 
aprendido de los datos conocidos en la Tabla.
52
53
18/04/2022
15
DATA EXPLORACIÓN
Pasos principales:
1. Organizar la fuente de datos
2. Encontrar el punto central de cada atributo
3. Entender y visualizar la distribución de cada atributo
4. Pivotear los datos (p.e. agrupar y sumarizar)
5. Identificar, considerar o ignorar los datos anómalos
6. Entender y visualizar la relación entre los atributos
7. Visualizar fuentes de datos de gran dimensión
CONOCIENDO LOS DATOS
Exploración: Mejor entendimiento de los datos, se aplica 
caracterización, sumarización de los datos
● Herramientas para exploración de datos
○ Estadística descriptiva: 
■ Tendencia central (media, mediana, moda, rango medio)
■ Dispersión (cuantiles, rango intercuartil (IQR), 
varianza,desviación estándar, det. anómalos, boxplots, five-
number summary (mínimo, q1, mediana,q3, máximo)
visualización (estructura, distribución, anómalos, relaciones 
entre atributos)
54
55
18/04/2022
16
EXPLORACIÓN DE DATOS
● Tipos de datos y conversiones: Los tipos de datos en una 
muestra pueden ser muy variados como numéricos continuos, 
numéricos enteros, o categóricos (pobre, bueno, excelente). Los 
algoritmos de ciencia de datos requieren tipos específicos de 
datos para modelar.
Por ejemplo: 
Modelos de regresión lineal - atributos de entrada numéricos
Binning - atributos de entrada categóricos
K-nn - atributos de entrada numéricos
Es por tanto, que se pre-procesan o preparan los datos antes de 
aplicar algoritmo de modelado
EXPLORACIÓN DE DATOS
● Tipos de atributos y objetos de datos
● Descripción de los datos y estadística básica
● Visualización de los datos
● Medición de similitud y discrepancia
56
57
18/04/2022
17
TIPOS DE ATRIBUTOS
• Nominales: categorias, estados o “nombres de cosas”
• Color_ojos = {cafes, verdes, azules}
• Estado_civil, ocupación, números identificadores, códigos postales
• Binarios
• Atributo nominal con solo dos estados (0 y1)
• Binarios simétricos: ambas salidas igualmente importantes
• p.e., género
• Binarios asimétricos: salidas con diferente importancia. 
• p.e., pruebas de laboratorio (positivo vs. negativo)
• Convención: asignar 1 al mas importante (p.e., VIH positivo)
• Ordinales
• Valores que tienen un orden significativo (ranking) pero las magnitudes entre los 
valores sucesivos no se conocen.
• tamaño = {pequeño, mediano, grande}, puntajes, rangos militares
ATRIBUTOS NUMÉRICOS 
Cantidad (entero o valor real)
• Intervalo
• Medición conforme a una escala de unidades de igual 
tamaño
• Valores tienen orden
• p.e., temperatura en C˚, fechas de calendario
• No hay un valor cero verdadero
• Razón
• Tiene un punto de inicio (0) inherente
• Podemos hablar de valores como un orden de magnitud 
mayor que la unidad de medida (10 K˚ es el doble de 5 K˚).
• P.e., temperatura in Kelvin, longitud, conteos, cantidades 
monetarias
58
59
18/04/2022
18
ATRIBUTOS DISCRETOS VS. CONTINUOS
• Atributo discreto
• Tiene un conjunto de valores contables finito
• Códigos postales, profesión, palabras en un documento
• En ocasiones son representados como variables de tipo entero
• Nota: los atributos binarios son un caso especial de atributos 
discretos
• Atributo continuo
• Tiene valores de atributo numéricos reales
• temperatura, altitud, peso
• Prácticamente, los valores reales pueden solamente ser medidos y 
representados usando un número finito de dígitos
• Los atributos continuos están por lo general representados con 
variables de punto flotante.
DESCRIPCIÓN POR ESTADÍSTICA BÁSICA
60
61
18/04/2022
19
MEDICIONES DE TENDENCIA CENTRAL
• Media (medición algebraica) (muestra vs. población):
Nota: n tamaño de la muestra; N tamaño de la población. 
• Media aritmética ponderada:
• Media truncada: eliminando valores extremos
• Mediana: 
• Valor que se encuentra a la mitad de la muestra o 
población, si el tamaño de la muestra es impar, de lo 
contrario será el promedio de los dos valores centrales
• Estimada por interpolación (para datos agrupados):
• Moda
• Valor que ocurre más frecuentemente en los datos
• Unimodal, bimodal, trimodal
• Fórmula empírica:
𝜇 =
∑ 𝑥
𝑁
𝑚𝑒𝑑𝑖𝑎𝑛 = 𝐿 + (
𝑛/2 − (∑ 𝑓𝑟𝑒𝑞)𝑙
𝑓𝑟𝑒𝑞
)𝑤𝑖𝑑𝑡ℎ
𝑚𝑒𝑎𝑛 − 𝑚𝑜𝑑𝑒 = 3 × (𝑚𝑒𝑎𝑛 − 𝑚𝑒𝑑𝑖𝑎𝑛)
�̄� =
1
𝑛
𝑥
�̄�
=
∑ 𝑤 𝑥
∑ 𝑤
DATOS SIMÉTRICOS VS. DATOS SESGADOS
• Mediana, media y moda de 
datos simétricos sesgados 
positivamente y negativamente
Sesgo positivo
Sesgo negativo
Sesgo simétrico
62
63
18/04/2022
20
ANÁLISIS DE DIAGRAMA DE CAJA
• Resumen de cinco números de una distribución.
• Mínimo, Q1, Mediano, Q3, Máximo
• Diagrama de caja y bigote
• Los datos se representan con un cuadro
• Los extremos de la caja están en el primer y tercer 
cuartiles, es decir, la altura de la caja es IQR
• La mediana está marcada por una línea dentro del 
cuadro
• Bigotes: dos líneas fuera de la caja extendidas a 
Mínimo y Máximo
Valores atípicos: puntos más allá de un umbral de valores 
• Los valores atípicos especificados, trazados 
individualmente
EJERCICIOS EXPLORACIÓN DE DATOS
Suponga que los datos 
para un análisis incluyen el 
atributo edad. 
Los valores de edad para 
las tuplas de datos son (en 
orden creciente)13, 15, 16, 
16, 19, 20, 20, 21, 22, 22, 25, 
25, 25, 25, 30, 33, 33, 35, 35, 
35, 35, 36, 40, 45, 46, 52, 70.
(a) ¿Cuál es la media de los datos? ¿Cuál es la 
mediana?
(b) ¿Cuál es la moda de los datos? Comente 
la modalidad de los datos (es decir, bimodal, 
trimodal, etc.).
(c) ¿Cuál es el rango medio de los datos?
(d) ¿Puede encontrar (aproximadamente) el 
primer cuartil (Q1) y el tercer cuartil (Q3) de los 
datos?
(e) Proporcione el resumende cinco números 
de los datos.
(f) Muestre un diagrama de caja de los datos.
(g) ¿Cuál es la diferencia entre un gráfico 
cuantil-cuantil y un gráfico cuantil?
64
65
18/04/2022
21
MEDICIONES DE DISPERSIÓN
Cuartiles, valores atípicos y diagramas de caja
• Cuartiles: Q1 (percentil 25), Q3 (percentil 75)
• Rango intercuartil: IQR = Q3 - Q1
• Resumen de cinco números: min, Q1, mediana, Q3, max
• Diagrama de caja: los extremos de la caja son los cuartiles; la mediana está marcada; 
trazar valores atípicos individualmente
• Atípico, anómalo: generalmente, un valor mayor / menor que 1.5 x IQR
Varianza y desviación estándar (muestra: s, población: σ)
• Varianza: (cálculo algebraico, escalable)
• Desviación estándar s (o σ) es la raíz cuadrada de la varianza s2 (o σ2)
𝜎 =
1
𝑁
(𝑥 − 𝜇) =
1
𝑁
𝑥 − 𝜇𝑠 =
1
𝑛 − 1
(𝑥 − �̄�) =
1
𝑛 − 1
[ 𝑥 −
1
𝑛
( 𝑥 ) ]
EJERCICIOS EXPLORACIÓN DE DATOS
2. Suponga que un hospital tiene los datos de edad y grasa 
corporal de 18 adultos seleccionados al azar con el siguiente 
resultado
Edad 23 23 27 27 39 41 47 49 50
%grasa 9.5 26.5 7.8 17.8 31.4 25.9 27.4 27.2 31.2
edad 52 54 54 56 57 58 58 60 61
%grasa 34.6 42.5 28.8 33.4 30.2 34.1 32,9 41.2 35.7
(a) Calcule la media, mediana y desviación estándar de la 
edad y el% de grasa.
(b) Dibuje los diagramas de caja para la edad y el% de grasa.
(c) Dibuje un diagrama de dispersión y un diagrama q-q basado 
en estas dos variables.
69
70
18/04/2022
22
VISUALIZACIÓN DE DISPERSIÓN DE DATOS: 
DIAGRAMAS DE CAJA 3D
April 18, 2022 Data Mining: Concepts and Techniques
PROPIEDADES DE UNA CURVA DE DISTRIBUCIÓN NORMAL
La curva normal (distribución)
(μ: media, σ: desviación estándar)
• De μ – σ a μ + σ: contiene aproximadamente el 68% de las mediciones
• De μ – 2σ a μ + 2σ: contiene aproximadamente el 95%
• De μ – 3σ a μ + 3σ: contiene cerca del 99.7% de ella
72
73
18/04/2022
23
GRÁFICAS QUE MUESTRAN LA DESCRIPCIÓN 
ESTADÍSTICA BÁSICA
• Diagrama de caja: visualización gráfica del resumen de cinco números
• Histograma: el eje x son valores, el eje y representa frecuencias
• Gráfico cuantil: cada valor xi se combina con , fi lo que indica que 
aproximadamente el 100% de los datos son <= xi
• Gráfica cuantil-cuantil (q-q): grafica los cuantiles de una distribución 
univariante contra los cuantiles correspondientes de otra
• Diagrama de dispersión: cada par de valores es un par de coordenadas 
y se traza como puntos en el plano
ANÁLISIS POR HISTOGRAMAS
• Histograma: visualización gráfica de frecuencias 
tabuladas, mostradas como barras
• Muestra qué proporción de casos se incluye en 
cada una de varias categorías.
• Se diferencia de un gráfico de barras en que es 
el área de la barra lo que denota el valor, no la 
altura como en los gráficos de barras, una 
distinción crucial cuando las categorías no 
tienen un ancho uniforme
• Las categorías generalmente se especifican 
como intervalos no superpuestos de alguna 
variable. Las categorías (barras) deben ser 
adyacentes.
74
75
18/04/2022
24
LOS HISTOGRAMAS MUESTRAN MÁS QUE LOS DIAGRAMAS DE CAJAS
Los dos histogramas que se 
muestran a la izquierda pueden 
tener la misma representación de 
diagrama de caja
Los mismos valores para: min, Q1, 
mediana, Q3, max
Pero tienen distribuciones de datos 
bastante diferentes.
CUANTIL
Muestra todos los datos (lo que 
permite al usuario evaluar tanto el 
comportamiento general como los 
sucesos inusuales)
Muestra información sobre los 
cuantiles
Para un xi los datos son 
ordenados en orden creciente.
fi indica que aproximadamente 100 
fi% de los datos están por debajo o 
son iguales al valor xi
76
77
18/04/2022
25
CUANTIL-CUANTIL (Q-Q)
Se grafica los cuantiles de una distribución univariada contra los cuantiles 
correspondientes de otra.
Observe y responda: ¿Hay un cambio al pasar de una distribución a otra?
El ejemplo muestra el precio unitario de los artículos vendidos en la sucursal 1 
versus la sucursal 2 para cada cuantil. Los precios unitarios de los artículos 
vendidos en la Sucursal 1 tienden a ser más bajos que los de la Sucursal 2.
GRÁFICO DE DISPERSIÓN
• Proporciona un primer vistazo a los datos bivariados para ver 
grupos de puntos, valores atípicos, etc.
• Cada par de valores se trata como un par de coordenadas y 
se representa como puntos en el plano.
78
79
18/04/2022
26
DATOS CORRELACIONADOS POSITIVA Y 
NEGATIVAMENTE
• El medio fragmento izquierdo está positivamente 
correlacionado
• La mitad derecha está correlacionada negativamente
DATOS NO CORRELACIONADOS
80
81
18/04/2022
27
VISUALIZACIÓN
¿Por qué la visualización de datos?
• Permite obtener información mapeando datos en gráficas
• Proporciona una visión general cualitativa de grandes conjuntos de datos.
• Busca patrones, tendencias, estructura, irregularidades y relaciones entre datos.
• Ayuda a encontrar regiones interesantes y parámetros adecuados para un análisis cuantitativo 
adicional
• Proporciona una prueba visual de las representaciones derivadas por computadora
• Categorización de los métodos de visualización:
• Técnicas de visualización orientadas a píxeles.
• Técnicas de visualización de proyección geométrica.
• Técnicas de visualización basadas en íconos
• Técnicas de visualización jerárquica
• Visualizando datos y relaciones complejas
83
TÉCNICAS DE VISUALIZACIÓN ORIENTADAS A 
PIXELES
• Para un conjunto de datos de m dimensiones, se crean m ventanas en la pantalla, una 
para cada dimensión
• Los valores de dimensión m de un registro se asignan a m píxeles en las posiciones 
correspondientes en las ventanas
• Los colores de los píxeles reflejan los valores correspondientes.
(a) Income (b) Credit 
Limit
(c) transaction volume (d) age
82
83
18/04/2022
28
84
DISPOSICIÓN DE PÍXELES EN SEGMENTOS CIRCULARES
• Para ahorrar espacio y mostrar las conexiones entre varias 
dimensiones, el relleno de espacio a menudo se realiza en un 
segmento circular
(a) Representing a data 
record in circle segment (b) Laying out pixels in circle 
segment
TÉCNICAS DE VISUALIZACIÓN POR 
PROYECCIONES GEOMÉTRICAS
• Visualización de transformaciones geométricas y proyecciones de los datos.
• Métodos
• Visualización directa
• Diagrama de dispersión y matrices de diagrama de dispersión
• Paisajes
• Técnica de búsqueda de proyección: ayuda a los usuarios a encontrar 
proyecciones significativas de datos multidimensionales
• Vistas de prospección
• Hiperslice
• Coordenadas paralelas
84
85
18/04/2022
29
MATRICES DE DIAGRAMAS DE DISPERSIÓN
Matrix of scatterplots (x-y-diagrams) of the k-dim. data [total of (k2/2-k) scatterplots]
U
se
d
 b
y
e
rm
is
si
o
n
 o
f M
. 
W
a
rd
, W
o
rc
e
st
e
r P
o
ly
te
ch
n
ic
In
st
itu
te
MEDICIONES DE SIMILITUD Y NO 
SIMILITUD
• Semejanza
• Medida numérica de cuán parecidos son dos objetos de datos
• El valor es mayor cuando los objetos son más parecidos
• A menudo cae en el rango [0,1]
• Disimilitud (por ejemplo, distancia)
• Medida numérica de cuán diferentes son dos objetos de datos
• El valor es pequeño cuando los objetos son más parecidos
• La disimilitud mínima es a menudo 0
• Límite superior varía
• Proximidad se refiere a una similitud o disimilitud.
86
87
18/04/2022
30
MATRIZ DE DATOS Y 
MATRIZ DE DISIMILITUD • Matriz de datos
• n puntos de datos con p 
dimensiones
• Matriz de disimilitud
• n puntos de datos, pero 
registra solo la distancia
• Una matriz triangular
𝑥 . . . 𝑥 . . . 𝑥
. . . . . . . . . . . . . . .
𝑥 . . . 𝑥 . . . 𝑥
. . . . . . . . . . . . . . .
𝑥 . . . 𝑥 . . . 𝑥
0 
𝑑(2,1) 0 
𝑑(3,1) 𝑑(3,2) 0 
: : : 
𝑑(𝑛, 1) 𝑑(𝑛, 2) . . . . . . 0
MEDICIÓN DE PROXIMIDAD PARA ATRIBUTOS 
NOMINALES
• Puede tomar 2 o más estados, por ejemplo, rojo, 
amarillo, azul, verde (generalización de un atributo 
binario)
• Método 1: coincidencia simple
• m: número de coincidencias, p: número total de 
variables
• Método 2: usar una gran cantidad de atributos binarios
• crear un nuevoatributo binario para cada uno de los 
estados nominales M
𝑑(𝑖, 𝑗) =
𝑝 − 𝑚
𝑝
88
89
18/04/2022
31
Conceptos:
En estadística las tablas de contingencia se emplean para 
registrar y analizar la asociación entre dos o más variables, 
habitualmente de naturaleza cualitativa (nominales u ordinales).
Ejemplo
Suponga que se tienen dos variables, género (Masculino -
Femenino) e individuo (zurdo o diestro).Considere una muestra 
aleatoria de 100 individuos. Se puede emplear una tabla de 
contingencia para expresar la relación entre estas dos variables, 
así se puede resolver cualquier operación de probabilidad o 
álgebra :
Diestro Zurdo TOTAL
Hombre 43 9 52
Mujer 44 4 48
Total 87 13 100
MEDIDA DE PROXIMIDAD PARA ATRIBUTOS DE 
CLASIFICACIÓN BINARIA
TABLA DE CONTINGENCIA
Object i
Object j
Las cifras en la columna de la derecha y en la fila inferior reciben 
el nombre de frecuencias marginales y la cifra situada en la 
esquina inferior derecha es el gran total.
La tabla nos permite ver rápidamente que la proporción de 
hombres diestros es aproximadamente igual a la proporción de 
mujeres diestras. Sin embargo, ambas proporciones no son 
idénticas y la significación estadística de la diferencia entre ellas 
puede ser evaluada con la prueba χ² de Pearson, dado que las 
cifras de la tabla son una muestra aleatoria de una población. Si 
la proporción de individuos en cada columna varía entre las 
diversas filas y viceversa, se dice que existe asociación entre las 
dos variables. Si no existe asociación se dice que ambas variables 
son independientes.
Diestro Zurdo TOTAL
Hombre 43 9 52
Mujer 44 4 48
Total 87 13 100
MEDIDA DE PROXIMIDAD PARA ATRIBUTOS BINARIOS
TABLA DE CONTINGENCIA
90
91
18/04/2022
32
MEDIDA DE PROXIMIDAD PARA ATRIBUTOS 
BINARIOS
• Una tabla de contingencia para datos 
binarios.
• Medida de distancia para variables binarias 
simétricas:
• Medida de distancia para variables binarias 
asimétricas (t:falsos positivos se ignora)
• Coeficiente de Jaccard (medida de similitud 
para variables binarias asimétricas):
 Note: El coeficiente de Jaccard es lo mismo que coherencia:
Object i
Object j
DISTANCIA ENTRE VARIABLES 
BINARIAS
• Ejemplo
• El género es un atributo simétrico
• Los demás atributos son binarios asimétricos
• Sean los valores S y P =1 y el valor N= 0
Nombre Genero Fiebre Tos Prueba1 Prueba2 Prueba3 Prueba4 
Jack M S N P N N N 
Mary F S N P N P N 
Jim M S P N N N N 
 
 
𝑑(𝑗𝑎𝑐𝑘, 𝑚𝑎𝑟𝑦) =
0 + 1
2 + 0 + 1
= 0.33
𝑑(𝑗𝑎𝑐𝑘, 𝑗𝑖𝑚) =
1 + 1
1 + 1 + 1
= 0.67
𝑑(𝑗𝑖𝑚, 𝑚𝑎𝑟𝑦) =
1 + 2
1 + 1 + 2
= 0.75
Object i
Object j
92
93
18/04/2022
33
ESTANDARIZANDO DATOS NUMÉRICOS
• Puntuación Z:
• X: puntaje bruto a estandarizar, μ: media de la población, σ: desviación estándar
• la distancia entre el puntaje bruto y la media poblacional en unidades de la desviación estándar
• Es negativo cuando el puntaje bruto está por debajo de la media y positivo cuando está arriba
• Una forma alternativa: calcular la desviación media absoluta
• dónde
• medida estandarizada (puntaje z):
• Usar la desviación media absoluta es más robusto que usar la desviación estándar
𝑧 = 
𝑥 − 𝜇
𝜎
𝑚 = 
1
𝑛
(𝑥 + 𝑥 +. . . +𝑥 ).
𝑠 =
1
𝑛
(|𝑥 − 𝑚 | + |𝑥 − 𝑚 |+. . . +|𝑥 − 𝑚 |)
𝑧 = 
𝑥 − 𝑚
𝑠
EJEMPLO DE MATRIZ DE DATOS Y MATRIZ DE 
DISIMILITUD
point attribute1 attribute2
x1 1 2
x2 3 5
x3 2 0
x4 4 5
Matriz de discrepancia por 
distancia euclidiana
x1 x2 x3 x4
x1 0
x2 3.61 0
x3 5.1 5.1 0
x4 4.24 1 5.39 0
Matriz de datos
0 2 4
2
4
x
1
x
2
x
3
x
4
94
95
18/04/2022
34
DISTANCIA DE VALORES NUMÉRICOS POR 
MINKOWSKI
• Distancia de Minkowski: es una medida popular de distancia 
• donde i = (xi1, xi2,…, xip) y j = (xj1, xj2,…, xjp) son dos objetos de 
datos p-dimensionales, y h es el orden (la distancia así definida 
también se llama norma L-h)
• Propiedades
• d (i, j)> 0 si i ≠ j, y d (i, i) = 0 (definición positiva)
• d (i, j) = d (j, i) (simetría)
• d (i, j)  d (i, k) + d (k, j) (Desigualdad triangular)
• Una distancia que satisface estas propiedades es una métrica
CASOS ESPECIALES DE LA DISTANCIA
MINKOWSKI
• h= 1: distancia de Manhattan
• Por ejemplo, la distancia de Hamming: el número de bits que son 
diferentes entre dos vectores binarios.
• h = 2: (norma L2) Distancia euclidiana
• h  ∞: Distancia "supremum" (norma Lmax, norma L).
• Esta es la diferencia máxima entre cualquier componente (atributo) 
de los vectores.
𝑑(𝑖, 𝑗) = |𝑥 − 𝑥 | + |𝑥 − 𝑥 |+. . . +|𝑥 − 𝑥 |
𝑑(𝑖, 𝑗) = (|𝑥 − 𝑥 | + |𝑥 − 𝑥 | +. . . +|𝑥 − 𝑥 | )
96
97
18/04/2022
35
EJEMPLO DE DISTANCIA 
MINKOWSKI
Matrices de 
disimilitud
point attribute 1 attribute 2
x1 1 2
x2 3 5
x3 2 0
x4 4 5
L x1 x2 x3 x4
x1 0
x2 5 0
x3 3 6 0
x4 6 1 7 0
L2 x1 x2 x3 x4
x1 0
x2 3.61 0
x3 2.24 5.1 0
x4 4.24 1 5.39 0
L x1 x2 x3 x4
x1 0
x2 3 0
x3 2 5 0
x4 3 1 5 0
Manhattan (L1)
Euclidean (L2)
Supremum 
EJERCICIOS EXPLORACIÓN DE DATOS
Dados dos objetos representados por las tuplas (22, 1, 42, 10) y (20, 0, 36, 8):
(a) Calcule la distancia euclidiana entre los dos objetos.
(b) Calcule la distancia de Manhattan entre los dos objetos.
(c) Calcule la distancia de Minkowski entre los dos objetos, usando h = 3.
98
99
18/04/2022
36
VARIABLES ORDINALES
• Una variable ordinal puede ser discreta o continua
• El orden es importante, por ejemplo, rango
• Se puede tratar como escala a intervalos
• reemplazar xif por su rango
• mapee el rango de cada variable en [0, 1] reemplazando el i-ésimo objeto en 
la f-ésima variable por
• calcule la disimilitud utilizando métodos para variables de escala de intervalo
𝑧 =
𝑟 − 1
𝑀 − 1
𝑟 ∈ {1, . . . , 𝑀 }
ATRIBUTOS DE TIPO MIXTO
Una base de datos puede contener todos los tipos de atributos.
Nominal, binario simétrico, binario asimétrico, numérico, ordinal
Se puede usar una fórmula ponderada para combinar sus efectos
• Si f es binario o nominal:
dij (f) = 0 si xif = xjf, o dij (f) = 1 de lo contrario
• Si f es numérico: usa la distancia normalizada
• Si f es ordinal
Calcular rangos rif y
Tratar zif como escala a intervalos
𝑑(𝑖, 𝑗) =
Σ 𝛿
( )
𝑑
( )
Σ 𝛿
( )
𝑧 =
𝑟 − 1
𝑀 − 1
101
102
18/04/2022
37
SIMILITUD POR COSENO
• Un documento puede estar representado por miles de atributos, cada uno registrando la 
frecuencia de una palabra en particular (como palabras clave) o frase en el documento.
• Otros objetos vectoriales: características genéticas en micro matrices, ...
• Aplicaciones: recuperación de información, taxonomía biológica, mapeo de características 
genéticas, ...
• Medida del coseno: si d1 y d2 son dos vectores (por ejemplo, vectores de frecuencia de término), 
entonces
cos (d1 , d2) = (d1  d2) / || d1 || || d2 || ,
donde  indica el producto punto vectorial, || d ||: la longitud del vector d
EJEMPLO DE SIMILITUD 
POR COSENO
• cos(d1, d2) = (d1  d2) /||d1|| ||d2|| , 
donde  indica el producto punto, ||d|: la longitud del vector d
• Ejemplo: Encuentre la semejanza entre los documentos 1 y 2
d1 = (5, 0, 3, 0, 2, 0, 0, 2, 0, 0)
d2 = (3, 0, 2, 0, 1, 1, 0, 1, 0, 1)
d1d2 = 5*3+0*0+3*2+0*0+2*1+0*1+0*1+2*1+0*0+0*1 = 25
||d1||= (5*5+0*0+3*3+0*0+2*2+0*0+0*0+2*2+0*0+0*0)0.5=(42)0.5 = 6.481
||d2||= (3*3+0*0+2*2+0*0+1*1+1*1+0*0+1*1+0*0+1*1)0.5=(17)0.5 = 4.12
cos(d1, d2 ) = 0.94
103
104
18/04/2022
38
EJERCICIOS EXPLORACIÓN DE DATOS
Es importante definir o seleccionar medidas de similitud en el análisis de datos. Sin 
embargo, dado que los resultados pueden variar según las medidas de similitud 
utilizadas, no hay una medida de similitud completamente aceptada. 
Por otro lado, medidas de similitud aparentemente diferentes pueden ser equivalentes 
después de alguna transformación.
Supongamos que tenemos el siguiente conjunto de datos bidimensionales:
A1 A2
X1 1.5 1.7
X2 2 1.9
X3 1.6 1.8
X4 1.2 1.5
X5 1.5 1.0
(a) Considere los datos como puntos de un plano 
bidimensional. Dado un nuevo punto (1.4, 1.6) , 
clasifique los puntos de labase de datos en 
función de la similitud utilizando la distancia 
euclidiana, distancia de Manhattan y similitud de 
coseno.
(b) Calcule la distancia supremum y obtenga dicha 
distancia.
(c) Normalice el conjunto de datos para que la 
norma de cada punto de datos sea igual a 1. Use la 
distancia euclidiana en los datos transformados para 
clasificar los puntos de datos.
EJERCICIOS EXPLORACIÓN DE DATOS
EJERCICIO QUE DEJE DE TAREA
5. Describa brevemente cómo calcular la diferencia (distancia, o 
grado de disimilitud) entre los objetos que se describen a 
continuación: 
(a) Atributos nominales 
(b) Atributos binarios asimétricos 
(c) Atributos numéricos 
(d) Vectores de frecuencia de término
105
108
18/04/2022
39
PREPARACIÓN DE DATOS
PREPARACIÓN DE DATOS
Introducción al pre-procesamiento
Calidad de datos
Principales tareas en el pre-procesamiento
Limpieza de datos
Integración de datos
Reducción de datos
Transformación de datos
Discretización de datos
115
116
18/04/2022
40
PREPARACIÓN DE LOS DATOS
● Calidad de datos: mantenerla durante la colección, proceso y 
almacenamiento. Baja calidad impacta la representatividad del 
modelo. 
● Las métricas de calidad de los datos involucran una vista 
multidimensional
La exactitud indica la, mientras que la precisión indica la.
• Exactitud: proximidad de los resultados de una medición (o consulta) con respecto al 
valor verdadero
• Precisión: grado de detalle en el dato, consulta o medición
• Consistencia: El valor de los datos es el mismo en diferentes lugares para la misma 
entidad o consulta
• Completitud: Que todos los datos estén registrados...
• Puntualidad: actualización oportuna
• Credibilidad: Grado en que se puede creer que los datos son correctos
• Interpretabilidad: Grado de facilidad con la que se pueden interpretar los datos
RECORDEMOS QUE EL CONCEPTO DE PRECISIÓN/ACCURACY EN ESTADÍSTICA PUEDE 
VARIAR CON EL DE MANEJO DE DATOS
BAJA CALIDAD DE DATOS  LIMPIEZA DE DATOS
Los datos en el mundo real están sucios: existen muchos datos potencialmente 
incorrectos, por ejemplo, falla del instrumento, error humano o de la 
computadora, error de transmisión
El dato puede estar/ser:
Incompleto: falta de valores de atributo, falta de ciertos atributos de interés, o 
que contiene solo datos agregados
por ejemplo, Ocupación = "" (datos faltantes)
Ruidoso: que contiene ruido, errores o valores atípicos por ejemplo, Salario = "-
10" (un error)
inconsistente: que contiene discrepancias en códigos o nombres, por ej. 
Edad = "42", Cumpleaños = "03/07/2010“
Estaba calificado como "1, 2, 3", ahora calificado como "A, B, C"
Extensional: Discrepancia entre registros duplicados
117
118
18/04/2022
41
PREPARACIÓN DE LOS DATOS
La limpieza de datos involucra de-duplicación, estandarización, 
completar datos faltantes, etc.
Redundancias e inconsistencias: Objetos con semántica similar pero 
valores diferentes, para el caso de valores numéricos, se identifican 
calculando el coeficiente de correlación. Para datos discretos se 
identifican calculando chi-square x2. Para el caso de base de datos 
relacionales se aplica las tres formas normales.
Valores faltantes: detectar la causa de valores faltantes (puede ser por 
proveniencia de datos), se usa ciencia de datos para completarlos por 
ejemplo con K-nn, redes neuronales, etc.
Anómalos: Dos posibles causas: excepciones o errores. Dependiendo de 
esto se les trata. Por otro lado, El detectar anómalos puede por si solo ser 
un objetivo de ciencia de datos, como para identificar riesgos o fraudes.
PREPARACIÓN DE LOS DATOS
Limpieza de datos
● Estrategias para valores faltantes:
1. Ignorar la instancia
2. Imputar
i. Llenar el valor manualmente
ii. Uso de constante global para llenar el vacío
iii. Usar una medida de tendencia central para rellenar (media, mediana)
iv. Usar la media o mediana para todas las muestras que pertenezcan a la 
misma clase
v. Usar el valor mas probable
119
120
18/04/2022
42
PREPARACIÓN DE LOS DATOS
Limpieza de datos
Ruido: (datos incorrectos derivados de un error aleatorio o varianza en una variable.
• Estrategias para eliminación de ruido
Suavizado 
Binning (representar con datos no ruidosos) 
media, mediana, extremos,
Regresión (ajustando los datos a una función)
regresión lineal, lineal múltiple, 
Clustering Análisis de anómalos por agrupamiento
Inspección combinada de humano y computadora, detección de valores 
sospechosos y checarlos manualmente
PREPARACIÓN DE LOS DATOS
• NOTA:
• Existen métodos de suavizado que también se usan para reducción de 
datos como discretización y son
• Suavizado
• Arboles de decisión
• Jerarquías de conceptos
121
122
18/04/2022
43
La integración de datos es la mezcla de datos a partir de 
múltiples fuentes hacia un repositorio coherente.
• Integración de esquemas p.e., A.RFC  B.CURP
• Integrar metadatos de fuentes de datos diferentes
• Problema de identificación de entidades:
• Identificar entidades del mundo real a partir de las diferentes 
fuentes como p.e., Lalo Hdez. = Eduardo Hernandez
• Detectar y resolver conflictos en los valores de los datos
• Para la misma entidad del mundo real, los valores cambian de 
fuente a fuente
• Razones comunes: representaciones, escalas diferentes
PREPARACIÓN DE LOS DATOS
INTEGRACIÓN DE DATOS
PREPARACIÓN DE LOS DATOS
MANEJO DE REDUNDANCIA DURANTE 
INTEGRACIÓN DE DATOS
• Los datos redundantes ocurren a menudo con la integración de múltiples bases de datos
• Identificación de objeto: el mismo atributo u objeto puede tener diferentes nombres en 
diferentes bases de datos
• Datos derivados: un atributo puede ser un atributo "derivado" en otra tabla, por ejemplo, 
ingresos anuales
• Los atributos redundantes pueden ser detectados por análisis de correlación y análisis de 
covarianza.
• La integración cuidadosa de los datos de múltiples fuentes puede ayudar a reducir / evitar 
redundancias e inconsistencias y mejorar la velocidad y calidad de la minería.
123
124
18/04/2022
44
ANÁLISIS DE CORRELACIONES
La minería de datos puede descubrir correlaciones entre pares de 
atributos/valor.
La correlación indica la intensidad y dirección de una relación 
lineal y proporcionalidad entre dos variables estadísticas. 
Se considera que dos variables cuantitativas están 
correlacionadas cuando los valores de una de ellas varían 
sistemáticamente con respecto a los valores homónimos de la 
otra.
Sin embargo, la correlación entre dos variables no implica, por sí 
misma, ninguna relación de causalidad 
CORRELACIÓN POR CHI-SQUARE
X2 puede usarse para varias situaciones:
a) probar que tan bien se ajusta (caso una variable) 
https://www.youtube.com/watch?v=GqlOVGlc-Qo
b) probar la homogeneidad (caso dos variables)
https://www.youtube.com/watch?v=t_jfTOE44YQ
Se checa si la distribución de las variables son similares o no
c) probar la independencia (dos variables)
https://www.youtube.com/watch?v=dUqpPiAODZg
Se checa si existe alguna relación entre ellas
125
126
18/04/2022
45
127
ANÁLISIS DE CORRELACIÓN PRUEBA Χ2 (CHI-
SQUARE) 
Recordemos el proceso de significancia de una prueba:
1) Establecer Hipótesis Ho: independientes, no hay asociación; Ha es la negación de Ho: 
Existe asociación
2) Checar las condiciones
3) Construir el modelo, asumiendo que H0 es cverdadera
4) Encontrar la estadística de prueba (p.e. t-score para el caso de medias, z-score para 
caso de proporciones, chi-square para conteos de categóricas de la muestra)
5) Calcular el valor de p; se pide valor de alfa (p.e. 0.05 como valor de significancia); se 
obtiene los grados de libertad (p.e. #var categoricas -1)
4) Establecer la conclusión para aceptar o rechazar H0 con base en p. 
Si p-value< prueba se rechaza H0 y decimos que hay evidencia de asociación. 
Si p values > prueba no se rechaza Ho y decimos que falta evidencia para soportar 
asociación. 
PRUEBA Χ2 (CHI-SQUARE)
Bondad de ajuste (una variable): cuando desee decidir si una población con distribución desconocida"se ajusta" a 
una distribución conocida. Las hipótesis nulas y alternativas son:
H0: La población se ajusta a la distribución dada.
Ha: La población no se ajusta a la distribución dada.
Independencia: cuando desee decidir si dos variables son independientes o dependientes. En este caso habrá dos 
preguntas o experimentos de encuestas cualitativas y se construirá una tabla de contingencia. El objetivo es ver si las 
dos variables no están relacionadas (independientes) o relacionadas (dependientes). Las hipótesis nulas y alternativas 
son:
H0: las dos variables son independientes.
Ha: las dos variables son dependientes.
Homogeneidad: cuando desee decidir si dos poblaciones con distribución desconocida tienen la misma distribución 
entre sí. En este caso, se realizará una sola pregunta o experimento de encuesta cualitativa a dos poblaciones 
diferentes. Las hipótesis nulas y alternativas son:
H0: Las dos poblaciones siguen la misma distribución.
Ha: Las dos poblaciones tienen distribuciones diferentes.
http://www.ltcconline.net/greenl/courses/201/Regression/HomogeneityCollaborative/homogeneity.html
𝜒 =
(𝑂𝑏𝑠𝑒𝑟𝑣𝑒𝑑 − 𝐸𝑥𝑝𝑒𝑐𝑡𝑒𝑑)
𝐸𝑥𝑝𝑒𝑐𝑡𝑒𝑑
127
128
18/04/2022
46
129
ANÁLISIS DE CORRELACIÓN (ATRIBUTOS 
NOMINALES)
• Prueba Χ2 (chi-square) 
• Cuanto mayor sea el valor de Χ2, más probable es que las 
variables estén relacionadas
• Las celdas que más contribuyen al valor de x2 son aquellas cuyo 
recuento real es muy diferente del recuento esperado
• Si x2>1 y los valores observados son menores que los esperados, 
entonces es una correlación negativa.
• La correlación no implica causalidad
• Por ejemplo: 
• El número de hospitales y el robo de automóviles en una 
ciudad están correlacionados PERO ambos están causalmente 
vinculados a la tercera variable: población
𝜒 =
(𝑂𝑏𝑠𝑒𝑟𝑣𝑒𝑑 − 𝐸𝑥𝑝𝑒𝑐𝑡𝑒𝑑)
𝐸𝑥𝑝𝑒𝑐𝑡𝑒𝑑
Valores observados y esperados
• Considere N como el tamaño de la muestra
• Los valores observados son los de la muestra
Los valores esperados para cada celda son calculados de la siguiente 
manera:
𝐸 = Total en renglones × (Total en columnas)
Tamaño de la muestra N
.
129
130
18/04/2022
47
Grados de libertad
• El número de grados de libertad, df, es calculado de la siguiente manera:
df = (𝑅 - 1) ∙ (𝐶 - 1)
donde R es el número de filas y C es el número de columnas en la tabla de 
contingencia
(solo las filas y columnas con valores observados se cuentan).
EJEMPLO REDUNDANCIA CON CHI-SQUARE
Bajo Medio Alto
Secundaria 20 35 25
Preparatoria 17 33 20
Universidad 11 18 21
200 48 86 66
Se realizó una encuesta a 200 trabajadores. con respecto a su 
educación (secundaria, preparatoria o licenciatura) y el nivel de 
satisfacción laboral (bajo, medio, alto). Estos son los resultados:
131
133
18/04/2022
48
• Se desea probar a un nivel de 2.5 % de significancia, donde el nivel de 
satisfacción con su empleo depende del nivel educacional, con el objeto 
de poder identificar si ambas variables son redundantes y eliminar una 
durante la integración.
• Hipotesis:
• H0: El nivel de satisfacción con el empleo y el nivel educacional son 
independientes
• Ha: El nivel de satisfacción con el empleo y el nivel educacional no son 
independientes.
Bajo Medio Alto
Secundaria 20 35 25
Preparatoria 17 33 20
Universidad 11 18 21
EJEMPLO REDUNDANCIA CON CHI-SQUARE
CHI-SQUARE
Bajo Medio Alto Total(reg)
Secundaria 20(19.2) 35(34.4) 25(26.4) 80
Preparatoria 17(16.8) 33(30.1) 20(23.1) 70
Universidad 11(12) 18(21.5) 21(16.5) 50
Total (Col) 48 86 66 200
Calculando los totales y los valores esperados
Los valores en paréntesis son los valores esperados, los restantes son los 
observados
134
135
18/04/2022
49
EJEMPLO DE CHI-SQUARE
• Χ2 (cálculo chi-square) (los números en paréntesis son los conteos 
esperados calculados con base en la distribución de los datos en 
las dos categorias)
• Grados de libertad: df= (3-1)*(3-1)=4
𝜒 =
( . )
+
( . )
+
( . )
+
( . )
+ 0.279 + 0.416 + 0.083 + 0.570 + 1.227 =2.694
𝜒 =
(𝑂𝑏𝑠𝑒𝑟𝑣𝑒𝑑 − 𝐸𝑥𝑝𝑒𝑐𝑡𝑒𝑑)
𝐸𝑥𝑝𝑒𝑐𝑡𝑒𝑑
Bajo Medio Alto Total(reg)
Secundaria 20(19.2) 35(34.4) 25(26.4) 80
Preparatoria 17(16.8) 33(30.1) 20(23.1) 70
Universidad 11(12) 18(21.5) 21(16.5) 50
Total (Col) 48 86 66 200
EJEMPLO REDUNDANCIA CON 
CHI-SQUARE
Probar las hipótesis
• Dado que x2=2.694, 𝛼 = 0.025 y df = 4, el valor de p = 11.14
Valor de p > x2
• También podemos ver en la tabla que el valor p correspondiente a nuestra 
estadística de prueba está entre 0.5 y 0.75, y por lo tanto es más grande que 
αlfa.
• Por lo tanto, podemos expresar nuestra decisión: No rechazar H0
Lo cual significa que las variables son independientes y por tanto no 
podremos eliminar alguna.
136
137
18/04/2022
50
EJERCICIOS EXPLORACIÓN DE DATOS
SE DEJO DE TAREA
La tabla muestra cuántas transacciones contienen coca cola 
y / o cacahuates de entre 10000 transacciones. 
(1) calcule χ2 
(2) Investigue y calcule lift
(3) Investigue y calcule all-confidence
(4) según su cálculo, ¿cómo concluye la relación entre comprar CocaCola y 
comprar cacahuates?
CocaCola (CC) NoCocaCola Total
Cacahuates (CH) 50 800 850
NoCacahuates 150 9000 9150
Total 200 9800 10000
EJERCICIOS EXPLORACIÓN DE DATOS
SE DEJO DE TAREA
RESPUESTA
Lift es una variación de ROC que mide el rendimiento de reglas de asociación, para predecir o 
clasificar casos. 
Se puede calcular como:
Confianza Soporte
P(consecuente) o bien P(antecedente)
Si el valor de lift =1; la ocurrencia del antecedente con el consecuente son independientes
Si lift > 1 la ocurrencia del antecedente con el consecuente es dependiente.
Calculo de P-value: 
https://www.graphpad.com/quickcalcs/pvalue1.cfm
138
139
18/04/2022
51
EJERCICIOS EXPLORACIÓN DE DATOS
SE DEJO DE TAREA
RESPUESTA
Formulas a aplicar:
● χ2 eCC-CH = (200×850)/10000 = 17 
e¬CC,CH = (9800×850)/10000 = 833 
eCC,¬CH = (200×9150)/10000 = 183 
e¬CC,¬CH= (9800×9150)/10000 = 8967
χ2 = (50−17)2/17 + (800−833)2/833 + (150−183)2/183 + (8967−9000)2/8967 = 64.06 + 1.31 + 5.95 + 0.12 = 71.44
The two-tailed P value es menor que 0.0001 Por tanto, x2≫ 0 , se rechaza H0. Es posible que estén relacionadas
● lift(CC,CH)
lift(CC,CH) = P(CC,CH)/P(CC)×P(CH)
=(50/10000) / (200/10000)×(850/10000) = 2.94 > 1. Dado que lift > 1 entonces es probable que estén relacionadas
● all confidence(CC∪CH)
all conf(CC∪CH) =sup(CC∪CH) /max(sup(CC), sup(CH))= (50/10000) / max((200/10000), (850/10000) = (.005/.085)
0.059 ≪ 0.5
P-value: https://www.graphpad.com/quickcalcs/pValue2/
CocaCola
(CC)
NoCocaCola ∑reg
Cacahuates
(CH)
50 800 850
NoCacahuates 150 9000 9150
∑col 200 9800 10000
Soporteaij=aij/∑col, reg
Confianza aij=aij/∑reg
Confianza(AB)=P(A)P(-B) / P(A,-B)
EJERCICIOS EXPLORACIÓN DE DATOS
SE DEJO DE TAREA
RESPUESTA
● Conclusión: 
● Los artículos CocaCola y Cacahuates están fuertemente 
correlacionados negativamente en función de todos los 
análisis realizados: conf (CC∪CH). 
● El indicador lift (CC, CH) no es muy efectivo en este caso ya 
que hay una gran cantidad de transacciones nulas. 
● De manera similar, el análisis de χ2 no es confiable en esta 
situación porque afirma que está correlacionado 
positivamente pero en realidad no es así.
140
141
18/04/2022
52
PREPARACIÓN DE DATOS- REDUNDANCIA POR
ANÁLISIS DE CORRELACIÓN 
(DATOS NUMÉRICOS)
• El coeficiente de Pearson (también llamado coeficiente de producto-momento de 
Pearson)
Donde n es el número de tuplas y ,
son las medias respectivas de A y B.
σA y σB son las desviaciones estándar respectivas de A y B y 
Σ(aibi) es la suma del producto cruz de AB.
• Si rA,B > 0, A y B están positivamente correlacionadas (Los valores de A incrementan los 
valores de B). 
• Entre más alto sea el valor, es más robusta la correlación.
• rA,B = 0: independente; rAB < 0: negativamente correlacionados
𝑟 , =
∑ (𝑎 − 𝐴)(𝑏 − 𝐵)
(𝑛 − 1)𝜎 𝜎
=
∑ (𝑎 𝑏 ) − 𝑛𝐴𝐵
(𝑛 − 1)𝜎 𝜎
𝐴 𝐵
1.Si r = 1, existe una correlación positiva perfecta....
2.Si 0 < r < 1, existe una correlación positiva.
3.Si r = 0, no existe relación lineal. ...
4.Si -1 < r < 0, existe una correlación negativa.
PREPARACIÓN-EXPLORACIÓN DE DATOS-
VISUALMENTE EVALUANDO 
LA CORRELACIÓN
Las gráficas de dispersión
muestran la similitud de –1 to 1.
142
143
18/04/2022
53
PREPARACIÓN DE LOS DATOS 
EXPLORACIÓN POR COVARIANZA (DATOS 
NUMÉRICOS)
• La covarianza es similar a la correlación
Donde n es el número de tuplas y ,
son las medias respectivas o los valores esperados de A y B
σA y σB son las desviaciones estándar respectivas de A y B
• Covarianza positiva: Si CovA,B > 0, entonces A y B, ambas tienden a ser mas grandes que sus valores 
esperados respectivos.
• Covarianza negativa: Si CovA,B < 0 entonces Si A es mayor que su valor esperado, es probable que B sea 
mas pequeño que su valor esperado.
• Independencia: CovA,B = 0 pero lo contrario no es cierto:
Algunos pares de variables aleatorias pueden tener una covarianza de 0 pero no son independientes. 
Solo bajo algunos supuestos adicionales (por ejemplo, los datos siguen distribuciones normales 
multivariadas) una covarianza de 0 implica independencia
𝐴 𝐵
Coeficiente de correlación:
EXPLORACIÓN DE DATOS 
EJEMPLO DE COVARIANZA
• Puede simplificarse como:
• Suponga que las dos existencias de productos A y B tienen los siguientes valores 
en una semana: (2, 5), (3, 8), (5, 10), (4, 11), (6, 14). 
• Pregunta: Si las existencias son afectadas por las tendencias de la industria, sus 
precios ¿subirán o bajarán juntos?
• E(A) = (2 + 3 + 5 + 4 + 6)/ 5 = 20/5 = 4
• E(B) = (5 + 8 + 10 + 11 + 14) /5 = 48/5 = 9.6
• Cov(A,B) = (2×5+3×8+5×10+4×11+6×14)/5 − 4 × 9.6 = 4
• Por lo tanto, A y B incrementarán juntos , dado que la Cov(A, B) > 0.
145
146
18/04/2022
54
PREPARACIÓN DE DATOS-
REDUCCIÓN DE DATOS
• Reducción de datos: Obtener una representación reducida del conjunto de datos que 
sea mucho mas pequeño en volumen pero que produzca los mismos o casi los mismos 
resultados del análisis
• ¿Por qué reducir datos? — Una base de datos/DWH puede almacenar terabytes de 
datos. Un análisis complejo de datos podría tardarse mucho tiempo en ejecutarse sobre 
sobre la fuente de datos completa.
• Otro ejemplo: En minería de texto, cada palabra es un atributo.
• No todos los atributos tienen la misma relevancia para encontrar el modelo, algunos 
atributos pueden tener mal efecto durante el modelado, dado que están altamente 
correlacionados entre si, como el salario y los impuestos.
• Muchos atributos incrementan la complejidad del modelo y su rendimiento 
computacional.
• La alta dimensionalidad degrada la confiabilidad de los modelos, especialmente para 
clasificación y agrupamiento. 
PREPARACIÓN – REDUCCIÓN
DE LOS DATOS
Herramientas para reducción de datos:
• Agregación de datos (p.e. vistas, avg,sum.cube, etc)
• Generalización (p.e. uso de jerarquías, rollup)
• Selección de características (p.e. análisis de correlación, muestreo)
• Reducción de dimensiones (p.e. codificación, PCA: principal components
análisis, transformada de wavelet )
• Reducción de numerosidad (p.e. reemplazar los datos por alternativas 
mas pequeñas, por agrupamiento o modelos paramétricos)
• Discretización y Generación de Jerarquías (p,e, jerarquías de conceptos)
• Compresión de datos (sin pérdida de información: lossless; con pérdida de 
información: lossy
147
148
18/04/2022
55
PREPARACIÓN: 1. REDUCCIÓN DE 
DIMENSIONES
• Maldición de la dimensionalidad
• Cuando la dimensionalidad incrementa, los datos se esparcen
• La densidad y la distancia entre los puntos, que son muy importantes para el 
agrupameinto, el análisis de atípicos, se vuelve menos significativo
• Las combinaciones posibles de subespacios crecerán exponencialmente
• Reducción de dimensiones
• Para evitar la maldición de la dimensionalidad
• Ayuda a eliminar características irrelevantes y a reducir ruido
• Reduce el tiempo y el espacio requerido para el minado de datos
• Permite una visualización más fácil
• Técnicas de reducción de dimensiones
• Transformada Wavelet
• Principal Component Analysis
• Técnicas supervisadas y no lineales (p.e., selección de características)
150
PREPARACIÓN: 1. REDUCCIÓN DIMENSIONES POR 
MAPEO DE DATOS 
A UN NUEVO ESPACIO
Two Sine Waves Two Sine Waves + Noise Frequency
 Transformada de Fourier
 Transformada de Wavelet
(ondícula/ondeleta)
149
150
18/04/2022
56
151
PREPARACIÓN- REDUCCIÓN DIMENSIONES
¿QUÉ ES LA TRANSFORMADA WAVELET?
• Descompone una señal en sub-bandas
de diferentes frecuencias
• Es aplicable a señales de n-
dimensiones
• Los datos se transforman para preservar la 
distancia relativa entre los objetos a 
diferentes niveles de resolución.
• Permite que los grupos por su naturaleza 
(características) sean mas distinguibles
• Se usa mucho para compresión de 
imágenes
TRANSFORMACIÓN 
WAVELET
• La trasformada wavelet discreta (DWT) para procesamiento lineal de señales, análisis de múltiples 
resoluciones
• Aproximación comprimida: almacena solamente una pequeña fracción de los coeficientes más 
robustos de la ondeleta
• Es similar a la transformada de Fourier discreta (DFT), pero tiene una mejor compresión con pérdida 
(lossy) localizada en el espacio.
• Método:
• La longitud L debe ser una potencia entera de 2 (rellenado con 0s, cuando sea 
necesario) 
• Cada transformada tiene dos funciones : suavizado y diferencia
• Aplica a pares de datos, resultando en dos conjuntos de datos de longitud L/2
• Aplica las dos funciones recursivamente, hasta que se alcance la longitud deseada
Haar2 Daubechie4
151
152
18/04/2022
57
153
PREPARACIÓN- REDUCCIÓN DIMENSIONES
DESCOMPOSICIÓN 
WAVELET
• Wavelets: Una herramienta matemática para la descomposición jerárquica de 
funciones con uso eficiente del espacio
• Por ejemplo, S = [2, 2, 0, 2, 3, 5, 4, 4] puede ser transformada a 
S^ = [23/4, -11/4, 1/2, 0, 0, -1, -1, 0]
• Compresión: muchos coeficientes que corresponden a detalles pequeños 
pueden ser reemplazados por 0’s, y sólo los coeficientes significativos 
permanecerán
PREPARACIÓN- REDUCCIÓN DIMENSIONES
ONDELETA DE HAAR
Coefficient 
“Supports”
2 2 0 2 3 5 4 4
-
1.25
2.75
0.5 0
0 -1 0-1
+
-+
+
+ + +
+
+
- -
- - - -
+
-+
+ -
+ -
+-
+-
-+
+--
1
-
1
0.5
0
2.75 
-1.25
0
0
Distribución de frecuencias original
Descomposición jerárquica
de estructura o “error tree”
153
154
18/04/2022
58
155
¿POR QUÉ LA TRANSFORMADA
WAVELET?
• Usa filtros con forma de sombrero (hat shape)
• Enfatiza la región donde los puntos se agrupan
• Suprime información más débil en sus límites
• Elimina efectivamente valores atípicos
• Es insensible al ruido, insensible al orden de entrada
• Múltiples resoluciones
• Detecta grupos de formas arbitrarias a diferentes escalas.
• Eficiente
• Complejidad O (N)
• Aunque es solo aplicable a datos de baja dimensión
Técnica utilizada para describir un conjunto de datos en términos de 
nuevas variables ("componentes") no correlacionadas.
Se en análisis exploratorio, reducción y para construir modelos predictivos
https://www.youtube.com/watch?v=AniiwysJ-2Y
REDUCCIÓN DE DIMENSIONES
PRINCIPAL COMPONENTS ANALYSIS (PCA)
ANÁLISIS DE COMPONENTES PRINCIPALES
155
156
18/04/2022
59
REDUCCIÓN DE DIMENSIONES
PRINCIPAL COMPONENTS ANALYSIS (PCA)
ANÁLISIS DE COMPONENTES PRINCIPALES
Suponga que los datos a reducir consisten en tuplas o vectores de 
datos descritos por n atributos o dimensiones. 
El análisis de componentes principales, o PCA (también llamado 
método Karhunen-Loeve, o K-L), busca k vectores ortogonales n-
dimensionales que pueden usarse mejor para representar los 
datos, donde k≤n.
Los datos originales se proyectan así en un espacio mucho más 
pequeño, lo que resulta en una reducción de dimensionalidad.
REDUCCIÓN DE DIMENSIONES
PRINCIPAL COMPONENTS ANALYSIS (PCA)
ANÁLISIS DE COMPONENTES PRINCIPALES
El procedimiento básico es elsiguiente: 
1. Los datos de entrada están normalizados
2. PCA calcula k vectores ortonormales que proporcionan la base para los 
datos de entrada normalizados. Estos son vectores unitarios que cada 
uno apunta en una dirección perpendicular a los demás. Estos vectores 
se denominan componentes principales. Los datos de entrada son una 
combinación lineal de los componentes principales.
3. Los componentes principales se clasifican en orden decreciente de 
"importancia" o fuerza.
4. Se es decir, aquellos con baja varianza (es decir, utilizando los 
componentes principales más fuertes, es posible reconstruir una buena 
aproximación de los datos originales)
PCA es computacionalmente económico, y puede aplicarse a atributos 
ordenados y no ordenados, también puede manejar datos dispersos y 
datos sesgados.
157
158
18/04/2022
60
x2
x1
e
• Suponga que desea encontrar una 
proyección que capture la mayor 
cantidad de variación en los datos
• Los datos originales se proyectan en un 
espacio mucho más pequeño, lo que 
resulta en una reducción de 
dimensionalidad. Encontramos los 
vectores propios de la matriz de 
covarianza, y estos vectores propios 
definen el nuevo espacio
REDUCCIÓN DE DIMENSIONES
PRINCIPAL COMPONENTS ANALYSIS (PCA)
ANÁLISIS DE COMPONENTES PRINCIPALES
● Predecir precios de alquiler de vivienda de cierto sector de mercado.
●
● Al recopilar información de diversas fuentes tendremos en cuenta 
muchísimas variables.
● La ejecución de nuestro algoritmo seleccionado (regresión lineal, redes 
neuronales, etc.) empezará a tomar más y más tiempo y recursos. 
● Es posible que algunas de las variables sean menos importantes y no 
aporten demasiado valor a la predicción. También podríamos 
acercarnos peligrosamente a causar overfitting al modelo.
● Si usamos PCA, nuestras nuevas variables son combinaciones de todas 
las variables originales, aunque eliminemos algunas, estaremos 
manteniendo la información útil de todas las variables iniciales
EJEMPLO
PRINCIPAL COMPONENTS ANALYSIS (PCA)
159
160
18/04/2022
61
EJEMPLO PCA
Los siguientes pasos deben seguirse para realizar la reducción de 
dimensionalidad utilizando PCA: 
1.- Estandarización de los datos (para que sean comparables)
2.- Calcular la matriz de covarianza (para identificar correlaciones y 
dependencias entre las variables que podrían reducir el rendimiento del 
modelo) y para identificar en donde existe hay mas varianza porque esta es la 
información que necesitamos conservar.
3.- Cálculo de los vectores propios/eigen vectors y los valores propios/eigen
values que denotan 
4.- Calcular los componentes principales, nuevo conjunto de variables 
significativas e independientes entre ellas que contienen la mayor cantidad de 
información posible, se ordenan descendentemente para calcular la matriz de 
características que contienen los componentes principales
5.- Reducción de las dimensiones del conjunto de datos. Se multiplica la 
traspuesta de los datos originales por la traspuesta del vector de características 
PREPARACIÓN-REDUCCIÓN DIMENSIONES POR
SELECCIÓN DE SUBCONJUNTO DE ATRIBUTOS
• Es otra forma de reducir la dimensionalidad de los datos
• Atributos redundantes 
• Duplican mucho o toda la información contenida en uno o mas 
atributos (p.e. el precio de un producto y el monto del preciocon
impuesto
• Atributos irrelevantes
• No contienen información que sea útil para la tarea de minería de 
datos (p.e. la matricula no es relevante con respecto al promedio)
161
163
18/04/2022
62
PREPARACIÓN-REDUCCIÓN DIMENSIONES 
POR BÚSQUEDA HEURÍSTICA PARA LA 
SELECCIÓN DE ATRIBUTOS
Hay 2D posibles combinaciones de un número D de atributos
Algunos métodos típicos de selección de atributos heurísticos son:
• Mejor atributo individual bajo el supuesto de independencia del atributo: se 
escoge a través de pruebas de significación
• Selección de atributos paso a paso:
• El mejor atributo se elige primero
• Luego, el siguiente mejor atributo, ...
• Eliminación de atributos paso a paso:
• Eliminar repetidamente el peor atributo
• Selección y eliminación de atributos combinados
PREPARACIÓN-REDUCCIÓN DIMENSIONES POR 
CREACIÓN DE ATRIBUTOS
• Crear nuevos atributos que puedan capturar la información importante en una fuente de 
datos de forma mas efectiva que la original
• Tres metodologías generales:
• Extracción de atributos
• Depende del dominio de aplicación
• Mapeo de datos a un nuevo espacio
• Transformadas de Fourier o wavelet
• Construcción de atributos
• Combinación de atributos 
• Discretización de datos
164
165
18/04/2022
63
PREPARACIÓN DE DATOS 2: REDUCCIÓN DE 
NUMEROSIDAD
• Reduce el volumen de los datos al escoger formas mas pequeñas de 
representación de los datos
• Métodos paramétricos (regresión)
• Suponga que los datos se ajustan a algún modelo, calcule los 
parámetros del modelo, almacene solo los parámetros y descarte los 
datos (excepto posibles valores atípicos) 
• Ej .: Modelos logarítmicos lineales
• Métodos no paramétricos
• No asume modelos
• histogramas, agrupamiento, muestreo,
PREPARACIÓN DE DATOS 2: REDUCCIÓN DE 
NUMEROSIDAD
REDUCCIÓN PARAMÉTRICA DE DATOS Y 
MODELOS LOG-LINEALES
• Regresión lineal
• Datos modelados para ajustarse a una línea recta
• A menudo utiliza el método de mínimos cuadrados para ajustar la 
línea.
• Regresión múltiple
• Permite modelar una variable de respuesta Y como una función 
lineal del vector de características multidimensionales
• Modelo logarítmico lineal
• Aproximaciones distribuciones de probabilidad multidimensionales 
discretas
166
167
18/04/2022
64
PREPARACIÓN DE DATOS 2: REDUCCIÓN DE 
NUMEROSIDAD ANÁLISIS DE REGRESIÓN
• Análisis de regresión: un nombre colectivo para 
técnicas para el modelado y análisis de datos 
numéricos que consisten en valores de una variable 
dependiente (también llamada variable de 
respuesta o medición) y de una o más variables 
independientes (también conocidas como variables 
explicativas o predictores)
• Los parámetros se estiman para dar un "mejor ajuste" 
de los datos.
• Más comúnmente, el mejor ajuste se evalúa 
utilizando el método de mínimos cuadrados, pero 
también se han utilizado otros criterios
Se utiliza para la predicción 
(incluida la predicción de 
datos de series 
temporales), inferencia, 
prueba de hipótesis y 
modelado de relaciones 
causales
y
x
y = x + 1
X1
Y1
Y1’
169
Regresión lineal: Y = w X + b
• Dos coeficientes de regresión, w y b, especifican la línea y deben estimarse utilizando los datos 
disponibles.
• Usando el criterio de mínimos cuadrados para los valores conocidos de Y1, Y2,…, X1, X2,….
Regresión múltiple: Y = b0 + b1 X1 + b2 X2
• Muchas funciones no lineales se pueden transformar en las anteriores
Modelos log-lineales:
• Distribuciones de probabilidad multidimensionales discretas aproximadas
• Estime la probabilidad de cada punto (tupla) en un espacio multidimensional para un conjunto de 
atributos discretos, basado en un subconjunto más pequeño de combinaciones dimensionales
• Útil para la reducción de dimensionalidad y suavizado de datos
PREPARACIÓN DE DATOS 2: REDUCCIÓN DE 
NUMEROSIDAD ANÁLISIS DE REGRESIÓN
168
169
18/04/2022
65
PREPARACIÓN DE DATOS 2: REDUCCIÓN DE 
NUMEROSIDAD ANÁLISIS DE HISTOGRAMAS
Se dividen los datos en cubos y se 
almacena el promedio para 
cada cubo 
Reglas de partición: 
Ancho igual
Frecuencia igual
Profundidad igual
PREPARACIÓN-REDUCCIÓN DE 
NUMEROSIDAD POR MUESTREO
● Muestreo como técnica de reducción: Proceso de selección de 
un subconjunto de registros como una representación de la 
fuente de datos original. Debe tener la misma representatividad 
que el original con las mismas propiedades, p.e. promedio
● El muestreo reduce la cantidad de datos necesarios para 
modelar.
● Por lo general se segmenta la fuente de datos en una muestra 
para entrenamiento y otra para prueba.
● El de entrenamiento se puede muestrear aleatoriamente o a 
través de alguna etiqueta.
170
171
18/04/202266
PREPARACIÓN-REDUCCIÓN DE 
NUMEROSIDAD TIPOS DE MUESTREO
Muestreo aleatorio simple
• Existe la misma probabilidad de seleccionar cualquier artículo en 
particular
Muestreo sin reemplazo
• Una vez que se selecciona un objeto, se elimina de la población
Muestreo con reemplazo
• Un objeto seleccionado no se elimina de la población.
Muestreo estratificado:
• Particione el conjunto de datos y extraiga muestras de cada partición 
(proporcionalmente, es decir, aproximadamente el mismo porcentaje 
de los datos)
• Se utiliza junto con datos segados.
173
Muestreo con o sin reemplazo
Raw Data
PREPARACIÓN-REDUCCIÓN DE 
NUMEROSIDAD TIPOS DE MUESTREO
172
173
18/04/2022
67
● Muestreo
El muestreo puede ayudar a identificar los datos anómalos de una 
fuente de datos para eliminarlos durante el modelado
La identificación de anómalos por muestreo también puede servir 
para predecir transacciones fraudulentas de tarjetas de crédito.
Dado que estos son eventos esporádicos (raros) no se tiene gran 
representatividad de estos. 
El muestreo estratificado es un proceso donde cada clase se 
representa igual, esto permite al modelo enfocarse en las 
diferencias entre los patrones de cada clase, lo cual sucede para 
el caso de las instancias (registros) anómalos.
REDUCCIÓN DE 
NUMEROSIDAD TIPOS DE MUESTREO 
● Muestreo estratificado
1. Dividir a todo el universo o población en diferentes estratos o 
subgrupos. Generalmente, por individuos que comparten 
características similares.
2. Seleccionar al azar los sujetos de cada estrato de forma 
proporcional.
El muestreo estratificado es un proceso donde cada clase se 
representa igual, esto permite al modelo enfocarse en las 
diferencias entre los patrones de cada clase, lo cual sucede para 
el caso de las instancias (registros) anómalos.
PREPARACIÓN-REDUCCIÓN DE 
NUMEROSIDAD TIPOS DE MUESTREO
174
175
18/04/2022
68
Datos originales Muestra /cluster/estratos
PREPARACIÓN-REDUCCIÓN DE 
NUMEROSIDAD POR MUESTREO 
AGRUPAMIENTO 
O ESTRATIFICADO
PREPARACIÓN-REDUCCIÓN POR MUESTREO 
● Al preparar los datos, los muestreos se usan para modelos de 
clasificación, donde se crean varios modelos base, cada uno 
desarrollados usando una muestra de entrenamiento diferente. 
● Estos modelos base son usados para construir un meta modelo, 
llamado modelo ensamble, donde la razón de error es 
mejorado cuando se compara con el error de los modelos 
base.
176
177
18/04/2022
69
PREPARACIÓN DE DATOS 3. 
REDUCCIÓN POR COMPRESIÓN DE 
DATOSCompresión de cadenas
Existen amplias teorías y algoritmos bien ajustados.
Normalmente sin pérdidas
Compresión de audio / video
Compresión típicamente con pérdida, con refinamiento progresivo
A veces, pequeños fragmentos de señal pueden reconstruirse sin 
reconstruir el conjunto
La reducción de dimensionalidad y numerosidad también puede considerarse 
como formas de compresión de da
PREPARACIÓN DE DATOS 3. REDUCCIÓN POR 
COMPRESIÓN DE DATOS
Datos originales Datos
Comprimidos
Sin pérdida
Datos originales
aproximados
178
179
18/04/2022
70
PREPARACIÓN DE DATOS:
TRANSFORMACIÓN
PREPARACIÓN POR 
TRANSFORMACIÓN DE DATOS
Función que mapea todo el conjunto de valores de un atributo dado a un nuevo conjunto de valores de reemplazo, cada 
valor antiguo se puede identificar con uno de los nuevos valores.
Los datos deben ser transformados para ajustarse a ciertos algoritmos de ciencia de datos como por ejemplo: 
Knn requiere dato numérico normalizado. Debido a que calcula las distancias entre éstos. La normalización evita 
que un atributo domine los resultados de las distancias 
Herramientas para transformación
• Normalización: escalamiento para caer dentro de un rango más pequeño, ayuda a redes neuronales, distancias, 
knn, clustering
•normalización min-max
•normalización de puntaje z
•normalización por escala decimal
•Discretización: escalada de jerarquía de conceptos
•Discretización
• Suavizado: para eliminar el ruido de los datos
• Construcción de atributos / características: nuevos atributos construidos a partir de los dados.
• Agregación: resumen, construcción de cubos de datos, sirve para análisis de datos a diferentes niveles de 
granularidad (día-mes)
• Generalización para sustituir datos primitivos por conceptos de nivel mas alto (calle-colonia)
•Jerarquización
180
181
18/04/2022
71
EJERCICIOS TRANSFORMACIÓN
NORMALIZACIÓN
Considere un rango de salarios de $12,000 a $98,000. Normalice los datos a [0.0, 1.0]. Y 
mapee el salario 73,000
• Normalización Min-max to [new_minA, new_maxA]
• Normalización Z-score( sea μ: media, σ: desviación estándar; con μ = 54,000, σ = 16,000. 
• Normalización por escala decimal
73,600 − 12,000
98,000 − 12,000
(1.0 − 0) + 0 = 0.716𝑣′ =
v − min𝐴
max𝐴 − min𝐴
(new_max𝐴 − new_min𝐴) + 𝑛𝑒𝑤_min𝐴
𝑣′ =
𝑣 − 𝜇𝐴
𝜎𝐴
𝑣′ =
𝑣
10
Donde j es el enetero mas pequeño tal que Max(|ν’|) < 1
Entonces j=4; 73600 = 0.73
104
73,600 − 54,000
16,000
= 1.225
EJERCICIOS DE PREPARACIÓN DE DATOS
Utilice los siguientes métodos para normalizar el siguiente grupo de 
datos: 200, 300, 400, 600, 1000
(a) normalización min-max configurando min = 0 y max = 1
(b) normalización del puntaje z
(c) normalización del puntaje z utilizando la desviación media absoluta 
en lugar de la desviación estándar
(d) normalización por escala decimal
182
183
18/04/2022
72
EJERCICIOS DE PREPARACIÓN DE DATOS
RESPUESTA
(a) la normalización min-max con min = 0 y max = 1 obtiene el nuevo valor 
calculando
vi’ = vi − 200
1000 – 200 * (1 − 0) + 0.INCOMPLETO
Los datos normalizados son: 0, 0.125, 0.25, 0.5, 1
(b) En la normalización de la puntuación z, un valor vi de A se normaliza a vi’ 
por vi′ =vi − Ã
σA donde Ã =1/5 (200 + 300 + 400 + 600 + 1000) = 500,
σA =√1/5 (2002 + 3002 + ... + 10002) − Ã2 = 282.8.
Los datos normalizados son:−1.06,−0.707,−0.354, 0.354, 1.77
EJERCICIOS DE PREPARACIÓN DE DATOS
RESPUESTA
(c) La normalización del puntaje z usando la desviación absoluta 
media en lugar de la desviación estándar reemplaza σA con sA
sA =1/5 (| 200 - 500 | + | 300 - 500 | + ... + | 1000 - 500 |) = 240
Los datos normalizados son: −1.25, −0.833, −0.417, 0.417, 2.08
(d) El entero más pequeño j tal que Max (| vi/10j|) < 1 es 3.
Después de la normalización por escala decimal, los datos se 
convierten en: 0.2, 0.3, 0.4, 0.6,1.0
184
185
18/04/2022
73
PREPARACIÓN DE DATOS:
DISCRETIZACIÓN
PREPARACIÓN DE DATOS POR DISCRETIZACIÓN
Divide el rango de un atributo continuo en intervalos, permite reducir el tamaño de 
los datos y preparar los datos para posterior análisis. Se puede realizar discretización 
supervisada y no supervisada
• Dependerá de los tres tipos de atributos
• Nominal—valores de un conjunto no ordenado como el color o la profesión
• Ordinal—valores de un conjunto ordenado, como rangos académicos
• Numéricos—números reales o enteros
186
187
18/04/2022
74
PREPARACIÓN DE DATOS POR 
DISCRETIZACIÓN
Discretización de arriba hacia abajo
Si el proceso comienza por encontrar primero uno o unos pocos puntos (llamados puntos divididos o 
puntos de corte, splits) para dividir todo el rango de atributos, y luego repite esto recursivamente en los 
intervalos resultantes, entonces se llama discretización de arriba hacia abajo o división.
Discretización de abajo hacia arriba
Si el proceso comienza considerando todos los valores continuos como posibles puntos de división, 
elimina algunos fusionando valores de vecindad para formar intervalos, entonces se llama discretización 
de abajo hacia arriba o fusión.
Discretización:
Se pueden usar etiquetas de intervalos para reemplazar los valores
Split (top-down) vs. merge (bottom-up)
Se puede aplicar recursivamente sobre un atributo
.
189
PREPARACIÓN DE DATOS POR 
DISCRETIZACIÓN Herramientas para discretización:
Todos pueden aplicarse recursivamente
• Binning
• Clasificación: Análisis de Árboles de decisión (supervised, top-down split)
• Correlación (p.e. análisis de 2) (no supervisado, bottom-upmerge)
• Top-down split, no supervisado
• Análisis de Histogramas
• Top-down split, no supervisado
• Análisis de Clustering (no supervisado, top-down split o bottom-up merge)
La discreción se puede realizar rápidamente en un atributo para proporcionar 
una partición jerárquica de los valores de los atributos, conocida como jerarquía 
conceptual
188
189
18/04/2022
75
190
DISCRETIZACIÓN POR BINNING
• Particionamiento de igual-ancho -equal-width (distancia) Divide el rango en N
intervalos de igual ancho
• Si A y B son los valores mínimo y máximo del atributo respectivamente, el ancho de 
los intervalos será: W = (B –A)/N.
• Es el método mas sencillo, pero los datos atípicos dominarán la presentación
• Los datos sesados no se manejan bien
• Particionamiento de igual profundidad (frecuencia) Divide el rango [A,B] de la variable 
en N intervalos, cada uno conteniendo aproximadamente el mismo numero de 
elementos
• Tiene mejor rendimiento cuando se incrementan los datos que el método anterior 
• El manejo de los atributos categóricos debe ser cuidadoso
191
EJEMPLOS DE DISCRETIZACIÓN 
POR BINNING
Considere el siguiente rango de precios en dólares: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34. Realice el 
particionado por binning,considerando tres contenedores
* Particionado a contenedores de frecuencias equitativas (4 valores cada uno)(equi-depth):
- Bin 1: 4, 8, 9, 15
- Bin 2: 21, 21, 24, 25
- Bin 3: 26, 28, 29, 34
* Particionado a contenedores con la media de cada conjunto que representa (bin means):
- Bin 1: 9, 9, 9, 9
- Bin 2: 23, 23, 23, 23
- Bin 3: 29, 29, 29, 29
* Particionado a contenedores con valores mínimo y máximo del conjunto representado (bin 
boundaries):
- Bin 1: 4, 4, 4, 15
- Bin 2: 21, 21, 25, 25
- Bin 3: 26, 26, 26, 34
190
191
18/04/2022
76
DISCRETIZACIÓN SIN USAR ETIQUETAS DE CLASE
(BINNING VS. CLUSTERING) 
Datos originales Intervalos iguales (width binning)
Frecuencia igual (depth binning) K-means clustering leads to better results
EJERCICIOS DE PREPARACIÓN DE DATOS
SUAVIZADO, DETECCIÓN DE ANÓMALOS
Dados los siguientes datos (en orden creciente) para el atributo edad: 13, 
15, 16, 16, 19, 20,20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 
45, 46, 52, 70.
(a) Utilice el método bin para suavizar los datos anteriores, utilizando una 
profundidad de bin de 3.
(b) Comente sobre el efecto de esta técnica para los datos dados.
(c) ¿Cómo podría determinar valores atípicos en los datos?
(d) ¿Qué otros métodos existen para el suavizado de datos?
192
193
18/04/2022
77
EJERCICIOS DE PREPARACIÓN DE DATOS
RESPUESTA
Respuesta:
(a) Los siguientes pasos son necesarios para suavizar los datos anteriores 
utilizando el suavizado por bin con una profundidad de bin de 3
Paso 1: ordenar los datos. (para el ejemplo, ya que los datos ya están 
ordenados).
• Paso 2: Particionar los datos en contenedores de profundidad 3 para 
todos.
Bin 1: 13, 15, 16 Bin 2: 16, 19, 20 Bin 3: 20, 21, 22
Bin 4: 22, 25, 25 Bin 5: 25, 25, 30 Bin 6: 33, 33, 35
Bin 7: 35, 35, 35 Bin 8: 36, 40, 45 Bin 9: 46, 52, 70
• Paso 3: Calcule la media aritmética de cada bin.
EJERCICIOS DE PREPARACIÓN DE DATOS
RESPUESTA
Paso 4: Reemplace cada uno de los valores en cada contenedor por la 
media aritmética calculada para el contenedor.
Bin 1: 142/3, 142/3, 142/3 
Bin 2: 181/3, 181/3, 181/3 
Bin 3: 21, 21, 21
Bin 4: 24, 24, 24 
Bin 5: 262/3, 262/3, 262/3 
Bin 6: 332/3, 332/3, 332/3
Bin 7: 35, 35, 35 
Bin 8: 401/3, 401/3, 401/3 
Bin 9: 56, 56, 56
Este método suaviza un valor de datos ordenados consultando a su 
"vecindario". Se realiza suavizado local
194
195
18/04/2022
78
EJERCICIOS DE PREPARACIÓN DE DATOS
RESPUESTA
(b) ¿Cómo podría determinar valores atípicos en los datos?
Los valores atípicos en los datos pueden detectarse por agrupación, 
donde los valores similares se organizan en grupos, o “segmentos”. Los 
valores que quedan fuera de los grupos pueden considerarse valores 
atípicos. 
Alternativamente, se puede utilizar una combinación de inspección por 
computadora y por humanos donde se implementa una distribución 
predeterminada para permitir que la computadora identifique posibles 
valores atípicos. Estos posibles los valores atípicos se pueden verificar 
mediante inspección humana con mucho menos esfuerzo del que se 
requeriría para verificar todo el conjunto de datos inicial.
EJERCICIOS DE PREPARACIÓN DE DATOS
RESPUESTA
(c) ¿Qué otros métodos existen para el suavizado de datos?
Bin by medias
Bin boundaries
Alternativamente, los contenedores de ancho equivalente (equiwidth) pueden 
ser usados para implementar cualquiera de las formas de agrupamiento, donde 
el rango de valores de intervalo en cada bin es constante. 
En cuanto a métodos distintos al binning:
Técnicas de regresión para suavizar los datos mediante ajustándolo a una 
función tal como a través de regresión lineal o múltiple. 
Técnicas de clasificación se pueden usar para implementar jerarquías 
conceptuales que pueden suavizar los datos al subir el nivel inferior conceptos a 
conceptos de nivel superior.
196
197
18/04/2022
79
DISCRETIZACIÓN POR CLASIFICACIÓN Y ANÁLISIS 
DE CORRELACIÓN
• Clasificación (p.e., análisis de árbol de decisión)
• Supervisado: dadas ciertas etiquetas de clase, p.e., canceroso vs. benigno
• Uso de entropía para determinar el punto de división (punto de discretización)
• División recursiva de arriba hacia abajo(top-down)
• Análisis de correlación (p. e, chi merge: basada en χ2)
• Supervisado: se usa información de clase
• Fusión ascendente(bottom-up): encuentra los mejores intervalos adyacentes (aquellos
que tienen distribuciones similares de clases, es decir, valores bajos de χ2) para fusionar
• La fusión se realiza de forma recursiva, hasta que se cumpla la condición de detención
predefinida
DISCRETIZACIÓN POR GENERACIÓN DE 
JERARQUÍAS DE CONCEPTO
• La formación de jerarquía de conceptos: reduce recursivamente los datos mediante 
la recopilación y el reemplazo de conceptos de bajo nivel (como valores numéricos 
para la edad) por conceptos de nivel superior (como jóvenes, adultos o adultos 
mayores).
• La jerarquía de conceptos se puede formar automáticamente para datos numéricos 
y nominales.
• Al generalizar se pierde detalle, pero facilita la interpretación de resultados.
• En el caso de ambientes OLAP: La jerarquía de conceptos organiza los conceptos (es 
decir, los valores de los atributos) jerárquicamente y generalmente cuando es el 
caso, se asocia con cada dimensión en un almacén de datos (DWH). Facilitan el drill
y el roll en almacenes de datos para ver datos a múltiples granularidades.
• Las jerarquías conceptuales pueden ser especificadas explícitamente por expertos 
en dominios y / o diseñadores de data warehouse.
198
199
18/04/2022
80
DISCRETIZACIÓN
JERARQUÍAS DE CONCEPTOS 
PARA DATOS NOMINALES
• Especificación explícita de un orden parcial / total de atributos a nivel de 
esquema por usuarios o expertos
• Articulo, Departamento, Tienda
• Especificación de una jerarquía para un conjunto de valores por 
agrupación explícita de datos
• {Tacuba,Centro}< CDMX <México
• Especificación de solo un conjunto parcial de atributos
• P.e. solo calle <ciudad, no otras
• Generación automática de jerarquías (o niveles de atributos) mediante 
el análisis del número de valores distintos
• P.e. para un conjunto de atributos: empleado, supervisor, gerente, 
directorDepto, Presidente, DirGral
GENERACIÓN DE JERARQUÍAS DE 
CONCEPTOS
1. Ordene los atributos en orden ascendente en función del número de 
valores distintos de atributos. 
2.- Genere la jerarquía de arriba hacia abajo según el orden dado, con el 
primer atributo en el nivel superior y el último atributo en el nivel inferior.
3.- El usuario puede examinar la jerarquía generada y, cuando sea necesario, 
modificarla para reflejar las relaciones semánticas deseadas entre los 
atributos. 
200
201
18/04/2022
81
EJERCICIO DISCRETIZACIÓN POR JERARQUÍAS DE 
CONCEPTO