Vista previa del material en texto
18/04/2022 1 PROCESO DE CIENCIA DE DATOS Recopiló: Dra. María del Pilar Angeles Libro: Data Science Concepts and Techniques, Jiawei Han, Micheline Kamber, Jian Pei AGENDA Introducción a la Ciencia de datos Aprendizaje automático KDD Multidisciplinas involucradas en la Ciencia de datos Tareas de ciencia de datos Algoritmos de aprendizaje Proceso de ciencia de datos 1 2 18/04/2022 2 Proceso Ciencia de Datos (CRISP-DM) ○ 1. Conceptos básicos ○ 2. Conocimiento previo- Exploración de datos ■ Tipos de atributos ■ Descripción por estadística ● Tendencia ● Dispersión ● Graficas ● Visualización ● Varianza ● Similitud ● Proximidad ● distancia AGENDA 3. Preparación de datos ■ Calidad de datos ■ Limpieza ■ Integración ■ Reducción ■ Transformación ■ Correlación ■ discretización AGENDA 3 4 18/04/2022 3 4. Modelado Patrones Clasificación Arboles de decisión Métodos bayesianos Reglas Predicción numérica AGENDA 5. Evaluación de modelado Matriz de confusión Accuracy Sensitivity Specificity Recall Validación cruzada Métodos de ensambñe Análisis de cluster AGENDA 5 6 18/04/2022 4 INTRODUCCIÓN - CIENCIA DE DATOS ● Colección de técnicas utilizadas para extraer valor de los datos. ● Las técnicas se basan en encontrar patrones y relaciones dentro de los datos. ● El término ciencia de datos comúnmente se uso de manera intercambiable con descubrimiento de conocimiento, aprendizaje automático, análisis predictivo y minería de datos. ● Sin embargo, cada término tiene una connotación ligeramente diferente según el contexto. INTRODUCCIÓN - CIENCIA DE DATOS ● La ciencia de datos es la aplicación comercial de: ○ Inteligencia artificial (PLN, lingüística, planeación, visión, robótica, aprendizaje automático, etc.) ○ Estadísticas ○ Visualización ○ Matemáticas La ciencia de datos es un campo interdisciplinario que extrae valor de los datos que depende en gran medida del aprendizaje automático y a veces se llama minería de datos. 7 10 18/04/2022 5 INTRODUCCIÓN CIENCIA DE DATOS ● Los términos inteligencia artificial, aprendizaje automático y ciencia de datos a menudo se usan indistintamente. ● Sin embargo, estos tres campos son distintos según el contexto. ● La figura 1.1 muestra la relación entre inteligencia artificial, aprendizaje automático y Ciencia de los datos. INTRODUCCIÓN - CIENCIA DE DATOS 11 12 18/04/2022 6 APRENDIZAJE AUTOMÁTICO ● El aprendizaje automático es una subárea de la inteligencia artificial que proporciona a las máquinas la capacidad de aprender a través de la experiencia. ● La experiencia en este caso se da a través de los datos. ● Los datos que se usan para enseñar a las máquinas se llama datos de entrenamiento. ● El aprendizaje de máquina cambió diametralmente el modelo de programación tradicional . APRENDIZAJE AUTOMÁTICO ● Un programa es un conjunto de instrucciones donde una computadora transforma las señales de entrada en señales de salida a través de reglas y relaciones predeterminadas. ● Los algoritmos de aprendizaje automático (learners, estudiantes) toman las señales de entrada y de salida (datos de entrenamiento) para “descifrar” un modelo para el programa que convierte la entrada en la salida 13 14 18/04/2022 7 CIENCIA DE DATOS Ejemplos de casos de uso de ciencia de datos son: ● Motores de recomendación que pueden recomendar películas para un determinado usuario ● Modelo de alerta de fraude que detecta transacciones fraudulentas con tarjeta de crédito ● Modelo que encuentra clientes que probablemente abandonarán el próximo mes o predecirán ingresos para el siguiente trimestre CARACTERÍSTICAS DE UN BUEN PATRÓN • Fácilmente entendible por humanos • Válido en datos nuevos o de prueba con cierto grado de certeza • Potencialmente útil • Novedoso • Representa CONOCIMIENTO 16 17 18/04/2022 8 CIENCIA DE DATOS - CONSTRUYENDO MODELOS REPRESENTATIVOS: ● Modelo: ○ Estadística: representación de una relación entre variables en un conjunto de datos. Un modelo puede describir cómo se relacionan dichas variables. ○ Una vez que se crea el modelo representativo, se puede utilizar para predecir el valor de la salida con base en las variables de entrada(descriptivo) o para comprender la relación entre variable de salida y todas las variables de entrada (descriptivo). CIENCIA DE DATOS – TAREAS ● Muchos de estos algoritmos se desarrollaron en las últimas décadas y son parte de aprendizaje automático e inteligencia artificial. ● Algunos algoritmos se basan en los fundamentos de las teorías probabilísticas bayesianas y el análisis de regresión, originario de hace cientos de años. Estos algoritmos iterativos automatizan el proceso de búsqueda de una solución óptima para un problema de datos determinado. ● Según el problema, existen diversas tareas: ○ Clasificación ○ Análisis de asociación ○ Agrupamiento ○ Regresión. 18 27 18/04/2022 9 PROCESO DE CIENCIA DE DATOS ● Mientras empecemos por el proceso de Ciencia de datos ● Existen diversas propuestas para el proceso de ciencia de datos: ○ CRISP-DM –ya revisado en asignatura anterior- ○ KDD PROCESS ○ SEMMA SAMPLE, EXPLORE, MODIFY MODEL AND ASSESS (SAS INSTITUTE) ○ DMAIC DEFINE MESURE, ANALYZE IMPROVE AND CONROL SIX SIGMA ● El más extendido es CRISP y lo repasaremos a continuación. KDD Knowledge data discovery/Knowl edge discovery in databases Proceso no trivial de identificación de patrones válidos, novedosos, potencialmente útiles y en última instancia comprensibles que permite detectar relaciones dentro de los datos para tomar decisiones importantes (Fayyad, Piatetsky-shapiro y Smyth, 1996). 5. Escoger tarea de minería de datos 6. Escoger técnica de minería de datos 7. Aplicar algoritmo 29 43 18/04/2022 10 RESUMIENDO EL PROCESO DE CIENCIA DE DATOS PROCESO DE CIENCIA DE DATOS ● Una vez conocido el proceso de ciencia de datos veremos a detalle cada uno de estos pasos ○ Terminología utilizada ○ Conocimiento previo del negocio y de los datos exploración de datos ○ Preparación o preprocesamiento de datos limpieza, transformación, etc. ○ Modelado ○ Aplicación del modelo ○ Conocimiento posterior 44 45 18/04/2022 11 CONCEPTOS BÁSICOS ● Terminología relevante: Conjunto de datos /dataset (conjunto de ejemplos) es una colección de datos con una estructura definida, a veces a la estructura se le denominada “dataframe o marco de datos". Un punto de datos / data point (registro, objeto o ejemplo) es una instancia única en el conjunto de datos. Cada instancia contiene la misma estructura que el conjunto de datos. Un atributo (característica, entrada, dimensión, variable o predictor) es una sola propiedad del conjunto de datos. Los atributos pueden ser numéricos, categóricos, fecha-hora, texto o datos booleanos. CONCEPTOS BÁSICOS Terminología relevante: Etiqueta (etiqueta de clase, salida, predicción, objetivo o respuesta) es el atributo a predecir en función de todos los atributos de entrada. Los identificadores son atributos especiales que se utilizan para localizar o proporcionar contexto a registros individuales. Por ejemplo, atributos comunes como nombres, números de cuenta y números de identificación de empleados son identificadores atributos. Los identificadores se usan a menudo como claves de búsqueda para unir múltiples conjuntos de datos. Los Ids no contienen información adecuada para construir datos modelos científicos y, por lo tanto, deben excluirse durante el modelado real. 46 47 18/04/2022 12 CONOCIMIENTO PREVIO ● Información que ya se conoce acerca del tema en cuestión. ● Ayuda a definir el problema a resolver, como encaja en el negocio o investigación ● Ayuda a identificar los datos que se requieren para resolver el problema CONOCIMIENTO PREVIO ● Objetivo El proceso empieza por la necesidad de: Análisis Una pregunta Un objetivo de negocio Dado que es un proceso iterativo, escomún regresar a pasos anteriores, revisar lo asumido, la estrategia, la táctica, pero el objetivo es lo más importante tener claro antes de empezar. 48 49 18/04/2022 13 CONOCIMIENTO PREVIO ● Area de conocimiento/aplicación Dado que la ciencia de datos puede descubrir muchos patrones y relaciones entre los atributos, el científico debe examinar los patrones expuestos y aceptar los que sean válidos y relevantes para la respuesta del objetivo. Se debe estar familiarizado con el tema, su contexto y con el proceso de negocio que genera los datos. CONOCIMIENTO PREVIO ● Datos También se requiere conocimiento sobre los datos. Entender como son colectados, almacenados, transformados, reportados y utilizados. Factores que se deben considerar: Calidad de los datos Cantidad de los datos Disponibilidad de los datos Datos que no se tienen Si no hay datos, el científico tendría que cambiar la pregunta/objetivo. Al final de este paso es tener los datos que ayudarán a responder la respuesta o a lograr el objetivo. Entender que un modelo es tan bueno como los datos que se usaron para crearlo. 50 51 18/04/2022 14 CONOCIMIENTO PREVIO ● Causa vs. Correlación Considere la pregunta: Si la tasa de interés de prestatarios anteriores con una gama de puntajes de crédito es conocida, ¿se puede predecir la tasa de interés para un nuevo prestatario? Ahora suponga que se invierte la pregunta: Con base en la Tabla 2.1, ¿Se puede predecir la calificación crediticia del prestatario en función de la tasa de interés? CONOCIMIENTO PREVIO La respuesta es sí- pero no tiene sentido comercial. De la experiencia de dominio existente, se sabe que el puntaje de crédito influye en la tasa de interés del préstamo. Predecir puntaje de crédito basado en la tasa de interés invierte la dirección de la relación causal. Esta pregunta expone uno de los aspectos clave de la construcción de modelos. La correlación entre los atributos de entrada y salida no garantiza la causalidad. Por lo tanto es importante estipular correctamente la pregunta de la ciencia de datos utilizando el conocimiento existente sobre dominio del problema y los datos. En este ejemplo de ciencia de datos, la tasa de interés del nuevo prestatario con una tasa de interés desconocida se predecirá con base en el patrón aprendido de los datos conocidos en la Tabla. 52 53 18/04/2022 15 DATA EXPLORACIÓN Pasos principales: 1. Organizar la fuente de datos 2. Encontrar el punto central de cada atributo 3. Entender y visualizar la distribución de cada atributo 4. Pivotear los datos (p.e. agrupar y sumarizar) 5. Identificar, considerar o ignorar los datos anómalos 6. Entender y visualizar la relación entre los atributos 7. Visualizar fuentes de datos de gran dimensión CONOCIENDO LOS DATOS Exploración: Mejor entendimiento de los datos, se aplica caracterización, sumarización de los datos ● Herramientas para exploración de datos ○ Estadística descriptiva: ■ Tendencia central (media, mediana, moda, rango medio) ■ Dispersión (cuantiles, rango intercuartil (IQR), varianza,desviación estándar, det. anómalos, boxplots, five- number summary (mínimo, q1, mediana,q3, máximo) visualización (estructura, distribución, anómalos, relaciones entre atributos) 54 55 18/04/2022 16 EXPLORACIÓN DE DATOS ● Tipos de datos y conversiones: Los tipos de datos en una muestra pueden ser muy variados como numéricos continuos, numéricos enteros, o categóricos (pobre, bueno, excelente). Los algoritmos de ciencia de datos requieren tipos específicos de datos para modelar. Por ejemplo: Modelos de regresión lineal - atributos de entrada numéricos Binning - atributos de entrada categóricos K-nn - atributos de entrada numéricos Es por tanto, que se pre-procesan o preparan los datos antes de aplicar algoritmo de modelado EXPLORACIÓN DE DATOS ● Tipos de atributos y objetos de datos ● Descripción de los datos y estadística básica ● Visualización de los datos ● Medición de similitud y discrepancia 56 57 18/04/2022 17 TIPOS DE ATRIBUTOS • Nominales: categorias, estados o “nombres de cosas” • Color_ojos = {cafes, verdes, azules} • Estado_civil, ocupación, números identificadores, códigos postales • Binarios • Atributo nominal con solo dos estados (0 y1) • Binarios simétricos: ambas salidas igualmente importantes • p.e., género • Binarios asimétricos: salidas con diferente importancia. • p.e., pruebas de laboratorio (positivo vs. negativo) • Convención: asignar 1 al mas importante (p.e., VIH positivo) • Ordinales • Valores que tienen un orden significativo (ranking) pero las magnitudes entre los valores sucesivos no se conocen. • tamaño = {pequeño, mediano, grande}, puntajes, rangos militares ATRIBUTOS NUMÉRICOS Cantidad (entero o valor real) • Intervalo • Medición conforme a una escala de unidades de igual tamaño • Valores tienen orden • p.e., temperatura en C˚, fechas de calendario • No hay un valor cero verdadero • Razón • Tiene un punto de inicio (0) inherente • Podemos hablar de valores como un orden de magnitud mayor que la unidad de medida (10 K˚ es el doble de 5 K˚). • P.e., temperatura in Kelvin, longitud, conteos, cantidades monetarias 58 59 18/04/2022 18 ATRIBUTOS DISCRETOS VS. CONTINUOS • Atributo discreto • Tiene un conjunto de valores contables finito • Códigos postales, profesión, palabras en un documento • En ocasiones son representados como variables de tipo entero • Nota: los atributos binarios son un caso especial de atributos discretos • Atributo continuo • Tiene valores de atributo numéricos reales • temperatura, altitud, peso • Prácticamente, los valores reales pueden solamente ser medidos y representados usando un número finito de dígitos • Los atributos continuos están por lo general representados con variables de punto flotante. DESCRIPCIÓN POR ESTADÍSTICA BÁSICA 60 61 18/04/2022 19 MEDICIONES DE TENDENCIA CENTRAL • Media (medición algebraica) (muestra vs. población): Nota: n tamaño de la muestra; N tamaño de la población. • Media aritmética ponderada: • Media truncada: eliminando valores extremos • Mediana: • Valor que se encuentra a la mitad de la muestra o población, si el tamaño de la muestra es impar, de lo contrario será el promedio de los dos valores centrales • Estimada por interpolación (para datos agrupados): • Moda • Valor que ocurre más frecuentemente en los datos • Unimodal, bimodal, trimodal • Fórmula empírica: 𝜇 = ∑ 𝑥 𝑁 𝑚𝑒𝑑𝑖𝑎𝑛 = 𝐿 + ( 𝑛/2 − (∑ 𝑓𝑟𝑒𝑞)𝑙 𝑓𝑟𝑒𝑞 )𝑤𝑖𝑑𝑡ℎ 𝑚𝑒𝑎𝑛 − 𝑚𝑜𝑑𝑒 = 3 × (𝑚𝑒𝑎𝑛 − 𝑚𝑒𝑑𝑖𝑎𝑛) �̄� = 1 𝑛 𝑥 �̄� = ∑ 𝑤 𝑥 ∑ 𝑤 DATOS SIMÉTRICOS VS. DATOS SESGADOS • Mediana, media y moda de datos simétricos sesgados positivamente y negativamente Sesgo positivo Sesgo negativo Sesgo simétrico 62 63 18/04/2022 20 ANÁLISIS DE DIAGRAMA DE CAJA • Resumen de cinco números de una distribución. • Mínimo, Q1, Mediano, Q3, Máximo • Diagrama de caja y bigote • Los datos se representan con un cuadro • Los extremos de la caja están en el primer y tercer cuartiles, es decir, la altura de la caja es IQR • La mediana está marcada por una línea dentro del cuadro • Bigotes: dos líneas fuera de la caja extendidas a Mínimo y Máximo Valores atípicos: puntos más allá de un umbral de valores • Los valores atípicos especificados, trazados individualmente EJERCICIOS EXPLORACIÓN DE DATOS Suponga que los datos para un análisis incluyen el atributo edad. Los valores de edad para las tuplas de datos son (en orden creciente)13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70. (a) ¿Cuál es la media de los datos? ¿Cuál es la mediana? (b) ¿Cuál es la moda de los datos? Comente la modalidad de los datos (es decir, bimodal, trimodal, etc.). (c) ¿Cuál es el rango medio de los datos? (d) ¿Puede encontrar (aproximadamente) el primer cuartil (Q1) y el tercer cuartil (Q3) de los datos? (e) Proporcione el resumende cinco números de los datos. (f) Muestre un diagrama de caja de los datos. (g) ¿Cuál es la diferencia entre un gráfico cuantil-cuantil y un gráfico cuantil? 64 65 18/04/2022 21 MEDICIONES DE DISPERSIÓN Cuartiles, valores atípicos y diagramas de caja • Cuartiles: Q1 (percentil 25), Q3 (percentil 75) • Rango intercuartil: IQR = Q3 - Q1 • Resumen de cinco números: min, Q1, mediana, Q3, max • Diagrama de caja: los extremos de la caja son los cuartiles; la mediana está marcada; trazar valores atípicos individualmente • Atípico, anómalo: generalmente, un valor mayor / menor que 1.5 x IQR Varianza y desviación estándar (muestra: s, población: σ) • Varianza: (cálculo algebraico, escalable) • Desviación estándar s (o σ) es la raíz cuadrada de la varianza s2 (o σ2) 𝜎 = 1 𝑁 (𝑥 − 𝜇) = 1 𝑁 𝑥 − 𝜇𝑠 = 1 𝑛 − 1 (𝑥 − �̄�) = 1 𝑛 − 1 [ 𝑥 − 1 𝑛 ( 𝑥 ) ] EJERCICIOS EXPLORACIÓN DE DATOS 2. Suponga que un hospital tiene los datos de edad y grasa corporal de 18 adultos seleccionados al azar con el siguiente resultado Edad 23 23 27 27 39 41 47 49 50 %grasa 9.5 26.5 7.8 17.8 31.4 25.9 27.4 27.2 31.2 edad 52 54 54 56 57 58 58 60 61 %grasa 34.6 42.5 28.8 33.4 30.2 34.1 32,9 41.2 35.7 (a) Calcule la media, mediana y desviación estándar de la edad y el% de grasa. (b) Dibuje los diagramas de caja para la edad y el% de grasa. (c) Dibuje un diagrama de dispersión y un diagrama q-q basado en estas dos variables. 69 70 18/04/2022 22 VISUALIZACIÓN DE DISPERSIÓN DE DATOS: DIAGRAMAS DE CAJA 3D April 18, 2022 Data Mining: Concepts and Techniques PROPIEDADES DE UNA CURVA DE DISTRIBUCIÓN NORMAL La curva normal (distribución) (μ: media, σ: desviación estándar) • De μ – σ a μ + σ: contiene aproximadamente el 68% de las mediciones • De μ – 2σ a μ + 2σ: contiene aproximadamente el 95% • De μ – 3σ a μ + 3σ: contiene cerca del 99.7% de ella 72 73 18/04/2022 23 GRÁFICAS QUE MUESTRAN LA DESCRIPCIÓN ESTADÍSTICA BÁSICA • Diagrama de caja: visualización gráfica del resumen de cinco números • Histograma: el eje x son valores, el eje y representa frecuencias • Gráfico cuantil: cada valor xi se combina con , fi lo que indica que aproximadamente el 100% de los datos son <= xi • Gráfica cuantil-cuantil (q-q): grafica los cuantiles de una distribución univariante contra los cuantiles correspondientes de otra • Diagrama de dispersión: cada par de valores es un par de coordenadas y se traza como puntos en el plano ANÁLISIS POR HISTOGRAMAS • Histograma: visualización gráfica de frecuencias tabuladas, mostradas como barras • Muestra qué proporción de casos se incluye en cada una de varias categorías. • Se diferencia de un gráfico de barras en que es el área de la barra lo que denota el valor, no la altura como en los gráficos de barras, una distinción crucial cuando las categorías no tienen un ancho uniforme • Las categorías generalmente se especifican como intervalos no superpuestos de alguna variable. Las categorías (barras) deben ser adyacentes. 74 75 18/04/2022 24 LOS HISTOGRAMAS MUESTRAN MÁS QUE LOS DIAGRAMAS DE CAJAS Los dos histogramas que se muestran a la izquierda pueden tener la misma representación de diagrama de caja Los mismos valores para: min, Q1, mediana, Q3, max Pero tienen distribuciones de datos bastante diferentes. CUANTIL Muestra todos los datos (lo que permite al usuario evaluar tanto el comportamiento general como los sucesos inusuales) Muestra información sobre los cuantiles Para un xi los datos son ordenados en orden creciente. fi indica que aproximadamente 100 fi% de los datos están por debajo o son iguales al valor xi 76 77 18/04/2022 25 CUANTIL-CUANTIL (Q-Q) Se grafica los cuantiles de una distribución univariada contra los cuantiles correspondientes de otra. Observe y responda: ¿Hay un cambio al pasar de una distribución a otra? El ejemplo muestra el precio unitario de los artículos vendidos en la sucursal 1 versus la sucursal 2 para cada cuantil. Los precios unitarios de los artículos vendidos en la Sucursal 1 tienden a ser más bajos que los de la Sucursal 2. GRÁFICO DE DISPERSIÓN • Proporciona un primer vistazo a los datos bivariados para ver grupos de puntos, valores atípicos, etc. • Cada par de valores se trata como un par de coordenadas y se representa como puntos en el plano. 78 79 18/04/2022 26 DATOS CORRELACIONADOS POSITIVA Y NEGATIVAMENTE • El medio fragmento izquierdo está positivamente correlacionado • La mitad derecha está correlacionada negativamente DATOS NO CORRELACIONADOS 80 81 18/04/2022 27 VISUALIZACIÓN ¿Por qué la visualización de datos? • Permite obtener información mapeando datos en gráficas • Proporciona una visión general cualitativa de grandes conjuntos de datos. • Busca patrones, tendencias, estructura, irregularidades y relaciones entre datos. • Ayuda a encontrar regiones interesantes y parámetros adecuados para un análisis cuantitativo adicional • Proporciona una prueba visual de las representaciones derivadas por computadora • Categorización de los métodos de visualización: • Técnicas de visualización orientadas a píxeles. • Técnicas de visualización de proyección geométrica. • Técnicas de visualización basadas en íconos • Técnicas de visualización jerárquica • Visualizando datos y relaciones complejas 83 TÉCNICAS DE VISUALIZACIÓN ORIENTADAS A PIXELES • Para un conjunto de datos de m dimensiones, se crean m ventanas en la pantalla, una para cada dimensión • Los valores de dimensión m de un registro se asignan a m píxeles en las posiciones correspondientes en las ventanas • Los colores de los píxeles reflejan los valores correspondientes. (a) Income (b) Credit Limit (c) transaction volume (d) age 82 83 18/04/2022 28 84 DISPOSICIÓN DE PÍXELES EN SEGMENTOS CIRCULARES • Para ahorrar espacio y mostrar las conexiones entre varias dimensiones, el relleno de espacio a menudo se realiza en un segmento circular (a) Representing a data record in circle segment (b) Laying out pixels in circle segment TÉCNICAS DE VISUALIZACIÓN POR PROYECCIONES GEOMÉTRICAS • Visualización de transformaciones geométricas y proyecciones de los datos. • Métodos • Visualización directa • Diagrama de dispersión y matrices de diagrama de dispersión • Paisajes • Técnica de búsqueda de proyección: ayuda a los usuarios a encontrar proyecciones significativas de datos multidimensionales • Vistas de prospección • Hiperslice • Coordenadas paralelas 84 85 18/04/2022 29 MATRICES DE DIAGRAMAS DE DISPERSIÓN Matrix of scatterplots (x-y-diagrams) of the k-dim. data [total of (k2/2-k) scatterplots] U se d b y e rm is si o n o f M . W a rd , W o rc e st e r P o ly te ch n ic In st itu te MEDICIONES DE SIMILITUD Y NO SIMILITUD • Semejanza • Medida numérica de cuán parecidos son dos objetos de datos • El valor es mayor cuando los objetos son más parecidos • A menudo cae en el rango [0,1] • Disimilitud (por ejemplo, distancia) • Medida numérica de cuán diferentes son dos objetos de datos • El valor es pequeño cuando los objetos son más parecidos • La disimilitud mínima es a menudo 0 • Límite superior varía • Proximidad se refiere a una similitud o disimilitud. 86 87 18/04/2022 30 MATRIZ DE DATOS Y MATRIZ DE DISIMILITUD • Matriz de datos • n puntos de datos con p dimensiones • Matriz de disimilitud • n puntos de datos, pero registra solo la distancia • Una matriz triangular 𝑥 . . . 𝑥 . . . 𝑥 . . . . . . . . . . . . . . . 𝑥 . . . 𝑥 . . . 𝑥 . . . . . . . . . . . . . . . 𝑥 . . . 𝑥 . . . 𝑥 0 𝑑(2,1) 0 𝑑(3,1) 𝑑(3,2) 0 : : : 𝑑(𝑛, 1) 𝑑(𝑛, 2) . . . . . . 0 MEDICIÓN DE PROXIMIDAD PARA ATRIBUTOS NOMINALES • Puede tomar 2 o más estados, por ejemplo, rojo, amarillo, azul, verde (generalización de un atributo binario) • Método 1: coincidencia simple • m: número de coincidencias, p: número total de variables • Método 2: usar una gran cantidad de atributos binarios • crear un nuevoatributo binario para cada uno de los estados nominales M 𝑑(𝑖, 𝑗) = 𝑝 − 𝑚 𝑝 88 89 18/04/2022 31 Conceptos: En estadística las tablas de contingencia se emplean para registrar y analizar la asociación entre dos o más variables, habitualmente de naturaleza cualitativa (nominales u ordinales). Ejemplo Suponga que se tienen dos variables, género (Masculino - Femenino) e individuo (zurdo o diestro).Considere una muestra aleatoria de 100 individuos. Se puede emplear una tabla de contingencia para expresar la relación entre estas dos variables, así se puede resolver cualquier operación de probabilidad o álgebra : Diestro Zurdo TOTAL Hombre 43 9 52 Mujer 44 4 48 Total 87 13 100 MEDIDA DE PROXIMIDAD PARA ATRIBUTOS DE CLASIFICACIÓN BINARIA TABLA DE CONTINGENCIA Object i Object j Las cifras en la columna de la derecha y en la fila inferior reciben el nombre de frecuencias marginales y la cifra situada en la esquina inferior derecha es el gran total. La tabla nos permite ver rápidamente que la proporción de hombres diestros es aproximadamente igual a la proporción de mujeres diestras. Sin embargo, ambas proporciones no son idénticas y la significación estadística de la diferencia entre ellas puede ser evaluada con la prueba χ² de Pearson, dado que las cifras de la tabla son una muestra aleatoria de una población. Si la proporción de individuos en cada columna varía entre las diversas filas y viceversa, se dice que existe asociación entre las dos variables. Si no existe asociación se dice que ambas variables son independientes. Diestro Zurdo TOTAL Hombre 43 9 52 Mujer 44 4 48 Total 87 13 100 MEDIDA DE PROXIMIDAD PARA ATRIBUTOS BINARIOS TABLA DE CONTINGENCIA 90 91 18/04/2022 32 MEDIDA DE PROXIMIDAD PARA ATRIBUTOS BINARIOS • Una tabla de contingencia para datos binarios. • Medida de distancia para variables binarias simétricas: • Medida de distancia para variables binarias asimétricas (t:falsos positivos se ignora) • Coeficiente de Jaccard (medida de similitud para variables binarias asimétricas): Note: El coeficiente de Jaccard es lo mismo que coherencia: Object i Object j DISTANCIA ENTRE VARIABLES BINARIAS • Ejemplo • El género es un atributo simétrico • Los demás atributos son binarios asimétricos • Sean los valores S y P =1 y el valor N= 0 Nombre Genero Fiebre Tos Prueba1 Prueba2 Prueba3 Prueba4 Jack M S N P N N N Mary F S N P N P N Jim M S P N N N N 𝑑(𝑗𝑎𝑐𝑘, 𝑚𝑎𝑟𝑦) = 0 + 1 2 + 0 + 1 = 0.33 𝑑(𝑗𝑎𝑐𝑘, 𝑗𝑖𝑚) = 1 + 1 1 + 1 + 1 = 0.67 𝑑(𝑗𝑖𝑚, 𝑚𝑎𝑟𝑦) = 1 + 2 1 + 1 + 2 = 0.75 Object i Object j 92 93 18/04/2022 33 ESTANDARIZANDO DATOS NUMÉRICOS • Puntuación Z: • X: puntaje bruto a estandarizar, μ: media de la población, σ: desviación estándar • la distancia entre el puntaje bruto y la media poblacional en unidades de la desviación estándar • Es negativo cuando el puntaje bruto está por debajo de la media y positivo cuando está arriba • Una forma alternativa: calcular la desviación media absoluta • dónde • medida estandarizada (puntaje z): • Usar la desviación media absoluta es más robusto que usar la desviación estándar 𝑧 = 𝑥 − 𝜇 𝜎 𝑚 = 1 𝑛 (𝑥 + 𝑥 +. . . +𝑥 ). 𝑠 = 1 𝑛 (|𝑥 − 𝑚 | + |𝑥 − 𝑚 |+. . . +|𝑥 − 𝑚 |) 𝑧 = 𝑥 − 𝑚 𝑠 EJEMPLO DE MATRIZ DE DATOS Y MATRIZ DE DISIMILITUD point attribute1 attribute2 x1 1 2 x2 3 5 x3 2 0 x4 4 5 Matriz de discrepancia por distancia euclidiana x1 x2 x3 x4 x1 0 x2 3.61 0 x3 5.1 5.1 0 x4 4.24 1 5.39 0 Matriz de datos 0 2 4 2 4 x 1 x 2 x 3 x 4 94 95 18/04/2022 34 DISTANCIA DE VALORES NUMÉRICOS POR MINKOWSKI • Distancia de Minkowski: es una medida popular de distancia • donde i = (xi1, xi2,…, xip) y j = (xj1, xj2,…, xjp) son dos objetos de datos p-dimensionales, y h es el orden (la distancia así definida también se llama norma L-h) • Propiedades • d (i, j)> 0 si i ≠ j, y d (i, i) = 0 (definición positiva) • d (i, j) = d (j, i) (simetría) • d (i, j) d (i, k) + d (k, j) (Desigualdad triangular) • Una distancia que satisface estas propiedades es una métrica CASOS ESPECIALES DE LA DISTANCIA MINKOWSKI • h= 1: distancia de Manhattan • Por ejemplo, la distancia de Hamming: el número de bits que son diferentes entre dos vectores binarios. • h = 2: (norma L2) Distancia euclidiana • h ∞: Distancia "supremum" (norma Lmax, norma L). • Esta es la diferencia máxima entre cualquier componente (atributo) de los vectores. 𝑑(𝑖, 𝑗) = |𝑥 − 𝑥 | + |𝑥 − 𝑥 |+. . . +|𝑥 − 𝑥 | 𝑑(𝑖, 𝑗) = (|𝑥 − 𝑥 | + |𝑥 − 𝑥 | +. . . +|𝑥 − 𝑥 | ) 96 97 18/04/2022 35 EJEMPLO DE DISTANCIA MINKOWSKI Matrices de disimilitud point attribute 1 attribute 2 x1 1 2 x2 3 5 x3 2 0 x4 4 5 L x1 x2 x3 x4 x1 0 x2 5 0 x3 3 6 0 x4 6 1 7 0 L2 x1 x2 x3 x4 x1 0 x2 3.61 0 x3 2.24 5.1 0 x4 4.24 1 5.39 0 L x1 x2 x3 x4 x1 0 x2 3 0 x3 2 5 0 x4 3 1 5 0 Manhattan (L1) Euclidean (L2) Supremum EJERCICIOS EXPLORACIÓN DE DATOS Dados dos objetos representados por las tuplas (22, 1, 42, 10) y (20, 0, 36, 8): (a) Calcule la distancia euclidiana entre los dos objetos. (b) Calcule la distancia de Manhattan entre los dos objetos. (c) Calcule la distancia de Minkowski entre los dos objetos, usando h = 3. 98 99 18/04/2022 36 VARIABLES ORDINALES • Una variable ordinal puede ser discreta o continua • El orden es importante, por ejemplo, rango • Se puede tratar como escala a intervalos • reemplazar xif por su rango • mapee el rango de cada variable en [0, 1] reemplazando el i-ésimo objeto en la f-ésima variable por • calcule la disimilitud utilizando métodos para variables de escala de intervalo 𝑧 = 𝑟 − 1 𝑀 − 1 𝑟 ∈ {1, . . . , 𝑀 } ATRIBUTOS DE TIPO MIXTO Una base de datos puede contener todos los tipos de atributos. Nominal, binario simétrico, binario asimétrico, numérico, ordinal Se puede usar una fórmula ponderada para combinar sus efectos • Si f es binario o nominal: dij (f) = 0 si xif = xjf, o dij (f) = 1 de lo contrario • Si f es numérico: usa la distancia normalizada • Si f es ordinal Calcular rangos rif y Tratar zif como escala a intervalos 𝑑(𝑖, 𝑗) = Σ 𝛿 ( ) 𝑑 ( ) Σ 𝛿 ( ) 𝑧 = 𝑟 − 1 𝑀 − 1 101 102 18/04/2022 37 SIMILITUD POR COSENO • Un documento puede estar representado por miles de atributos, cada uno registrando la frecuencia de una palabra en particular (como palabras clave) o frase en el documento. • Otros objetos vectoriales: características genéticas en micro matrices, ... • Aplicaciones: recuperación de información, taxonomía biológica, mapeo de características genéticas, ... • Medida del coseno: si d1 y d2 son dos vectores (por ejemplo, vectores de frecuencia de término), entonces cos (d1 , d2) = (d1 d2) / || d1 || || d2 || , donde indica el producto punto vectorial, || d ||: la longitud del vector d EJEMPLO DE SIMILITUD POR COSENO • cos(d1, d2) = (d1 d2) /||d1|| ||d2|| , donde indica el producto punto, ||d|: la longitud del vector d • Ejemplo: Encuentre la semejanza entre los documentos 1 y 2 d1 = (5, 0, 3, 0, 2, 0, 0, 2, 0, 0) d2 = (3, 0, 2, 0, 1, 1, 0, 1, 0, 1) d1d2 = 5*3+0*0+3*2+0*0+2*1+0*1+0*1+2*1+0*0+0*1 = 25 ||d1||= (5*5+0*0+3*3+0*0+2*2+0*0+0*0+2*2+0*0+0*0)0.5=(42)0.5 = 6.481 ||d2||= (3*3+0*0+2*2+0*0+1*1+1*1+0*0+1*1+0*0+1*1)0.5=(17)0.5 = 4.12 cos(d1, d2 ) = 0.94 103 104 18/04/2022 38 EJERCICIOS EXPLORACIÓN DE DATOS Es importante definir o seleccionar medidas de similitud en el análisis de datos. Sin embargo, dado que los resultados pueden variar según las medidas de similitud utilizadas, no hay una medida de similitud completamente aceptada. Por otro lado, medidas de similitud aparentemente diferentes pueden ser equivalentes después de alguna transformación. Supongamos que tenemos el siguiente conjunto de datos bidimensionales: A1 A2 X1 1.5 1.7 X2 2 1.9 X3 1.6 1.8 X4 1.2 1.5 X5 1.5 1.0 (a) Considere los datos como puntos de un plano bidimensional. Dado un nuevo punto (1.4, 1.6) , clasifique los puntos de labase de datos en función de la similitud utilizando la distancia euclidiana, distancia de Manhattan y similitud de coseno. (b) Calcule la distancia supremum y obtenga dicha distancia. (c) Normalice el conjunto de datos para que la norma de cada punto de datos sea igual a 1. Use la distancia euclidiana en los datos transformados para clasificar los puntos de datos. EJERCICIOS EXPLORACIÓN DE DATOS EJERCICIO QUE DEJE DE TAREA 5. Describa brevemente cómo calcular la diferencia (distancia, o grado de disimilitud) entre los objetos que se describen a continuación: (a) Atributos nominales (b) Atributos binarios asimétricos (c) Atributos numéricos (d) Vectores de frecuencia de término 105 108 18/04/2022 39 PREPARACIÓN DE DATOS PREPARACIÓN DE DATOS Introducción al pre-procesamiento Calidad de datos Principales tareas en el pre-procesamiento Limpieza de datos Integración de datos Reducción de datos Transformación de datos Discretización de datos 115 116 18/04/2022 40 PREPARACIÓN DE LOS DATOS ● Calidad de datos: mantenerla durante la colección, proceso y almacenamiento. Baja calidad impacta la representatividad del modelo. ● Las métricas de calidad de los datos involucran una vista multidimensional La exactitud indica la, mientras que la precisión indica la. • Exactitud: proximidad de los resultados de una medición (o consulta) con respecto al valor verdadero • Precisión: grado de detalle en el dato, consulta o medición • Consistencia: El valor de los datos es el mismo en diferentes lugares para la misma entidad o consulta • Completitud: Que todos los datos estén registrados... • Puntualidad: actualización oportuna • Credibilidad: Grado en que se puede creer que los datos son correctos • Interpretabilidad: Grado de facilidad con la que se pueden interpretar los datos RECORDEMOS QUE EL CONCEPTO DE PRECISIÓN/ACCURACY EN ESTADÍSTICA PUEDE VARIAR CON EL DE MANEJO DE DATOS BAJA CALIDAD DE DATOS LIMPIEZA DE DATOS Los datos en el mundo real están sucios: existen muchos datos potencialmente incorrectos, por ejemplo, falla del instrumento, error humano o de la computadora, error de transmisión El dato puede estar/ser: Incompleto: falta de valores de atributo, falta de ciertos atributos de interés, o que contiene solo datos agregados por ejemplo, Ocupación = "" (datos faltantes) Ruidoso: que contiene ruido, errores o valores atípicos por ejemplo, Salario = "- 10" (un error) inconsistente: que contiene discrepancias en códigos o nombres, por ej. Edad = "42", Cumpleaños = "03/07/2010“ Estaba calificado como "1, 2, 3", ahora calificado como "A, B, C" Extensional: Discrepancia entre registros duplicados 117 118 18/04/2022 41 PREPARACIÓN DE LOS DATOS La limpieza de datos involucra de-duplicación, estandarización, completar datos faltantes, etc. Redundancias e inconsistencias: Objetos con semántica similar pero valores diferentes, para el caso de valores numéricos, se identifican calculando el coeficiente de correlación. Para datos discretos se identifican calculando chi-square x2. Para el caso de base de datos relacionales se aplica las tres formas normales. Valores faltantes: detectar la causa de valores faltantes (puede ser por proveniencia de datos), se usa ciencia de datos para completarlos por ejemplo con K-nn, redes neuronales, etc. Anómalos: Dos posibles causas: excepciones o errores. Dependiendo de esto se les trata. Por otro lado, El detectar anómalos puede por si solo ser un objetivo de ciencia de datos, como para identificar riesgos o fraudes. PREPARACIÓN DE LOS DATOS Limpieza de datos ● Estrategias para valores faltantes: 1. Ignorar la instancia 2. Imputar i. Llenar el valor manualmente ii. Uso de constante global para llenar el vacío iii. Usar una medida de tendencia central para rellenar (media, mediana) iv. Usar la media o mediana para todas las muestras que pertenezcan a la misma clase v. Usar el valor mas probable 119 120 18/04/2022 42 PREPARACIÓN DE LOS DATOS Limpieza de datos Ruido: (datos incorrectos derivados de un error aleatorio o varianza en una variable. • Estrategias para eliminación de ruido Suavizado Binning (representar con datos no ruidosos) media, mediana, extremos, Regresión (ajustando los datos a una función) regresión lineal, lineal múltiple, Clustering Análisis de anómalos por agrupamiento Inspección combinada de humano y computadora, detección de valores sospechosos y checarlos manualmente PREPARACIÓN DE LOS DATOS • NOTA: • Existen métodos de suavizado que también se usan para reducción de datos como discretización y son • Suavizado • Arboles de decisión • Jerarquías de conceptos 121 122 18/04/2022 43 La integración de datos es la mezcla de datos a partir de múltiples fuentes hacia un repositorio coherente. • Integración de esquemas p.e., A.RFC B.CURP • Integrar metadatos de fuentes de datos diferentes • Problema de identificación de entidades: • Identificar entidades del mundo real a partir de las diferentes fuentes como p.e., Lalo Hdez. = Eduardo Hernandez • Detectar y resolver conflictos en los valores de los datos • Para la misma entidad del mundo real, los valores cambian de fuente a fuente • Razones comunes: representaciones, escalas diferentes PREPARACIÓN DE LOS DATOS INTEGRACIÓN DE DATOS PREPARACIÓN DE LOS DATOS MANEJO DE REDUNDANCIA DURANTE INTEGRACIÓN DE DATOS • Los datos redundantes ocurren a menudo con la integración de múltiples bases de datos • Identificación de objeto: el mismo atributo u objeto puede tener diferentes nombres en diferentes bases de datos • Datos derivados: un atributo puede ser un atributo "derivado" en otra tabla, por ejemplo, ingresos anuales • Los atributos redundantes pueden ser detectados por análisis de correlación y análisis de covarianza. • La integración cuidadosa de los datos de múltiples fuentes puede ayudar a reducir / evitar redundancias e inconsistencias y mejorar la velocidad y calidad de la minería. 123 124 18/04/2022 44 ANÁLISIS DE CORRELACIONES La minería de datos puede descubrir correlaciones entre pares de atributos/valor. La correlación indica la intensidad y dirección de una relación lineal y proporcionalidad entre dos variables estadísticas. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra. Sin embargo, la correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad CORRELACIÓN POR CHI-SQUARE X2 puede usarse para varias situaciones: a) probar que tan bien se ajusta (caso una variable) https://www.youtube.com/watch?v=GqlOVGlc-Qo b) probar la homogeneidad (caso dos variables) https://www.youtube.com/watch?v=t_jfTOE44YQ Se checa si la distribución de las variables son similares o no c) probar la independencia (dos variables) https://www.youtube.com/watch?v=dUqpPiAODZg Se checa si existe alguna relación entre ellas 125 126 18/04/2022 45 127 ANÁLISIS DE CORRELACIÓN PRUEBA Χ2 (CHI- SQUARE) Recordemos el proceso de significancia de una prueba: 1) Establecer Hipótesis Ho: independientes, no hay asociación; Ha es la negación de Ho: Existe asociación 2) Checar las condiciones 3) Construir el modelo, asumiendo que H0 es cverdadera 4) Encontrar la estadística de prueba (p.e. t-score para el caso de medias, z-score para caso de proporciones, chi-square para conteos de categóricas de la muestra) 5) Calcular el valor de p; se pide valor de alfa (p.e. 0.05 como valor de significancia); se obtiene los grados de libertad (p.e. #var categoricas -1) 4) Establecer la conclusión para aceptar o rechazar H0 con base en p. Si p-value< prueba se rechaza H0 y decimos que hay evidencia de asociación. Si p values > prueba no se rechaza Ho y decimos que falta evidencia para soportar asociación. PRUEBA Χ2 (CHI-SQUARE) Bondad de ajuste (una variable): cuando desee decidir si una población con distribución desconocida"se ajusta" a una distribución conocida. Las hipótesis nulas y alternativas son: H0: La población se ajusta a la distribución dada. Ha: La población no se ajusta a la distribución dada. Independencia: cuando desee decidir si dos variables son independientes o dependientes. En este caso habrá dos preguntas o experimentos de encuestas cualitativas y se construirá una tabla de contingencia. El objetivo es ver si las dos variables no están relacionadas (independientes) o relacionadas (dependientes). Las hipótesis nulas y alternativas son: H0: las dos variables son independientes. Ha: las dos variables son dependientes. Homogeneidad: cuando desee decidir si dos poblaciones con distribución desconocida tienen la misma distribución entre sí. En este caso, se realizará una sola pregunta o experimento de encuesta cualitativa a dos poblaciones diferentes. Las hipótesis nulas y alternativas son: H0: Las dos poblaciones siguen la misma distribución. Ha: Las dos poblaciones tienen distribuciones diferentes. http://www.ltcconline.net/greenl/courses/201/Regression/HomogeneityCollaborative/homogeneity.html 𝜒 = (𝑂𝑏𝑠𝑒𝑟𝑣𝑒𝑑 − 𝐸𝑥𝑝𝑒𝑐𝑡𝑒𝑑) 𝐸𝑥𝑝𝑒𝑐𝑡𝑒𝑑 127 128 18/04/2022 46 129 ANÁLISIS DE CORRELACIÓN (ATRIBUTOS NOMINALES) • Prueba Χ2 (chi-square) • Cuanto mayor sea el valor de Χ2, más probable es que las variables estén relacionadas • Las celdas que más contribuyen al valor de x2 son aquellas cuyo recuento real es muy diferente del recuento esperado • Si x2>1 y los valores observados son menores que los esperados, entonces es una correlación negativa. • La correlación no implica causalidad • Por ejemplo: • El número de hospitales y el robo de automóviles en una ciudad están correlacionados PERO ambos están causalmente vinculados a la tercera variable: población 𝜒 = (𝑂𝑏𝑠𝑒𝑟𝑣𝑒𝑑 − 𝐸𝑥𝑝𝑒𝑐𝑡𝑒𝑑) 𝐸𝑥𝑝𝑒𝑐𝑡𝑒𝑑 Valores observados y esperados • Considere N como el tamaño de la muestra • Los valores observados son los de la muestra Los valores esperados para cada celda son calculados de la siguiente manera: 𝐸 = Total en renglones × (Total en columnas) Tamaño de la muestra N . 129 130 18/04/2022 47 Grados de libertad • El número de grados de libertad, df, es calculado de la siguiente manera: df = (𝑅 - 1) ∙ (𝐶 - 1) donde R es el número de filas y C es el número de columnas en la tabla de contingencia (solo las filas y columnas con valores observados se cuentan). EJEMPLO REDUNDANCIA CON CHI-SQUARE Bajo Medio Alto Secundaria 20 35 25 Preparatoria 17 33 20 Universidad 11 18 21 200 48 86 66 Se realizó una encuesta a 200 trabajadores. con respecto a su educación (secundaria, preparatoria o licenciatura) y el nivel de satisfacción laboral (bajo, medio, alto). Estos son los resultados: 131 133 18/04/2022 48 • Se desea probar a un nivel de 2.5 % de significancia, donde el nivel de satisfacción con su empleo depende del nivel educacional, con el objeto de poder identificar si ambas variables son redundantes y eliminar una durante la integración. • Hipotesis: • H0: El nivel de satisfacción con el empleo y el nivel educacional son independientes • Ha: El nivel de satisfacción con el empleo y el nivel educacional no son independientes. Bajo Medio Alto Secundaria 20 35 25 Preparatoria 17 33 20 Universidad 11 18 21 EJEMPLO REDUNDANCIA CON CHI-SQUARE CHI-SQUARE Bajo Medio Alto Total(reg) Secundaria 20(19.2) 35(34.4) 25(26.4) 80 Preparatoria 17(16.8) 33(30.1) 20(23.1) 70 Universidad 11(12) 18(21.5) 21(16.5) 50 Total (Col) 48 86 66 200 Calculando los totales y los valores esperados Los valores en paréntesis son los valores esperados, los restantes son los observados 134 135 18/04/2022 49 EJEMPLO DE CHI-SQUARE • Χ2 (cálculo chi-square) (los números en paréntesis son los conteos esperados calculados con base en la distribución de los datos en las dos categorias) • Grados de libertad: df= (3-1)*(3-1)=4 𝜒 = ( . ) + ( . ) + ( . ) + ( . ) + 0.279 + 0.416 + 0.083 + 0.570 + 1.227 =2.694 𝜒 = (𝑂𝑏𝑠𝑒𝑟𝑣𝑒𝑑 − 𝐸𝑥𝑝𝑒𝑐𝑡𝑒𝑑) 𝐸𝑥𝑝𝑒𝑐𝑡𝑒𝑑 Bajo Medio Alto Total(reg) Secundaria 20(19.2) 35(34.4) 25(26.4) 80 Preparatoria 17(16.8) 33(30.1) 20(23.1) 70 Universidad 11(12) 18(21.5) 21(16.5) 50 Total (Col) 48 86 66 200 EJEMPLO REDUNDANCIA CON CHI-SQUARE Probar las hipótesis • Dado que x2=2.694, 𝛼 = 0.025 y df = 4, el valor de p = 11.14 Valor de p > x2 • También podemos ver en la tabla que el valor p correspondiente a nuestra estadística de prueba está entre 0.5 y 0.75, y por lo tanto es más grande que αlfa. • Por lo tanto, podemos expresar nuestra decisión: No rechazar H0 Lo cual significa que las variables son independientes y por tanto no podremos eliminar alguna. 136 137 18/04/2022 50 EJERCICIOS EXPLORACIÓN DE DATOS SE DEJO DE TAREA La tabla muestra cuántas transacciones contienen coca cola y / o cacahuates de entre 10000 transacciones. (1) calcule χ2 (2) Investigue y calcule lift (3) Investigue y calcule all-confidence (4) según su cálculo, ¿cómo concluye la relación entre comprar CocaCola y comprar cacahuates? CocaCola (CC) NoCocaCola Total Cacahuates (CH) 50 800 850 NoCacahuates 150 9000 9150 Total 200 9800 10000 EJERCICIOS EXPLORACIÓN DE DATOS SE DEJO DE TAREA RESPUESTA Lift es una variación de ROC que mide el rendimiento de reglas de asociación, para predecir o clasificar casos. Se puede calcular como: Confianza Soporte P(consecuente) o bien P(antecedente) Si el valor de lift =1; la ocurrencia del antecedente con el consecuente son independientes Si lift > 1 la ocurrencia del antecedente con el consecuente es dependiente. Calculo de P-value: https://www.graphpad.com/quickcalcs/pvalue1.cfm 138 139 18/04/2022 51 EJERCICIOS EXPLORACIÓN DE DATOS SE DEJO DE TAREA RESPUESTA Formulas a aplicar: ● χ2 eCC-CH = (200×850)/10000 = 17 e¬CC,CH = (9800×850)/10000 = 833 eCC,¬CH = (200×9150)/10000 = 183 e¬CC,¬CH= (9800×9150)/10000 = 8967 χ2 = (50−17)2/17 + (800−833)2/833 + (150−183)2/183 + (8967−9000)2/8967 = 64.06 + 1.31 + 5.95 + 0.12 = 71.44 The two-tailed P value es menor que 0.0001 Por tanto, x2≫ 0 , se rechaza H0. Es posible que estén relacionadas ● lift(CC,CH) lift(CC,CH) = P(CC,CH)/P(CC)×P(CH) =(50/10000) / (200/10000)×(850/10000) = 2.94 > 1. Dado que lift > 1 entonces es probable que estén relacionadas ● all confidence(CC∪CH) all conf(CC∪CH) =sup(CC∪CH) /max(sup(CC), sup(CH))= (50/10000) / max((200/10000), (850/10000) = (.005/.085) 0.059 ≪ 0.5 P-value: https://www.graphpad.com/quickcalcs/pValue2/ CocaCola (CC) NoCocaCola ∑reg Cacahuates (CH) 50 800 850 NoCacahuates 150 9000 9150 ∑col 200 9800 10000 Soporteaij=aij/∑col, reg Confianza aij=aij/∑reg Confianza(AB)=P(A)P(-B) / P(A,-B) EJERCICIOS EXPLORACIÓN DE DATOS SE DEJO DE TAREA RESPUESTA ● Conclusión: ● Los artículos CocaCola y Cacahuates están fuertemente correlacionados negativamente en función de todos los análisis realizados: conf (CC∪CH). ● El indicador lift (CC, CH) no es muy efectivo en este caso ya que hay una gran cantidad de transacciones nulas. ● De manera similar, el análisis de χ2 no es confiable en esta situación porque afirma que está correlacionado positivamente pero en realidad no es así. 140 141 18/04/2022 52 PREPARACIÓN DE DATOS- REDUNDANCIA POR ANÁLISIS DE CORRELACIÓN (DATOS NUMÉRICOS) • El coeficiente de Pearson (también llamado coeficiente de producto-momento de Pearson) Donde n es el número de tuplas y , son las medias respectivas de A y B. σA y σB son las desviaciones estándar respectivas de A y B y Σ(aibi) es la suma del producto cruz de AB. • Si rA,B > 0, A y B están positivamente correlacionadas (Los valores de A incrementan los valores de B). • Entre más alto sea el valor, es más robusta la correlación. • rA,B = 0: independente; rAB < 0: negativamente correlacionados 𝑟 , = ∑ (𝑎 − 𝐴)(𝑏 − 𝐵) (𝑛 − 1)𝜎 𝜎 = ∑ (𝑎 𝑏 ) − 𝑛𝐴𝐵 (𝑛 − 1)𝜎 𝜎 𝐴 𝐵 1.Si r = 1, existe una correlación positiva perfecta.... 2.Si 0 < r < 1, existe una correlación positiva. 3.Si r = 0, no existe relación lineal. ... 4.Si -1 < r < 0, existe una correlación negativa. PREPARACIÓN-EXPLORACIÓN DE DATOS- VISUALMENTE EVALUANDO LA CORRELACIÓN Las gráficas de dispersión muestran la similitud de –1 to 1. 142 143 18/04/2022 53 PREPARACIÓN DE LOS DATOS EXPLORACIÓN POR COVARIANZA (DATOS NUMÉRICOS) • La covarianza es similar a la correlación Donde n es el número de tuplas y , son las medias respectivas o los valores esperados de A y B σA y σB son las desviaciones estándar respectivas de A y B • Covarianza positiva: Si CovA,B > 0, entonces A y B, ambas tienden a ser mas grandes que sus valores esperados respectivos. • Covarianza negativa: Si CovA,B < 0 entonces Si A es mayor que su valor esperado, es probable que B sea mas pequeño que su valor esperado. • Independencia: CovA,B = 0 pero lo contrario no es cierto: Algunos pares de variables aleatorias pueden tener una covarianza de 0 pero no son independientes. Solo bajo algunos supuestos adicionales (por ejemplo, los datos siguen distribuciones normales multivariadas) una covarianza de 0 implica independencia 𝐴 𝐵 Coeficiente de correlación: EXPLORACIÓN DE DATOS EJEMPLO DE COVARIANZA • Puede simplificarse como: • Suponga que las dos existencias de productos A y B tienen los siguientes valores en una semana: (2, 5), (3, 8), (5, 10), (4, 11), (6, 14). • Pregunta: Si las existencias son afectadas por las tendencias de la industria, sus precios ¿subirán o bajarán juntos? • E(A) = (2 + 3 + 5 + 4 + 6)/ 5 = 20/5 = 4 • E(B) = (5 + 8 + 10 + 11 + 14) /5 = 48/5 = 9.6 • Cov(A,B) = (2×5+3×8+5×10+4×11+6×14)/5 − 4 × 9.6 = 4 • Por lo tanto, A y B incrementarán juntos , dado que la Cov(A, B) > 0. 145 146 18/04/2022 54 PREPARACIÓN DE DATOS- REDUCCIÓN DE DATOS • Reducción de datos: Obtener una representación reducida del conjunto de datos que sea mucho mas pequeño en volumen pero que produzca los mismos o casi los mismos resultados del análisis • ¿Por qué reducir datos? — Una base de datos/DWH puede almacenar terabytes de datos. Un análisis complejo de datos podría tardarse mucho tiempo en ejecutarse sobre sobre la fuente de datos completa. • Otro ejemplo: En minería de texto, cada palabra es un atributo. • No todos los atributos tienen la misma relevancia para encontrar el modelo, algunos atributos pueden tener mal efecto durante el modelado, dado que están altamente correlacionados entre si, como el salario y los impuestos. • Muchos atributos incrementan la complejidad del modelo y su rendimiento computacional. • La alta dimensionalidad degrada la confiabilidad de los modelos, especialmente para clasificación y agrupamiento. PREPARACIÓN – REDUCCIÓN DE LOS DATOS Herramientas para reducción de datos: • Agregación de datos (p.e. vistas, avg,sum.cube, etc) • Generalización (p.e. uso de jerarquías, rollup) • Selección de características (p.e. análisis de correlación, muestreo) • Reducción de dimensiones (p.e. codificación, PCA: principal components análisis, transformada de wavelet ) • Reducción de numerosidad (p.e. reemplazar los datos por alternativas mas pequeñas, por agrupamiento o modelos paramétricos) • Discretización y Generación de Jerarquías (p,e, jerarquías de conceptos) • Compresión de datos (sin pérdida de información: lossless; con pérdida de información: lossy 147 148 18/04/2022 55 PREPARACIÓN: 1. REDUCCIÓN DE DIMENSIONES • Maldición de la dimensionalidad • Cuando la dimensionalidad incrementa, los datos se esparcen • La densidad y la distancia entre los puntos, que son muy importantes para el agrupameinto, el análisis de atípicos, se vuelve menos significativo • Las combinaciones posibles de subespacios crecerán exponencialmente • Reducción de dimensiones • Para evitar la maldición de la dimensionalidad • Ayuda a eliminar características irrelevantes y a reducir ruido • Reduce el tiempo y el espacio requerido para el minado de datos • Permite una visualización más fácil • Técnicas de reducción de dimensiones • Transformada Wavelet • Principal Component Analysis • Técnicas supervisadas y no lineales (p.e., selección de características) 150 PREPARACIÓN: 1. REDUCCIÓN DIMENSIONES POR MAPEO DE DATOS A UN NUEVO ESPACIO Two Sine Waves Two Sine Waves + Noise Frequency Transformada de Fourier Transformada de Wavelet (ondícula/ondeleta) 149 150 18/04/2022 56 151 PREPARACIÓN- REDUCCIÓN DIMENSIONES ¿QUÉ ES LA TRANSFORMADA WAVELET? • Descompone una señal en sub-bandas de diferentes frecuencias • Es aplicable a señales de n- dimensiones • Los datos se transforman para preservar la distancia relativa entre los objetos a diferentes niveles de resolución. • Permite que los grupos por su naturaleza (características) sean mas distinguibles • Se usa mucho para compresión de imágenes TRANSFORMACIÓN WAVELET • La trasformada wavelet discreta (DWT) para procesamiento lineal de señales, análisis de múltiples resoluciones • Aproximación comprimida: almacena solamente una pequeña fracción de los coeficientes más robustos de la ondeleta • Es similar a la transformada de Fourier discreta (DFT), pero tiene una mejor compresión con pérdida (lossy) localizada en el espacio. • Método: • La longitud L debe ser una potencia entera de 2 (rellenado con 0s, cuando sea necesario) • Cada transformada tiene dos funciones : suavizado y diferencia • Aplica a pares de datos, resultando en dos conjuntos de datos de longitud L/2 • Aplica las dos funciones recursivamente, hasta que se alcance la longitud deseada Haar2 Daubechie4 151 152 18/04/2022 57 153 PREPARACIÓN- REDUCCIÓN DIMENSIONES DESCOMPOSICIÓN WAVELET • Wavelets: Una herramienta matemática para la descomposición jerárquica de funciones con uso eficiente del espacio • Por ejemplo, S = [2, 2, 0, 2, 3, 5, 4, 4] puede ser transformada a S^ = [23/4, -11/4, 1/2, 0, 0, -1, -1, 0] • Compresión: muchos coeficientes que corresponden a detalles pequeños pueden ser reemplazados por 0’s, y sólo los coeficientes significativos permanecerán PREPARACIÓN- REDUCCIÓN DIMENSIONES ONDELETA DE HAAR Coefficient “Supports” 2 2 0 2 3 5 4 4 - 1.25 2.75 0.5 0 0 -1 0-1 + -+ + + + + + + - - - - - - + -+ + - + - +- +- -+ +-- 1 - 1 0.5 0 2.75 -1.25 0 0 Distribución de frecuencias original Descomposición jerárquica de estructura o “error tree” 153 154 18/04/2022 58 155 ¿POR QUÉ LA TRANSFORMADA WAVELET? • Usa filtros con forma de sombrero (hat shape) • Enfatiza la región donde los puntos se agrupan • Suprime información más débil en sus límites • Elimina efectivamente valores atípicos • Es insensible al ruido, insensible al orden de entrada • Múltiples resoluciones • Detecta grupos de formas arbitrarias a diferentes escalas. • Eficiente • Complejidad O (N) • Aunque es solo aplicable a datos de baja dimensión Técnica utilizada para describir un conjunto de datos en términos de nuevas variables ("componentes") no correlacionadas. Se en análisis exploratorio, reducción y para construir modelos predictivos https://www.youtube.com/watch?v=AniiwysJ-2Y REDUCCIÓN DE DIMENSIONES PRINCIPAL COMPONENTS ANALYSIS (PCA) ANÁLISIS DE COMPONENTES PRINCIPALES 155 156 18/04/2022 59 REDUCCIÓN DE DIMENSIONES PRINCIPAL COMPONENTS ANALYSIS (PCA) ANÁLISIS DE COMPONENTES PRINCIPALES Suponga que los datos a reducir consisten en tuplas o vectores de datos descritos por n atributos o dimensiones. El análisis de componentes principales, o PCA (también llamado método Karhunen-Loeve, o K-L), busca k vectores ortogonales n- dimensionales que pueden usarse mejor para representar los datos, donde k≤n. Los datos originales se proyectan así en un espacio mucho más pequeño, lo que resulta en una reducción de dimensionalidad. REDUCCIÓN DE DIMENSIONES PRINCIPAL COMPONENTS ANALYSIS (PCA) ANÁLISIS DE COMPONENTES PRINCIPALES El procedimiento básico es elsiguiente: 1. Los datos de entrada están normalizados 2. PCA calcula k vectores ortonormales que proporcionan la base para los datos de entrada normalizados. Estos son vectores unitarios que cada uno apunta en una dirección perpendicular a los demás. Estos vectores se denominan componentes principales. Los datos de entrada son una combinación lineal de los componentes principales. 3. Los componentes principales se clasifican en orden decreciente de "importancia" o fuerza. 4. Se es decir, aquellos con baja varianza (es decir, utilizando los componentes principales más fuertes, es posible reconstruir una buena aproximación de los datos originales) PCA es computacionalmente económico, y puede aplicarse a atributos ordenados y no ordenados, también puede manejar datos dispersos y datos sesgados. 157 158 18/04/2022 60 x2 x1 e • Suponga que desea encontrar una proyección que capture la mayor cantidad de variación en los datos • Los datos originales se proyectan en un espacio mucho más pequeño, lo que resulta en una reducción de dimensionalidad. Encontramos los vectores propios de la matriz de covarianza, y estos vectores propios definen el nuevo espacio REDUCCIÓN DE DIMENSIONES PRINCIPAL COMPONENTS ANALYSIS (PCA) ANÁLISIS DE COMPONENTES PRINCIPALES ● Predecir precios de alquiler de vivienda de cierto sector de mercado. ● ● Al recopilar información de diversas fuentes tendremos en cuenta muchísimas variables. ● La ejecución de nuestro algoritmo seleccionado (regresión lineal, redes neuronales, etc.) empezará a tomar más y más tiempo y recursos. ● Es posible que algunas de las variables sean menos importantes y no aporten demasiado valor a la predicción. También podríamos acercarnos peligrosamente a causar overfitting al modelo. ● Si usamos PCA, nuestras nuevas variables son combinaciones de todas las variables originales, aunque eliminemos algunas, estaremos manteniendo la información útil de todas las variables iniciales EJEMPLO PRINCIPAL COMPONENTS ANALYSIS (PCA) 159 160 18/04/2022 61 EJEMPLO PCA Los siguientes pasos deben seguirse para realizar la reducción de dimensionalidad utilizando PCA: 1.- Estandarización de los datos (para que sean comparables) 2.- Calcular la matriz de covarianza (para identificar correlaciones y dependencias entre las variables que podrían reducir el rendimiento del modelo) y para identificar en donde existe hay mas varianza porque esta es la información que necesitamos conservar. 3.- Cálculo de los vectores propios/eigen vectors y los valores propios/eigen values que denotan 4.- Calcular los componentes principales, nuevo conjunto de variables significativas e independientes entre ellas que contienen la mayor cantidad de información posible, se ordenan descendentemente para calcular la matriz de características que contienen los componentes principales 5.- Reducción de las dimensiones del conjunto de datos. Se multiplica la traspuesta de los datos originales por la traspuesta del vector de características PREPARACIÓN-REDUCCIÓN DIMENSIONES POR SELECCIÓN DE SUBCONJUNTO DE ATRIBUTOS • Es otra forma de reducir la dimensionalidad de los datos • Atributos redundantes • Duplican mucho o toda la información contenida en uno o mas atributos (p.e. el precio de un producto y el monto del preciocon impuesto • Atributos irrelevantes • No contienen información que sea útil para la tarea de minería de datos (p.e. la matricula no es relevante con respecto al promedio) 161 163 18/04/2022 62 PREPARACIÓN-REDUCCIÓN DIMENSIONES POR BÚSQUEDA HEURÍSTICA PARA LA SELECCIÓN DE ATRIBUTOS Hay 2D posibles combinaciones de un número D de atributos Algunos métodos típicos de selección de atributos heurísticos son: • Mejor atributo individual bajo el supuesto de independencia del atributo: se escoge a través de pruebas de significación • Selección de atributos paso a paso: • El mejor atributo se elige primero • Luego, el siguiente mejor atributo, ... • Eliminación de atributos paso a paso: • Eliminar repetidamente el peor atributo • Selección y eliminación de atributos combinados PREPARACIÓN-REDUCCIÓN DIMENSIONES POR CREACIÓN DE ATRIBUTOS • Crear nuevos atributos que puedan capturar la información importante en una fuente de datos de forma mas efectiva que la original • Tres metodologías generales: • Extracción de atributos • Depende del dominio de aplicación • Mapeo de datos a un nuevo espacio • Transformadas de Fourier o wavelet • Construcción de atributos • Combinación de atributos • Discretización de datos 164 165 18/04/2022 63 PREPARACIÓN DE DATOS 2: REDUCCIÓN DE NUMEROSIDAD • Reduce el volumen de los datos al escoger formas mas pequeñas de representación de los datos • Métodos paramétricos (regresión) • Suponga que los datos se ajustan a algún modelo, calcule los parámetros del modelo, almacene solo los parámetros y descarte los datos (excepto posibles valores atípicos) • Ej .: Modelos logarítmicos lineales • Métodos no paramétricos • No asume modelos • histogramas, agrupamiento, muestreo, PREPARACIÓN DE DATOS 2: REDUCCIÓN DE NUMEROSIDAD REDUCCIÓN PARAMÉTRICA DE DATOS Y MODELOS LOG-LINEALES • Regresión lineal • Datos modelados para ajustarse a una línea recta • A menudo utiliza el método de mínimos cuadrados para ajustar la línea. • Regresión múltiple • Permite modelar una variable de respuesta Y como una función lineal del vector de características multidimensionales • Modelo logarítmico lineal • Aproximaciones distribuciones de probabilidad multidimensionales discretas 166 167 18/04/2022 64 PREPARACIÓN DE DATOS 2: REDUCCIÓN DE NUMEROSIDAD ANÁLISIS DE REGRESIÓN • Análisis de regresión: un nombre colectivo para técnicas para el modelado y análisis de datos numéricos que consisten en valores de una variable dependiente (también llamada variable de respuesta o medición) y de una o más variables independientes (también conocidas como variables explicativas o predictores) • Los parámetros se estiman para dar un "mejor ajuste" de los datos. • Más comúnmente, el mejor ajuste se evalúa utilizando el método de mínimos cuadrados, pero también se han utilizado otros criterios Se utiliza para la predicción (incluida la predicción de datos de series temporales), inferencia, prueba de hipótesis y modelado de relaciones causales y x y = x + 1 X1 Y1 Y1’ 169 Regresión lineal: Y = w X + b • Dos coeficientes de regresión, w y b, especifican la línea y deben estimarse utilizando los datos disponibles. • Usando el criterio de mínimos cuadrados para los valores conocidos de Y1, Y2,…, X1, X2,…. Regresión múltiple: Y = b0 + b1 X1 + b2 X2 • Muchas funciones no lineales se pueden transformar en las anteriores Modelos log-lineales: • Distribuciones de probabilidad multidimensionales discretas aproximadas • Estime la probabilidad de cada punto (tupla) en un espacio multidimensional para un conjunto de atributos discretos, basado en un subconjunto más pequeño de combinaciones dimensionales • Útil para la reducción de dimensionalidad y suavizado de datos PREPARACIÓN DE DATOS 2: REDUCCIÓN DE NUMEROSIDAD ANÁLISIS DE REGRESIÓN 168 169 18/04/2022 65 PREPARACIÓN DE DATOS 2: REDUCCIÓN DE NUMEROSIDAD ANÁLISIS DE HISTOGRAMAS Se dividen los datos en cubos y se almacena el promedio para cada cubo Reglas de partición: Ancho igual Frecuencia igual Profundidad igual PREPARACIÓN-REDUCCIÓN DE NUMEROSIDAD POR MUESTREO ● Muestreo como técnica de reducción: Proceso de selección de un subconjunto de registros como una representación de la fuente de datos original. Debe tener la misma representatividad que el original con las mismas propiedades, p.e. promedio ● El muestreo reduce la cantidad de datos necesarios para modelar. ● Por lo general se segmenta la fuente de datos en una muestra para entrenamiento y otra para prueba. ● El de entrenamiento se puede muestrear aleatoriamente o a través de alguna etiqueta. 170 171 18/04/202266 PREPARACIÓN-REDUCCIÓN DE NUMEROSIDAD TIPOS DE MUESTREO Muestreo aleatorio simple • Existe la misma probabilidad de seleccionar cualquier artículo en particular Muestreo sin reemplazo • Una vez que se selecciona un objeto, se elimina de la población Muestreo con reemplazo • Un objeto seleccionado no se elimina de la población. Muestreo estratificado: • Particione el conjunto de datos y extraiga muestras de cada partición (proporcionalmente, es decir, aproximadamente el mismo porcentaje de los datos) • Se utiliza junto con datos segados. 173 Muestreo con o sin reemplazo Raw Data PREPARACIÓN-REDUCCIÓN DE NUMEROSIDAD TIPOS DE MUESTREO 172 173 18/04/2022 67 ● Muestreo El muestreo puede ayudar a identificar los datos anómalos de una fuente de datos para eliminarlos durante el modelado La identificación de anómalos por muestreo también puede servir para predecir transacciones fraudulentas de tarjetas de crédito. Dado que estos son eventos esporádicos (raros) no se tiene gran representatividad de estos. El muestreo estratificado es un proceso donde cada clase se representa igual, esto permite al modelo enfocarse en las diferencias entre los patrones de cada clase, lo cual sucede para el caso de las instancias (registros) anómalos. REDUCCIÓN DE NUMEROSIDAD TIPOS DE MUESTREO ● Muestreo estratificado 1. Dividir a todo el universo o población en diferentes estratos o subgrupos. Generalmente, por individuos que comparten características similares. 2. Seleccionar al azar los sujetos de cada estrato de forma proporcional. El muestreo estratificado es un proceso donde cada clase se representa igual, esto permite al modelo enfocarse en las diferencias entre los patrones de cada clase, lo cual sucede para el caso de las instancias (registros) anómalos. PREPARACIÓN-REDUCCIÓN DE NUMEROSIDAD TIPOS DE MUESTREO 174 175 18/04/2022 68 Datos originales Muestra /cluster/estratos PREPARACIÓN-REDUCCIÓN DE NUMEROSIDAD POR MUESTREO AGRUPAMIENTO O ESTRATIFICADO PREPARACIÓN-REDUCCIÓN POR MUESTREO ● Al preparar los datos, los muestreos se usan para modelos de clasificación, donde se crean varios modelos base, cada uno desarrollados usando una muestra de entrenamiento diferente. ● Estos modelos base son usados para construir un meta modelo, llamado modelo ensamble, donde la razón de error es mejorado cuando se compara con el error de los modelos base. 176 177 18/04/2022 69 PREPARACIÓN DE DATOS 3. REDUCCIÓN POR COMPRESIÓN DE DATOSCompresión de cadenas Existen amplias teorías y algoritmos bien ajustados. Normalmente sin pérdidas Compresión de audio / video Compresión típicamente con pérdida, con refinamiento progresivo A veces, pequeños fragmentos de señal pueden reconstruirse sin reconstruir el conjunto La reducción de dimensionalidad y numerosidad también puede considerarse como formas de compresión de da PREPARACIÓN DE DATOS 3. REDUCCIÓN POR COMPRESIÓN DE DATOS Datos originales Datos Comprimidos Sin pérdida Datos originales aproximados 178 179 18/04/2022 70 PREPARACIÓN DE DATOS: TRANSFORMACIÓN PREPARACIÓN POR TRANSFORMACIÓN DE DATOS Función que mapea todo el conjunto de valores de un atributo dado a un nuevo conjunto de valores de reemplazo, cada valor antiguo se puede identificar con uno de los nuevos valores. Los datos deben ser transformados para ajustarse a ciertos algoritmos de ciencia de datos como por ejemplo: Knn requiere dato numérico normalizado. Debido a que calcula las distancias entre éstos. La normalización evita que un atributo domine los resultados de las distancias Herramientas para transformación • Normalización: escalamiento para caer dentro de un rango más pequeño, ayuda a redes neuronales, distancias, knn, clustering •normalización min-max •normalización de puntaje z •normalización por escala decimal •Discretización: escalada de jerarquía de conceptos •Discretización • Suavizado: para eliminar el ruido de los datos • Construcción de atributos / características: nuevos atributos construidos a partir de los dados. • Agregación: resumen, construcción de cubos de datos, sirve para análisis de datos a diferentes niveles de granularidad (día-mes) • Generalización para sustituir datos primitivos por conceptos de nivel mas alto (calle-colonia) •Jerarquización 180 181 18/04/2022 71 EJERCICIOS TRANSFORMACIÓN NORMALIZACIÓN Considere un rango de salarios de $12,000 a $98,000. Normalice los datos a [0.0, 1.0]. Y mapee el salario 73,000 • Normalización Min-max to [new_minA, new_maxA] • Normalización Z-score( sea μ: media, σ: desviación estándar; con μ = 54,000, σ = 16,000. • Normalización por escala decimal 73,600 − 12,000 98,000 − 12,000 (1.0 − 0) + 0 = 0.716𝑣′ = v − min𝐴 max𝐴 − min𝐴 (new_max𝐴 − new_min𝐴) + 𝑛𝑒𝑤_min𝐴 𝑣′ = 𝑣 − 𝜇𝐴 𝜎𝐴 𝑣′ = 𝑣 10 Donde j es el enetero mas pequeño tal que Max(|ν’|) < 1 Entonces j=4; 73600 = 0.73 104 73,600 − 54,000 16,000 = 1.225 EJERCICIOS DE PREPARACIÓN DE DATOS Utilice los siguientes métodos para normalizar el siguiente grupo de datos: 200, 300, 400, 600, 1000 (a) normalización min-max configurando min = 0 y max = 1 (b) normalización del puntaje z (c) normalización del puntaje z utilizando la desviación media absoluta en lugar de la desviación estándar (d) normalización por escala decimal 182 183 18/04/2022 72 EJERCICIOS DE PREPARACIÓN DE DATOS RESPUESTA (a) la normalización min-max con min = 0 y max = 1 obtiene el nuevo valor calculando vi’ = vi − 200 1000 – 200 * (1 − 0) + 0.INCOMPLETO Los datos normalizados son: 0, 0.125, 0.25, 0.5, 1 (b) En la normalización de la puntuación z, un valor vi de A se normaliza a vi’ por vi′ =vi − à σA donde à =1/5 (200 + 300 + 400 + 600 + 1000) = 500, σA =√1/5 (2002 + 3002 + ... + 10002) − Ã2 = 282.8. Los datos normalizados son:−1.06,−0.707,−0.354, 0.354, 1.77 EJERCICIOS DE PREPARACIÓN DE DATOS RESPUESTA (c) La normalización del puntaje z usando la desviación absoluta media en lugar de la desviación estándar reemplaza σA con sA sA =1/5 (| 200 - 500 | + | 300 - 500 | + ... + | 1000 - 500 |) = 240 Los datos normalizados son: −1.25, −0.833, −0.417, 0.417, 2.08 (d) El entero más pequeño j tal que Max (| vi/10j|) < 1 es 3. Después de la normalización por escala decimal, los datos se convierten en: 0.2, 0.3, 0.4, 0.6,1.0 184 185 18/04/2022 73 PREPARACIÓN DE DATOS: DISCRETIZACIÓN PREPARACIÓN DE DATOS POR DISCRETIZACIÓN Divide el rango de un atributo continuo en intervalos, permite reducir el tamaño de los datos y preparar los datos para posterior análisis. Se puede realizar discretización supervisada y no supervisada • Dependerá de los tres tipos de atributos • Nominal—valores de un conjunto no ordenado como el color o la profesión • Ordinal—valores de un conjunto ordenado, como rangos académicos • Numéricos—números reales o enteros 186 187 18/04/2022 74 PREPARACIÓN DE DATOS POR DISCRETIZACIÓN Discretización de arriba hacia abajo Si el proceso comienza por encontrar primero uno o unos pocos puntos (llamados puntos divididos o puntos de corte, splits) para dividir todo el rango de atributos, y luego repite esto recursivamente en los intervalos resultantes, entonces se llama discretización de arriba hacia abajo o división. Discretización de abajo hacia arriba Si el proceso comienza considerando todos los valores continuos como posibles puntos de división, elimina algunos fusionando valores de vecindad para formar intervalos, entonces se llama discretización de abajo hacia arriba o fusión. Discretización: Se pueden usar etiquetas de intervalos para reemplazar los valores Split (top-down) vs. merge (bottom-up) Se puede aplicar recursivamente sobre un atributo . 189 PREPARACIÓN DE DATOS POR DISCRETIZACIÓN Herramientas para discretización: Todos pueden aplicarse recursivamente • Binning • Clasificación: Análisis de Árboles de decisión (supervised, top-down split) • Correlación (p.e. análisis de 2) (no supervisado, bottom-upmerge) • Top-down split, no supervisado • Análisis de Histogramas • Top-down split, no supervisado • Análisis de Clustering (no supervisado, top-down split o bottom-up merge) La discreción se puede realizar rápidamente en un atributo para proporcionar una partición jerárquica de los valores de los atributos, conocida como jerarquía conceptual 188 189 18/04/2022 75 190 DISCRETIZACIÓN POR BINNING • Particionamiento de igual-ancho -equal-width (distancia) Divide el rango en N intervalos de igual ancho • Si A y B son los valores mínimo y máximo del atributo respectivamente, el ancho de los intervalos será: W = (B –A)/N. • Es el método mas sencillo, pero los datos atípicos dominarán la presentación • Los datos sesados no se manejan bien • Particionamiento de igual profundidad (frecuencia) Divide el rango [A,B] de la variable en N intervalos, cada uno conteniendo aproximadamente el mismo numero de elementos • Tiene mejor rendimiento cuando se incrementan los datos que el método anterior • El manejo de los atributos categóricos debe ser cuidadoso 191 EJEMPLOS DE DISCRETIZACIÓN POR BINNING Considere el siguiente rango de precios en dólares: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34. Realice el particionado por binning,considerando tres contenedores * Particionado a contenedores de frecuencias equitativas (4 valores cada uno)(equi-depth): - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34 * Particionado a contenedores con la media de cada conjunto que representa (bin means): - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29 * Particionado a contenedores con valores mínimo y máximo del conjunto representado (bin boundaries): - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34 190 191 18/04/2022 76 DISCRETIZACIÓN SIN USAR ETIQUETAS DE CLASE (BINNING VS. CLUSTERING) Datos originales Intervalos iguales (width binning) Frecuencia igual (depth binning) K-means clustering leads to better results EJERCICIOS DE PREPARACIÓN DE DATOS SUAVIZADO, DETECCIÓN DE ANÓMALOS Dados los siguientes datos (en orden creciente) para el atributo edad: 13, 15, 16, 16, 19, 20,20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70. (a) Utilice el método bin para suavizar los datos anteriores, utilizando una profundidad de bin de 3. (b) Comente sobre el efecto de esta técnica para los datos dados. (c) ¿Cómo podría determinar valores atípicos en los datos? (d) ¿Qué otros métodos existen para el suavizado de datos? 192 193 18/04/2022 77 EJERCICIOS DE PREPARACIÓN DE DATOS RESPUESTA Respuesta: (a) Los siguientes pasos son necesarios para suavizar los datos anteriores utilizando el suavizado por bin con una profundidad de bin de 3 Paso 1: ordenar los datos. (para el ejemplo, ya que los datos ya están ordenados). • Paso 2: Particionar los datos en contenedores de profundidad 3 para todos. Bin 1: 13, 15, 16 Bin 2: 16, 19, 20 Bin 3: 20, 21, 22 Bin 4: 22, 25, 25 Bin 5: 25, 25, 30 Bin 6: 33, 33, 35 Bin 7: 35, 35, 35 Bin 8: 36, 40, 45 Bin 9: 46, 52, 70 • Paso 3: Calcule la media aritmética de cada bin. EJERCICIOS DE PREPARACIÓN DE DATOS RESPUESTA Paso 4: Reemplace cada uno de los valores en cada contenedor por la media aritmética calculada para el contenedor. Bin 1: 142/3, 142/3, 142/3 Bin 2: 181/3, 181/3, 181/3 Bin 3: 21, 21, 21 Bin 4: 24, 24, 24 Bin 5: 262/3, 262/3, 262/3 Bin 6: 332/3, 332/3, 332/3 Bin 7: 35, 35, 35 Bin 8: 401/3, 401/3, 401/3 Bin 9: 56, 56, 56 Este método suaviza un valor de datos ordenados consultando a su "vecindario". Se realiza suavizado local 194 195 18/04/2022 78 EJERCICIOS DE PREPARACIÓN DE DATOS RESPUESTA (b) ¿Cómo podría determinar valores atípicos en los datos? Los valores atípicos en los datos pueden detectarse por agrupación, donde los valores similares se organizan en grupos, o “segmentos”. Los valores que quedan fuera de los grupos pueden considerarse valores atípicos. Alternativamente, se puede utilizar una combinación de inspección por computadora y por humanos donde se implementa una distribución predeterminada para permitir que la computadora identifique posibles valores atípicos. Estos posibles los valores atípicos se pueden verificar mediante inspección humana con mucho menos esfuerzo del que se requeriría para verificar todo el conjunto de datos inicial. EJERCICIOS DE PREPARACIÓN DE DATOS RESPUESTA (c) ¿Qué otros métodos existen para el suavizado de datos? Bin by medias Bin boundaries Alternativamente, los contenedores de ancho equivalente (equiwidth) pueden ser usados para implementar cualquiera de las formas de agrupamiento, donde el rango de valores de intervalo en cada bin es constante. En cuanto a métodos distintos al binning: Técnicas de regresión para suavizar los datos mediante ajustándolo a una función tal como a través de regresión lineal o múltiple. Técnicas de clasificación se pueden usar para implementar jerarquías conceptuales que pueden suavizar los datos al subir el nivel inferior conceptos a conceptos de nivel superior. 196 197 18/04/2022 79 DISCRETIZACIÓN POR CLASIFICACIÓN Y ANÁLISIS DE CORRELACIÓN • Clasificación (p.e., análisis de árbol de decisión) • Supervisado: dadas ciertas etiquetas de clase, p.e., canceroso vs. benigno • Uso de entropía para determinar el punto de división (punto de discretización) • División recursiva de arriba hacia abajo(top-down) • Análisis de correlación (p. e, chi merge: basada en χ2) • Supervisado: se usa información de clase • Fusión ascendente(bottom-up): encuentra los mejores intervalos adyacentes (aquellos que tienen distribuciones similares de clases, es decir, valores bajos de χ2) para fusionar • La fusión se realiza de forma recursiva, hasta que se cumpla la condición de detención predefinida DISCRETIZACIÓN POR GENERACIÓN DE JERARQUÍAS DE CONCEPTO • La formación de jerarquía de conceptos: reduce recursivamente los datos mediante la recopilación y el reemplazo de conceptos de bajo nivel (como valores numéricos para la edad) por conceptos de nivel superior (como jóvenes, adultos o adultos mayores). • La jerarquía de conceptos se puede formar automáticamente para datos numéricos y nominales. • Al generalizar se pierde detalle, pero facilita la interpretación de resultados. • En el caso de ambientes OLAP: La jerarquía de conceptos organiza los conceptos (es decir, los valores de los atributos) jerárquicamente y generalmente cuando es el caso, se asocia con cada dimensión en un almacén de datos (DWH). Facilitan el drill y el roll en almacenes de datos para ver datos a múltiples granularidades. • Las jerarquías conceptuales pueden ser especificadas explícitamente por expertos en dominios y / o diseñadores de data warehouse. 198 199 18/04/2022 80 DISCRETIZACIÓN JERARQUÍAS DE CONCEPTOS PARA DATOS NOMINALES • Especificación explícita de un orden parcial / total de atributos a nivel de esquema por usuarios o expertos • Articulo, Departamento, Tienda • Especificación de una jerarquía para un conjunto de valores por agrupación explícita de datos • {Tacuba,Centro}< CDMX <México • Especificación de solo un conjunto parcial de atributos • P.e. solo calle <ciudad, no otras • Generación automática de jerarquías (o niveles de atributos) mediante el análisis del número de valores distintos • P.e. para un conjunto de atributos: empleado, supervisor, gerente, directorDepto, Presidente, DirGral GENERACIÓN DE JERARQUÍAS DE CONCEPTOS 1. Ordene los atributos en orden ascendente en función del número de valores distintos de atributos. 2.- Genere la jerarquía de arriba hacia abajo según el orden dado, con el primer atributo en el nivel superior y el último atributo en el nivel inferior. 3.- El usuario puede examinar la jerarquía generada y, cuando sea necesario, modificarla para reflejar las relaciones semánticas deseadas entre los atributos. 200 201 18/04/2022 81 EJERCICIO DISCRETIZACIÓN POR JERARQUÍAS DE CONCEPTO