Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Introducción a la Ciencia de Datos aplicada a los negocios con R. Facultad de Ciencias Económicas, Jurídicas y Sociales Universidad Nacional de Salta Octubre - Noviembre 2023 Análisis Multivariante “En un sentido amplio, se refiere a todos los métodos estadísticos que analizan simutáneamente medidas múltiples de cada individuo u objeto sometido a investigación.” (Hair, et all, 1.999) Su razón de ser radica en un mejor entendimiento del objeto de estudio, obteniendo información relevante para la toma de decisiones. Enzo Resaltar Enzo Resaltar Enzo Llamada VARIABLES Enzo Máquina de escribir Como actuan de manera simultanea un conjunto de vbles Técnicas o métodos Multivariantes Son aquellas que centran su atención en dos o más características (variables) medidas en un conjunto de objetos e interrelacionadas entre sí. Difieren de las técnicas univariantes (media y varianza) y bivariantes (correlación) en que se dirijen al análisis de una matriz de correlaciones entre 3 o más variables. Enzo Resaltar Enzo Máquina de escribir No son independientes, hay que preguntarse como se relacionan? Análisis Multivariante (Genero, status social, domicilio, Edad... etc...) Ejemplo: Supongamos el lanzamiento de una nueva línea de negocio y queremos investigar el mercado potencial. Análisis Univariado (Género) Análisis Bivariado (Genero + status social) Segmentación de Mercado Enzo Llamada Analisis conjunto de las vbles Clasificación de Técnicas Multivariantes Guía en función del problema: ¿Dependencia o interdependencia entre variables? ¿Escala Métrica o No Métrica? Si es un análisis de dependencia, ¿Cuántas variables dependientes hay? ¿Cuántas relaciones? Enzo Máquina de escribir Cuantitativas o cualitativas? Buscan la existencia o ausencia de relaciones entre 2 grupos de variables, si se puede clasificarlos en dependientes e independientes (por experimentación o base teórica). El objetivo es verificar si las variables independientes afectan al conjunto de variables dependientes de manera conjunta o individual. Métodos de Dependencia Métodos de Dependencia Métodos de Dependencia Una o varias Métrica / No métrica Una Métrica Regresión Lineal Simple / Múltiple Una o varias Métrica / No métrica Una No Métrica Regresión Logística Análisis Discrim. Una o varias Métrica / No métrica Varias Métrica / No métrica Correlación Canónica Varias Métricas Una o varias Métrica / No métrica Análisis Multiv. de Varianza Cant. y Tipo Variables Independientes Cant. y Tipo Var. Dependientes Técnica aplicable Métodos de Dependencia Clasificación de Técnicas Multivariantes Técnicas Multivariantes Modelos Estructurales (Múltiples relaciones) Métodos de Interdependencia Métodos de Dependencia Dependiente Métrica Dependiente No Métrica Datos Métricos Datos No Métricos Análisis de Regresión Análisis de Supervivencia Correlación Canónica Análisis Multiv. de la Varianza Análisis Discriminante Regresión Logística Componentes Principales Análisis Factorial Escalamiento Multidimensional Análisis de Conglomerados Análisis de Correspondencias Análisis de Conglomerados Clasificación de Técnicas Multivariantes Técnicas Multivariantes Métodos de Clasificación (Individuos) Métodos de Ordenamiento (Variables) Conjunto de técnicas mediante las cuales se puede adaptar un arreglo multivariado de puntos, de manera que cuando se los proyecta en un plano, cualquier patrón intrínseco que estos datos pudiesen tener se haga aparente en una inspección visual. Permiten identificar las dimensiones más importantes en conjuntos de datos e ignorar el ruido presente en ellos. Componentes Principales Coordenadas Principales Análisis Factorial Escalamiento Multidimensional Su objetivo es agrupar a un conjunto de individuos en grupos homogéneos. Análisis de Conglomerados (Clustering) K-Means Análisis Discriminante. Enzo Llamada Se identifican patrones Enzo Resaltar Enzo Resaltar Enzo Llamada Que individuos se parecen mas? Los patrones son más importantes que su cuantía. Si su distribución es aleatoria no dañan el análisis. (Missing Completely at Random - MCAR) Diagnóstico de aleatoriedad: Comparación de medias (prueba t) de otra variable sin NAs. Matriz de correlaciones entre variables con NAs. Tratamientos: Eliminación (Asume MCAR). Imputación. Análisis Previo de los Datos Valores Perdidos (NA - Not Available) Procedimientos previos a la aplicación de cualquier técnica. Enzo Llamada Prueba de hipotesis Enzo Máquina de escribir Por ejemplo: En una poblacion las mujeres no quieren decir su edad y hay que ver que hacer con ls NA Enzo Llamada Hay que tener cuidado ya que de esta manera, ya que estamos sacando objetos que solo le falta un valor, la muestra se hace mas pequeña Enzo Llamada Completo datos a partir de promedios,regresion Una, dos o múltiples variables toman valores extremos que los hacen diferir del comportamiento del resto. Causas: Errores en los datos (Recolección o tabulación) Errores intencionados. Errores en el muestreo (representatividad, marco de datos) Outliers legítimos debidos a la variabilidad inherente. Eliminación a los efectos de asegurar estimaciones válidas para la mayoría. Intento de suavización con transformaciones. Utilización de pruebas no paramétricas más “robustas”. Análisis Previo de los Datos Valores extemos (Outliers). Enzo Resaltar Enzo Máquina de escribir Aplicacion de logaritmos Análisis Univariado vs. Análisis Multivariado Enzo Llamada Outlayer para el analisis bivariado Enzo Llamada Centroide Enzo Máquina de escribir Se calculan dif de los puntos con el centroide para sacar los outlayers Enzo Máquina de escribir No es lo mismo trabajar de manera marginal que de manera multivariada, el outlayer marcado no seria outlayer para ninguna de las variables si la trabajaramos de forma marginal Análisis Método Límites Univariado Box Plot Q1-1,5 RIQ Q3+1,5 RIQ Z Scores Valores de Z > +-3 Bivariado Regresión Bandas de intervalos de Predicción Individual (95%) Multivariado Distancia de Mahalanobis Barnett y Lewis 100<N<500 ----> D>20 N<100 ----> D>15 Detección de Outliers Cada grupo sea homogéneo respecto de las variables utilizadas para caracterizarlo. Los grupos sean distintos entre sí. No exige propiedades estadísticas a los datos. Los grupos son desconocidos a priori, aunque por alguna razón pensamos que se pueden agrupar. Clasifica a individuos (observaciones) en grupos, tal que: Análisis de Conglomerados (Clustering) Enzo Resaltar Enzo Resaltar Enzo Llamada Cuanto mas separados y mas similares sean los individuos de cada grupo, mejor Análisis de Conglomerados (Clustering) Se obtiene así una clasificación de los individuos a partir de los datos multivariantes observados a los efectos de una mejor comprensión de los mismos y de la población de la cual proceden. Secuencia Lógica Enzo Llamada Partimos de matriz de datos Enzo Llamada Calculamos matriz de similaridad entre individuos Enzo Llamada Comparamos entre individuos Enzo Llamada Caracterizamos cada uno de los grupos Medidas de Similaridad o Distancia Indican en qué medida dos individuos o elementos bajo estudio se parecen entre sí. Cercanía = Medida de “proximidad”, “similaridad” o “distancia” Enzo Rectángulo Enzo Rectángulo Enzo Rectángulo Enzo Rectángulo Medidas de Similaridad (Distancia) Similaridad Distancia Un aumento de la similaridad implica mayor semejanza. [0 ; 1] Un aumento de la distancia implica menor semejanza. [0 ; Infinito] Medidas de Similaridad para Variable Numérica Distancia Euclídea Medidas de Similaridad para Variable Numérica Distancia Euclídea Medidas de Similaridad para Variable Numérica Matriz de Distancias Euclídeas Enzo RectánguloMedidas de Similaridad para Variable Numérica Distancia de Manhattan (City Block) Estandarización con rango (acotada [0 , 1] ) Medidas de Similaridad para Variable Numérica Distancia de Mahalanobis Se utiliza para determinar cuán lejos está un punto de datos de la media de un conjunto de datos multivariados, teniendo en cuenta la variabilidad y la correlación entre las variables. Mejora el concepto de distancia euclídea al tener en cuenta - al momento de estandarizar - las relaciones (Covarianzas) entre las variables involucradas. Enzo Máquina de escribir mejora la distancia euclidica, estandariza valores con la covarianza Medidas de Similaridad para Variable Binaria Cuando las variables surgen de un proceso de codificación de atributos medidos en escalas nominales u ordinales. Parten de una tabla de contingencia de 2x2 donde se comparan dos individuos u observaciones respecto de ciertas caracterísiticas binarias. a: Coincidencias en 1 (presenta la caracteristica) d: Coincidencias en 0 (no presenta la caracteristica) c y b: Discrepancias entre individuos. Enzo Llamada Tiene o no tiene algo Medidas de Similaridad para Variable Binaria Coef. de Similaridad de Emparejamiento Simple (Simple Matching) Son similares aquellos individuos que coinciden en 1 y en 0. Enzo Llamada Coincidencias Medidas de Similaridad para Variable Binaria Indice de Jackard: Son similares aquellos individuos que coinciden en 1. Ej.: Nacionalidad Argentina: 1:SI - 0:No Enzo Llamada Toma solo los que presentan la caracteristica Enzo Llamada Los no argentinos pueden no ser similares al ser de nacionalidades distintas entre ellos Medidas de Similaridad para Variable Binaria Otros coeficientes: Medidas de Similaridad Estandarización Las medidas de similaridad son muy sensibles a las unidades en que están medidas las variables consideradas. Por Rango: Al valor de cada variable se le resta su valor mínimo y se lo divide por su rango a los efectos de que quede acotado en [0 , 1]. Puntuaciones Z: Los datos se estandarizan restando a cada valor su media y dividiendo por su desvío. Los valores quedan acotados en términos probabilísticos dependiendo su distribución. Formas usuales de estandarización: Medidas de Similaridad Estandarización Matriz de distancias euclídeas sin estandarizar Medidas de Similaridad Estandarización Medidas de Similaridad Estandarización Matriz de distancias estandarizados por Puntuaciones Z Representación Gráfica de distancias: Dendograma o Arbol Muestra cuán parecidos son los inidividuos entre sí por medio de un índice de jerarquía. Enzo Máquina de escribir Muestra como son las distancia y como se van agrupando los elementos Formación de Grupos Selección del algoritmo de agrupación. Métodos Jerárquicos Métodos No Jerárquicos Aglomerativos: Al inicio se considera a cada individuo como un grupo en sí mismo y luego se van agrupando de acuerdo a su cercanía o similaridad hasta formar un solo grupo con todos los individuos. Desagregativos: Al inicio todos los individuos forman un grupo y se van desagregando hasta formar n-1 grupos. Se establece un número inicial de grupos a priori y luego se clasifica a cada individuo en cada grupo. Se tiene en cuenta la mayor homogeneidad dentro de los grupos y la mayor variabilidad entre los grupos. La distancia entre un individuo y un grupo constituido, o entre 2 grupos, es la distancia entre sus puntos más próximos. Método del Mínimo (Single Linkage): Formación de Grupos Algoritmos de agrupamiento Jerárquicos: Definir distancia entre grupos. La distancia entre un individuo y un grupo constituido, o entre 2 grupos, es la distancia entre sus puntos más alejados. Método del Máximo (Complete Linkage): Formación de Grupos Algoritmos de agrupamiento Jerárquicos: Definir distancia entre grupos. La distancia entre un individuo y un grupo constituido, o entre 2 grupos, es la distancia media entre sus puntos. Método de la Media (Average Linkage - Sokal y Michener): Formación de Grupos Algoritmos de agrupamiento Jerárquicos: Definir distancia entre grupos. La distancia entre un individuo y un grupo constituido, o entre 2 grupos, es la distancia mediana entre sus puntos. Método de la Mediana (Gower): Formación de Grupos Algoritmos de agrupamiento Jerárquicos: Definir distancia entre grupos. La distancia entre un individuo y un grupo constituido, o entre 2 grupos, es la distancia a partir de un punto CENTROIDE (Promedio). Método del Centroide: Formación de Grupos Algoritmos de agrupamiento Jerárquicos: Definir distancia entre grupos. No parte de la matriz de distancias, sino de la matriz de datos originales y a partir de allí comienza armando grupos teniendo como premisa minimizar la variabilidad de los elementos de cada grupo conformado, teniendo en cuenta las distancias euclídeas al cuadrado. Como se basa en minimizar la varianza intra cluster, da como resultado grupos más compactos y homogéneos. Método de Ward: Enzo Resaltar Enzo Resaltar Formación de Grupos Enzo Llamada Generalmente se usa este Formación de Grupos: Consideraciones Crea clusters filamentosos, tendiendo a aproximar los objetos respecto de las distancias originales. Es más sensible a outliers. Método del Mínimo (Single Linkage): Crea clusters esféricos y compactos, tendiendo a alejar los objetos respecto de las distancias originales. Identifica grupos muy homogéneos. Método del Máximo (Complete Linkage): Crea clusters conservadores, no dilatan ni contraen las distancias originales. Métodos Promedios: Formación de Grupos Algoritmos de agrupamiento No Jerárquicos: Definir distancia entre grupos. Se debe conocer A PRIORI el número de conglomerados que se desea formar y los datos considerados como centroides. Luego, las observaciones son asignadas a cada grupo maximizando su homogeneidad. ( Ej.: Algoritmo K-means). Raramente se conoce con certeza los centroides de estos k grupos, por lo que sus resultados dependerán de su elección inicial. Es habitual optar primero por hacer un análisis jerárquico para definir la cantidad de clusters (excepto en los casos en que los tamaños muestrales son muy grandes). Enzo Máquina de escribir No calcula distancias, sino que son calculos interactivos de varianzas Selección del número de conglomerados Debe deternerse el proceso de fusión cuando los grupos están a una distancia significativamente mayor de los que previamente se han fusionado. Existen ciertos índices, que analizados en conjunto dan una orientación respecto del número de conglomerados. La mejor validación del número de conglomerados es que estos tengan sentido y puedan interpretarse en el contexto del estudio. Enzo Resaltar Enzo Resaltar Enzo Resaltar Ejemplo de Aplicación: Diseño de un plan de incentivos para vendedores El director de ventas de una cadena de tiendas de electrodomésticos desea implementar un plan de incentivos para sus vendedores. Considera que los incentivos deben estar ajustados a las dificultades de las distintas zonas de ventas, siendo necesario otorgar incentivos más altos en aquellas zonas geográficas en que las condiciones de vida de sus habitantes hacen más difíciles llegar a la venta. En base a información respecto al equipamiento de los hogares en las comunidades autónomas de España, se desea segmentar las mismas en grupos homogéneos.
Compartir