Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Análisis de Componentes Principales Análisis de Coordenadas Principales Análisis de Correspondencias Universidad Nacional de Salta Facultad de Ciencias Económicas, Jurídicas y Sociales Curso de Posgrado: Introducción a la ciencia de datos aplicada a los negocios con R Métodos de ordenación • Análisis de Componentes Principales • Variables cuantitativas • Input → matriz de varianzas y covarianzas o matriz de correlaciones • Análisis de Coordenadas Principales • Variables cualitativas • Input → matriz de similaridad (elementos van de 0 a 1) • Análisis Factorial de Correspondencias • Variables cualitativas • Input → tablas de contigencias • Simple → 2 factores • Múltiple → mas de 2 factores • Escalamiento Multidimensional • Input → matriz de distancias Introducción El análisis de componentes principales (PCA) es una técnica que permite: • Reducir la dimensionalidad de un fenómeno estudiado que puede tener originalmente muchas variables asociadas • Se generan nuevas variables (componentes principales) que son combinaciones lineales de las variables originales. • Las nuevas variables están incorrelacionadas entre si. • La idea es trabajar con menos variables: • Simplificando la estructura de los datos • Minimizando la perdida de información • Utilizando la correlación de las variables originales. • El input es la matriz de varianzas y covarianzas o matriz de correlación. Enzo Resaltar Aplicación en los negocios • Análisis de cartera de productos de una empresa • Segmentación de clientes en una tienda minorista • Análisis de encuestas de satisfacción del cliente • Optimización de la cadena de suministro • Análisis de datos financieros de una empresa • Diagnóstico de problemas en la producción Contexto Histórico • En Análisis de Componentes Principales se fue desarrollando desde inicios del siglo XX cuando: • Karl Pearson (1901) publicó un artículo en el que planteo la idea de la reducción de dimensionalidad • Harold Hotelling (1933) fue quien formalizo y divulgo el PCA aplicándolo a diversas disciplinas como la economía y la psicología. • Hay mucha confusión sobre las diferencias entre el Análisis de Componentes Principales (PCA) y el Análisis Factorial Exploratorio (EFA). • El EFA fue planteado por Charles Spearman en 1904 en un trabajo para definir y medir la Inteligencia. Diferencias entre el ACP y el EFA Enzo Máquina de escribir Factores que inciden en las vbles Enzo Máquina de escribir Con 2 vbles queremos predecir el resto Marco teórico La fundamentación matemática de PCA implica desarrollar conceptos de geometría visualizando las transformaciones lineales en distintos gráficos. Conceptos fundamentales: Covarianza: es el indicador que mide la relación lineal entre dos variables aleatorias en un conjunto de datos. La covarianza entre X e Y se define como: 𝐶𝑜𝑣 𝑋, 𝑌 = 1 𝑛 − 1 𝑖=1 𝑛 (𝑋𝑖 − ത𝑋)(𝑌𝑖 − ത𝑌) Para justificar la realización de un PCA, debe existir un nivel razonable de correlación entre las variables. Marco teórico A cada autovector le corresponde un autovalor que indica cuanta varianza se explica a lo largo de cada autovector. 𝑖=1 𝑝 𝜆𝑖 = 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑇𝑜𝑡𝑎𝑙 Los autovectores están ordenados de manera que al primer autovector le corresponda el autovalor mas grande y asi sucesivamente. Cada autovalor coincide con la varianza de cada componente principal calculado. Autovectores: Representan las direcciones principales de variación en los datos Métodos de ordenación Matriz de varianzas y covarianzas Variables y x z y 𝑆𝑦 2 𝑆𝑦𝑥 𝑆𝑦𝑧 x 𝑆𝑥𝑦 𝑆𝑥 2 𝑆𝑥𝑧 z 𝑆𝑧𝑦 𝑆𝑧𝑥 𝑆𝑧 2 𝑆𝑦 2 𝑆𝑦𝑥 𝑆𝑦𝑧 𝑆𝑥𝑦 𝑆𝑥 2 𝑆𝑥𝑧 𝑆𝑧𝑦 𝑆𝑧𝑥 𝑆𝑧 2 𝑆𝑦 2 es la varianza de y 𝑆𝑦𝑥 es la covarianza entre y e x 𝑗=1 𝑝 𝑆𝑗 2 = Varianza Total Definición matemática Dada una matriz cuadrada 𝐴, un autovalor de 𝐴 es un número 𝜆 tal que existe un autovector 𝑣 tal que: 𝐴𝑣 = 𝜆𝑣 Para calcular los autovalores de una matriz 𝐴, se debe resolver la ecuación característica, que es una ecuación polinómica en 𝜆. La ecuación característica se obtiene al buscar los valores propios 𝜆 tal que det 𝐴 − 𝜆𝐼 = 0 donde 𝐼 es la matriz identidad 𝑛 × 𝑛 La aplicación un PCA requiere calcular los autovalores y autovectores de la matriz de varianzas y covarianzas muestrales. Para calcular cada componente principal, se debe realizar una transformación lineal de las variables originales multiplicándolas por los coeficientes de los autovectores. En el PCA el calculo de las correlaciones entre las distintas variables observadas y los distintos componentes es importante para la interpretación. Enzo Resaltar Transformación lineal Matriz de varianzas y covarianzas Matriz de correlaciones Varianza total = 44,182 Varianza x1 = 23,091/44,182 = 52,26% Varianza x2 = 21,091/44,182 = 47,73% Transformación lineal 𝑥1 ∗ = 𝑐𝑜𝑠𝜃 × 𝑥1 + 𝑠𝑒𝑛𝑜𝜃 × 𝑥2 𝑥1 ∗ = 0,985 × 𝑥1 + 0,174 × 𝑥2 𝜃 = 10° Enzo Resaltar 𝑥1 ∗ = 𝑐𝑜𝑠𝜃 × 𝑥1 + 𝑠𝑒𝑛𝑜𝜃 × 𝑥2 𝑥1 ∗ = 0,729 × 𝑥1 + 0,685 × 𝑥2 𝜃 = 43,261° 𝑥2 ∗ = −𝑠𝑒𝑛𝑜𝜃 × 𝑥1 + 𝑐𝑜𝑠𝜃 × 𝑥2 𝑥2 ∗ = −0,685 × 𝑥1 + 0,729 × 𝑥2 Resumen • Los nuevos ejes son los componentes principales • Las nuevas variables son combinaciones lineales de las variables originales • La varianza total de las nuevas variables es la misma que las variables originales • Los porcentajes de la varianza recogidos por 𝑥1 ∗ = 38,576 44,182 = 87,31% y 𝑥2 ∗ = 5,606 44,182 = 12,69% • La varianza recogida por 𝑥1 ∗ es mas grande que la varianza recogida por cualquiera de las variables originales • La correlación entre las nuevas variables es cero ya que son ortogonales o sea que están incorrelacionadas. Enzo Resaltar Enzo Resaltar Enzo Resaltar Aplicación En el mercado del retail de tecnología, precisamente en el mercado de los celulares, existen diversidad de modelos de distintas marcas y características, en este trabajo se utiliza un conjunto de 40 modelos de celulares comercializados activamente por una empresa nacional de venta de artículos tecnológicos. Por cada modelo se cuenta con 6 características o variables observadas que son: - Resolución de la cámara trasera. - Resolución de la cámara frontal. - Capacidad de la batería. - Memoria RAM. - Memoria de almacenamiento. - Tamaño de la pantalla. Características de 40 modelos de celulares Modelo Precio Memoria de Almacenamiento Memoria RAM Tamaño Pantalla Capacidad Bateria Camara Trasera Camara Frontal MOTO G32 128GB $ 88.999 128 4 6,4 5000 50 16 MOTO G42 128GB $ 94.999 128 4 6,4 5000 50 16 SM A04 64GB $ 71.999 64 4 6,5 5000 50 5 MOTO E22 32GB $ 56.999 32 3 6,5 4020 16 5 MOTO G13 128 GB $ 73.999 64 4 6,5 5000 50 8 SM A23 5G 128GB $ 146.999 128 4 6,6 5000 50 8 SM A23 128GB $ 122.999 128 4 6,6 5000 50 8 MOTO E13 64GB $ 50.999 64 2 6,5 5000 13 5 SM A24 LTE 128GB $ 129.999 128 6 6,5 5000 50 13 SM A54 5G 128GB $ 209.999 256 8 6,4 5000 50 32 MOTO G23 128GB $ 85.999 128 4 6,5 5000 50 16 PIXPRO L1 PRO 16GB $ 29.599 16 2 5,7 2700 5 2 MOTO G72 128GB $ 134.999 128 6 6,55 5000 108 16 SM A54 5G 256GB $ 226.999 256 8 6,4 5000 50 32 SKY ENERGY $ 13.990 32 0,032 1,77 1800 0,8 0 SM A04 128GB $ 79.999 128 4 6,5 5000 50 5 KODAK SEREN D55L $ 33.499 32 2 5,5 2000 13 5 XIAOMI REDMI NOTE 11 $ 104.899 128 4 6,43 5000 50 13 KODAK SEREN D61L $ 39.299 32 2 6,08 3000 13 8 XIAOMI REDMI 10C $ 89.999 64 4 6,7 5000 50 5 KODAK SEREN D65LX $ 44.999 64 2 6,5 3000 16 8 MOTO EDGE 30 FUSION 256GB $ 249.999 256 12 6,55 4400 50 32 SM S21 FE 128GB $ 274.999 128 6 6,4 4500 12 32 MOTO G13 DUAL SIM $ 79.999 64 4 6,5 5000 50 8 QUANTUM Q-TEST 4G 32GB $ 32.999 32 1 5,45 2800 8 5 SM A34 5G 128GB $ 169.999 128 6 6,6 5000 48 13 MOTO EDGE 30 NEO 128GB$ 164.999 128 8 6,28 4020 64 32 SM S23 256GB $ 409.999 256 8 6,1 3900 50 12 SM S22 128GB $ 349.999 128 8 6,1 3700 50 10 MOTO Edge 30 ULTRA + BUND. $ 379.999 256 12 6,67 4610 200 60 MOTO EDGE 30 ULTRA 256GB $ 349.999 256 12 6,67 4610 200 60 SM A04e 64GB $ 62.999 64 3 6,5 5000 13 5 SM S20FE 5G 128GB $ 234.999 128 6 6,5 4500 12 32 SM M13 128GB $ 94.999 128 4 6,6 5000 50 8 SM S23 ULTRA 256GB $ 559.999 256 12 6,8 5000 200 12 SM A14 LTE 128GB $ 98.999 128 4 6,6 5000 50 13 MOTO G22 128GB $ 83.999 128 4 6,5 5000 50 16 MOTO E32 64GB $ 67.999 64 4 6,53 5000 16 8 SM GALAXY Z FOLD4 256GB $ 659.999 256 12 7,6 4400 50 10 SM GALAXY Z FLIP 4 128GB $ 379.999 128 8 6,7 3595 16 13 Análisis Descriptivo Almacena. RAM Pantalla Bateria Camtraser Camfront Almacena. 1,000 0,889 0,376 0,389 0,641 0,674 RAM 0,889 1,000 0,447 0,299 0,696 0,695 Pantalla 0,376 0,447 1,000 0,667 0,300 0,238 Bateria 0,389 0,299 0,667 1,000 0,358 0,222 Camtraser 0,641 0,696 0,300 0,358 1,000 0,618 Camfront 0,674 0,695 0,238 0,222 0,618 1,000 Matriz de correlaciones Matriz de correlaciones Matriz de correlaciones (sin precio) Autovalores y autovectores Los autovalores [1] 3.57529580 1.22687490 0.44511173 0.35695024 0.32028041 0.07548692 Los autovectores [,1] [,2] [,3] [,4] [,5] [,6] [1,] -0.4725107 0.1706369 0.28984784 -0.22071604 -0.514638069 0.59163925 [2,] -0.4804491 0.1977900 0.36632546 -0.27954258 0.005757357 -0.71949724 [3,] -0.3192938 -0.6145634 0.38726887 0.03313014 0.561223176 0.23306028 [4,] -0.3048302 -0.6391225 -0.40384777 0.15407257 -0.503365081 -0.24164687 [5,] -0.4261859 0.1810045 -0.68241493 -0.38376127 0.391511890 0.13913496 [6,] -0.4115799 0.3359075 -0.05507763 0.83727636 0.116125338 0.01476048 Se expresa en porcentaje la varianza explicada por cada componente sobre la varianza total: [1] 59.588263 20.447915 7.418529 5.949171 5.338007 1.258115 El porcentaje acumulado de varianza explicada por los primeros dos componentes: [1] 80.03618 Enzo Llamada nos tenemos que quedar con los autovalores mayores a 1 Gráfico de Sedimentación (scree plot) Fuente: Elaboración propia en R Dim.1 Dim.2 almacenamiento 0.8934446 -0.1890049 ram 0.9084548 -0.2190809 pantalla 0.6037351 0.6807174 bateria 0.5763868 0.7079201 camtrasera 0.8058516 -0.2004885 camfrontal 0.7782338 -0.3720658 • El primer componente está relacionado con las prestaciones de los modelos, más precisamente con las características de memoria, rapidez y aspectos de fotografía. • El segundo componente esta relacionado con aspectos de comodidad al tener cargas fuertes de la dimensión de la pantalla y la duración de la batería. Interpretación de los componentes principales Enzo Máquina de escribir A partir de lo relacionado que estan las vbles con las dimensiones Enzo Cuadro de texto En la dim 2, estas vbles estan mas relacionadas Gráfico de las cargas sobre los primeros dos componentes Fuente: Elaboración propia en R Gráfico de las cargas con el sentido de la correlación Fuente: Elaboración propia en R Fuente: Elaboración propia en R Gráfico de los modelos sobre los componentes principales Fuente: Elaboración propia en R Gráfico de los individuos y las variables Análisis de Coordenadas Principales • Es una técnica de reducción de la dimensionalidad de un fenómeno. • Variables cualitativas • Input → matriz de similaridad • Ordenar individuos o poblaciones pero no variables Enzo Máquina de escribir Para agrupar individuos o poblaciones, no vbles Enzo Resaltar Enzo Resaltar Análisis de Coordenadas Principales • Análisis de Percepción del Cliente: • Se puede utilizar para visualizar la similitud en las respuestas de los clientes y entender cómo perciben tus productos o servicios en relación con la competencia. • Comparación de Productos: • Para comparar productos y visualizar cómo se agrupan en función de esas características. Esto puede ser útil para la toma de decisiones en la gestión de productos. • Análisis de Competencia: • Considera que posees datos financieros y métricas clave para varias empresas en tu industria. Se puede identificar patrones de similitud o diferencias entre las empresas, lo que podría ser valioso para estrategias de posicionamiento y toma de decisiones competitivas. • Evaluación de Desempeño de Empleados: • Si tienes métricas de desempeño para empleados en diferentes dimensiones (productividad, satisfacción, habilidades, etc.), puedes utilizar PCoA para analizar la similitud entre empleados y entender cómo se distribuye el desempeño en tu organización. • Análisis de Mercado: • Si estás en un sector donde se recopila información sobre múltiples mercados (regiones geográficas, segmentos demográficos), el PCoA puede ayudarte a visualizar las similitudes y diferencias entre estos mercados, lo que podría guiar estrategias de marketing y expansión. • Evaluación de Proveedores: • Supongamos que tienes datos sobre múltiples proveedores en términos de calidad, costos, tiempos de entrega, etc. PCoA puede ayudarte a clasificar proveedores y visualizar cuáles son los más similares o diferentes en términos de rendimiento. Caso Práctico Evaluación de Locales Comerciales en una cadena • 23 locales • Se los evalúa en 84 características • Con respuestas si/no Enzo Llamada Puede llegar a haber mas respuestas Análisis Factorial de Correspondencias Su principal ventaja es la posibilidad de representar simultáneamente las variables y los individuos. • Análisis de Correspondencias Simple → solo dos factores • Análisis de Correspondencias Múltiple → mas de dos factores. Input → tablas de contingencias Enzo Máquina de escribir Aca si podemos representar vbles e individuos Enzo Resaltar Enzo Resaltar Enzo Resaltar Enzo Resaltar Enzo Máquina de escribir Lo primero que se hace es ver si hay relacion entre las vbles Prueba 𝜒2de independencia 𝐻0: 𝑁𝑜 ℎ𝑎𝑦 𝑟𝑒𝑙𝑎𝑐𝑖𝑜𝑛 𝑒𝑛𝑡𝑟𝑒 𝑙𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝐻1: 𝐿𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑒𝑠𝑡𝑎𝑛 𝑟𝑒𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑑𝑎𝑠 Hipótesis Estadística de Prueba Regla de Decisión: 𝑅 → 𝐻0 𝑠𝑖 𝜒0 2 > 𝜒 𝛼; 𝑟−1)(𝑐−1 2 𝜒0 2 = 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑐𝑒𝑙𝑑𝑎𝑠 (𝑓𝑜 − 𝑓𝑒) 2 𝑓𝑒 𝑓𝑒 = 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑓𝑖𝑙𝑎𝑠 𝑥 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑐𝑜𝑙𝑢𝑚𝑛𝑎𝑠 𝑛 Determinan si dos factores son estadísticamente independientes Ejemplo: Se ha realizado una encuesta para determinar si existe alguna relación entre el lugar de residencia y la preferencia por la marca del automóvil. Residencia Preferencia de automóvil Totales GM Ford Chrysler Europeo Asiático Ciudad Grande 64 40 26 8 62 200 Suburbio 53 35 24 6 32 150 Rural 53 45 30 6 16 150 Totales 170 120 80 20 110 500 Enzo Máquina de escribir Si no hay relacion termina ahi Prueba 𝜒2de independencia Cátedra de Estadística - Facultad de Ciencias Económicas, Jurídicas y Sociales - Universidad Nacional de Salta Residencia Frecuencias Observadas Totales GM Ford Chrysler Europeo Asiático Ciudad Grande 64 40 26 8 62 200 Suburbio 53 35 24 6 32 150 Rural 53 45 30 6 16 150 Totales 170 120 80 20 110 500 Residencia Frecuencias Esperadas Totales GM Ford Chrysler Europeo Asiático Ciudad Grande 68 48 32 8 44 200 Suburbio 51 36 24 6 33 150 Rural 51 36 24 6 33 150 Totales 170 120 80 20 110 500 𝐻0: 𝑁𝑜 ℎ𝑎𝑦 𝑟𝑒𝑙𝑎𝑐𝑖𝑜𝑛 𝑒𝑛𝑡𝑟𝑒 𝑙𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝐻1: 𝐿𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑒𝑠𝑡𝑎𝑛 𝑟𝑒𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑑𝑎𝑠 Hipótesis Estadística de Prueba 𝜒0 2 = 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑐𝑒𝑙𝑑𝑎𝑠 (𝑓𝑜 − 𝑓𝑒) 2 𝑓𝑒 𝑓𝑒 = 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑓𝑖𝑙𝑎𝑠 𝑥 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑐𝑜𝑙𝑢𝑚𝑛𝑎𝑠 𝑛 Prueba 𝜒2de independencia Cátedra de Estadística - Facultad de Ciencias Económicas, Jurídicas y Sociales - Universidad Nacional de Salta Estadística de Prueba 𝜒0 2 = 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑐𝑒𝑙𝑑𝑎𝑠 (𝑓𝑜 − 𝑓𝑒) 2 𝑓𝑒 𝑓𝑜𝑓𝑒 𝑓𝑜 − 𝑓𝑒 (𝑓𝑜 − 𝑓𝑒) 2 (𝑓𝑜−𝑓𝑒) 2 𝑓𝑒 64 68 -4 16 0,23529412 53 51 2 4 0,07843137 53 51 2 4 0,07843137 40 48 -8 64 1,33333333 35 36 -1 1 0,02777778 45 36 9 81 2,25 26 32 -6 36 1,125 24 24 0 0 0 30 24 6 36 1,5 8 8 0 0 0 6 6 0 0 0 6 6 0 0 0 62 44 18 324 7,36363636 32 33 -1 1 0,03030303 16 33 -17 289 8,75757576 𝜒0 2 = 22,7797831 Regla de Decisión: 𝑅 → 𝐻0 𝑠𝑖 𝜒0 2 > 𝜒 𝛼; 𝑟−1)(𝑐−1 2 𝜒0 2 > 𝜒 0,05; 3−1)(5−1 2 𝑅 → 𝐻0 22,78 > 15,50 Si rechazo la Ho, me interesa ver en detalle la relación entre los factores → AFCS Entrada de datos en AFCS Residencia GM Ford Chrysler Europeo Asiático Ciudad Grande 64 40 26 8 62 Suburbio 53 35 24 6 32 Rural 53 45 30 6 16 1) Tabla de contingencias Residencia Marca Frecuencias Ciudad Grande GM 64 Ciudad Grande Ford 40 Ciudad Grande Chrysler 26 Ciudad Grande Europeo 8 Ciudad Grande Asiático 62 Suburbio GM 53 Suburbio Ford 35 Suburbio Chrysler 24 Suburbio Europeo 6 Suburbio Asiático 32 Rural GM 53 Rural Ford 45 Rural Chrysler 30 Rural Europeo 6 Rural Asiático 16 2) Como variables clasificatorias 3) Una fila por cada individuo Residencia Marca Ciudad Grande GM Ciudad Grande GM Ciudad Grande GM Ciudad Grande GM Ciudad Grande GM Ciudad Grande GM Ciudad Grande Ford Ciudad Grande Ford Ciudad Grande Ford Ciudad Grande Ford Ciudad Grande GM Caso Práctico en R Entrada de datos en AFCM Como variables clasificatorias por individuo Residencia Marca Estado Civil Ciudad Grande GM Soltero Ciudad Grande GM Casado Ciudad Grande GM Casado Ciudad Grande GM Casado Ciudad Grande GM Soltero Ciudad Grande GM Soltero Ciudad Grande Ford Casado Ciudad Grande Ford Casado Ciudad Grande Ford Soltero Ciudad Grande Ford Casado Ciudad Grande GM Casado Análisis de Correspondencias Múltiple Transforma esos datos en una tabla disyuntiva completa Residencia Marca Estado Civil Ciudad Grande Suburbio Rural GM Ford Chrysler Europeo Asiático Soltero Casado Indiv A1 A2 A3 B1 B2 B3 B4 B5 C1 C2 1 1 0 0 0 0 1 0 0 1 0 2 1 0 0 0 1 0 0 0 0 1 3 1 0 0 1 0 0 0 0 1 0 4 1 0 0 0 0 0 1 0 1 0 5 0 1 0 0 0 0 1 0 0 1 6 0 1 0 0 0 0 1 0 0 1 7 0 0 1 0 0 0 0 1 0 1 8 0 0 1 0 0 0 0 1 0 1 9 0 1 0 0 0 0 1 0 1 0 10 1 0 0 0 0 1 0 0 1 0 11 0 1 0 0 1 0 0 0 1 0 12 0 1 0 1 0 0 0 0 0 1 13 0 1 0 0 0 0 1 0 0 1 14 0 0 1 0 0 0 1 0 0 1 15 0 0 1 0 1 0 0 0 1 0 Casos prácticos
Compartir