Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Análisis de segmentación del cliente empresa de EPS SURA Andrés Camilo Ospina Pérez Universidad de Antioquia Facultad de Ciencias Exactas y Naturales Instituto de Matemáticas Medellín, Colombia 2021 Análisis de segmentación del cliente empresa de EPS SURA Andrés Camilo Ospina Pérez Trabajo de grado presentado como requisito parcial para optar al título de: Estadístico María Eugenia Castañeda López Orientador Interno, Instituto de Matemáticas Juan Luis Mejía Villa Orientador externo, EPS SURA Universidad de Antioquia Facultad de Ciencias Exactas y Naturales Instituto de Matemáticas Medellín, Colombia 2021 Agradecimientos Agradezco a Dios, a mi madre Eliana Pérez, a mi Padre Nelson Ospina y a mi hermano Santiago Ospina, por todo su acompañamiento y apoyo incondicional en todos los momentos de mi vida, en especial para alcanzar este gran título. Agradezco a todos los compañeros y docentes que hicieron parte de este proceso educativo, en es- pecial a mi asesora de prácticas, profesora María Eugenia Castañeda López por su gran contribución de conocimiento a mi vida profesional. Así mismo, expreso mis más sinceros agradecimientos a EPS SURA por permitir la realización de mis prácticas y por la gran acogida y aprendizaje que he tenido desde que comencé el proceso. Resumen Para las empresas, conocer sus clientes y entender sus necesidades hace parte de una gestión estra- tégica de mercado. Ese entendimiento puede hacerse a través de la segmentación de clientes donde se pueden conocer las características en común que tienen, permitiendo agruparlos de acuerdo con diferen- tes mediciones y teniendo en cuenta el comportamiento que han tenido a lo largo del tiempo. En este trabajo se presentan diferentes métodos estadísticos de reducción de dimensionalidad y clusterización tales como PCA, UMAP, K-MEANS y HDBSCAN, teniendo en cuenta variables numéricas y categóri- cas, con el objetivo de realizar la segmentación del cliente empresa de la Entidad Promotora de Salud en Colombia, EPS SURAMERICANA S.A. Palabras clave: Empleadores, EPS, HDBSCAN, K-MEANS, PCA, Régimen de salud, Segmentación, Se- guridad Social en Colombia, Tablero, UMAP. Abstract For companies, knowing their customers and understanding their needs is part of a strategic market management. This understanding can be done through customer segmentation where the characteristics in common that the agreement has can be known, allowing them to be grouped with different measure- ments and taking into account the behavior they have had over time. In this paper, different statistical methods of dimensionality reduction and clustering are presented, such as PCA, UMAP, K-MEANS and HDBSCAN, taking into account numerical and categorical variables, with the objective of performing the segmentation of the client company of the Health Promoting Entity in Colombia, EPS SURAMERI- CANA S.A. Keywords: Dashboard, Employers, EPS, HDBSCAN, Health Regime, K-MEANS, PCA, Segmentation, Social Security in Colombia, UMAP. Análisis de segmentación del cliente empresa de EPS SURA Andrés Camilo Ospina Pérez * 12 de julio de 2021 *E-mail: acamilo.ospina@udea.edu.co, Instituto de Matemáticas, Universidad de Antioquia, Medellín, Colombia. 5 Resumen Para las empresas, conocer sus clientes y entender sus necesi- dades hace parte de una gestión estratégica de mercado. Ese en- tendimiento puede hacerse a través de la segmentación de clientes donde se pueden conocer las características en común que tienen, permitiendo agruparlos de acuerdo con diferentes mediciones y teniendo en cuenta el comportamiento que han tenido a lo largo del tiempo. En este trabajo se presentan diferentes métodos es- tadísticos de reducción de dimensionalidad y clusterización tales como PCA, UMAP, K-MEANS y HDBSCAN, teniendo en cuen- ta variables numéricas y categóricas, con el objetivo de realizar la segmentación del cliente empresa de la Entidad Promotora de Salud en Colombia, EPS SURAMERICANA S.A. Palabras clave: Empleadores, EPS, HDBSCAN, K-MEANS, PCA, Régimen de salud, Segmentación, Seguridad Social en Colombia, Ta- blero, UMAP. Contenido Agradecimientos 3 Resumen 4 1. Introducción 7 2. Marco Teórico 9 2.1. UMAP . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2. HDBSCAN . . . . . . . . . . . . . . . . . . . . . . . 12 2.3. PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.4. K-MEANS . . . . . . . . . . . . . . . . . . . . . . . 13 3. Metodología 14 3.1. Extracción y preparación de la información . . . . . . 14 3.2. Análisis descriptivo . . . . . . . . . . . . . . . . . . . 14 3.3. Reducción de dimensionalidad . . . . . . . . . . . . . 15 3.4. Segmentación . . . . . . . . . . . . . . . . . . . . . . 16 3.5. Validación de los modelos . . . . . . . . . . . . . . . 17 4. Resultados 18 4.1. Análisis Descriptivo . . . . . . . . . . . . . . . . . . . 18 4.2. Modelo 1: UMAP y HDBSCAN . . . . . . . . . . . . 18 4.3. Modelo 2: UMAP y K-Means . . . . . . . . . . . . . 20 4.4. Modelo 3: PCA y K-Means . . . . . . . . . . . . . . . 21 5. Conclusiones y Recomendaciones 24 6 1. Introducción En Colombia, el sistema de Seguridad Social, instituida por la ley 100 de 1993, integra un conjunto de entidades públicas y privadas, normas y procedimientos de protección laboral que se compone de los sistemas pensión, salud, riesgos laborales y servicios complementarios [3]. El sistema de Salud en Co- lombia está formado por dos sistemas coexistentes: El Régimen Contributivo y el Régimen Subsidiado. El Régimen Contributivo lo componen las personas que tienen una vinculación laboral, es decir, con capacidad de pago como los trabajadores de una empresa o los trabajadores independientes, los pensio- nados y sus familias. El Régimen Subsidiado lo componen la población de bajos recursos del país los cuales no tienen capacidad de pago para el sistema de salud y pueden acceder a los servicios a través de un subsidio que ofrece el Estado [13]. La regulación de la salud y el desarrollo de políticas para su ejecución está a cargo del Ministerio de Salud y Protección Social. A este ministerio pertenecen las EPS (Entidad Promotora de Salud) que son empresas públicas y privadas que representan a toda la población en su afiliación al Sistema de Seguridad Social en Salud. Estas empresas se encargan de implementar los objetivos fijados por el Ministerio de Salud en prestar los servicios sanitarios y médicos con el fin de garantizar el derecho de salud a todas las personas [15]. EPS SURAMERICANA S.A es una Entidad Promotora de Salud que ofrece los servicios de Plan de Beneficios en Salud (PBS), reglamentados por el Ministerio de Salud colombiano y además ofrece Planes Complementarios de Salud a sus afiliados. La afiliación de personas a la EPS se hace de manera principal por medio de los trabajadores de empresas que cotizan a la seguridad social del régimen con- tributivo, afiliando consigo a todo su grupo familiar. Una de las formas de analizar la población afiliada al Régimen Contributivo de EPS SURA es a través de sus empleadores. Para EPS SURA es muy importante conocer las diferentes empresas a las cuales puede abordar para ofrecer el Plan de Beneficios en Salud. Este conocimiento del cliente empresa se encuentra enfocado en la necesidad de identificar cómo están constituidas las empresas teniendo en cuenta diferentes variables demográficas, socioeconómicas, de salud, comerciales, entre otras, y tener el detalle del comportamiento, tendencias, crecimiento de afiliados y organización. Para comprender las características del cliente empresa de EPS SURA se propone como primera medida implementar una estadística descriptiva que den cuenta de la tendencia del número de afiliados pertenecientes a las empresas, análisis de relación entre variables de salud, demográficas y demás. Esta etapa inicial del entendimiento de las empresas implica la preparación de la información para visualizar, detectar, averiguar, calcular e identificar las características que componen el cliente empresa[5]. Esta etapa descriptiva tan importante se lleva a cabo por medio de tableros que permiten observar de forma dinámica la información del cliente empresa de manera general y detallada. Estos tableros son desarrolla- dos con la herramienta Microstrategy. Los colaboradores de EPS SURA pueden acceder a estos tableros por medio de un enlace que genera el software, y los lleva a visualizar la información de manera general y conocer detalle de los empleadores conociendo sus características y la integración con el Cluster al que pertenecen, luego de hacer la segmentación. Estadísticamente, otro de los aspectos claves para realizar un entendimiento del cliente empresa de EPS SURA es realizar una segmentación y reducción de dimensionalidad de las variables que describen a los empleadores. Esta segmentación permitirá a EPS SURA avanzar en la medición de características 7 y permitir a la fuerza de ventas entregar una asesoría y acompañamiento adecuado a las empresas y potencializar las afiliaciones de sus empleados al régimen contributivo de EPS SURA. La segmentación permite clasificar y dividir en grupos afines el cliente empresa con el fin de identificar claramente las características, necesidades y comportamientos del grupo de cliente llamado Clúster. Para llevar a cabo el proceso de Segmentación se disponen de varias técnicas Estadísticas y de Machine Learning tales como el Análisis de Componentes Principales (PCA) que se encarga de reducir un conjunto de variables correlacionadas de los datos en términos de nuevas variables incorrelacionadas logrando reducir dimen- sionalidad [14]; el Método de K-means, que es un algoritmo no supervisado de clasificación que genera k puntos aleatorios (centroides) y luego toma la distancia euclideana de cada muestra a estos centroides, y posteriormente asigna un clúster a esta muestra teniendo en cuenta la mínima distancia [14]; el método de aproximación y proyección de variedad uniforme (UMAP) usado para reducir dimensionalidad a partir de sus algoritmos basados en gráficos teniendo en cuenta una estructura topológica difusa [12], y el algo- ritmo de agrupación espacial jerárquica basada en densidad de aplicaciones con ruido (HDBSCAN)[1]. El presente informe cuenta con el siguiente esquema. En la sección II, encontrará el marco teórico donde se presentan los fundamentos teóricos y el funcionamiento de los algoritmos de reducción de dimensionalidad UMAP y PCA, y los algoritmos de clusterización HDBSCAN y K-MEANS. En la sección III, se presenta la metodología empleada en el presente estudio, en el que da cuenta de los detalles de la preparación de la información y la aplicación de los algoritmos. En la sección IV, se presentan los resultados de la segmentación del cliente empresa teniendo en cuenta la comparación de los diferentes algoritmos de reducción de dimensionalidad y clusterización, mencionados anteriormente. Finalmente, en la sección V, se presentan las conclusiones y recomendaciones del estudio, realizando una recapitulación del análisis, hallazgos y sugerencias para análisis posteriores. 8 2. Marco Teórico 2.1. UMAP Uniform Manifold Approximation and Projection (UMAP) es un método de reducción de dimensio- nalidad no lineal propuesto por Leland Mcinnes et al. (2018) [12]. UMAP usa un algoritmo que permite reducir gráficamente una alta dimensión de datos en una más simple. Esta técnica de aprendizaje múlti- ple se construye a partir de un marco teórico basado en geometría riemanniana y topología algebraica. El algoritmo se basa en tres supuestos: 1. Los datos se distribuyen uniformemente en una variedad de Riemann 2. La métrica de Riemann es localmente constante (o puede aproximarse como tal) 3. La variedad está conectada localmente El procedimiento que UMAP emplea para reducir dimensionalidad y graficar comienza con una ilus- tración denominada complejo simplicial difuso, el cual es un gráfico ponderado con los pesos de los bordes que representan la probabilidad de que dos puntos estén conectados. Para lograr esta conexión con los puntos, UMAP extiende un radio hacia afuera desde cada punto, conectando puntos cuando esos radios se superponen. La elección de este radio es muy importante ya que una elección demasiado pe- queña dará lugar a clústeres pequeños y aislados, mientras que una elección demasiado grande conectará todo. Para llevar a cabo esta decisión de la longitud del radio, UMAP elige un radio localmente, basa- do en la distancia a cada punto n-Vecino más cercano. Luego, UMAP hace que el gráfico sea difuso al disminuir la probabilidad de conexión a medida que aumenta el radio. Finalmente, al estipular que cada punto debe estar conectado al menos a su vecino más cercano, UMAP asegura que la estructura local se mantenga en equilibrio con la estructura global. Una vez que se construye el gráfico de alta dimensión, UMAP optimiza el diseño de un análogo de baja dimensión para que sea lo más similar posible [2]. El algoritmo UMAP es una de las técnicas más recientes y robustas que soportan grandes volúme- nes de información y es usado generalmente para clasificar imágenes, textos y cualquier tipo de datos numéricos y categóricos, bajo transformaciones por medio de variables indicadoras. Este algoritmo es muy similar al de t-SNE (Incrustación de vecinos estocásticos distribuidos en t), el cual es usado para reducir datos de alta dimensión en el espacio bidimensional o tridimensional basado en la asignación de probabilidad de pares de puntos u observaciones [16]. La diferencia con t-SNE radica en que UMAP es un algoritmo basado en gráficos, es más veloz computacionalmente y mantiene la estructura global de los datos, a pesar del gran volumen de datos que puede manejar, lo que para t-SNE se le dificulta hacer la reducción para esta cantidad. Teniendo en cuenta estas características y la no restricción en dimensio- nalidad, UMAP puede ser usado como técnicas de aprendizaje automático. Similar a t-SNE, el procedimiento que emplea UMAP es considerar primero los datos de entrada X = {x1,x2, . . . ,xN}, xi ∈RM y busca una representación dimensional baja óptima {y1, . . . ,yN |yi ∈Rk} tal que k < M. El primer paso es la construcción de grafos de k-vecinos ponderados, ya que UMAP usa el algoritmo de descendencia del vecino más cercano [12]. Se define una métrica d : X ×X →R+ dada una entrada del hiperparámetro k y para cada xi del conjunto de datos de entrada se calcula el k vecino más cercano bajo la métrica d donde se define un ρi tal que: ρi = min{d(xi,x j)|1≤ j ≤ k,d(xi,x j)> 0} 9 Se elige ρi para asegurarse de que al menos un punto de datos está conectado a xi y tiene un peso de borde de 1. Luego se establece σi como un parámetro de escala de longitud, tal que: k ∑ j=1 exp ( −max(0,d(xi,x j)−ρi) σi ) = log2 k Se define un grafo dirigido ponderado Ḡ = (V,E,ω) donde V es el conjunto de vértices del conjunto de datos X , E es el conjunto de bordes E = {(xi,x j)|1≤ h≤ k,1≤ i≤ N)} y ω es una función de pesos de los bordes tal que: ω(xi,x j) = exp ( −max(0,d(xi,x j)−ρi) σi ) UMAP define un gráfico ponderado G a partir Ḡ a través de simetrización. Es decir, busca combinar gráficos simpliciales y difusos en una representación topológica unificada donde se tiene una matriz simétrica por medio de: B = A+AT −A⊗AT Donde A es la matriz de adyacencia ponderada de Ḡ y ⊗ es el producto de Hadamard, donde se toman 2 matrices de igual dimensión y se produce otra con las mismas dimensiones. Por lo tanto, Bi j es la probabilidad de que exista al menos uno de los bordes dirigidos de xi a x j y de x j a xi. Es decir, el algoritmo primero describe cómo están los datos en una estructura topológica para luego transformarlos en una estructura reducida. Primero visualiza cada dato como si fuera un espacio métrico (conjunto donde se define una distancia), luego transforma esos espacios para que se puedan conectar y se pueda visualizar esa estructura topológica inicial. Luego calcula distancias (probabilidades) entre conjuntos simpliciales y construyeun vector de probabilidades. Luego de haber definido el gráfico de k vecinos ponderados, se procede al diseño de un gráfico de menor dimensión en el que UMAP utiliza fuerzas atractivas y repulsivas cuyas coordenadas yi y y j están dadas por: −2ab ∥∥yi− y j∥∥2(b−1)2 1+ ∥∥yi− y j∥∥22 w(xi,x j)(yi− y j) donde a y b son hiperparámetros, y la fuerza repulsiva está dada por: 2b(1−w(xi,x j))(yi− y j)( ε + ∥∥yi− y j∥∥22)(1+a∥∥yi− y j∥∥2b2 ) Aquí ε se toma como un valor pequeño de modo que el denominador no sea cero. El objetivo es en- contrar las coordenadas óptimas de baja dimensión {yi}Ni=1, yi ∈Rk, que minimizan la entropía cruzada 10 de borde con los datos originales en cada punto [8]. Así entonces, luego de tener el primer espacio definido, se define un segundo espacio en R2, en el cual el algoritmo lleva los datos de forma aleatoria construyendo otra estructura topológica en R2 y comienza a optimizar la posición de los datos, teniendo en cuenta un vector de probabilidades minimi- zando la distancia entre los dos vectores de probabilidad (ley de entropía cruzada) y luego compara esas probabilidades obtenidas y las originales. Si en esa iteración los puntos quedaron distantes, el algoritmo vuelve e itera hasta que logre que esa distancia entre probabilidades sea mínima. A nivel computacional, en Python [6], el algoritmo UMAP tiene varios hiperparámetros que ge- neran un impacto importante al momento de reducir dimensionalidad y graficar, algunos de ellos son: n_neighbors, min_dist, n_components, metric [12]. n_neighbors: Controla el número de vecinos más cercanos a un punto para construir el gráfico inicial de alta dimensión. Este hiperparámetro equilibra la estructura local frente a la global de los datos. Los valores bajos hacen que UMAP se centre más en la estructura local ya que se restringe el número de puntos vecinos, mientras que valores altos hacen que el algoritmo se centre principalmente en la estructura global de los datos para su graficación, haciendo que se pierdan algunos detalles. min_dist: Tiene en cuenta la distancia mínima entre puntos y controla qué tan estrictamente se le permite al algoritmo agrupar puntos. Valores bajos de este hiperparámetro indican incrustaciones más agrupadas de los puntos, lo que es ideal al momento de clusterizar. Y los valores altos hacen que los puntos se unan de manera más flexible, enfocándose en una estructura general amplia. n_components: Permite determinar la dimensionalidad del espacio a la que se desea reducir los datos. metric: Corresponde a la métrica de distancia d mencionada anteriormente y permite controlar cómo se calcula la distancia en el espacio de los datos de entrada X . Estas distancias pueden ser Euclidiana, Manhattan, Minkowski, Chebyshev, entre otras, dependiendo de la aplicación de los datos. La Figura 1 representa el comportamiento del algoritmo al variar los parámetros de la distancia míni- ma y los n vecinos. Note que valores bajos de la distancia implica que los puntos estén más incrustados, y valores altos muestran un poco más la dispersión entre estos a nivel local debido a que se aumenta la distancia. De igual manera ocurre con los n vecinos, al aumentar su valor hace que se centre más en la estructura global para formar los grupos, haciendo que, para este caso, la forma de estrella vaya mejorando su estructura. No hay una manera estándar de establecer el valor de los hiperparámetros, la elección de estos de- pende de los datos y el objetivo de la segmentación para el caso que se esté tratando. Para ello, el interés podrá estar en el detalle de la agrupación, para lo cual se eligen valores pequeños de los hiperparámetros, o si el interés se centra en encontrar grupos heterogéneos entre sí, permitiendo observar claramente los grupos de manera general, se puede enfocar en valores altos de los hiperparámetros. 11 Figura 1: Proyección UMAP bajo diferentes valores de n_neighbors y min_dist. Tomado de [2] 2.2. HDBSCAN HDBSCAN por sus siglas en inglés Hierarchical Density - Based Spatial Clustering of Applications with Noise es un algoritmo de clusterización no supervisado usado para encontrar grupos o regiones den- sas de un conjunto de datos, propuesto por Ricardo J. et al. [1]. Este algoritmo es una mejora del método del cual está basado como lo es el DBSCAN (Density - Based Spatial Clustering of Applications with Noise) el cual encuentra muestras centrales de alta densidad y expande grupos a partir de ellas [4]. El algoritmo se basa en la noción intuitiva de clusters y ruido, en el cual, para cada punto de un conglome- rado, la vecindad de un radio determinado debe contener al menos un número mínimo de puntos. Esto se refiere a que requiere de parámetros como un tamaño mínimo de puntos y un umbral de distancia épsilon [10]. Este valor de épsilon determina la distancia máxima entre dos grupos que se consideran del mis- mo grupo, y los puntos mínimos que definen el valor en el que una vecindad de puntos se considera densa. La diferencia entre el DBSCAN y el HDBSCAN es que este último, en vez de contar puntos en un radio épsilon, lo hace más efectivo y emplea DBSCAN para diferentes valores de épsilon, de modo que sólo requiere un sólo parámetro y es el tamaño mínimo de cluster y aprovecha el hecho que, al disminuir el valor de épsilon, los clusters se fragmentan en clusters más pequeños o permanecen igual [11]. 2.3. PCA El análisis de componentes principales (PCA) es una de las técnicas de reducción dimensional más utilizadas para el análisis exploratorio de datos de alta dimensión [9]. Dado un conjunto de datos con muchas variables, el objetivo será reducirlas a un menor número, perdiendo la menor cantidad de infor- mación posible [7]. 12 Así entonces, dadas n observaciones de p variables, se analiza si es posible representar adecuadamen- te esta información con un número menor de variables construidas como combinaciones lineales de las originales. Se buscan variables incorrelacionadas donde un pequeño número de ellas explique la mayor variabilidad posible [14]. Este algoritmo permite identificar posibles variables ocultas o no observadas, que están generando la variabilidad de los datos; permite transformar las variables originales, en general correlacionadas, en nuevas variables incorrelacionadas, facilitando la interpretación de los datos; permite observar la contribución de cada variable; permite identificar grupos o clusters de variables y de datos al momento de su interpretación. La idea de obtener nuevas variables con varianza mayor surge de manera natural como una forma de perder menos información. Inicialmente solo se buscan nuevos ejes, con una importancia decreciente que permitirá escoger algunos de ellos. El PCA tiene como objetivo encontrar ejes ortogonales no co- rrelacionados linealmente, que también se conocen como Componentes Principales (PC) en el espacio dimensional m para proyectar los puntos de datos en esos PC. La primera PC captura la mayor variación en los datos [14]. 2.4. K-MEANS Es uno de los algoritmos no supervisados de clasificación más populares en el aprendizaje automático [8], que tiene como objetivo agrupar o particionar un conjunto de datos {x1, . . . ,xN}, xi ∈RM en k clus- ters, {C1, . . . ,Ck}, k ≤ N. El algoritmo comienza con la generación de k puntos aleatorios (centroides) y luego toma la distancia euclidiana de cada muestra a estos centroides, y posteriormente asigna un clúster a esta muestra teniendo en cuenta la mínima distancia [14]. Los centroides se actualizan minimizando la suma de cuadrados incluidos (WCSS) definidos como: k ∑ j=1 ∑ xi∈C j ∥∥xi−µ j∥∥22 Donde µ j es el promedio de datos de los puntos en el cluster j. µ j es dada por: µ j = 1 |C j| ∑xi∈C j xi El método encuentra el centroide más óptimo dado un número fijo j. Para obtener la cantidad de clusters se puede hacer uso del método del codo, el cual consiste en trazar WCSS contra el número de clusters y se elije la cantidad j donde se observe un punto de inflexión en el gráfico. 133. Metodología Para llevar a cabo el presente trabajo se tuvieron en cuenta cinco etapas, la primera es la extracción y preparación de los datos. La segunda incluye un análisis descriptivo de los empleadores por medio de un tablero (Dashboard). En la tercera etapa se desarrollan los algoritmos de reducción de dimensionalidad. Luego de ello, se desarrollan los algoritmos para la segmentación de empresas y, en la última etapa, se hace la validación y comparación de los modelos. 3.1. Extracción y preparación de la información Luego del entendimiento de la necesidad con las áreas de la compañía, se dispone a hacer la extrac- ción de los datos teniendo en cuenta el enfoque de segmentación del cliente empresa de EPS SURA. Para ello se definen con los analistas de las áreas, las variables de interés que podrían aportar al enten- dimiento de las empresas para realizar su segmentación. Inicialmente se plantearon 17 variables entre numéricas y categóricas que representan las empresas con cotizantes activos durante el mes de abril de 2021. Por políticas de confidencialidad de la información, no se menciona la cantidad de empleadores afiliados a EPS SURA y tampoco el detalle de las variables que se tomaron para su análisis. Estas 17 variables planteadas inicialmente corresponden a información demográfica, socioeconómica, de salud, utilizaciones, entre otras. En este contexto, se procede a extraer la información de la bodega de datos que maneja la compañía, por medio del software Teradata SQL Assistant, a través de sentencias en lenguaje SQL. En esta extrac- ción se consideran 2 bases de datos, una de ellas contiene el detalle de cada una de las características de los empleadores para ser visualizada y analizada en el tablero en la segunda etapa. La otra base de datos contiene la información agrupada de estas empresas para luego llevarla a Python y ejecutar los modelos de reducción de dimensionalidad y segmentación, que se presentan en la tercera y cuarta etapa, respectivamente. Para las dos bases de datos se realiza un análisis de calidad y consistencia de la información, que consiste en la evaluación de valores faltantes, y veracidad de la información. Para ello se seleccionan algunas empresas aleatoriamente y se compara la información de la extracción con la información dis- ponible en los aplicativos de la compañía. Teniendo disponible la información, se procede a realizar la segunda etapa que corresponde al análisis descriptivo del cliente empresa de EPS SURA. 3.2. Análisis descriptivo Con la información preparada, se procede a realizar el análisis descriptivo de los empleadores por medio del programa Microstrategy, este es un software enfocado en inteligencia de negocios que permite crear informes y análisis de datos almacenados en una base de datos relacional y otras fuentes. Para ello se carga la información al programa y se procede con la creación del tablero (Dashboard). Este tablero se crea con dos enfoques, el primero es mostrar la información general del cliente empresa a nivel país, en el cual se conocen los indicadores agrupados por cada una de las ciudades y demás variables que se tuvieron en cuenta y son de gran importancia para el análisis desarrollado en la compañía. La segunda parte permite mostrar el detalle de cada uno de los empleadores con todas su descripción y características 14 definidas en la primera etapa. Este tablero les permite a los colaboradores de EPS SURA navegar de forma interactiva con la infor- mación, ya que, una vez ingresen a este encontrarán la información general del cliente empresa permi- tiendo hacer los filtros por las variables de interés. Una vez visualizada la información a nivel general, la persona puede dirigirse a otra pestaña del tablero donde se encuentra el detalle de la cada una de las empresas, así entonces podrá filtrar por el nombre o número de identificación de la empresa e inmedia- tamente le saldrá todo el detalle de la información asociada a esa empresa. Este tablero es de fácil acceso, por lo que el colaborador de EPS SURA puede entrar en cualquier momento a visualizar la información desde el celular o el computador, y si requiere tomar alguna infor- mación del tablero, puede descargar los gráficos o tablas resumen a través de un botón que dispone la herramienta, permitiendo que la información siempre esté disponible para los colabores de EPS SURA. Adicional al tablero, se prepara un informe con un análisis general de la información del cliente em- presa. Este informe se complementa al final luego de la última etapa de la validación de los modelos, cuando se tiene el cluster al que pertenece cada empresa. Esta información de la segmentación se retorna al tablero para que esté disponible a la hora de realizar algún análisis, permitiendo que, cuando se con- sulte de manera general o detallada la información del cliente empresa, también se muestre el segmento al que pertenece. Así entonces, la compañía podrá tener a disposición las empresas que correspondan a un evento de interés y que esté relacionada con la descripción del segmento. Por ejemplo, si se requiere hacer énfasis en las empresas que tengan un alto potencial de venta, se pueden seleccionar teniendo en cuenta la definición de los clusters. Teniendo claridad en la información y características que describen a cada cliente empresa, se pro- cede con la tercera etapa de reducción de dimensionalidad. 3.3. Reducción de dimensionalidad Para realizar la segmentación del cliente empresa se requieren de dos fases fundamentales: la reduc- ción de dimensionalidad y la clusterización. En esta tercera etapa de la metodología, se lleva a cabo la reducción de dimensionalidad, la cual consiste en representar la información de las 17 variables definidas en la primera etapa, en 2 dimensiones, para luego dar paso a la segmentación. En esta etapa de reducción de dimensionalidad se consideran 2 modelos: UMAP y PCA. Estos mo- delos son ejecutados en Python, y para ello, primero se carga la base de datos que se definió en la primera etapa, que contiene la información agrupada de los empleadores. Primero se ejecuta el algoritmo UMAP, para ello se extraen de la base de datos las variables numéricas y categóricas. Las variables categóricas que se consideraron fueron binarias, por lo que se hace una transformación numérica de ceros y unos, tal como lo recomienda el autor del método [12]. Con las variables organi- zadas se procede a hacer un análisis de correlación para observar si existe algún grado de asociación lineal entre las variables. Luego se procede con la estandarización de las variables, con el fin de manejar una sola escala de unidades y de esta manera controlar los supuesto del modelo para que la reducción de dimensionalidad no se vea influenciada por valores grandes o pequeños de las variables al manejar diferentes escalas. Con estas variables estandarizadas se procede a ejecutar el algoritmo UMAP para 15 diferentes valores de sus hiperparámetros de la cantidad de vecinos y la distancia mínima. Con ello se construye una matriz gráfica con variación en los parámetros para observar el comportamiento de los datos para cada uno de los valores definidos. El objetivo se centra en encontrar estructuras globales bien delimitadas y enfatizar en pequeñas regiones, debido a que se trata de un aprendizaje no supervisado y se buscar encontrar una cantidad moderada de clusters. Luego de esta matriz de gráficos, se escogen los parámetros apropiados para continuar con la etapa de segmentación. En esta etapa de reducción de dimensionalidad también se emplea el método de componentes prin- cipales, para ello observa la cantidad de variación de los datos en cada una de las componentes. Para este trabajo se consideraron dos componentes principales con el fin de realizar una comparación de los métodos y evaluar su eficiencia. Con las dos primeras componentes definidas, se procede a realizar un Bi- plot que permite ver el grado de asociación de cada una de las variables con las componentes principales.3.4. Segmentación Luego de haber realizado la reducción de dimensionalidad, se procede con la implementación de los modelos para definir los cluster de las empresas. El primer método que se empleó fue el HDBSCAN teniendo en cuenta el modelo UMAP. Similar al procedimiento empleado con la definición de paráme- tros para UMAP, para HDBSCAN se realizan diferentes gráficos con diferentes valores de parámetros. Para la elección de los parámetros de este modelo, se tuvo en cuenta la cantidad de ruido, es decir, la cantidad de puntos que el algoritmo no pudo asociarlos a un cluster y que clasifican como error o ruido. Así mismo se tuvo en cuenta el gráfico de árbol condensado, este gráfico es similar a un árbol jerárqui- co o dendrograma en el que se observan la cantidad de cluster que pueden existir en el modelo y dan cuenta de cuántos y cuáles son recomendados elegir teniendo en cuenta la cantidad de puntos asociados al cluster y si perduran en el tiempo, es decir, que no se ramifiquen en otros cluster, priorizando clusters tempranos, es decir las primeras ramas del árbol. Otro método de clusterizacioón implementado fue K-MEANS bajo el método de reducción de di- mensionalidad UMAP seleccionado en la etapa tres. Para seleccionar la cantidad de cluster se hace uso del método del codo para evaluar la cantidad de cluster adecuada para el modelo. Bajo esta misma me- todología del gráfico de codo se implementó el modelo de K-MEANS con un modelo de reducción de dimensionalidad PCA. A continuación se presenta el resumen de los tres modelos implementados de UMAP, PCA, HDBS- CAN y K-MEANS: Modelo Reducción de dimensionalidad Segmentación 1 UMAP HDBSCAN 2 UMAP K-MEANS 3 PCA K-MEANS Tabla 1: Modelos de segmentación empleados 16 3.5. Validación de los modelos Luego de implementar los 3 modelos definidos en la Tabla 1, se procede con la evaluación de los modelos. Para ello se tienen en cuenta los siguientes criterios: 1. Forma gráfica: Se busca un modelo que separe adecuadamente los puntos, formando grupos definidos y distantes, teniendo en cuenta la cantidad de cluster que se puedan formar. 2. Cantidad de Cluster: Se busca un modelo que contenga una cantidad moderada de cluster. Aun- que se debe tener en cuenta el criterio gráfico, no es apropiado seleccionar ni muy pocos cluster ni muchos cluster, debido a que se pierde el objetivo de la segmentación de empleadores para observar características comunes entre ellos y así realizar un entendimiento de las necesidades. 3. Ruido: Se busca un modelo que haya clasificado la mayoría de los puntos a un cluster y no a un ruido. Así mismo se busca que el ruido no se convierta en un cluster más, es decir, que existan más puntos clasificados como ruido y no como cluster. Así mismo se deben tener en cuenta los criterios propios de validación de cada modelo, definidos en las etapas 4 y 5. Con esta validación de los modelos se procede a escoger uno de ellos y a devolver a la base de datos el cluster para el cual pertenece cada empleador. Luego, esta información será llevada al informe y al tablero para realizar el análisis correspondiente y observar su relación con las demás variables. 17 4. Resultados 4.1. Análisis Descriptivo Para realizar un entendimiento de cómo estaban conformadas las empresas, cuáles eran sus carac- terísticas y cómo era su comportamiento frente a las diferentes variables de la compañía, se realiza un tablero en el software Microstrategy. Por confidencialidad en la información, los valores que se muestran en la Figura 2 fueron simulados y las variables fueron homologadas en códigos. Este tablero representa la cantidad de empresas expresadas en cada una de las variables demográficas, socioeconómicas, de salud, comerciales, entre otras. Allí también se muestra el Top 10 de empresas con mayor valor en la variable V8, la cual es de importante medición en la compañía. En la parte superior del tablero se encuentran los filtros de algunas variables con el fin de observar y entender la información de forma dinámica. Figura 2: Tablero 4.2. Modelo 1: UMAP y HDBSCAN Inicialmente, para el modelo de reducción de dimensionalidad UMAP, se realiza en Python un gráfico del método con la variación de los hiperparámetros de n-vecinos y distancia mínima. Figura 3: Variación hiperparámetros UMAP 18 Teniendo en cuenta la Figura 3, se selecciona el modelo UMAP con 100 vecinos y una distancia de 0. Para estos hiperparámetros, el modelo presenta, visualmente, una buena separación entre grupos de datos, los cuales serían los cluster más adelante. Para este análisis de las empresas, sería ideal no escoger una cantidad muy grande o pequeña de cluster. Con una cantidad pequeña de vecinos o distancia, se for- man muchos grupos pequeños, mientras que, para valores grandes, no se observa una buena separación de grupos ya que todos se forman en una sola nube de puntos. Para el modelo de segmentación HDBSCAN, se realiza en Python un gráfico del método con la variación de los hiperparámetros del mínimo de muestras y un tamaño mínimo de cluster. Figura 4: Variación hiperparámetros HDBSCAN Teniendo en cuenta la Figura 4, se selecciona el modelo HDBSCAN con un mínimo de 300 mues- tras y un tamaño mínimo de cluster de 10, el cual corresponde al gráfico f). Bajo estos parámetros, el modelo propone 4 cluster y ausencia de ruido. Se observa que, con un tamaño mínimo de muestras y de cluster, el modelo arroja muchos clusters, incluso con una alta participación de ruido, lo cual no sería ideal considerar. Estos modelos con gran cantidad de grupos se ilustran en las gráficas a), b) y c). Luego para un valor de 100 muestras y un tamaño de cluster 10, sólo se consideran 3 cluster, como ocurren en los gráficos d) y e). Visualmente, la separación de 3 a 4 clusters se asocia a diferencias importantes que puede haber entre las empresas y que, teniendo en cuenta las unidades de los hiperparámetros, cambia rápidamente. La Figura 5 corresponde al modelo seleccionado con un mínimo de 300 muestras y un tamaño míni- mo de cluster de 10, obteniendo como resultado 4 grupos o segmentos, los cuales indican, visualmente, una muy buena separación de los datos y una cantidad de cluster apropiadas para el entendimiento del cliente empresa. Para validar los criterios de selección anteriores se hace énfasis en el árbol condensado. Teniendo en cuenta la Figura 6, la selección del modelo fue pertinente ya que, a la larga, estos clusters no se subdividen en otros cluster en una gran medida. La subdivisión de los cluster 2, 3 y 4 ocurre para muy pocos puntos, y debido a su magnitud y color no representan una influencia importante. Aunque la subdivisión del cluster 1 ocurre en varios clusters, estos indican que, a una corta distancia se forman. 19 Figura 5: Modelo seleccionado Figura 6: Árbol Condensado 4.3. Modelo 2: UMAP y K-Means Basado en el modelo UMAP seleccionado anteriormente, con 100 vecinos y una distancia 0, se propone un modelo de segmentación de K-Means con 3, 4 y 10 clusters para realizar la comparación con el Modelo 1. De acuerdo con la Figura 7, los clusters propuestos por k-means no presentan un buen ajuste con los puntos agrupados por UMAP, incluso la cantidad de puntos por cluster no es la más indicada. Por ejemplo, para el modelo de 4 clusters, el método asocia la mayoría de los puntos al cluster azul, mientras que para el Modelo 1, estos puntos equivalen a 3 cluster diferentes. 20 Figura 7: Variación cantidad de cluster 4.4. Modelo 3: PCA y K-Means Para implementar el modelo de reducción de dimensionalidad, inicialmente se hace uso del gráfico de codo para analizar la varianza explicada por cada componente. En la Figura 8, el gráfico a) indica la varianza explicada por cada una de las componentes, en este caso, la componente 1 aporta el 42% de la variabilidad de los datos; la componente 2, el 22%; la componente 3 y 4, el 11%; la componente 5 cerca del 10%; y las demás componentes aportan muy poca variabilidad. Figura 8: Modelo PCA y K-Means El gráfico b) deesta Figura 8 indica la varianza acumulada en cada una de las componentes, en este caso, el método indica en seleccionar 5 componentes, en los cuales se encuentra la flexión de la línea. Sin embargo, se seleccionan 2 componentes principales, los cuales representan una varianza acumulada del 64%, y parar la segmentación, se seleccionan 4 cluster con el fin de ilustrar y comparar con los otros métodos. El Modelo 3, expresado en el gráfico c) de esta Figura, asocia la mayoría de los puntos a 2 cluster y no se observa una separación definida de los puntos, como ocurre con el Modelo 1. En el 21 elemento d) de la Figura, corresponde a una tabla donde se presenta el porcentaje de empresas por cada uno de los cluster en los Modelos 1 y 3. Luego de la comparación de los 3 modelos, se selecciona el Modelo 1, el cual corresponde a un modelo de reducción de dimensionalidad UMAP y segmentación HDBSCAN. Para la selección de este modelo se tuvo en cuenta que la representación gráfica tuviera una separación adecuada de los puntos; que la cantidad de clusters fuera moderada; que la cantidad de ruido fuera mínima y que la cantidad de empresas en cada cluster fuera proporcional. Incluso para el Modelo 1, se validó la selección de los hiperparámetros con el Árbol Condensado. Teniendo en cuenta este modelo seleccionado, se hace un análisis de los 4 clusters con algunas va- riables que se consideraron para el modelo. En la Figura 9 se observa el porcentaje de empresas en la variable 1 asociadas a cada uno de los cluster y su representación visual en el modelo UMAP. Para esta variable, el Cluster 1 representa las empresas con valores de 1, mientras que, para el Cluster 4, se en- cuentran las empresas con mayor valor en V1, de 4 a 12. Figura 9: Representación de V1 por cluster En la Figura 10 se encuentran los indicadores de algunas variables por los 4 cluster. Este análisis se ve representado en la Tabla 2, que indica las características más relevantes de las variables en cada uno de los cluster. La información detallada con las descripciones de las variables se presenta a la compañía, y son homologadas por códigos para presentar en este informe. 22 Figura 10: Análisis de Variables por Cluster Variable Cluster 1 Cluster 2 Cluster 3 Cluster 4 V1 1 2 3 4 a 12 V3 10 a 50 10 a 50 51 a 199 Mayor a 200 V4 0.5 0.5 0.6 0.6 V8 0 a 50 51 a 199 51 a 199 Mayor a 200 V10 No No Sí Sí V11 Sí No No No V12 T1 T1 T3 T3 V14 S26 S24 S24 S6 Tabla 2: Aspectos más relevantes de las Variables por Cluster Luego del entendimiento de la segmentación de las empresas, estos datos son llevados al tablero para conocer detalladamente a qué cluster corresponde cada empresa y poder enfocar estrategias particulares a cada una ellas por medio de su agrupación, tal como se muestra en la Figura 11. El tablero funciona de forma dinámica, si se desea conocer el detalle de una empresa se puede hacer la búsqueda en los filtros, tal como se muestra en el elemento a) de la Figura 11. Inmediatamente se muestran las características de esta empresa filtrada como se muestra en el elemento b), incluso el cluster al que pertenece, como se muestra en el elemento d). Si se desean conocer la empresas que pertenecen a un cluster específico, se puede filtrar el cluster, como se muestra en el elemento c) de la Figura, e inmediatamente se muestran todas las empresas pertenecientes, con sus características. Esta información puede ser descargada en Excel o pdf y a partir de esta información se puede realizar un análisis detallado de las empresas con el fin de conocerlas e implementar estrategias comerciales, enfocadas a un potencial de venta. 23 Figura 11: Detalle de empresas con cluster 5. Conclusiones y Recomendaciones Para analizar cómo estaba constituido el cliente empresa de EPS SURA, se implementaron 3 modelos de clusterización; el Modelo 1, corresponde al método de reducción de dimensionalidad UMAP con el método de segmentación HDBSCAN; el Modelo 2, corresponde al método UMAP y K-Means y, el Modelo 3, corresponde al método PCA con K-Means. Teniendo en cuenta varios criterios de validación como la cantidad cluster, presencia de ruido, agrupación de los datos, y demás, se selecciona el Modelo 1. Con la implementación del Modelo 1 (UMAP y HDBSCAN) se generaron 4 clusters, los cuales permitieron agrupar cada una de las empresas con ausencia de ruido y una alta probabilidad de clasifica- ción. Este modelo, permitió conocer las características en común que tenían las empresas, y a partir de su agrupación se logró identificar tendencias, comportamientos, necesidades e información de valor para la compañía. El método de reducción de dimensionalidad UMAP arroja muy buenos resultados si se implementa con el método de segmentación basado en densidad HDBSCAN, en comparación con K-Means. Para el método UMAP, considerar variables categóricas y homologarlas a numéricas puede afectar el modelo debido a su escala, como valores muy altos o bajos. Teniendo como base este primer acercamiento para el análisis de segmentación del cliente empresa, para trabajos futuros se recomienda un análisis en la definición de las variables y una inclusión de otros indicadores de las empresas que maneja la compañía. Para trabajos posteriores se recomienda realizar un análisis entre la cantidad de observaciones y va- riables, ya que grandes volúmenes de información podrían ser computacionalmente costoso implementar algunos modelos. 24 Referencias [1] Ricardo JGB Campello, Davoud Moulavi, and Jörg Sander. Density-based clustering based on hierarchical density estimates. In Pacific-Asia conference on knowledge discovery and data mining, pages 160–172. Springer, 2013. [2] Andy Coenen and Adam Pearce. Understanding umap. Google PAIR, 2019. [3] Departamento Nacional de Planeación. www.dnp.gov.co, 2020. [4] Martin Ester, Hans-Peter Kriegel, Jörg Sander, Xiaowei Xu, et al. A density-based algorithm for discovering clusters in large spatial databases with noise. In Kdd, volume 96, pages 226–231, 1996. [5] Santiago Fernández Fernández, José María Cordero Sánchez, Alejandro Córdoba, and Alejan- dro Córdoba Largo. Estadística descriptiva. Esic Editorial, 2002. [6] Guido van Rossum. Python. Python Software Foundation, 3.7.10. [7] Manuel Gurrea. Análisis de componentes principales. Proyecto e-Math Financiado por la Secre- taría de Estado de Educación y Universidades (MECD), 2000. [8] Yuta Hozumi, Rui Wang, Changchuan Yin, and Guo-Wei Wei. Umap-assisted k-means clustering of large-scale sars-cov-2 mutation datasets. Computers in biology and medicine, 131:104264, 2021. [9] Ian T Jolliffe and Jorge Cadima. Principal component analysis: a review and recent developments. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Scien- ces, 374(2065):20150202, 2016. [10] Alboukadel Kassambara. Practical guide to cluster analysis in R: Unsupervised machine learning, volume 1. Sthda, 2017. [11] CHA Logan and Sotiria Fotopoulou. Unsupervised star, galaxy, qso classification-application of hdbscan. Astronomy & Astrophysics, 633:A154, 2020. [12] Leland McInnes, John Healy, and James Melville. Umap: Uniform manifold approximation and projection for dimension reduction. arXiv preprint arXiv:1802.03426, 2018. [13] Ministerio de Salud. https://www.minsalud.gov.co, 2021. [14] Daniel Peña. Análisis de datos multivariantes, volume 24. McGraw-hill Madrid, 2002. [15] Secretaría Distrital de Planeación. www.sdp.gov.co, 2020. [16] Laurens Van der Maaten and Geoffrey Hinton. Visualizing data using t-sne. Journal of machine learning research, 9(11), 2008. 25
Compartir