Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
De Fecha 1 Desarro Oscar C U FACU sarrollo QU Licencia Aseso a: Julio de 2 ollo de árbo Camarillo Le UNIVE AUTO ULTAD de árbol UE PAR ado en m or: Marí 012 oles de decis al ERSID ONOM D DE ES AC les de de M RA OBTE matemáti PRE Oscar C a del Ca siones usand DAD NA MA DE STUDIO CATÁN ecisiones iner 6.1 Tesis ENER E icas apli ESENTA Camarillo armen G do SAS Ente ACION MÉXI OS SUP N s usando EL TITU icadas y A o Leal onzález erprise Min NAL ICO PERIOR o SAS En ULO DE computa Videgar ner 6.1 | RES nterprise ación ray e UNAM – Dirección General de Bibliotecas Tesis Digitales Restricciones de uso DERECHOS RESERVADOS © PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL Todo el material contenido en esta tesis esta protegido por la Ley Federal del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). El uso de imágenes, fragmentos de videos, y demás material que sea objeto de protección de los derechos de autor, será exclusivamente para fines educativos e informativos y deberá citar la fuente donde la obtuvo mencionando el autor o autores. Cualquier uso distinto como el lucro, reproducción, edición o modificación, será perseguido y sancionado por el respectivo titular de los Derechos de Autor. 2 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal 3 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Dedicatoria y agradecimientos A mis papás Julio Camarillo y Silvia Leal que siempre me apoyaron durante toda mi educación y sin su apoyo esta tesis no se hubiese materializado; a Gaby Rojas y a mi hija Paola que siempre han apoyado cada proyecto que tengo a su lado y a la UNAM por todo el conocimiento compartido y las enseñanzas otorgadas a través de los profesores. 4 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal OBJETIVO .............................................................................................................................................. 5 HIPÓTESIS ............................................................................................................................................. 5 INTRODUCCIÓN ..................................................................................................................................... 6 CAPÍTULO I. ¿QUÉ ES MINERÍA DE DATOS Y PARA QUÉ SIRVE? ............................................................... 7 CAPÍTULO II. ÁRBOLES DE DECISIÓN Y REDES NEURONALES COMO MODELOS PREDICTIVOS ................ 16 MODELOS MATEMÁTICOS Y MODELOS PREDICTIVOS .......................................................................................... 16 ÁRBOLES DE DECISIÓN.................................................................................................................................. 18 CAPÍTULO III. ALGORITMOS DE ÁRBOLES DE DECISIÓN ......................................................................... 23 INTRODUCCIÓN ........................................................................................................................................... 23 PREPARACIÓN DE DATOS .............................................................................................................................. 25 DEFINICIÓN DE OBJETIVO ............................................................................................................................. 29 SELECCIÓN DE CRITERIOS DE CRECIMIENTO DE ÁRBOL Y ALGORITMOS DE SEGMENTACIÓN Y CLASIFICACIÓN DE CASOS ................................................................................................................................................................. 30 DEFAULT .................................................................................................................................................... 32 PROBABILIDAD JI-CUADRADA ....................................................................................................................... 33 GINI (O DIVERSIDAD DE POBLACIÓN) ............................................................................................................. 40 ENTROPÍA (GANANCIA DE LA INFORMACIÓN) .................................................................................................. 43 CAPÍTULO IV. DESARROLLO DE CASO PRÁCTICO ................................................................................... 52 INTRODUCCIÓN AL PROBLEMA DE NEGOCIO ................................................................................................... 52 RESULTADOS............................................................................................................................................... 53 EXPLORACIÓN ESTADÍSTICA .......................................................................................................................... 55 CÓDIGO SAS .............................................................................................................................................. 55 PARTICIÓN DE DATOS ................................................................................................................................... 57 IMPUTACIÓN ............................................................................................................................................... 58 TRANSFORMACIÓN DE VARIABLES .................................................................................................................. 59 SEGMENTACIÓN DE VARIABLES (CLUSTERING DE VARIABLES) ............................................................................ 60 ÁRBOL DE DECISIÓN ..................................................................................................................................... 62 Árbol de decisión con regla de partición probabilidad ji cuadrada ................................. 62 Árbol de decisión con regla de partición entropía ................................................................ 65 ANÁLISIS DE RESULTADOS ............................................................................................................................. 65 EVALUACIÓN DE LOS MODELOS ...................................................................................................................... 67 REGLAS DE NEGOCIO ................................................................................................................................... 70 HERRAMIENTAS ALTERNAS PARA EL DESARROLLO DE MODELADO PREDICTIVO ..................................................... 73 CONCLUSIONES ................................................................................................................................... 75 CASO DE NEGOCIO ...................................................................................................................................... 75 CONCLUSIONES DE NEGOCIO ........................................................................................................................ 78 ANEXO 1 ............................................................................................................................................. 80 ANEXO 2 ............................................................................................................................................. 81 ANEXO 3 ............................................................................................................................................. 82 BIBLIOGRAFÍA ..................................................................................................................................... 83 5 Desarrollo de árboles de decisionesusando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Objetivo Describir y entender las capacidades analíticas de los árboles de decisiones dentro del marco de desarrollo de modelos predictivo utilizando SAS Enterprise Miner 6.1. Asimismo mostrar las bondades de utilizar esta herramienta analítica y observar beneficios tangibles empleando técnicas de modelado predictivo para un caso de negocio en específico. Hipótesis El desarrollo de modelos predictivos, en específico los modelos de árboles de decisión son altamente competitivos y efectivos en su capacidad predictiva ante los métodos tradicionales de estimación y predicción que mayormente están basados en la experiencia de industria que puedan tener los analistas y expertos. El desarrollo de modelos predictivos (árboles de decisión) en diversas industrias, refuerzan y mejoran los criterios de toma de decisiones, explican mejor lo que está pasando y podrían finalmente entregar a los tomadores de decisión un fundamento analítico que puede alinearse a las expectativas de negocio. En resumen la hipótesis está sustentada en la comprobación del supuesto de que los modelos de árboles de decisiones son lo suficientemente efectivos ante cualquier método empírico (o incluso estadístico sí es que se utilizan técnicas y herramientas tradicionales como Excel) ejecutado por los expertos en el negocio o la industria, además de proporcionar nuevas reglas de negocio que se adaptan a los constantes cambios que existen en la industria de seguros. Con toda certeza, esta hipótesis no puede generalizarse sobre iniciativas con fines predictivos dado que las condiciones cambian de industria a industria, e incluso los proceso son distintos entre organizaciones. 6 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Introducción La minería de datos tiene como esencia primordial la manipulación de grandes volúmenes de datos que junto con técnicas analíticas o de minería de datos y herramientas computacionales pueden detectar patrones de comportamiento en una población, así como predecir algún evento en particular con un alto nivel de precisión que incrementan la rentabilidad de algún negocio en específico o problemática planteada. En este sentido, es indispensable la buena predicción de los modelos de minería de datos, ya que mientras más precisión exista en su predicción, más confiables serán en su aplicación. De aquí que a lo largo de las últimas décadas ha habido una explotación considerable de los modelos predictivos como árboles de decisión, redes neuronales y regresiones lineales, entre otros modelos analíticos. Hablando específicamente de los modelos analíticos nos referiremos a los árboles de decisión, dado que sus propiedades son menos complejas que las expuestas por otros modelos predictivos. El desarrollo de modelos predictivos ha cobrado auge entre los tomadores de decisiones de las industrias más representativas del mundo sin embargo existen algunos huecos que cubrir todavía, dado que en muchas organizaciones siguen utilizando técnicas rudimentarias para incrementar las ganancias de las organizaciones, fundamentando la toma de decisiones en criterios subjetivos y en viejas prácticas que los expertos de negocio han establecido. Es aquí donde la inteligencia analítica y en específico los modelos predictivos pueden ser aprovechados de una forma proactiva. Particularmente, hablando de los modelos de árboles de decisión, estos ayudarían a sustentar de una forma analítica las decisiones tomadas, basando sus criterios en reglas de fácil interpretación y en métodos estadísticos tradicionales que conjuntamente con los conocimientos de negocio de un experto en la industria generarían una mayor ganancia e indudablemente darían a las organizaciones un valor agregado. Conocer a los clientes, lanzar campañas de mercado, optimizar precios, medir riesgo, prevenir fraude, entre otras problemáticas de negocio son los principales retos de las organizaciones y los árboles de decisión son un arma indispensable en esta generación en donde la información ha cobrado un valor fundamental. Veremos que los árboles de decisión son de fácil interpretación, seguimiento y construcción, ya que estadísticamente, son estructuras sencillas que nos ayudan a entender que es lo que está pasando en nuestro problema de negocio. Siendo así, el presente proyecto de tesis no pretende persuadir al lector en la utilización de modelos basados exclusivamente en árboles de decisión, sino establecer y demostrar que estos modelos pueden ser altamente efectivos en su capacidad de predicción sí son combinados con reglas y conocimiento de negocio de la industria. La herramienta analítica de SAS (Enterprise Miner 6.1) está diseñada para tomadores de decisión que desean agregar valor y obtener beneficio de su negocio instrumentando modelos analíticos sobre objetivos de negocio en particular. 7 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Capítulo I. ¿Qué es minería de datos y para qué sirve? “El grado sumo del saber es contemplar el por qué”. Sócrates. (470 AC -399 AC) Filósofo griego En la actualidad los grandes volúmenes de datos crecen exponencialmente, dado que la cantidad de transacciones realizadas en la vida cotidiana son incontables, como lo dice la ley de Moore:” La cantidad de datos en el mundo se duplica a los 18 o 24 meses en las bases de datos”. Hoy en día, el ver esas cantidades de información, ya no asusta a nadie. Estas transacciones u operaciones se ven reflejadas en bancos, tiendas departamentales, telecomunicaciones, áreas de investigación, gobierno, manufactura y un sinfín de campos más. Todas estas áreas acumulan grandes cantidades de datos, que necesitan ser almacenadas con el propósito de transformar estos datos en información y posteriormente la información en conocimiento para finalmente pasar a formar parte de decisiones inteligentes. Es necesario describir esta secuencia de hechos, que bien podría adjudicársele el nombre de causa efecto y que ha venido ocurriendo en su primera etapa cuando los datos se convierten en algo ya no tan intangible y en su segunda etapa cuando se obtiene inteligencia de los datos. Los datos como entes individuales son convertidos en información, esta información ya tiene un valor que puede ser explotado y cuando la información es bien explotada se obtiene conocimiento y una vez que se es generado a partir de este conocimiento adquirido un aprendizaje razonado, se alcanza la cúspide al producir inteligencia. Estas cinco palabras clave son las que dan sentido a lo que es minería de datos: Minería de datos es el conjunto de métodos y técnicas analíticas que permiten por medio de alguna metodología explorar, conocer, interpretar y modelar grandes cantidades de datos que son convertidos previamente información; cumpliendo el objetivo de transformar esta información en conocimiento y posteriormente éste en inteligencia. Otra definición de minería de datos es la expresada por SAS, la cual es una de las principales empresas de inteligencia de negocios y que tiene una de las mejores propuestas de plataforma de inteligencia de negocios sustentada en los componentes analíticos que ofrece la estadística y en específico la minería de datos: Métod volúm Se tie De ac nuevo datos matem “Mine para para q “Mine máqu carac datos De he están en m Una soluc comp inteli i Jim G ii The iii Dav Cambr iv Pete Data M NJ, 19 v The 8 Desarro Oscar C dos analíticos menes de info enen alguna cuerdo al G os patrones d s, usando té máticasii”. ería de datos encontrar nu que estos sea ería de datos uina, reconoc terísticas pri s”iv. echo, la rev n surgiendo inería de da forma de ciones que posición de igencia de n Goodnight, CE Gartner Groupvid Hand, Heikk ridge, MA, 200 er Cabena, Pabl Mining: From C 998. Technology R ollo de árbo Camarillo Le s avanzados d ormacióni. s definicione Grupo de Ga de comporta écnicas de re s es el análisi uevas relacio an entendidos s en un cam cimiento de incipales de vista MIT eli con gran de atos será el m mostrar est ofrece SAS la cadena negocios. F O de SAS Inst p, www.gartner ki Mannila, an 01. lo Hadjinian, R Concept to Imp Review Ten, MI oles de decis al de exploració es más, com artner: “Min amiento, corr econocimient is de observa nes o asociac s y usados po mpo interdisc patrones, e los datos, to ge a la min emanda y ca más sobreva ta secuenci S. A contin de valor qu Figura 1.1. Ca titute. r.com. nd Padhraic Sm Rolf Stadler, Ja plementation, P IT Technology siones usand ón y modelado mo las siguie nería de dato relaciones, t to de patron ar conjuntos d ciones, y pre r la gente de ciplinario que estadística, b odo lo anter ería de dato ambiarán el aluado…”v a de cause uación en ue ofrece S adena de Valo myth, Principles aapVerhees, an Prentice Hall, U Review, Janua do SAS Ente o de asociaci entes: os es el proc endencias, e nes, así com de datos o gr esentar los d e negocio”iii. e contempla base de dat rior extraído os como un rumbo de l e y efecto la figura 1 SAS en sus s or de SAS. s of Data Minin nd Alessandro Z Upper Saddle R ary/February 20 erprise Min ón de patron ceso de descu en grandes re mo técnicas randes volúm datos de dife a en sí mism tos y visualiz de grandes a de las tec os negocios o está refle 1.1 una mu soluciones i ng, MIT Press, Zanasi, Discov River, 001. ner 6.1 | nes en grande ubrimiento d epositorios d estadísticas menes de dato erentes forma mo aprendizaj zación de lo volúmenes d cnologías qu . “El expert ejada en la uestra de l integrales d , vering es de de y os as je os de ue to as la de Autor llama de lo tema acota El co multi patro datos oport dado Como funda Siend mine que i pregu asimi Parta conve ejem espec valor nomb 9 Desarro Oscar C res y expert an KDD (Kno os Datos) o s a es amplio, ar o definirla oncepto de idisciplinaria ones en los s científicas tunistas, ya en el tiemp o lo muest amental de Bases de Estadístic Reconocim Aprendiza Inteligenc Redes neu do matemáti ría de datos involucra KD unta radica ismo SAS ofr amos del he ertirlos en mplo muy clá cífico; en es r, ya que seg bres de call ollo de árbo Camarillo Le tos en mine owldedge Dis si minería de y para efe a como lo m Figura 1.2. M e KDD fue a dentro de grandes vo s y/o exper que para ef po. tra la figur la minería d datos ca miento de p aje de máqu cia artificial uronales icamente es s es entonce DD. Pero, ¿C en la secu rece en su ca echo de qu información ásico es cu se momento guimos perd es, direccio oles de decis al ría de datos scovery Data e datos es u ectos de con muestra el di Minería de da definido a e la investig olúmenes de rimentales. fectos de ne ra 1.2, las de datos son patrones uina strictos de a es un conjun Cuál es la ot uencia causa adena de va ue los datos n para dar v ando estam o el tener la didos, hasta ones, ciudad siones usand s no termina a, en españo un sinónimo nocer lo que agrama con atos como un á finales de gación, ten e datos, los Hoy en día egocio pued s herramien : acuerdo a la nto inclusivo tra parte qu a efecto qu alor. s son objet valor agrega mos perdidos a dirección e que nos hac des y aparta do SAS Ente an por defin ol Descubrim de KDD. Lo e es minería tenido en la área interdisci e los años ía como ta s cuales era los datos u den agregar ntas analíti a lógica de V o de KDD, es ue forma a K ue se menci tos puros si ado a un de s y querem en mano es cemos de un ado postal. erprise Min nir si perten miento del C o que es cie a de datos a figura 1.2: iplinaria. 80´s, sien area primord an tomados utilizados se valor en alg icas que fo Venn y a la s un segmen KDD? La resp ionó previam in valor y eterminado os llegar a un dato, pe n mapa, el c Está ya es ner 6.1 | nece a lo qu Conocimient erto es que e es preferibl ndo un áre dial detecta de bases d e denomina gún moment orman part figura 1.2, l to de todo l puesta a est mente y qu es necesari negocio. U un lugar e ero carece d cual contien información ue to el le ea ar de an to te la lo ta ue io Un en de ne n, 10 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal dado que es de utilidad para buscar la dirección que tratamos de localizar. De manera semejante funciona el KDD; es indispensable tener una preparación previa de los datos para poderla convertir en información. El término KDD se refiere entonces a un proceso integral de descubrimiento del conocimiento en las bases de datos y como tal considera varias tareas previas a la de minería de datos. Estos pasos previos a la extracción de conocimiento y reconocimiento de patrones que proporciona la minería de datos son: 1. Preparación de datos. Actividad que consiste en la creación de un Data Mart o Data Warehose que permita extraer la información de las bases de datos donde se encuentran los millones de registros que serán de interés para analizar. El formar un repositorio en el cual se concentre toda la información necesaria y suficiente para el análisis de minería de datos es la tarea principal en todo análisis previo de minería de datos. Los terminos data mart y data warehouse se refieren a este repositorio o tabla única que contenga las variables y los millones de registros necesarios para extraerles conocimiento. De acuerdo a la definición de SAS, un datawarehouse es un repositorio que contiene toda la información generada dentro de un negocio, este repositorio es el nivel óptimo que se ha alcanzado en términos de inteligencia de negocio ya que no sólo permite describir el comportamiento del negocio en el pasado, sino también entender porque en el presente se comportan de algún modo los datos y muy posiblemente estimar lo que ocurra en el futuro. El data mart cumple la misma función, sólo que éste no representa o no contiene los datos de toda una empresa o negocio, sino sólo la información de un área o departamento en particular, por ejemplo pensemos en una empresa que vende servicios de logística: esta empresa tiene varias bases de datos, entre ellas la de líneas transportistas, proveedores, ventas, clientes, productos que se manejan, catálogo de productos y transacciones, inventarios, entre otros. Si deseamos crear un data warehouse entonces se debe de considerar toda esta información en un único repositorio; por otro lado un Data Mart sería la concentración de la información de todos los ejecutivos de tráfico que producen y almacena información al día en sus repositorios personales y que para algún análisis de minería de datos en particular será necesario reunir toda la información necesaria en un solo lugar. 2. Selección de datos. Se refiere a la tarea de tomar todas las variables correctas, discriminado aquellas que no son relevantes para el negocio o que no tienen relevancia dentro del data warehouse. Puede ser que el data warehouse generado contenga información que no es indispensable, un ejemplo es cuando el data warehouse de alguna tienda departamental se encuentra la variable edad y fecha de cumpleaños, ambas proporcionan la misma información, sin embargo alguna de ellas será irrelevante. Para tener la información correcta en el data mart es importante formarlo con información consistente y suficiente. Más adelante se mencionarán técnicas de minería de datos que permiten hacer una selección de variables. En este momento del tiempo sólo nos ocupamos de entregar un data warehouse con toda la información necesaria.11 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal 3. Limpieza de datos. La limpieza se refiere a la tarea de estandarización de valores de alguna variable, formatos, eliminación en algunos casos de variables con alto número de valores perdidos y optimización de los datos. Ocurre frecuentemente que la gente de algún centro de atención a clientes captura los nombre de los clientes y muchas veces o se escriben mal, o se antepone el Sr. o Sra.; se usan comas entre apellidos y nombre; se escriben con mayúsculas, se escribe primero el nombre y después el apellido, etc. Es aquí donde se deben realizar tareas de limpieza y estandarización de datos. 4. Incorporación de conocimiento a priori. Una vez que la preparación de los datos ha concluido se puede agregar conocimiento de negocio. El experto de negocio ya sea en un banco, en una tienda departamental, en una investigación de enfermedades patológicas, determinará algunas reglas que deberán ser consideradas dentro del análisis de minería de datos. En el caso de un banco, si se desea realizar la calificación de un cliente para saber si es buen candidato para otorgar un crédito, es buena práctica que el experto de negocio explique cómo es que se ha seleccionado esa gente, qué criterio se utiliza, si es que se usa algún criterio de morosidad, o si el cliente se encuentra al día en sus pagos, así como el comportamiento de los clientes en ese país, entre otras reglas de negocio. 5. Minería de Datos. Hasta este momento los datos han sido convertidos en información lista para ser explotada y generar conocimiento. Como lo mencionamos anteriormente, hacer minería de datos implica considerar una metodología, y en este caso infinidad de autores y expertos han propuesto ciertas metodologías, sin embargo nos inclinaremos por la que proporciona SAS. La metodología de SAS es conocida como SEMMA y se encuentra definida dentro de la misma aplicación de Enterprise Miner 6.1 de SAS9.1.3. Por su siglas en inglés, SEMMA significa Sample (Muestreo), Explore (Exploración de los datos), Modify (Modificación de los datos), Model (Modelado de los datos), Assess (Comparación de modelos). Cada uno de ellos se explica a continuación, aunque es importante recalcar que no se profundizará en la explicación del ambiente SAS, esto será retomado en el caso práctico. Sample (muestreo): Se utilizan técnicas estadísticas y mejores prácticas de muestreo, el cual considera varios nodos dentro de la aplicación: Input Data, Data Partition, Simple y Time Siries. Explore (exploración de datos): Se explora la calidad de los datos y se analizan algunos aspectos con estadística descriptiva y técnicas de asociación. Los nodos para la exploración de estos datos son Association, Cluster, Multiplot, Path Analysis, SOM, StatExplorer, Text Miner, Variables Selection. Modify (modificación de los datos). Algunos datos requieren ser ajustados, parametrizados o incluso eliminados. Para estas tareas SAS proporciona los nodos de Drop, Filter, Impute, Principal Components, Replacement, Transform Variables. Model (modelado de los datos). Los modelos predictivos, de asociación, segmentación, entre otros, propuestos por SAS son: AutoNeurona, 12 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Decision Tree, Dmine Regression, DMNeural, Ensamble, Memory Based Reasoning, Neural Network, Regression, Rul Induction, Two Statesvi. Assess (comparación de modelos). Este paso dentro de la metodología permite cotejar y comparar los modelos de manera tal que se pueda elegir el que mejor se ajuste a los datos, o menor cantidad de falsos positivos arroje. Los nodos aquí son Decision, Model Comparition, Segment Profile, Score. Definitivamente el nodo que estaremos utilizando es Model Comparition. 6. La interpretación de resultados. Es prácticamente el paso final dentro de un estudio de Minería de datos, no olvidemos que es parte de KDD. Esta parte es la que cierra la secuencia de causa efecto de la que hemos hablando, ya que aquí es donde el aprendizaje de un modelo (ya sea redes neuronales, árbol de decisión, regresión, etc.), se verá reflejado en la inteligencia que tendrá para darnos reglas de negocio que darán valor a los objetivos perseguidos y finalmente estaremos asegurando que el conocimiento extraído refleja lo existente en los datos. Se resumiría esta última parte como la de aprendizaje basado en entrenamiento y obtención de decisiones de negocio que se traducen en inteligencia. SAS por su parte ofrece estos 6 puntos es sus soluciones de negocios, por ello el uso de la herramienta dentro de esta tesis, ya que es una de las más completas para ir de la mano en la competitiva carrera de inteligencia de negocios. Hoy en día las grandes empresas no sólo pretenden conocer el pasado y entender el presente de sus datos, sino predecir el futuro utilizando minería de datos y SAS es una alternativa que ofrece de manera integral estos siete puntos antes señalados. Minería de datos es un amplio campo en el que se pretende resolver las siguientes seis tareas: Clasificación. Consisten en examinar las características de un nuevo objeto u elemento y asignarlo a algún grupo o clase ya definida. Cuando un objeto es clasificado se asigna a esa clase y de algún modo es etiquetado. El objetivo de ser clasificado es construir un modelo que pueda describir y determinar más objetos con esta característica y aplicar alguna acción en particular. Algunos ejemplos de clasificación son: calificación de solicitantes a una tarjeta de crédito, como bueno, malo y regular; determinar el número telefónico corresponde a un número de fax, etc. Estimación. Dado un ingreso de datos como entrada, la estimación está dada por el valor de alguna variable continua desconocida como también por variables de entrada, pesos, o algún balance en el caso de una calificación de crédito. Algunos ejemplos son, estimación del número de niños en una comunidad, estimación de los ingresos anuales de la empresa que es competencia, estimación de la probabilidad de que algún cliente se fugue a la competencia telefónica. vi Para propósitos de esta tésis de licenciatura sólo se considerarán los modelos de árboles de decisión y modelos de minería de datos. 13 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Predicción. Prácticamente es lo mismo que la clasificación y la estimación, excepto que una observación es clasificada de acuerdo a algunas características de futuros comportamientos o futuras estimaciones. Aquí la única manera de saber si se está realizando una buena predicción es esperando a que los datos maduren y se realice la correspondiente predicción para saber si fue asertiva o no lo fue. Algunos ejemplos son: predecir que cliente comprara el producto que sale a la venta; predecir la cantidad de inventario para los siguientes seis meses. Afinidad o reglas de asociación. Consiste en asociar eventos en un mismo contexto. El ejemplo clásico es el de un supermercado en el que dado que se compró un producto A existe una probabilidad de que se adquiera el producto B; el contexto aquí es el supermercado. Segmentación. es la tarea de dividir una población heterogénea, en varios grupos de poblaciones homogéneas o conglomerados. Lo que hará que cada segmento esté clasificado de acuerdo a un conjunto de variables que describen a cada integrante de la población de la misma manera. Descripción de perfiles. Muchas veces el propósito de minería de datos es simplemente describir qué es lo que pasa en una base de datos y así comprender más el comportamiento de los clientes o productos. El objetivo de esta tarea es sólo descriptivo y explicativo para conocer lo que pasa en el presente y posiblementetomar alguna decisión a futuro. De acuerdo con lo antes señalado, uno de los principales objetivos de la minería de datos es encontrar modelos predictivos (estadísticos y/o matemáticos) que sean representativos de los datos basados en el entrenamiento de estos, tomando un algoritmo de aprendizaje y así adquirir inteligencia. Estos modelos de minería de datos requieren de una variable objetivo, también llamada variable de respuesta o variable dependiente (target) y variables independientes o variables de entrada (inputs). Estos modelos se pueden generar a partir de algoritmos diseñados por expertos que con el tiempo han ido perfeccionando y optimizando dado que los grandes volúmenes de información requieren de técnicas más sofisticadas. Los modelos predictivos que se pueden generar con minería de datos dependerán del objetivo que se persiga. Se tiene así un análisis supervisado y no supervisado, de acuerdo a la clasificación de SAS: Análisis supervisado. Es aquel en el que se conoce el objetivo o variable de respuesta. Análisis no supervisado. Se desconoce la variable de respuesta y sólo se tienen variables de entrada o variables independientes. Entonces los diferentes tipos de modelos predictivos estadísticos o matemáticos dependerán del tipo de variable de respuesta que se tenga. También existen ciertos modelos que se pueden aplicar a un análisis supervisado o no supervisado. En la figura 1.4 se muestra este cuadro de clasificación de los modelos. 14 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Clasificación de Modelos Predictivos Tipo de Análisis Supervisado No supervisado Variables de resupesta Continua Redes Neuronales, Árboles de Decisión, Regresión No se conoce la variable Discreta Redes Neuronales, Árboles de Decisión, Regresión No se conoce la variable No conocida Ninguno Modelos de Asociación, Modelos de Segmentación, Modelos de Clasificación Figura 1.4. Clasificación de modelos predictivos. Ahora bien, ¿Para qué o por qué minería de datos? La respuesta a esta pregunta está enfocada, como ya lo mencionamos en un inicio, al considerable volumen de datos que se tiene actualmente en las grandes empresas. Éstas generalmente pertenecen a alguno segmento de negocio que se han clasificado de la siguiente manera: Aeronáutica Bioinformática Medicina Salud Finanzas e inversiones Manufactura, cadenas de producción y cadenas de subministro Negocios y mercado Redes de telecomunicaciones Dominio científico Y las aplicaciones dentro de cada uno de estos segmentos son incontables: Detección de fraude Calificación de riesgo Calificación de crédito Predicción de fuga, segmentación de clientes, entre otros. 15 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Entonces la respuesta a por qué se debe utilizar minería de datos, es porqué el crecimiento de los volúmenes de información en las bases de datos de las organizaciones ya no sólo se dedican a almacenar de manera histórica los datos, sino que ahora la tarea es encontrar y detectar nuevas oportunidades que permitan incrementar la utilidad y rentabilidad de la empresa, conociendo a los clientes y explotando los datos, y ¿Cómo explotarlos? Utilizando técnicas analíticas fundamentadas en una metodología y algoritmos computacionales que permitan optimizar en tiempo y forma estas tareas. Para efectos de esta tesis emplearemos sólo modelos predictivos supervisados de minería de datos, sin embargo no está por demás mencionar los modelos predictivos con los que se cuenta en la actualidad: Modelos de árboles de decisión Modelos de redes neuronales Modelos de regresión Modelos de segmentación Modelos de afinidad Básicamente estos son los modelos más comunes y utilizados dentro de la metodología SAS. En los siguientes capítulos describiremos en qué consisten y cómo trabajan los modelos de minería de datos, específicamente los árboles de decisión. 16 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Capítulo II. Árboles de decisión y redes neuronales como modelos predictivos “La matemática es la ciencia del orden y la medida; de bellas asociaciones de razonamiento, todas sencillas y fáciles”. René Descartes. (1596 -1650) Filósofo y matemático francés Modelos matemáticos y modelos predictivos Los modelos matemáticos son fuertes herramientas que en pleno siglo XXI junto con la explotación de datos ha revolucionado las estrategias de negocio y ha fortalecido la toma de decisiones basando sus estrategias en argumentos más sofisticados que son proporcionados por algoritmos y modelos matemáticos que conjuntamente con los datos forman parte de lo que ahora llamamos minería de datos. Los modelos matemáticos han innovado la forma de tomar decisiones y como ejemplo se tienen ciencias como la investigación de operaciones y teoría de juegos en la cual se arma un conjunto de reglas, de manera tal que se obtenga el mejor y mayor beneficio o el menor costo y menos riesgo para un cierto objetivo en particular. Existen muchas maneras de modelar problemas matemáticos y muchas áreas de aplicación. Pueden tener varias formas de clasificación, entre ellas por su objetivo, por el tipo de análisis, por su aleatoriedad o por el tipo de aplicación al que están orientados. Siendo así, analizaremos los modelos matemáticos que están encaminados a conseguir un objetivo. Como vimos en el capítulo anterior los modelos predictivos están enfocados a resolver problemas de “análisis supervisado” y/o “análisis no supervisado”. En este caso un modelo predictivo en el que se conoce la función objetivo o la variable dependiente, se conoce como modelo predictivo de análisis supervisado. La clasificación de los modelos matemáticos de acuerdo con su objetivo son los siguientes: 17 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Los modelos descriptivos son aquellos que simplemente describen el comportamiento del caso de estudio o que expresan el comportamiento de algún fenómeno. Los modelos explicativos tienen como objetivo encontrar relaciones de causa y efecto, tal es el caso de un análisis de afinidad. Los modelos de pronósticos o predictivos son modelos matemáticos enfocados a predecir eventos en el futuro considerando un conjunto de variables de entrada o variables independientes. Las variables independientes deben tratar de modelar y ajustarse a la variable independiente o función objetivo con la finalidad de detectar el patrón a seguir y predecir así su comportamiento en un futuro. Como ya lo hemos mencionado algunos de los modelos predictivos utilizados en la industria y más conocidos son los modelos de árboles de decisión y los modelos de redes neuronales en los que se conoce cuál es la función objetivo o la variable independiente (en inglés también conocido como el target). Es por ello que el alcance de esta tesis se centra en estos dos tipos de modelos predictivos. Otro tipo de modelos son los de pronósticos de series de tiempo en los que se utiliza el histórico de valores de la variable dependiente para pronosticar próximos valores. Los modelos de control se utilizan cuando se desea mantener el funcionamiento o el desempeño de algún fenómeno en un mismo estatus o alguna condición conveniente. Son útiles en control de calidad y procesos. Como lo revisamos en el primer capítulo, los árboles de decisión y las redes neuronales forman parte de modelos matemáticos que nos ayudan a predecir eventos o fenómenos de interés. Es entonces indispensable describir el significado del modelado predictivo de manera más formal: SAS definea un modelo predictivo dentro de minería de datos como aquella técnica o forma de clasificación matemática y estadística de análisis supervisado que por medio Modelos Matemáticos por objetivo Modelos descriptivos Modelos explicativos Modelos de pronósticos Modelos de optimización Modelos de control 18 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal de algoritmos matemáticos complejos tiene la capacidad de encontrar relaciones razonables entre variables de entrada (o variables dependientes) y la función objetivo (o la variable independiente) tomado información de bases de datos con grandes volúmenes de información. Uno de los objetivos de este capítulo es el dar un vistazo general sobre los modelos predictivos de árboles de decisiones, basándonos en la clasificación de los modelos matemáticos y definiendo ciertas características básicas de estos modelos predictivos de minería de datos. Las especificaciones y características más a fondo de cómo funcionan dichos modelos y sus algoritmos serán mostradas en los siguientes dos capítulos; hasta este capítulo señalaremos algunas características básicas que nos encaminaran al estudio y diferenciación detallada de estos modelos predictivos. Árboles de decisión Los árboles de decisión son una técnica de predicción supervisada muy particular ya que es la más común y más sencilla en cuanto a su interpretación. Este modelo de predicción es el más utilizado a nivel internacional, por su simplicidad en la interpretación y construcción. Algunos expertos disciernen en nombrar a este tipo de modelos predictivos como árboles de decisiones, ya que los árboles de decisiones están más ligados a lo que es el análisis de decisiones. Una definición de estos árboles de decisión orientados al análisis de decisión es la siguiente: “El árbol de decisiones es una representación cronológica del proceso de decisión, mediante una red que utiliza dos tipos de nodos: los nodos de decisión, representados por medio de una forma cuadrada (el nodo de elección), y los nodos de estados de la naturaleza, representados por círculos (el nodo de probabilidad). Se dibuja la lógica del problema construyendo un árbol de decisiones; para los nodos de probabilidad se debe asegurar de que las probabilidades en todas las ramas salientes sumen uno; finalmente se calculan los beneficios esperados retrocediendo en el árbol, comenzando por la derecha y trabajando hacia la izquierda”vii. En realidad los árboles de decisiones son representaciones que por medio de decisiones y estados de naturaleza, permiten determinar la mejor elección de acuerdo a los beneficios deseados asignando a cada una de las ramas o decisiones probabilidades que permitirán maximizar o minimizar un objetivo según el análisis deseado. Un ejemplo de ello está en la figura 2.1 donde el árbol de decisiones en el que se tiene nodos que son estado de la naturaleza y nodos de elección, así como probabilidades en los diversos estados de la naturaleza por nodo. vii Profesor Hossein Arsham, http://home.ubalt.edu/ntsbarsh/opre640S/SpanishP.htm#rtreeinflunce, 2006, consulta realizada Mayo de 2007. 1 Como más ocurr De lo datos una forma Donde Xmn= m= ni n=ram El árb 19 Desarro Oscar C o podemos o bien, de a rencias se el o contrario u s), es aquel disyunción adas de la si (X0 V (X0 V… V V… V(X e Variable de e ivel o profund ma del árbol bol de decis ollo de árbo Camarillo Le Figura 2.1. observar est acuerdo a lige la que m un algoritmo que toma de conjunc iguiente ma 00 Λ X11 Λ X21 X00 Λ X12 Λ X21 (X00 Λ X1n Λ X X00 Λ X1n Λ X2 entrada en el didad del árb ión que repr oles de decis al Árbol de dec e árbol de d la informac mejor conve o de modela en cuentas ciones, esto anera: Λ…) V (X00 Λ X 1 Λ…) V (X00 Λ X21 Λ…) V (X00 2n Λ… ΛXm-1n- l nivel o profu bol resenta la e siones usand isión aplicable decisiones n ción obteni nga al caso ado predicti reglas simp o es reglas X11 Λ X22 Λ…) X21 Λ X22 Λ…) 0 Λ 1n Λ X22 Λ… - 1 Λ Xm1) V… undidad m, r structura an do SAS Ente e en teoría de o es un árbo ida en cad de estudio. vo (árbol de ples de deci s o estruct V… V (X00 Λ X ) V… V (X00 Λ X …) V… V (X00 Λ V(X00 Λ X1n Λ rama n nterior está erprise Min juegos ol de “si-en da una de e decisión e sión y está turas lógica X11 Λ X2n Λ…) X12 Λ X2n Λ…) Λ X1n Λ X2n Λ… Λ X2n Λ… Λ Xmn en la figura ner 6.1 | tonces”, sin sus posible en minería d formado po as que está …) n) a 2.2: no es de or án 2 Como gene de m empl llama mode Los á 1963. gene que c datos simbó en fo con a de un comp Los á corre un á jerár las co Como decis para datos una comp 20 Desarro Oscar C o vimos, el radas en el minería de d eada por la aremos tamb elos de mine árboles de de . Son una rados a part construyen s. “Compren ólica y fácil orma verbal algunos otro n modelo in portamiento árboles de d ectamente e árbol de de quica, de ta ondiciones q o ya lo vim siones son la clasificació s; mientras función ob portamiento ollo de árbo Camarillo Le Figu nombre de análisis de datos, sin em a gran mayo bién arbole ería de datos ecisión fuero técnica de tir de grand una hipótes nsible” porq de interpre (esto hace os modelos c nteligente c de los dato decisiones tr el objetivo d ecisiones es al manera qu que se cump mos y lo me a clasificaci n sirve para que un mod bjetivo o v de los dato oles de decis al ura 2.3. Estruc árboles de decisiones mbargo para oría de los a es de decisi s, ya sean p on desarroll e aprendiza des volúmen sis o repres que estos m etar, en form diferentes como el de apaz de det os. rabajan bajo de esta técn un conjun ue la decisió plen desde la encionamos ión y la pre a describir, delo predict variable ind os en función siones usand ctura de árbol e decisiones y técnicame a generaliza autores y ex iones a las redictivos o lados por pri je de mod es de inform sentación de modelos pue ma de conju los modelos redes neuro tectar los p o el lema d nica de aná nto de regl ón final a to a raíz del ár anteriorme edicción. Un entender y tivo basado dependiente n de esta va do SAS Ente l de decisiones s se atribuye ente no son ar y estar a xpertos, a l representac de clasifica imera vez p delos comp mación. El t el comporta eden ser re unto de cond s predictivos onales). El re patrones y la de “divide y álisis predict las organiza omar se pue bol hasta un ente, las ta n modelo d explicar el en árboles e para inte riable. erprise Min s e a las repr n propias de acorde a la o largo de ciones gene ación. por Morgan y prensibles d término “mo amiento o p epresentados diciones o re s de árboles esultado es as reglas qu y vencerás”, tivo. Podem adas en un ede determin na de sus ho areas de lo de árboles d l comportam de decision erpretar y ner 6.1 | resentacione e los modelo terminologí esta tesis d rados por lo y Sonquist e de decisión odelo” indic patrón de lo s de maner eglas escrita s de decisió la obtenció ue definen e , que resum mos decir qu na estructur nar siguiend ojas. s árboles d de decisione miento de lo nes consider predecir e es os ía de os en n, ca os ra as ón ón el me ue ra do de es os ra el 2 Una d parti analiz así só acció categ señal Existe más son u decis ACLS Algun decis 21 Desarro Oscar C de las grand r de una c zar sólo una ólo llegar a ón. Otra ve goría indepe ladas en los en varios al populares y utilizados en sión (figura (1982) , ASS Figu nos concept sión como m Función o o predeci Variables variable o ollo de árbo Camarillo Le des ventajas condición d a situación, una rama entaja más endiente de siguientes c goritmos pa conocidos n Enterpris 2.3). Existe SISTANT(198 ra2.4. Vista d tos antes d odelos pred objetivo o t r (también c s predictiva objetivo. oles de decis al de los árbo eterminada pudiendo se que represe es que pue ntro de cad capítulos. ara realizar están el mé e Miner de en algunos o 87) y Exhaus el nodo de árb e entrar de dictivos de m target. Indi conocida co as o indepe siones usand oles de decis son mutua eguir el árbo entaría sólo ede trabaja da variable. esta clasific étodo CHAID SAS dentro otros algorit stive CHAID, bol de decisión e lleno a e minería de da ca la variab mo variable endientes. V do SAS Ente siones es qu amente exc ol de decisió o una decisió ar con valo Éstas y otr cación y par D, C&RT, C4 o de sus alg tmos como entre otros n en SAS Ent explicar lo atos son los ble cuyos val e dependient Variables ut erprise Min e las opcion cluyentes. E ón apropiad ón a tomar ores perdido ras caracter rticionamien 4.5 y C.5. Es goritmos par CLS (1966) s. terprise Miner que son lo siguientes: lores querem te). tilizadas par ner 6.1 | nes posibles Esto permit damente par o una únic os como un rísticas será nto. Entre lo stos método ra árboles d , ID3 (1979 r s árboles d mos clasifica ra estimar l a te ra ca na án os os de ), de ar la 22 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Partición de datos. Se requiere particionar los datos para su entrenamiento y validación. Es indispensable una muestra significativa de datos que permita encontrar patrones o buena capacidad predictiva en entrenamiento así como en otra muestra de validación o prueba. El método de particionamiento lo veremos más a detalle en el capítulo de prueba, sin embargo es indispensable considerar este término que entra en la metodología de minería de datos incluida en la metodología SEMMA de SAS. Nodo raíz. Es el nodo que contiene todos los casos con su clasificación. Nodo inicial de donde se parte para el desarrollo de los algoritmos de particionamiento. Criterio de partición. Es un estadístico para el cual se define un p-value dado que cuando se encuentre una relación con un valor mayor o menor que el valor especificado se forme la regla a partir de la cual se partirán los datos. El criterio puede ser Gini, entropía o algún otro. Rama. Es un subconjunto de condiciones lógicas que definen una regla y que agrupan a los casos que la cumplen. Nodo hoja. Contiene los casos obtenidos una vez que se aplicaron reglas sucesivas y para los cuales no existen reglas que lo dividan porque se ha cumplido alguno de los criterios de parada. Profundidad del árbol. Es el número de reglas necesarias hasta llegar al nodo hoja que más condiciones necesita. Umbral de soporte. Cuando nos encontramos un nodo con menos de “n” ejemplos podemos detener el proceso de construcción del árbol de decisión, ya que no consideramos que es confiable la clasificación avalada por menos de “n” casos de entrenamiento. Criterios de parada. Es una condición que se utiliza para no seguir dividiendo un árbol. Los tipos de condición pueden ser el valor de un estadístico, un número de casos mínimo en un nodo o la profundidad del árbol o reglas definidas hasta llegar al nodo hoja. Estos criterios de parada también reciben el nombre de prepurning. Matriz de costos. Este tipo de matriz permite incluir información referente a los casos costos o beneficios. Los costos están asociados a una mala clasificación o predicción por parte del árbol y los beneficios a una correcta clasificación o predicción. Matriz de confusión. Es una medida de bondad de ajuste del árbol de decisión. Se representa por medio de una tabla en la que se estima la probabilidad esperada de que se esté realizando una buena predicción o clasificación; se hace un contraste con los eventos reales y así determinar el nivel de certeza o capacidad predictiva del modelo. Esta matriz permite conocer qué tan bueno es el modelo en su capacidad predictiva. 23 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Capítulo III. Algoritmos de árboles de decisión “Somos tan fuertes como cuando nos unimos y tan débiles como cuando nos separamos”. Albus Dumbledore, personaje creado por J. K. Rowling en la novela de Harry Poter Introducción En el capítulo anterior se estudiaron los árboles de decisión con una breve introducción a su estructura y su utilización dentro de las aplicaciones minería de datos, específicamente en modelos predictivos de análisis supervisado y su uso en diversas áreas. Vimos que los árboles de decisiones están también orientados al análisis de decisiones, pero así mismo son llamados árboles de clasificación por la forma en que trabajan y de igual manera son estructuras que se emplean durante el modelado predictivo. Un árbol de clasificación es denominado así por la siguiente razón: Clasifica eventos o variables en los distintos nodos de un árbol de acuerdo a su semejanza o parentesco entre elementos del mismo nodo que responden de forma similar a un evento y se agrupan de forma homogénea caracterizando a dicho nodo por algún patrón en específico y que al mismo tiempo esta clasificación responde a un objetivo en particular. En este capítulo analizaremos a los árboles de decisión (o también conocidos como clasificación, que no deben ser confundidos con los árboles orientados a la toma de decisiones o análisis de decisiones mencionados en el capítulo II), su construcción, los algoritmos que utilizan para clasificar, la forma en que se mide su grado de precisión, y finalmente se analizará la interpretación de estos árboles por medio de la extracción de reglas. Dicha extracción de reglas tiene como objetivo entender y dar valor de negocio a través de resultados tangibles que faciliten la interpretación de estos modelos predictivos de acuerdo a un objetivo en específico. Todo lo anterior estará apoyado en la herramienta más completa de Minería de Datos de SAS según los cuadrantes de Gartnerviii y el nodo de modelado predictivo que ofrece SAS 9.2 en su versión de Enterprise Miner 6.1. El estudio de los árboles de decisión tratados en esta tesis así como todos los modelos mencionados estarán enfocados al modelado predictivo, aun cuando estos modelos viii Los cuadrantes de Gartner clasifican a SAS como el software de inteligencia analítica líder en capacidades de minería de datos y análisis predictivo según la última publicación de dicho cuadrante en el 2010. 2 tenga decis Duran consi predi Los p mode En e capac tema práct ix La r irrelev indepe razona 24 Desarro Oscar C an otra util siones, etc. nte el desa dera una se icción de ca pasos genera elos de árbo F l transcurso cidades qu as/tópicos tico. educción de di vantes. Los árb endiente es irre ablemente débi ollo de árbo Camarillo Le lidad como arrollo de u erie de paso so de negoc ales dentro les de decis Figura 3.1. Me o de este ue la soluc específicos imensionalidad oles de decisió elevante con re il. oles de decis al segmentaci un modelo os que descr cio a resolve de la metod iones son lo etodología par trabajo se ción de SA que serán d es la práctica ón son utilizado especto a la var siones usand ión, reducc de minería riben la técn r. dología emp os mostrados ra construcció explicará e AS Enterpr desglosado realizada en la os en la reducc riable de respue do SAS Ente ción de dim a usando ár nica para c pleada por S s en la siguie ón de árboles d el estado d rise Miner os en este a eliminación d ción de variable esta si su aport erprise Min mensionalida rboles de d conseguir la SAS para el d ente figura 3 de decisión del arte ali brinda. Se y el siguiede variables red es irrelevantes tación predictiv ner 6.1 | dix, toma d decisiones s solución y/ desarrollo d 3.1: ineado a la e abordará ente capítul dundantes e . Una variable va es de se /o de as án lo 2 Algun mues Prep En es predi consi gene prepa o var modo un ca Ejem Supon de bu La ta mode 25 Desarro Oscar C nas de las ca stran en la F Op paración d sta etapa se ictivo, se r derar tarea ral la evalu aración de d riables por o aseguraría aso en partic plo hipotéti ngamos que uró de crédi abla extraída elo se vería ollo de árbo Camarillo Le apacidades Figura 3.2. pción Pr R Mé Figura de datos e concentra realizan cá as de explo uación inicia dicho model cada observ amos que el cular. ico. e se desea ge ito. Una de a del data de la siguien oles de decis al generales q ropiedad Máximo núme Criterio de Reglas de parad Método de étodo de tratam Perdi a 3.2. Capacid an las variab álculos de ración de d al para el o se debe c vación con análisis pre enerar un m esas variab warehouse nte forma e siones usand que se revisa ero de ramas partición a o crecimiento e podado miento de valores idos dades en árbol bles conside variables. E datos, selec desarrollo d considerar la su correspo edictivo es r modelo de m les es la lla para el aná n la figura 3 do SAS Ente arán en este Opciones predeterm Logw o Logworth Ajuste de p Máxima p Tamaño mín Averag s Best les de decision eradas para En esta m cción de mu del modelo a creación d ondiente va realizado ún minería de da mada Saldo álisis de esta 3.3. erprise Min e capítulo so minadas 2 worth Threshold profundidad profundidad nimo de hojas ge Profit t Leaf nes la creación isma etapa uestras de o predictivo de una tabla riable objet nicamente u atos basado o en los últim a variable d ner 6.1 | on las que s n del model a se puede análisis y e . Durante l a de atributo tivo, de est una vez sobr o en variable mos 2 meses de entrada a se lo en en la os te ré es s. al 26 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal No. Cuenta Mes Meses con Saldo Creditos Revolventes Tipo de cliente ……………. Saldo 1234 1 1 1 Oro ……………. 2,700.00 1234 2 1 1 Oro ……………. 1,000.00 1234 3 3 1 Premium ……………. 4,230.00 ……………. …… ……………. ……………. ……………. ……………. ……………. 1235 1 1 3 Premium ……………. 300.00 1235 2 1 3 Premium ……………. 700.00 1235 3 1 3 Premium ……………. 1,200.00 Figura 3.3. Ejemplo de arreglo de datos Lo primero que habría que notar es que el número de cuenta se repite más de una vez, esto quiere decir que pueden existir atributos que dificulten el desarrollo de minería de datos si se toma tal cual la extracción de esta tabla, ya que se debe tener un registro único por caso, en el ejemplo se debe tener un solo registro por número de cuenta. El segundo punto es que la variable Saldo en los últimos dos meses no existe, sin embargo puede ser calculada usando el campo saldo y el campo mes. Es decir se debe emplear una técnica para generar dicha variable; lo que muchos llaman un proceso de ETL (Extracción, Transformación y Carga de datos). Una vez considerados estos puntos se puede obtener la tabla que se muestra en la figura 3.4. No. Cuenta Meses con Saldo Actual Creditos Revolventes Actual Tipo de cliente Actual ……………. Saldo en dos meses 1234 1 1 Oro ……………. 3,700.00 1235 1 3 Premium ……………. 1,000.00 Figura 3.4. Ejemplo de arreglo de datos aplicando técnicas de integración de datos Nótese que las demás variables también cambiaron de nombre, ya que reflejan el estado actual de cada cuenta, es decir sólo aparecerían los últimos valores de sus características. En cuanto a la variable Saldo en los dos últimos meses vemos que se encuentra calculada y de este modo ya se cuenta con registros únicos. El análisis exploratorio también se realiza en esta etapa para conocer las variables que se estarán utilizando. Dicho análisis es realizado a través de técnicas de estadística descriptiva: 1. Histogramas de Frecuencia 2. Graficas de línea 3. Medidas de tendencia central 4. Cálculo de percentiles 5. Análisis univariado 6. Análisis de valores perdidos 7. Análisis de valores repetidos Cuando se concluye la tarea de exploración de variables se pueden descartar variables por falta de valores o aportación al modelo desde el punto de vista de negocio. Todo 27 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal esto deberá estar fundamentado y justificado con el análisis estadístico y la visión de negocio. En la selección de muestra es muy importante seleccionar la ventana de información más adecuada. Esto debido a que el negocio debe indicar la ventana de tiempo de información que es más confiable. Y a partir de ahí seleccionar muestras de análisis, así como alguna técnica en específico (aleatorio, estratificado, conglomerado). Se debe asumir que el análisis de minería de datos requiere muestreos estratificados, esto debido a que debe ser la muestra representativa con respecto a la variable objetivo. Técnicamente el muestreo estratificado es un muestreo proporcional. El muestreo estratificado es aquel que divide a la población en N individuos en k sub poblaciones o estratos, atendiendo una variable objetivo, de tamaño respectivo N ,…, N . N=N N N ⋯ N Y realizando en cada una de la estratos muestreos aleatorios simples de tamaño n =1,…., k. Para efectos de los ejemplos de minería de datos expuestos en esta tesis sólo analizaremos casos con variable objetivo que cuente con dos clases, valores o estratos y se empleará muestreo estratificado para efectos de entrenamiento del modelo. Esto es variables binarias. Ejemplo hipotético. Existe un caso de negocio para la detección de fallas en dispositivos de telecomunicaciones en el que se encuentran un total de 1,000,000 de casos de los cuales 385,503 son casos de fallas en dispositivos y 614,497 son de casos sin fallas en los dispositivos. La distribución real de estos casos se ve de la siguiente manera en la figura 3.5. 28 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Figura 3.5. Histograma de distribución de casos Ahora bien, al aplicar un muestreo estratificado del 50% de los datos usando como referencia esta variable llamada “casos de estudio” se obtiene la siguiente gráfica que se muestra en la figura 3.6. Figura 3.5. Histograma de distribución de casos aplicando muestreo estratificado De donde se puede deducir que se realizó un muestreo estratificado por la variable caso de estudio del 50%; resultando en la distribución original de la muestra con 29 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal respecto a la población: 39% de concentración en casos de fallas y 61% en casos de no fallas. Definición de objetivo Como lo vimos en los capítulos I y II, el desarrollo de un modelo predictivo supervisado requiere de casos comprobados, variable objetivo o estrictamente hablando, se necesita saber “¿Qué es lo que se desea predecir?” y se debe saber ¿Qué se tiene para realizar esta predicción? basado en hallazgos e historia ya preconcebida. Para que un modelo pueda predecir algún evento se requiere de una base de conocimiento de hechos a través de los cuales ya se haya aprendido y se tenga experiencia para poder tomar la decisión más acertada. Pongamos un ejemplo tradicional. Un ama de casa ayuda a la economía de su hogar vendiendo oro a diversos clientes entre ellos amigos, vecinos, compañeros, amigos de los amigos, etcétera. Al iniciar su negocio no tiene conocimientoalguno sobre a quienes vender o no oro y lo comienza a hacer sin reservarse el derecho a la no venta sobre alguno de ellos. Conforme pasa el tiempo se da cuenta de que existe gente que cumple con sus pagos y otra que no lo hace, de este modo la vendedora de oro va generando una base de conocimiento más sólida y menos subjetiva que en un inicio; esto debido a que ha aprendido a analizar las características de sus clientes y sabe que aquellos clientes que no cuentan con un trabajo estable no serán buenos pagadores, o que aquellos que compran oro por más de tres veces la recomendarán con alguien más, entre otra infinidad de reglas de conocimiento deductivo que puede extraer a través de esa base de conocimiento que ya formó y la experiencia misma. Del mismo modo trabaja un modelo de minería; es indispensable generar una buena base de conocimiento y definir una correcta variable objetivo para alcanzar la predicción deseada y conocer a los clientes para este caso. La diferencia entre la ama de casa que vende oro y el banco que realiza créditos es que la primera puede vender a tal vez no más de 100 personas, ya que podría perder el control de sus clientes ella misma; y la institución bancaria realiza préstamos a miles de clientes, esto incrementa la demanda sobre la base de conocimiento para el caso del banco. De este modo la variable objetivo (que describe el caso a resolver) está definida de acuerdo a las necesidades del negocio, ejemplos de esto, se encuentran a continuación: Pregunta de Negocio Base de conocimiento supervisado ¿Qué nuevos clientes representan riesgo para el banco? El banco ya cuenta con historia de clientes buenos y malos, ahí radica su base de conocimiento. ¿Qué nuevos clientes de una tienda departamental son más propensos a comprar productos de belleza? La tienda departamental seguramente ya cuenta con una base de clientes que han comprado estos productos. 30 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal ¿Qué clientes de un servicio telefónico se irán con la competencia? La compañía telefónica cuenta con una base de conocimiento en la que se tienen registrados a los clientes que se han ido con la competencia. Entonces, es básico definir la variable objetivo, target o variable dependiente, para la generación de un modelo predictivo supervisado. Asimismo contar con una base de conocimiento sobre estos casos. Selección de criterios de crecimiento de árbol y algoritmos de segmentación y clasificación de casos Como vimos en el capítulo anterior los árboles de decisión son estructuras topológicas que describen como se clasifican de mejor manera los casos de estudio de acuerdo a una serie de atributos, pero la forma en la que crece esta estructura topológica es controlada, obedeciendo a los siguientes criterios o preguntas: ¿Cómo deben combinarse las variables nominales de entrada? ¿Cómo serán ordenadas y combinados los nodos del árbol?, ¿Los nodos están acorde a su nivel de medición (continuos, ordinales o nominales)? ¿Cuántos nodos o ramas se considerarán en el árbol? ¿Cuántos nodos serán ordenados para cada nivel del árbol de decisión? ¿Con qué criterio se determinará la diferencia de concentración de casos en un nodo (poder predictivo de las ramas)? ¿Cuántos nodos serán evaluados, seleccionados y desplegados? ¿Cuántos casos serán el límite a considerar en un nodo? ¿Qué pasará cuando en un nodo del árbol exista concentración de valores perdidos? ¿Qué prueba de hipótesis se utilizará para evaluar el crecimiento del árbol? ¿Qué ramas del árbol deben ser podadas o que ramas deben crecer más dada la serie de criterios seleccionados? ¿Cuándo el proceso de decisión se detiene para identificar ramas potencialmente predictivas? ¿Cuándo detener el árbol para identificar los nodos potencialmente predictivos? Toda esta gama de preguntas se pueden resolver durante el desarrollo del modelo, a lo que le llamamos la etapa de configuración del modelo. En una primera etapa de configuración, se encuentra la definición de parámetros que deberán ser considerados previos al momento de construir el modelo de árbol de decisión. Este menú de configuración es general para cualquier modelo que se desarrollará dentro de la herramienta de SAS. 3 En e predi En el parám defin conti x El m trabajo 31 Desarro Oscar C ste menú s ictivo: Máximo n predeterm es ajustab Rechazo d supuesto Número d predefini cuenta co Detectar permite h nominale Rechazar de clases nominale Rechazar la opción l siguiente m metros prop nido básicam nuación y d menú de configu o de tesis sólo ollo de árbo Camarillo Le se identifica número de v minados que ble. de variables u opción an de clases p da es clasif on menos de los niveles habilitar la s. las variabl s. El núme s es de 20. variables co anterior, co menú de con pios del mod mente por ependiendo uración de árbo se mostrarán y oles de decis al an seis opci valores perd e se permite s con exceso nterior se ap permitidas e ficar una v e 20 clases. s de las v regla ante es ordinales ro predeter on exceso en on 20 clases nfiguraciónx delo de árbo una serie de la etapa oles de decisión y explicarán la siones usand iones para didos permit en es de 50 o de valores plica. en una varia variable ord variables or erior para d s o nominal rminado pa n valores de s en variable que se obs oles de deci de rubros a en la que n n es aún más c as propiedades do SAS Ente el desarrol tidos. El má 0, esta canti s perdidos. able ordina dinal o nom rdinales o detectar las les con un n ara rechaza e clase prede es ordinales serva en la isión, es un que serán nos encontre completo, sin e que agreguen v erprise Min lo de cualq áximo númer idad de valo Esto quiere al o nomina minal como nominales. variables o número pre ar variables eterminados y/o nomina figura 3.6 s panel que analizados emos. mbargo para lo valor a dicho t ner 6.1 | quier model ro de valore ores perdido decir que e al. La opció aquella qu Esta opció ordinales y/ edeterminad ordinales s. Se habilit ales. e definen lo se encuentr a detalle os fines de este trabajo lo es os el ón ue ón /o do o ta os ra a e 3 Defa 32 Desarro Oscar C Figura 3.6 Propiedad propiedad decisione Criterio d empleará a la varia ault Este crite casos en para aque variable i más ade enfatizare cuadrada ollo de árbo Camarillo Le 6. Menú de con des de Reg des o criteri es. de intervalo á para realiz ble dependi erio está bas donde la va ellos casos ndependien lante). Par emos sobre . oles de decis al nfiguración de la de partic io de partic o y nominal zar la partici iente. Los cr sado en el us ariable depe en que la v nte es ordina ra efectos el primer siones usand e árboles de d ción. En est ionamiento . En el crite ión de los n riterios son so y cálculo endiente es variable dep al usa un mé del model caso en el do SAS Ente decisión en SA te menú de de los nodo erio que def odos y sepa los siguiente de la proba nominal o pendiente e étodo llama lo que est l que se us erprise Min AS Enterprise M opciones se os dentro de fine el algo arar los caso es: abilidad Ji-c binaria. El es continua; ado entropía taremos rev sa el estad ner 6.1 | Miner e definen la e un árbol d oritmo que s os de acuerd uadrada par estadístico y cuando l a (se revisar visando sól dístico de J as de se do ra F la rá lo i- 3 Prob 33 Desarro Oscar C babilidad J El cálcul formada analizand lo define Funcionam Utilizarem Sobre la encuentra trataremo el espacio amarillo) horizonta Recordem un nodo y primera r comenzar haya más La primerEste inici entrada d intervalo considera promedio entrada. Para sele generan d ollo de árbo Camarillo Le Ji-Cuadrad o de este entre las do y las cate el p-value d miento. mos el siguie siguiente gr an distribuid os de prede o definido. con respe l y al eje ve mos que los y otro son l regla que r r a partir lo reglas por a ra parte de ia con la se disponibles cada valo ado en el pro o del target eccionar una dos grupos. oles de decis al da estadístico categorías egóricas de del estadístic ente ejemplo ráfica en la dos una seri cir el color Se asume q cto a dos ertical. nodos del á las que orde realizará el s datos en d aplicar ento l algoritmo elección de a partir en or es utiliza oceso de par es tomado a variable Casos con v siones usand está asoci de la va la variable co. o para obse que se obse ie de punto de algún pu que la distr variables árbol repres enan qué re algoritmo dos reglas. A nces estaría se llama bú una variab n segmentos ado como rtición. Si el dentro de c de entrada valores meno do SAS Ente iado a una riable inde dependient rvar cómo t erva un map s verdes y a unto basánd ribución del y qu sentan regla egla se debe será la est Al llegar a u amos llegand úsqueda de ble de entra s. En caso único y p l valor es no cada nivel d a y fijar un ores que el erprise Min tabla de pendiente te, el punto rabaja este peo de dos amarillos. D donos en su target bina ue correspo as y que las e ejecutar. tablecer un un nodo en do a la hoja partición (s ada de las de ser una potencial qu ominal, ento e la variable n punto de punto de pa ner 6.1 | contingenci que se est de partició algoritmo: variables, s De este mod ubicación e ario (verde onden al ej s líneas entr Entonces, l nodo raíz el que ya n de un árbol split search variables d a variable d ue debe se onces el valo e nominal d partición s artición de l ia tá ón se do en y je re la y no l. ). de de er or de se la 34 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal variable, es decir una rama derecha y casos con valores de la variable mayores al punto de partición, es decir, la rama izquierda. Pongamos un ejemplo donde se tenga la variable ingresos y sobre esta se realiza una partición en el valor de $10,000. Los grupos, combinados con los valores de la variable target u objetivo son utilizados para realizar una tabla de contingencias de 2X2 en donde las columnas de la tabla de contingencia son especificadas por las ramas (personas con ingresos menores a $10,000 y personas con ingresos mayores a $10,000); y los renglones estarían descritos por los valores de respuesta. En la siguiente tabla se puede observar lo mencionado arriba. Ingreso < $10,000 Ingreso >= $10,000 Total Responden ∙ No Responden ∙ Total ∙ ∙ N De esta forma es aplicado el estadístico ji-cuadrada para cuantificar la independencia entre las columnas de la tabla, es decir, se trata de probar que la variable de entrada separa correctamente los casos definidos en el target. En otras palabras se pretende mostrar que las muestras no son iguales. Un valor grande de dicho estadístico indica que la proporción de valores en cero y en uno del target que están en la rama izquierda es distinta a la proporción de casos de ceros y unos de la rama derecha. Una diferencia en la proporción de ambas ramas indica un buen particionamiento. Estadísticamente se realizará la siguiente prueba de hipótesis: : Donde = ∙ , = ∙ , y P= ∙ La traducción de la hipótesis nula es el argumento en el que las proporciones de casos de respuesta con menos de $10,000 de ingresos no son diferentes de los caso de respuesta donde el ingreso es mayor a $10,000. Así entonces, tendremos la siguiente tabla de contingencias con las reglas de proporciones definidas de la siguiente forma: Ingreso < $10,000 Ingreso >= $10,000 Responden ∙ ∙ No Responden 1 ∙ 1 ∙ Entonces el estadístico Ji-cuadrada es calculado de la siguiente manera: 35 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Debido a que el estadístico de ji-cuadrada puede aplicarse a múltiples valores de la variable de respuesta, este estadístico es convertido en una probabilidad “p-value”. El p-value indica la verosimilitud de obtener el valor observado del estadístico asumiendo que la proporción del target en ambas ramas es la misma. Para la evaluación donde el número de casos es muy grande el p-value es muy cercano a cero. Por esta razón, el estadístico es mostrado a través de la función logarítmica y con la métrica llamada logworth. De este modo cada valor de una variable de entrada puede calcular su propio logworth, sin embargo el umbral para identificar cuál es el punto en el que el árbol separa correctamente los datos es donde el p-value del estadístico ji- cuadrada toma el valor de 0.20, que corresponde al valor 0.70 en el logworth. Entonces, el objetivo es maximizar el logworth dentro del proceso de particionamiento. La regla de sustitución es la siguiente: ( > Calculada | es verdadera)= . Y el es simplemente calculado como . Veamos en el siguiente ejemplo como es que trabaja este algoritmo. Se pretende clasificar con un árbol de decisiones un caso nuevo dentro del siguiente plano que contempla dos variables , y un target binario (1=Verde, 0=Amarillo). Si se identifica la posición de este caso dentro del plano denotado por las dos variables se observa lo siguiente: 3 36 Desarro Oscar C Primer p calcula e distribuci de logwor Enseguida decir se c acuerdo óptima. ollo de árbo Camarillo Le articionamie l logworth ón de los pu rth y se iden a se proced calculará el a los valore oles de decis al ento. Se ap para la var untos de izq ntifica que e de a hacer logworth p es de dicha siones usand plica la pri riable ; e quierda a de en el valor 0 lo mismo p para identifi a variable. do SAS Ente mera tabla es decir se erecha para 0.52 se encu pero ahora s icar la clasi Se identific erprise Min a de contin recorre la s a buscar el p uentra el má sobre la va ficación de có la siguie ner 6.1 | gencias y s superficie d punto óptim áximo valor. riable , e los casos d ente solució se de mo es de ón 3 37 Desarro Oscar C Comparan La variab realizadas sentido la ollo de árbo Camarillo Le ndo ambas s le que sepa s es la vari a primera pa oles de decis al soluciones, o ra mejor los able ; qu artición esta siones usand obtenemos l s casos de a ue correspon aría represen do SAS Ente o siguiente: acuerdo a la nde a un lo ntada de la erprise Min as tablas de ogworth de siguiente fo ner 6.1 | contingenci 4.92. En es orma. ia se 3 38 Desarro Oscar C Observem de decisi forma en Los sigui depender un par de A continu acuerdo a de logwor Aquí se ob ollo de árbo Camarillo Le mos que del ones y del que se part entes pasos rá de la prec e iteraciones uación se to al proceso d rth de mane bserva el cá oles de decis al lado izquie lado derech irán los dato s se repite cisión que s s más. ma aquella e clasificaci era vertical y lculo de log siones usand erdo se tiene ho es el pla os de acuerd en sobre ca e pretenda rama donde ión anterior y horizontal gworth sobre do SAS Ente e la estruct ano con los do a este cri ada rama y que tenga e e el valor es y se observ respectivam e la variable erprise Min tura topológ s casos dist iterio. y el criterio el modelo. s menor a 0 van los siguie mente e . ner 6.1 | gica del árbo tribuidos y l o de parad Realizaremo 0.63 en d entes valore ol la da os de es 39 Desarrollo de árboles de decisiones usando SAS Enterprise
Compartir