Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
http://booksmedicos.org TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS DAVID F. NETTLETON TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS 3INTRODUCCIÓN Madrid-Buenos Aires © David F. Nettleton, 2005 (Libro en papel) � David F. Nettleton, 2011 (Libro electrónico) Reservados todos los derechos. “No está permitida la reproducción total o parcial de este libro, ni su tratamiento informático, ni la transmisión de ninguna forma o por cualquier medio, ya sea electrónico, mecánico, por fotocopia, por registro u otros métodos sin el permiso previo y por escrito de los titulares del Copyright” Ediciones Díaz de Santos, S.A. Albasanz, 2 28037 MADRID http.//ediciones.diazdesantos.es ediciones@díazdesantos.es ISBN: 978-84-9969-067-4 (Libro electrónico) ISBN: 978-84-7978-721- (Libro en papel) http.//ediciones.diazdesantos.es mailto:ediciones@d�azdesantos.es El autor agradece las contribuciones y colaboración de las personas y entidades que se citan a continuación. El área de la representación de datos de diferentes tipos, que com- prende las Secciones 2.4, 6.1 y 6.2 del libro, fue realizada en colabora- ción con la doctora Karina Gibert del Departamento de Matemáticas y Estadísticas de la Universidad Politécnica de Cataluña, en el periodo 1996-1997. El área de agregación y proceso difuso de los datos, que com- prende las secciones 2.2, 2.3, 7.3, 7.4, 7.5 y 8.2 del libro, se realizó en colaboración con el doctor Vicenc Torra del Instituto de Investigación en Inteligencia Artificial, Bellaterra y el doctor Juan Jacas del Departamen- to de Matemáticas, Escuela de Arquitectura, Universidad Politécnica de Cataluña, en el periodo 1997-2001. Las técnicas han sido probadas en dos áreas clínicas, en colaboración con tres hospitales durante un periodo de cinco años: datos de pacientes de UCI del Hospital Parc Taulí de Sabadell; datos de pacientes de apnea del Hospital Clínico de Barcelona y datos de pacientes de apnea del Hos- pital de la Santísima Trinidad de Salamanca. El autor reconoce y agrade- ce la colaboración del doctor Xavier Companys (anteriormente del Hos- pital Parc Taulí de Sabadell) en proporcionar el conjunto de datos usado en el Capítulo 9 del libro, y su colaboración en la interpretación de los resultados del análisis. El autor reconoce y agradece la colaboración de la doctora Lourdes Hernández del Laboratorio del Sueño del Hospital Clí- nico de Barcelona, en proporcionar el conjunto de datos usado en el Capítulo 10 del libro y en realizar la contribución al Capítulo 5 y de las Tablas 5.1 y 5.2. Por último, el autor reconoce y agradece a los doctores Joaquín y Joaquina Muñiz del Centro de Estudios del Sueño del Hospital de la Santísima Trinidad de Salamanca, por su colaboración en la capta- 1 Agradecimientos y reconocimientos ción de datos de los pacientes de apnea a partir de los cuestionarios que hemos usado en el Capítulo 11. Asimismo, se agradece su colaboración en la interpretación de los resultados del análisis, y por su contribución al Capítulo 5. Por último, agradecemos a María Sánchez Leiva por realizar las ilus- traciones en las páginas 39, 67, 73, 190, 191, 194, 243, 247 y 263, que fueron encargadas especialmente para el libro. VIII AGRADECIMIENTOS Y RECONOCIMIENTOS Agradecimientos y reconocimientos ........................................... 11. Introducción ......................................................................... 11.1. Contexto de la obra ..................................................... 11.2. Motivos ....................................................................... 11.3. Objetivos ..................................................................... 11.4. El alcance y la orientación del libro desde el punto de vista del análisis de datos ............................................ Parte I. Conceptos y técnicas ....................................................... 12. Conceptos .............................................................................. 12.1. La “minería de datos” ................................................. 12.2. Relevancia y fiabilidad ............................................... 12.3. Agregación de variables y datos ................................. 12.4. La representación “difusa” de los datos ...................... 12.5. Análisis de datos con técnicas “difusas” .................... 12.6. Clustering ................................................................... 12.7. Clasificación ............................................................... 13. La perspectiva difusa ........................................................... 13.1. Conceptos básicos ....................................................... 13.2. Concepto de “pertenencia difusa” .............................. 13.3. Relaciones difusas ...................................................... 13.4. Definición de un “conjunto difuso” ............................ 13.5. Siete métodos para definir una función de pertenencia .. 13.6. Definición de “variable difusa” .................................. 13.7. Definición de “número difuso” ................................... 13.8. Los “cuantificadores” ................................................. VII 1 4 5 6 8 11 13 13 20 26 28 30 34 36 39 39 40 41 42 43 44 45 45 1 Índice 13.9. Representación difusa de variables de tipo binario .... 3.10. La selección de características .................................... 3.11. Funciones de pertenencia para datos clínicos ............. 14. El diagnóstico y el pronóstico clínico ................................. 14.1. Enfoque de la estadística “clásica” ............................. 14.2. Sistemas de puntuación de pronóstico en cuidados intensivos .................................................................... 14.3. Ejemplos de algunos de los sistemas más comunes de puntuación de pronóstico ............................................ 14.4. Enfoques de la inteligencia artificial .......................... 14.5. Grupo de la Universidad de California en Irving: Repo- sitorio base de datos sobre aprendizaje automatizado .. 15. El diagnóstico del síndrome de apnea del sueño ............... 15.1. Presentación clínica .................................................... 15.2. Prevalencia .................................................................. 15.3. Morbidity y mortalidad ............................................... 15.4. Diagnóstico ................................................................. 16. La representación, comparación y proceso de datos de diferentes tipos ..................................................................... 16.1. Representación y proceso de datos de tipos diferentes .. 16.2. Comparación entre diferentes tipos de datos .............. 16.3. La mejora del cuestionario para el diagnóstico de ap- nea del sueño (estudio del Capítulo 11) ...................... 17. Técnicas ................................................................................ 17.1. Técnicas estadísticas ................................................... 17.2. La técnica de inducción de reglas: ID3 y C4.5/5.0 ..... 17.3. La técnica de “amalgamación”: los algoritmos de clustering de Hartigan ................................................. 17.4. La técnica de “agregación”: CP, OWA y WOWA ....... 17.5. La técnica de “agrupación difusa”: Fuzzy c-Means ... 17.6. La técnica de redes neuronales para clustering (tipo “Kohonen SOM”) ....................................................... 17.7. La técnica de “redes neuronales” para predicción ...... 17.8. La técnica del “algoritmo evolutivo” (o “genético”) ... 47 49 50 55 55 56 57 59 64 67 68 68 69 69 73 73 83 103 119 119 125 135 139 146 153 156 158 X ÍNDICE 18. Resumen de los aspectos claves en la adaptación e imple- mentación de las técnicas .................................................... 18.1. El cálculo de covarianzas difusas entre variables ....... 18.2. Resumen de las adaptaciones del operador de agrega- ción WOWA ................................................................Parte II. Aplicación de las técnicas a casos reales ..................... 19. Pronóstico de pacientes de la UCI - Hospital Parc Tauli de Sabadell ................................................................................. 19.1. Exploración inicial de los datos .................................. 19.2. Proceso del conjunto de datos UCI con la técnica de inducción de reglas C4.5 ............................................. 19.3. Proceso del conjunto de datos UCI con la técnica de inducción de reglas ID3 .............................................. 19.4. Clustering con la red neuronal Kohonen SOM .......... 19.5. Aplicación del joining algorithm de Hartigan a los datos UCI, usando covarianzas “difusas” y “no-difu- sas” como entradas ..................................................... 19.6. Proceso de los datos UCI con la técnica “Fuzzy c- Means” ........................................................................ 19.7. Resumen ..................................................................... 10. Datos del cuestionario de apnea. Laboratorio del sueño. Neumología (ICPCT), Hospital Clínico de Barcelona ...... 10.1. El diagnóstico de apnea usando WOWA con cocientes asignados por el médico experto ................................. 10.2. La comparación de diferentes métodos para asignar los cocientes de relevancia y fiabilidad. Agregación de datos usando el operador WOWA para casos de apnea del sueño ........................................................... 10.3. Resumen ..................................................................... 11. Datos del cuestionario de apnea. Centro de Estudios del Sueño (Neumosalud), Hospital de la Santísima Trinidad de Salamanca) ...................................................................... 11.1. Datos de prueba–variables seleccionadas ................... 11.2. Comparación de las formas de representación categóri- ca y como escala, de las preguntas del cuestionario ..... 165 171 181 189 191 194 201 217 227 231 238 242 247 249 253 261 263 265 269 XIÍNDICE 11.3. Aprendizaje y asignación de los valores de relevancia y fiabilidad .................................................................. 11.4. Resultados: diagnóstico de apnea usando el operador de agregación WOWA ................................................ 11.5. Comparación de la precisión predictiva en el diagnós- tico usando agregación WOWA respecto a otros méto- dos de modelización predictiva ................................... 11.6. Resumen ..................................................................... 12. Resumen y conclusiones ...................................................... Anexo A. Descripción de todas las variables del conjunto de datos de “Admisiones Hospitalarias UCI”, procesado en el Capítulo 9 del libro ....................................................................... Anexo B. Cuestionario de apnea screening usado en Capítu- los 10 (versión no-difusa/categórica) y 11 (versión difusa/con escalas) ........................................................................................... Glosario ......................................................................................... Índice de autores .......................................................................... Bibliografía ................................................................................... Índice analítico ............................................................................. 272 276 277 278 281 287 295 303 313 317 325 XII ÍNDICE Este libro está dirigido a las personas que por razones profesionales o académicas tienen la necesidad de analizar datos de pacientes, con el motivo de realizar un diagnóstico o un pronóstico. Se explican en detalle las diversas técnicas estadísticas y de aprendizaje automatizado para su aplicación al análisis de datos clínicos. Además, el libro describe de forma estructurada, una serie de técnicas adaptadas y enfoques originales, basán- dose en la experiencia y colaboraciones del autor en este campo. El autor incorpora materia tanto de su experiencia práctica como de sus diversos proyectos de investigación, para enriquecer el contenido, el cual ofrece un enfoque original sobre la problemática del tema. En la Par- te II (Capítulos 9 al 11), ejemplos prácticos derivados de proyectos rea- les sirven para ilustrar los conceptos y técnicas explicadas en la Parte I (Capítulos 2 al 8). Prácticamente todos los métodos, técnicas e ideas que se presentan, por ejemplo “representación de datos”, “relevancia y fiabilidad de los da- tos” y “agregación”, pueden ser aprovechados tanto por el estudiante de medicina, de informática clínica o de estadística, como por un empleado de un laboratorio clínico u hospital. No es imprescindible disponer de un gran volumen de datos, y las herramientas de análisis citadas están dis- ponibles a un precio módico o son de distribución gratuita. A los lectores del libro, sí que se les supone una cierta familiaridad con la estadística, y de los objetivos básicos del análisis de datos clínicos: diagnóstico, pronóstico, identificación de tendencias, excepciones, similitudes, etc. Con referencia a la Figura 1.1, la Primera Parte del libro consiste de los Capítulos 2 al 8. En los Capítulos 2 al 5 se presentan los conceptos de análisis y los entornos de datos clínicos: Capítulo 2, Conceptos; Capí- tulo 3, La perspectiva difusa; Capítulo 4, El diagnóstico y el pronóstico clínico; Capítulo 5, Diagnóstico del síndrome de Apnea del Sueño. En 1 Introducción Capítulos 6 al 8, se afrontan con mayor profundidad las técnicas usadas, la problemática de la representación de los datos, y las adaptaciones pro- pias de las técnicas estándar: Capítulo 6, Representación, comparación y procesos de datos de diferentes tipos; Capítulo 7, Técnicas, y Capítulo 8, Adaptaciones de las técnicas estándar. Con referencia a la Figura 1.2, la Segunda Parte del libro consiste de los Capítulos 9 al 11, en los cuales se explica la aplicación de las técnicas y conceptos en tres situaciones reales: Capítulo 9, UCI – datos para el pronóstico (Hospital Parc Taulí, Sabadell); Capítulo 10, Datos (no-difu- sas) cuestionario Apnea (Hospital Clínico, Barcelona), y Capítulo 11, Datos (difusas) cuestionario Apnea (Hospital de la Santísima Trinidad, Salamanca). El Capítulo 9 trata del pronóstico de pacientes admitidos a la UCI, en términos de supervivencia y tiempo de estancia en el hospital. El Capítulo 10 trata del diagnóstico de pacientes de apnea a partir de datos captados de forma no-difusa (categórica), y por último, el Capítulo 11 explica el diagnóstico de pacientes de Apnea a partir de datos capta- dos de forma no-difusa y difusa (escalas). 2 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS Figura 1.1.NParte I: relación de capítulos (enumerados en rectángulos correspondien- tes con los conceptos y las técnicas expuestas). Conceptos 3 La perspectiva difusa. 7 Técnicas. 7.3 Amalgamación: Hartigan. 7.4 Agregación: WOWA. 7.1 Técnicas estadísticas. Agrupación 7.5 difusa: fuzzy c-Means. 7.6 Agrupación SOM, red neuronal tipo Kohonen. 7.7 Redes neuronales predictivas tipo ‘propagación hacia delante.’ 7.8 Algoritmos genéticos. Inducción 7.2 de Reglas:C4.5 e ID3. 4 Diagnóstico y pronóstico clínico. 5 Diagnosis del síndrome de apnea en el sueño. Representa- 6 ción, compara- ción y proceso de datos de diferentes tipos. Adaptaciones 8 de las técnicas estándar. El cálculo de 8.1 covarianzas difusas entre variables. Adaptaciones 8.2 del operador de agregación WOWA. •nData Mining. 2 •nRelevancia y fiabilidad. •nAgregación de variables y datos. •nRepresentación difusa de los datos. •nAnálisis de los datos con técnicas difusas. •nClustering. •nClasificación. Relación de los capítulos del libro con los conceptos y las técnicas presentadas ➡ ➡ Para los lectores que deseen enfocar en los aspectos más prácticos, se recomienda la siguiente lectura del libro: Capítulo 2, Conceptos;Capí- tulo 4, El diagnóstico y pronóstico clínico; Capítulo 5, Diagnóstico del Síndrome de Apnea del Sueño; Capítulo 9, UCI – datos para el pronósti- co (Hospital Parc Taulí, Sabadell); Capítulo 10, Datos (no-difusas) cues- tionario Apnea (Hospital Clínico, Barcelona), y Capítulo 11, Datos (difusas) cuestionario Apnea (Hospital de la Santísima Trinidad, Sala- manca). Para los lectores que están interesados en los aspectos teóricos, se recomienda un mayor enfoque en los siguientes capítulos del libro: Capí- tulo 3, La perspectiva difusa; Capítulo 6, Representación, comparación y procesos de datos de diferentes tipos; Capítulo 7, Técnicas, y Capítulo 8, Adaptaciones de las técnicas estándar. 3INTRODUCCIÓN Figura 1.2.NParte II: capítulos (enumerados) dedicados a la descripción y resultados de la aplicación de los conceptos y técnicas a entornos reales. Relación de los capítulos del libro: aplicación de los conceptos y las técnicas a entornos reales •nTécnicas estadísticas están- dar y de visualización de datos. •nInducción de Reglas: C4.5 o ID3. Redes neuronales predictivas tipo ‘propagación hacia-delante’. Amalgamación: Hartigan usan- do covarianzas difusas y no difusas como entradas. Agrupación SOM red neuronal tipo Kohonen. •nAgrupación difusa: fuzzy c-Means. •nCuestionario que captura los datos de forma categórica. •nDiagnóstico usando WOWA. •nAsignación de los cocientes de fiabilidad y relevancia por el es- pecialista médico. •n– comparativa con OWA y ‘Componentes Principales’. •nAsignación de los cocientes de fiabilidad y relevancia asig- nados por un consenso de diferentes técnicas. •n– k-Means, Kohonen, Con- dorcet. Covarianzas Pearson ‘Cross Product’. Regresión logística, regresión lineal, C4.5 inducción de reglas, red neuronal prop. delante. •nDos cuestionarios: uno que captura los datos de forma categórica y otro que captura los datos de forma difusa. •nComparación de la forma de representación categórica de las preguntas con la forma difusa. •nComparación de la asignación de los cocientes por el médico con la asignación/aprendizaje de los cocientes por un algo- ritmo genético. •nComparación del acierto pre- dictivo en diagnosis de la téc- nica de agregación WOWA, con las técnicas de red neuro- nal e inducción de árbol ID3. Pronóstico de pacientes admitidos a la UCI (Hospital Parc Tauli, Sabadell). 9 Diagnóstico del síndrome de apnea en el sueño (Hospital Clínico. Barcelona). 10 Diagnóstico del síndrome de apnea en el sueño (Hospital Santísima Trinidad, Salamanca). 11 Entornos reales 1.1.NCONTEXTO DE LA OBRA Este libro cubre una serie de líneas de investigación aplicada que comprenden el periodo desde 1996 hasta 2001. El objetivo global del trabajo contempla el desarrollo y refinamiento de un conjunto de mé- todos y herramientas que se pueden aplicar a las diferentes fases en el proceso de “minería de datos clínicos”. Una primera consideración ha sido cómo representar y procesar de forma conjunta a diferentes tipos de datos, por ejemplo, los tipos categórico, numérico y difuso, usando técnicas de agregación, amalgamación de variables y técnicas difusas. El área de la representación de datos de diferentes tipos (Secciones 2.4, 6.1 y 6.2 del libro), fue realizada en el periodo 1996-1997, en cola- boración con la doctora Karina Gibert (Departamento de Matemáticas y Estadísticas, Universidad Politécnica de Cataluña). Está seguido por el estudio y contraste de diferentes técnicas de modelización de datos, co- mo por ejemplo, clustering, redes neuronales e inducción de reglas (Ca- pítulos 9 y 10). La segunda área principal de estudio es la representación y proceso difuso de los datos y la agregación de datos (Secciones 2.3, 6.3, 7.4, 8.2, Capítulos 10 y 11). Este estudio se realizó en colaboración con el doctor Vicenc Torra (Instituto de Investigación en Inteligencia Artifi- cial, Bellaterra) y el doctor Juan Jacas (Departamento de Matemáticas, Escuela de Arquitectura, Universidad Politécnica de Cataluña) entre 1997 y 2001. Se centra en el uso de operadores de agregación, como, por ejemplo, WOWA, para procesar dominios reales de datos clínicos. Asi- mismo, se proponen soluciones para algunos de los problemas implícitos en estos operadores, como, por ejemplo, el tratamiento de datos desco- nocidos y la asignación de los valores de los cocientes. Diversos conjuntos de datos artificiales de prueba han sido procesa- dos, además de tres conjuntos reales de datos clínicos. Los conjuntos de datos de prueba usados incluyen Iris, y datos publicados por Hartigan, Bezdek y Torra. Además, las técnicas han sido aplicadas a dos dominios médicos, en colaboración con tres hospitales durante un periodo de cin- co años: datos de pacientes de UCI del Hospital Parc Taulí, Sabadell, Espa- ña; datos de pacientes de apnea del Hospital Clínico, Barcelona, España, y datos de pacientes de apnea del Hospital de la Santísima Trinidad, Sala- manca, España. 4 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS El análisis de datos y la representación de datos son dos áreas que han sido revolucionadas por el advenimiento de los métodos de aprendi- zaje automatizado a partir de 1950. A mediados de la década de los 60, Zadeh introdujo los conceptos difusos para el análisis de datos. Poste- riormente, otros investigadores evolucionaron estas ideas. Bezdek, por ejemplo, llegó a definir el algoritmo Fuzzy c-Means para la agrupación difusa de datos. Otros hitos claves fueron la aparición de las redes neuro- nales para la modelización supervisada, de las cuales el feedforward NN (propagación por delante) era de los más comunes. Una de las primeras referencias de redes neuronales es la de [Rosenblatt59]. Después entró en escena la inducción de reglas, que prometió ser una técnica con una amplia área de aplicación. Quinlan definió el algoritmo ID3, que llegó a ser el primer algoritmo “estándar” de inducción de reglas en la industria del software. Las redes neuronales perdieron su popularidad en la década de los 70 debido a problemas teóricos no re- sueltos (por ejemplo los mínimos locales), pero volvieron a destacar en los años 80. Los sistemas expertos adquirieron popularidad en los años 80, aunque con la llegada de la década de los 90 fueron absorbidos por apli- caciones híbridas y en aplicaciones que resolvieron problemas específi- cos. Sistemas basados en reglas evolucionaron hacía una combinación de sistemas basados en conocimientos expertos y herramientas para inducir reglas de forma automática a partir de los datos históricos. Otros enfo- ques fueron el Case Based Reasoning (razonamiento basado en casos), los Belief Networks (redes de creencias) y los operadores de agregación basados en técnicas de inteligencia artificial. Los operadores de agrega- ción llegaron a ser herramientas de uso práctico, debido especialmente al trabajo de Yager en consolidar los aspectos teóricos. 1.2.NMOTIVOS DEL ENFOQUE DEL LIBRO Muchos aspectos de análisis y la representación de datos aún están por resolver, cuando los datos no caen en categorías bien definidas, o cuando no se puede representarlos de una forma simple. En el área de análisis de datos clínicos, hay una constante búsqueda para métodos que aportan una mayor precisión en el diagnóstico de casos positivos y nega- tivos, y una mejor precisión en el pronóstico de la recuperación del paciente a medio y largo plazo. 5INTRODUCCIÓN El debate respecto a cómo mejor representar y capturar los datos tam- bién es un área de estudio actual dónde no existen las “mejores solucio- nes”. Otra consideración es el hecho de que muchos algoritmos necesitan un gran volumen de datos para poder llegar a un resultado aceptable. Esto es a pesar de que muchos dominios de datos clínicos e incluso otros domi- nios disponen de un número de casos relativamente pequeño. Como ejem- plo, un conjunto de datos clínicos podría consistir en unos 150 casos, mientras que el número de variables descriptivas sería 15 o más. Existen muchas técnicas estadísticas y de minería de datos quesiguen asignando los tipos de las variables de forma arbitraria para poder entrar los datos en los procesos y algoritmos de exploración o modelización. El operador WOWA es una técnica de agregación de datos que ofrece una posible solu- ción para algunos de estos problemas. Evaluamos los resultados de aplicar esta técnica a datos reales en los Capítulos 10 y 11 del libro. En el caso del operador WOWA en su forma estándar, requerimos que sea capaz de pro- cesar conjuntos con datos desconocidos, con una mínima pérdida de pre- cisión global. Un inconveniente del operador WOWA es la dificultad de una asignación manual de los vectores de metadatos (cocientes) a partir de un dominio de datos reales. Por esta razón, evaluamos métodos que apren- den los cocientes a partir de los datos históricos. Proponemos desarrollar un método que permita comparar variables de tipo “difuso” y “unificarlas” en un número reducido de factores más significativos. Este método parte de la necesidad de explorar y modelizar un conjunto de datos que incluye variables de diversos tipos. Si revisamos los entornos comerciales actuales de minería de datos, como, por ejemplo, Clementine, IBM Intelligent Miner y SAS Enterprise Miner, observamos que hay una falta en general de la capacidad de procesar datos en la forma difusa. Asimismo, no ofre- cen la posibilidad de definir múltiples vectores de cocientes como entradas al modelo de datos. Por último, hay una falta de operadores de agregación y algoritmos de modelización que dan resultados aceptables para conjun- tos de datos que contengan un número reducido de casos. 1.3.NOBJETIVOS El primer objetivo del libro es el desarrollo de un conjunto de méto- dos y herramientas que se pueden aplicar a las distintas fases en el pro- ceso de minería de datos. Es decir, la representación de datos, la explo- 6 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS ración de los mismos y la creación de modelos. Un segundo objetivo es la revisión de las técnicas existentes, aplicándolas a conjuntos de datos reales y artificiales, e identificando sus limitaciones. De esta for- ma, podemos definir áreas susceptibles de mejora y podemos desarro- llar técnicas que aportan soluciones para los datos y los dominios en cuestión. Demostramos los aspectos fuertes y débiles de una selección de las técnicas más conocidas de análisis estadístico e inteligencia artificial, tanto supervisadas como no-supervisadas. Revisamos técnicas de cluste- ring como k-Means, Fuzzy c-Means y el Kohonen SOM. En lo que se refiere a técnicas de clasificación o modelización predictiva, considera- mos a redes neuronales feedforward, inducción de reglas ID3 y C4.5 y la regresión lineal y logística. Consideramos diferentes aspectos de la naturaleza de los datos, por ejemplo, los diversos tipos que los datos pueden asumir: numérico, categórico, binario, etcétera. Evaluamos diferentes formas de repre- sentar y analizar los mismos, como, por ejemplo, clustering (segmen- tación) y clasificación. Comprobamos técnicas, como la agregación, que aportan información adicional al proceso de los datos mediante el uso de criterios de ponderación (cocientes) para indicar la fiabilidad y relevancia de los datos de entrada. Usando técnicas de componentes principales y amalgamación, podemos identificar estructuras sub- yacentes, mediante un estudio de la forma en que las variables estén agrupadas. Además, como condicionante del entorno real de los datos clínicos, estamos interesados en encontrar técnicas para su representación y pro- ceso que permitan conseguir un resultado aceptable, de clasificación, segmentación, o predicción, a partir de un número relativamente pequeño de casos. Se evalúan herramientas y métodos para todas las fases de minería de datos: la fase de representación y definición inicial de los mismos; la fase de exploración que incluye el estudio de relaciones entre variables que pueden estar definidas como tipos distintos; y por último, la fase de mo- delización. Estas herramientas nos permiten representar y procesar datos en la forma difusa, junto con datos no-difusos. En la fase de exploración de los datos usamos algoritmos como el “joining algorithm” de Harti- 7INTRODUCCIÓN gan, y un cálculo propio de distancias difusas de covarianza. En la fase de modelización usamos operadores de agregación como WOWA, para pro- cesar conjuntos de datos con un número pequeño de casos. Hemos adap- tado WOWA para poder procesar datos con valores ausentes, e incorpo- rando un método de aprendizaje de los vectores de cocientes a partir de los datos históricos. 1.4.NEL ALCANCE Y LA ORIENTACIÓN DEL LIBRO DESDE EL PUNTO DE VISTA DEL ANÁLISIS DE DATOS El alcance del libro, desde el punto de vista de los dominios de datos, contempla diversos conjuntos de datos artificiales de prueba y tres conjuntos reales de datos clínicos, uno de los cuales ha sido reco- gido especialmente para el estudio del Capítulo 11. En lo que se refiere a la representación de los datos, revisamos una diversidad de tipos de representación, y se evalúa el caso por la forma difusa. En cuanto a los métodos de proceso de datos, usamos una selección de métodos están- dar, como por ejemplo redes neuronales, inducción de reglas y méto- dos de la estadística clásica, y comparamos estos métodos con técnicas de uso menos “habitual” como la de Hartigan, Fuzzy c-Means u ope- radores de agregación como WOWA. La orientación del libro tiene dos puntos de énfasis: (1) la evaluación de técnicas difusas para mejo- rar los métodos existentes de análisis y representación de datos; (2) la aplicación de estas técnicas a datos clínicos para el pronóstico en el caso de los datos UCI, y el diagnóstico en el caso de los datos de apnea. Para terminar la Introducción, en la Figura 1.3 se ve un resumen de los diferentes métodos que han sido usados y probados, tanto estándar como propios, y su relación con las fases de minería de datos. Observa- mos que la aplicación de los métodos de clustering, como k-Means o Kohonen SOM, está restringida a la fase de exploración de los datos. Por su parte, los métodos de clasificación, como la inducción de reglas, se emplean tanto en la fase de exploración como en la fase de modeli- zación. 8 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS 9INTRODUCCIÓN Figura 1.3.NHerramientas y métodos usados (fila central), su relación a las diferentes fases de Data Mining (fila superior), y métodos existentes usados para comparación (fila inferior). Definición y representación de los datos Definición función de pertenencia, cuantificadores, vectores de cocientes, representaciones homogéneas para diferentes tipo de datos, captura de datos. Representación categórica y no-difusa de los datos. Exploración de los datos Covarianzas difu- sas, visualización, ‘joining algorithm’ de Hartigan, fuzzy c-Means. Operador de agre- gación WOWA. Redes neuronales propa- gación hacia delante, in- ducción de reglas (C4.5), regresión lineal y logística, operadores de agregación de datos OWA y WM. k-Means, Kohonen SOM, covarianzas no-difusas, induc- ción de reglas (C4.5 e ID3). Modelización de los datos En esta Primera Parte, que consiste de los Capítulos 2 al 8, se presen- tan los conceptos y técnicas que usamos luego en la Segunda Parte del libro para analizar los datos clínicos en diferentes entornos. Considera- mos tanto los conceptos de análisis de datos como los conceptos clínicos. En el entorno clínico, presentamos dos aplicaciones: la UCI y la pro- blemática de cuidados intensivos, y el Centro de Estudios del Sueño y la problemática del síndrome de apnea. En el Capítulo 2 presentamos los conceptos de Data Mining, relevan- cia y fiabilidad de los datos, agregación de variables y datos, representa- ción difusa de los mismos y el análisis con técnicas difusas. Por último, en el Capítulo 2 presentamos dos conceptos básicos en el análisis de datos: clustering, es decir, la agrupación de los datos sin información a priori, y la clasificación, que los agrupa en diferentes clases definidasa priori. En el Capítulo 3 introducimos el propósito del enfoque “difuso” (en inglés “fuzzy”) como una forma de representar y procesar los datos, y establecemos por qué este enfoque es el más adecuado para determina- dos tipos de datos. En el Capítulo 4 presentamos los conceptos clínicos de diagnóstico y pronóstico, junto con una introducción a los sistemas más establecidos de diagnóstico en la UCI (Apache, MPM, SAPS, …). Por último, presenta- mos técnicas existentes en la literatura para el diagnóstico y pronóstico clínico con técnicas de inteligencia artificial. En el Capítulo 5 presentamos la problemática de diagnóstico del sín- drome de apnea del sueño, y en qué consiste. En el Capítulo 6 introduci- mos la problemática de la representación, comparación y proceso de datos de diferentes tipos. Parte I Conceptos y técnicas Con el Capítulo 7 pasamos de los conceptos a las técnicas que vamos a usar en la Parte Segunda para analizar los datos. Hay tanto técnicas de la estadística clásica, como del ámbito de la inteligencia artificial. De la estadística clásica, se definen técnicas cómo la correlación, covarianza, regresión y las técnicas de Hartigan. De la inteligencia artificial, presen- tamos una diversidad de técnicas: inducción de reglas ID3 y C4.5; el ope- rador de agregación WOWA; el método de agrupación difusa Fuzzy c- Means; el Kohonen SOM para el clustering no-supervisado basado en redes neuronales; redes neuronales predictivas tipo “propagación hacia delante” y algoritmos genéticos. Para terminar la Primera Parte del libro, el Capítulo 8 resume las adaptaciones realizadas por el autor a las técnicas estándar (descritas en el Capítulo 7). Dichas adaptaciones servirán para las necesidades especí- ficas del análisis de datos clínicos que vamos a realizar después en la Par- te Segunda. 12 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS En este capítulo definimos los conceptos básicos que vamos a usar para el análisis y modelización de datos, como, por ejemplo, la minería de datos, el clustering y la clasificación. Además, hacemos un repaso de al- gunos de los enfoques más recientes de investigación e ideas innovadoras en áreas relevantes de la temática del libro. Dentro de esta sinopsis, inclui- mos los trabajos de Takagi y Sugeno en la modelización de datos, Dubois en metodología y representación, y Nakamori en el análisis factorial. 2.1.NLA “MINERÍA DE DATOS” Definimos la minería de datos como el análisis de datos con herra- mientas sofisticadas, que permiten el proceso y visualización de múltiples “vistas”, y la búsqueda de relaciones complejas en los datos. Además de presentar y manipular información conocida respecto a los datos, permite el descubrimiento de nuevos conocimientos. Podemos decir que la minería de datos se caracteriza por el descubrimiento de nuevo conocimiento. La Minería de Datos (en inglés conocida cómo Data Mining o Knowled- ge Data Discovery), es un proceso de análisis de datos de naturaleza inter- disciplinaria, cuya propuesta es la identificación y extracción de conoci- mientos de alto valor a partir de los datos. Los conjuntos de datos pueden ser de alto o bajo volumen, tener muchos atributos descriptivos, estructuras poca claras, e incorporar datos desconocidos, erróneos y con “ruido”. 2 Conceptos La minería de datos utiliza diversas técnicas para analizar y procesar los datos: a)NEstadística clásica: regresión lineal, correlación, etc... b)NAlgoritmos de aprendizaje automatizado para clasificación y pre- dicción: inducción de reglas, redes neuronales, etc... c)NExploración de datos usando herramientas para su visualización gráfica y manipulación. La estadística, por su parte, ofrece técnicas como la clasificación automática, discriminación, métodos factoriales y visualización gráfica. Por otra parte, la propuesta de algoritmos “inteligentes” es “aprender”, a partir de un conjunto de datos, y formar un modelo que representa el entorno, sea predictivo o de clasificación. Las técnicas que se suelen usar más son: redes neuronales para predecir y clasificar, inducción de reglas para explicar la estructura de un modelo y los perfiles de las clasificacio- nes; algoritmos genéticos para problemas de optimización; y algoritmos de correlación que sirven para identificar los factores más relevantes en un problema determinado. Todas esas técnicas se orientan hacía el des- cubrimiento de estructura en un conjunto de datos multidimensional. La relación entre el descubrimiento de conocimiento en bases de datos y el análisis clásico de datos se ve resumido en la Figura 2.1. 14 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS Figura 2.1.NEl “descubrimiento de conocimiento en las bases de datos” y el “análisis clásico de datos”, entendidas como áreas interdisciplinarias. Estadística Descubrimiento de conocimiento en bases de datos Análisis clásico de datos Inteligencia artificial Visualización Sistemas de gestión de bases de datos Los proyectos de minería de datos suelen estar orientados hacía el descubrimiento de conocimiento y la generación de modelos de datos. Suelen emplear técnicas como la predicción, clasificación, segmenta- ción, asociación, el descubrimiento de secuencias y el análisis de series temporales. Se pueden usar modelos predictivos; por ejemplo, para pre- decir los pacientes varones entre 45 y 65 años de edad con una probabi- lidad mayor de 70% para recuperarse de una enfermedad. Modelos de inducción, que nos pueden indicar los perfiles de los 1.000 pacientes de mayor riesgo para desarrollar una determinada enfermedad. Procesos de asociación, que extraen información como: si el paciente ha padecido A, entonces el/la padecerá B también, en un 65% de los casos. Asimismo, podemos usar técnicas para el descubrimiento de se- cuencias para deducir; por ejemplo, que una asistencia de tipo A ocu- rre después de una intervención de tipo C, para 2 de cada 5 pacientes. El descubrimiento de secuencias parecidas en el tiempo nos propor- ciona información como: si el paciente ha necesitado A, entonces necesitará también B en los próximos 3 meses, en 70% de los casos. Por último, la segmentación o clustering, puede describir estructuras subyacentes sin la necesidad de tener conocimientos a priori sobre los datos. Por ejemplo, podemos establecer tendencias comunes entre pa- cientes en diferentes áreas del hospital, y asignar recursos comunes para ellos. Algunos de los centros para la minería de datos y grupos de investi- gadores que han destacado más en los últimos años son: Usama Fayy- dad de MicroSoft Research, EE UU; Willi Klösgen in GMD (German National Research Centre for Information Technology); Heikki Manni- la, anteriormente de la Universidad de Helsinki, Finlandia; G. Nakhaei- zadeh de Daimler Benz Research Centre AG, Forschungszentrum, Ulm, Alemania; Gregory Piatetsky-Shapiro de GTE Laboratories, EE UU; Ross Quinlan, del Centre for Advanced Computing Sciences, New South Wales Institute of Technology, Australia; Ken Totton, Data Mi- ning Group, British Telecom, Inglaterra; Barry Devlin, IBM Dublin, Irlanda. El enfoque del grupo de la Universidad de Helsinki se basa en el aná- lisis de secuencias de datos y en la identificación de características recu- rrentes y subyacentes en secuencias de eventos. Utilizan cadenas de Mar- kov y métodos Monte Carlo para examinar en detalle las dependencias 15CONCEPTOS entre eventos. Aplican métodos de clustering para encontrar regularida- des en los datos. Uno de los enfoques especiales adoptados por este gru- po de investigadores se basa en redes neuronales Kohonen para el cluste- ring no-supervisado. Enfoques actuales En el presente y durante la última década ha habido muchas aplica- ciones usando las técnicas de redes neuronales, inducción de reglas y algoritmos genéticos, y en combinación con la estadística clásica. En el área de la minería de datos, existen además referencias a conceptos de la lógica difusa, aplicados al clustering, y la representación y el tratamien- to de la imprecisión. En el áreade clasificación jerárquica, las referencias tienden estar relacionadas con la inducción de árboles. Borgelt, de la Universidad de Magdeburg, Alemania, ha estudiado medidas de evaluación para el aprendizaje en redes probabilísticas y posibilísticas [Borgelt97]. Borgelt ha colaborado con el grupo de Da- ta Mining de Daimler-Benz bajo los auspicios de Nakhaeizadeh. En [Borgelt97], se emplean las medidas de �� y de entropía para calcular la ganancia o pérdida de información, y para propagar estos datos en una red. Una de las áreas de especial enfoque del grupo de investigación de minería de datos de Daimler-Benz ha sido la de técnicas de reducción de datos para grandes números de atributos, y con un número reducido de tipos de datos. Han comprobado sus algoritmos con diferentes dominios de datos, aunque su área principal es, lógicamente para Daimler-Benz, el análisis de fallos de componentes de automóviles y sus características. Dubois, del Institut de Recherche en Informatique de Toulouse, Francia, en su artículo [Dubois97] se centró en una síntesis de los datos dirigida por el usuario y basado en reglas graduadas. Algunos ejemplos de los temas que su grupo de investigadores ha estudiado son: prepro- ceso y reducción de la dimensionalidad de los datos, y la identificación inicial de estructuras en los mismos. Una de sus conclusiones fue, res- pecto al uso de las técnicas de Kohonen, C4.5 y c-Means para identifi- car estructuras iniciales en los datos. En el caso de c-Means se concluyó que se debe usar esta técnica con cautela dado que según sus pruebas no 16 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS funciona bien en la presencia de valores extremos (outliers). Además, c- Means requiere que el usuario especifique el número inicial de clusters. Como alternativa, se puede usar una técnica del tipo de simulated an- nealing, como por ejemplo, ID3, el cual proporcionaría una buena so- lución inicial. Asimismo, se podría usar el modelo Sugeno-Takagi como sustituto para el Kohonen SOM estándar. Las técnicas de Kohonen SOM y c-Means pueden encontrar particiones muy distintas en el mis- mo conjunto de datos, lo que es útil si deseamos demostrar técnicas contrastadas. En [Dubois97] se explica una metodología para el análisis de un con- junto de datos: paso 1, identificar puntos típicos; paso 2, calcular centros; paso 3, refinar reglas. En los datos de ejemplo había sólo dos atributos, dado a que se suponía un preproceso de los datos para elegir las variables más relevantes. El método centra en la creación de reglas a partir de estas variables. En el proyecto Europeo [Esprit] de StatLog [StatLog94], se realizó una comparativa entre 20 de los algoritmos más importantes que sirven para la clasificación usando técnicas basadas tanto en la inteligencia arti- ficial como en la estadística clásica. Entre los algoritmos puestos a prue- ba se incluyeron: C4.5, discriminante lineal y cuadrática y NewID (variante de ID3). No se incluyó ningún algoritmo basado en la lógica difusa (por ejemplo fuzzy c-Means). Sistemas comerciales de minería de datos Existe hoy una diversidad de oferta en sistemas comerciales de análi- sis de datos. Los principales sistemas, en lo que se refiere a ventas, son: Clementine de SPSS, Intelligent Miner for Data de IBM, Enterprise Miner de SAS, y Oracle Data Mining Suite (anteriormente este producto se llamó “Darwin” y Oracle lo compró de la empresa “Thinking Machines”). Todos estos sistemas contienen un repertorio básico de funciones estadísticas para la preparación de los datos, la exploración y la mode- lización. Además, todos tienen una o más técnicas para la clasificación y segmentación (clustering). Para predicción, suelen incluir las técni- cas de “redes neuronales”, o “regresión lineal” y “regresión logística”. Para la clasificación: “inducción de reglas” (suelen usar C5.0 o ID3, 17CONCEPTOS o algo parecido). Para agrupar datos: “red neuronal Kohonen SOM” o “k-Means”. En el caso de “Intelligent Miner” de IBM, para predicción también tiene la técnica Función de Base Radial (RBF), y para segmenta- ción tiene una técnica basada en el Criterio de Condorcet que crea modelos “demográficos”. El Condorcet ofrece una mejora para datos con muchos valores categóricos. Hay diferentes técnicas para el análi- sis de asociaciones, series temporales y patrones de secuencias, que se basan en el análisis de frecuencias y reconocimiento de patrones de secuencias (lo que usted hace a simple vista él lo hace de forma auto- matizada y más rápida). Intelligent Miner destaca por la calidad sus algoritmos y su capacidad de trabajar con grandes volúmenes de datos. En cuanto al interfaz del usuario, una de las características más potentes en manos de un buen usuario, es la forma de mostrar los datos, tanto para exploración como para resultados. Se suelen mostrar juntas a todas las variables (o cuantas quepan en la ventana) con sus distribuciones (histograma por variables numéricas y pastel para variables de categorías). Esto permite un escrutinio de las tendencias de cada variable, y las variables entre sí, a través de diferentes téc- nicas de proceso (red neuronal, RBF...) y conjuntos de datos (en- trenamiento, prueba, sólo clientes de Barcelona, sólo clientes de Madrid...). El Enterprise Miner de SAS emplea una metodología de análisis de datos que se llama SEMMA (sample, explore, modify, model y assess), es decir: muestreo, explorar, modificar, modelizar y eva- luar los resultados. Tiene una interface tipo canvas basado en el uso de iconos distintivos que representan las diferentes técnicas y proce- sos disponibles. Los iconos se usan de forma “coger, arrastrar, sol- tar”. La interfaz en sí pretende guiar el usuario mediante la meto- dología SEMMA. Aporta técnicas específicas para asociaciones, patrones secuenciales, árboles de decisión (CHAID/CART/C5.0), redes neuronales, regresión logística, segmentación (k-Means), RBF y una amplia selección de técnicas estadísticas. Podemos decir que los puntos fuertes de esta herramienta son su herencia estadísti- ca (SAS originó como una compañía de herramientas estadísticas) y las buenas prácticas impuestas al usuario mediante la metodología SEMMA. 18 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS Clementine de SPSS (anteriormente de ISL) incorpora técnicas de redes neuronales, regresión e inducción de reglas, con redes Kohonen para segmentación y C5.0 para árboles de decisión. Clementine usa téc- nicas visuales de forma extensa, las cuales proporcionan al usuario una agilidad para la manipulación y el proceso de los datos. Se puede visua- lizar los resultados con una variedad de representaciones gráficas como plots, scatter, histogramas o tablas de distribución (alineadas de forma horizontal) y diagramas “telaraña” para desvelar relaciones entre los datos. También es capaz de crear modelos para la predicción, pronóstico, estimación y clasificación que se pueden exportar en lenguaje “C” y usar en otros programas. Tiene una interfaz tipo “canvas”, parecido a la de Enterprise Miner. Podemos decir que el punto fuerte de Clementine es su agilidad en manipular los datos: se puede generar un gráfico, seleccionar una región de ella y hacer un drill-down sobre los datos correspondien- tes, además de poder “enganchar” procesos de modelización con los de preproceso de los datos, con cierta facilidad. Aunque estas modernas “cajas de herramientas” de minería de datos son bastante completas en su funcionalidad para la exploración y modelización de datos, ninguno de los sistemas más conocidos hasta el presente ofrece el proceso y/o una representación difusa de los mis- mos. Tampoco suelen disponer de la técnica de algoritmos genéticos accesible por el usuario final. Sí que existen herramientas específicas, como el DataEngine de MIT GmbH’s, que permite el diseño, defini- ción y ejecución de reglas de lógica difusa y de funciones de pertenen- cia. En el campo de los algoritmos genéticos, el programa Genehunter, de Ward Systems, permite la definición y ejecuciónde problemas mediante una interfaz tipo hoja de cálculo. Un problema real se define en términos de conjunto de datos, los genes modificables y parámetros como la tasa de mutación y el tipo de intercambio (crossover). Véase Sección 7.8 del libro para una descripción más detallada de los algorit- mos genéticos. En el campo de la agregación de datos, no existen operadores explíci- tos de agregación en las herramientas comerciales más conocidas. Para la selección de atributos y su ordenación desde el punto de vista de relevan- cia, normalmente existen técnicas contrastadas, como por ejemplo, el análisis de componentes principales, análisis de sensibilidad con red neu- ronal, podado de arboles de decisión, y diversos tipos de correlación y 19CONCEPTOS covarianza. En la práctica distintas técnicas pueden dar resultados di- ferentes. 2.2.NRELEVANCIA Y FIABILIDAD Consideramos un conjunto de casos C1, por ejemplo el conjunto de personas que gozan de buena salud. Cada persona Pn en el conjunto se define por M variables que la describen, por ejemplo, edad, sexo, pre- sión sanguínea, nivel de colesterol, “mapa genético”, si fuma, cantidad que fuma, tipo de dieta, si realiza ejercicio físico, color del cabello, etcétera. Ya hemos determinado el concepto que identifica a los miem- bros del conjunto (CDC, o concepto que define el conjunto), esto sien- do el de las personas que gozan de buena salud. Por lo tanto, podemos decir que algunas de las variables que describen a la persona serán más relevantes que otras al concepto CDC del conjunto. Por ejemplo, sabe- mos que se puede analizar la variable “mapa genético” para saber si la persona tiene una propensión a padecer determinadas enfermedades. Además, innovaciones más recientes en las técnicas de análisis del “mapa genético” han hecho posible su interpretación precisa. El resul- tado ha sido que una variable, que hasta hace sólo unos años no estaba disponible, ahora puede tener precedencia sobre cualquier otra variable como indicador de la salud futura de una persona. Así que podemos realizar una suposición cualitativa inicial de que “mapa genético” es relevante para “gozar de buena salud”. De otra parte, la variable “color del cabello” no tiene ninguna influencia en absoluto respecto a sí una persona goza de un mejor o peor estado de salud. En conjuntos com- plejos de datos con muchas variables, un problema clave al inicio es el de establecer la relevancia de forma cuantitativa de las variables, en relación con un concepto determinado, o “salida”, y obtener una orde- nación (ranking) de todos las variables en orden de relevancia. Como consecuencia, quedan eliminadas las variables cuya relevancia es menor que un umbral determinado. De esta forma conseguimos reducir las variables a un conjunto mínimo con mayor relevancia. En el análi- sis de datos, esto es nuestro objetivo principal en el contexto de la rele- vancia. 20 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS Trabajos recientes en el área de “relevancia” El trabajo de [Gonzalez97] presenta dos enfoques contrastados res- pecto al problema de obtener el conjunto de variables más relevantes. El primer enfoque se trata de eliminar las variables no-relevantes del conjunto total, mientras que en el segundo enfoque se pretende cons- truir un conjunto de variables de mayor relevancia de forma incremen- tal. SLAVE (Structured Learning Algorithm in Vague Environment) tie- ne como uno de sus objetivos el de acelerar el proceso de aprendizaje, con un tiempo de ejecución dos veces menor que el algoritmo están- dar con el mismo número de reglas. Dos criterios para la “bondad” de una regla son (1) el grado de consistencia “blanda” y (2) el grado de completitud. Los conjuntos de datos usados para prueba son: Ionosphe- re, Soybean y Wine. Para seleccionar las reglas se emplea un algoritmo genético de dos niveles, el nivel de variable y el nivel de valor (del dato). Además, se consideran dos niveles de información: el nivel de relevancia y el nivel de dependencia entre variables. Una regla tiene la siguiente estructura: Regla SI Precedence ENTONCES Antecedente {representado por un cromosoma} En resumen, el método de González usa información sobre la rele- vancia de las variables predictivas para mejorar los modelos resultantes. [Blum97] tiene diferentes definiciones para la relevancia, que depen- den del contexto y objetivos en cada caso. El término “relevancia al ob- jetivo” que usa Blum se refiere a que una característica xi es relevante a un concepto objetivo c si existe una pareja de ejemplos A y B en el es- pacio de instancias, tales que A y B difieren sólo en su asignación a xi y c(A) �� c(B). De esta forma, característica xi es relevante si existe algún ejemplo para el cual, como consecuencia de una modificación de su valor, se ve afectada la clasificación dada por el concepto c. Blum también cita otras definiciones de relevancia, como la “relevancia fuer- te a la muestra/distribución”, “relevancia débil a la muestra/distribu- ción”, “relevancia como una medida de la complejidad”, y “utilidad incremental”. 21CONCEPTOS Dependiendo de cómo definimos el concepto de “relevancia”, dife- rentes características o grupos pueden quedar identificados como rele- vantes. Blum propone una fase de preproceso para reducir el número de características antes de aplicar la fase de clasificación (inducción). [Blum97] describe un enfoque basado en un “filtro”, parecido pero me- nos interactivo que el enfoque de Kohavi [Kohavi97]. Primero se ejecu- ta un módulo que es el filtro en sí, seguido por el proceso de inducción. Blum cita dos ejemplos de algoritmos de filtro. El primer es RELIEF [Kira92], que ha sido usado por muchas aplicaciones de análisis de datos clínicos. RELIEF asigna un “cociente” de relevancia a cada ca- racterística, el cual indica la relevancia de la característica respecto al concepto objetivo. A continuación, se realiza un muestreo aleatorio del conjunto de datos de entreno y se actualizan los valores de relevan- cia, basándose en la diferencia entre el ejemplo (caso) seleccionado y los dos ejemplos más cercanos a la misma clase y de la clase opuesta. El segundo algoritmo de filtro es FOCUS [Almuallim91], que examina de forma exhaustiva todos los subconjuntos de características, seleccionan- do el subconjunto minimal de características que sea suficiente para determinar el valor de la etiqueta para todos los ejemplos en el conjunto de datos de entreno. [Kohavi97] explora la relación entre la relevancia y la selección de un subconjunto óptimo de características. Se presenta un mecanis- mo que se llama el “envuelto”, o FSS-Feature Subset Selection. Este mecanismo se incorpora en los algoritmos de inducción de reglas C4.5 e ID3, y en el algoritmo de Niave-Bayes. Se demuestra una mejora en la precisión clasificadora para conjuntos de datos como Corral, Monk1 y Monk2-local, del repositorio de conjuntos de datos la Universidad de California en Irving. Como resultado, se consiguió una precisión igual que con otras técnicas usando un número menor de características como entradas. La justificación para este enfoque es que muchos de los algoritmos de inducción más conocidos pier- den rápidamente su precisión predictiva en la presencia de un gran número de características, si la relevancia de estas no es buena para predecir el resultado/salida deseada. El algoritmo estándar de Naive Bayes, por ejemplo, pierde precisión rápidamente cuando se añaden características con una correlación baja con el resultado de- seado. 22 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS Kohavi afirma que el enfoque del “envuelto” ofrece una mejora res- pecto al simple uso de un filtro como en los algoritmos de FOCUS o RELIEF. Según Kohavi, la principal desventaja de la técnica del filtro es que no toma en cuenta los efectos del subconjunto seleccionado de carac- terísticas sobre el rendimiento del algoritmo de inducción. En contraste, su enfoque sí que toma en cuenta estos efectos. Con el enfoque del “envuelto”, el subconjuntode características queda optimizado para su uso con el algoritmo de inducción. Kohavi, en [Kohavi97], revisa diversas definiciones de “relevancia” en la literatura. Su revisión sólo considera las definiciones para da- tos de tipo categórico, aunque Kohavi afirma que sería posible exten- derlas a datos de tipo numérico. Kohavi concluye que son necesarios dos grados de relevancia para garantizar resultados únicos. Estos dos grados se definen como el grado “débil” y el grado “fuerte”. Demues- tra su planteamiento con un ejemplo usando Xor: una característica Xi es relevante en grado “fuerte” si y sólo si existe un xi, y un si para los cuales (Xi = xi, Si=si) > 0 tal que p(Y=y|Xi=xi,Si=si)!=p(Y=y|Si=si). Una característica Xi es relevante en grado “débil” si y sólo si no es relevante en grado “fuerte” y existe un subconjunto de característi- cas S’i de Si para el cual existe un xi, y un s’i con p(Xi =xi,S’i=s’i) != p(Y=y|S’i =s’i). 23CONCEPTOS Conjunto de entrenamiento Conjunto de caracte- rísticas Conjunto de caracte- rísticas Hipótesis Conjunto de prueba Precisión estimada Estimación de la calidad del resultado Conjunto de entrenamiento Conjunto de características Búsqueda y selección de características Evaluación de características Algoritmo de inducción Algoritmo de inducción Evaluación final Figura 2.2.NEl enfoque de “envuelto” aplicado a la selección de un subconjunto de características.El algoritmo de inducción esta usado como una “caja negra” por el algo- ritmo de selección de características. En la Figura 2.2 vemos una síntesis del enfoque del “envuelto” expli- cado en [Kohavi97], en la cual se ve que el algoritmo de selección del subconjunto de características actúa como un “envuelto” alrededor del al- goritmo de inducción. El algoritmo de selección realiza una búsqueda para un subconjunto “bueno” usando el algoritmo de inducción como un componente de la función que evalúa los subconjuntos de características. De este modo, se considera que el algoritmo de inducción es una “caja negra”, que procesa el conjunto de datos, particionándolo internamente en conjuntos de entrenamiento y prueba, para los cuales se han elimina- do diferentes grupos de características. El subconjunto de características que consigue la evaluación más alta es elegido como el conjunto defini- tivo sobre el cual se ejecutará el algoritmo de inducción. A continuación, se evalúa el resultante clasificador sobre un conjunto de prueba indepen- diente que no ha sido usado previamente. Kohavi contrasta dos técnicas para la búsqueda y selección de carac- terísticas: (a) hill climbing y (b) best first search. Se aplican estas técni- cas de forma sucesiva a los conjuntos de datos de prueba, usando como algoritmos de inducción, el ID3, C4.5 y Naive Bayes. Los resultados indican una ligera mejora en la precisión de clasificación de algunos de los casos. Sin embargo, la principal mejora es la capacidad de crear un modelo de clasificación con un número significativamente menor de ca- racterísticas de entrada, manteniendo mientras una precisión predictiva similar a los algoritmos originales. Fiabilidad La fiabilidad es un campo que fue muy activo en los años 80, con especial referencia a sistemas tolerantes a fallos. Como ejemplos de aplicaciones prácticas, podemos citar a la tolerancia de fallos en redes de comunicaciones y en las unidades centrales de proceso de los orde- nadores (CPU); el control de procesos críticos (aviones, centrales nu- cleares), y la toma de decisiones criticas (diagnóstico, pronóstico, …). Una solución tradicional y sencilla, pero costosa, fue la replicación de unidades, su ejecución en paralelo y una medición de consenso. La sali- da global del sistema sería igual al valor asignado a la mayoría de las salidas. Por ejemplo, si hay cinco salidas, tres de las cuales tienen asig- nadas el valor SÍ y dos de las cuales tienen asignadas el valor NO, 24 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS entonces por mayoría simple, la salida global sería SÍ. Otra solución para la tolerancia a fallos fue la redundancia intrínseca en un sistema. Es decir, si unidad A falla, unidad B, idéntica a la A, se pone en marcha para sustituirla. Ahora vamos a considerar lo que acabamos de comentar desde el punto de vista de la fiabilidad de los valores de los datos. Un enfoque común para maximizar la fiabilidad de los datos es el uso de múltiples fuentes para el mismo valor. Por ejemplo, varios sensores para la me- dición de una temperatura, o varias opiniones expertos para un diag- nóstico clínico. De los N sensores u opiniones, se realizaría una “vota- ción” por mayoría simple sobre un número impar de valores de salida, para producir el resultado definitivo. Como ejemplo, suponemos que hay cinco sensores de temperatura {A,B,C,D,E} y tres de ellos {A,C,E} dicen que la temperatura es entre 10 y 12 grados Celsius, mientras que {B} dice que la temperatura es entre 10 y 15 grados, y {D} indica una temperatura de entre 25 y 50 grados. La salida como resultado sería que la temperatura es entre 10 y 12 grados, por mayoría simple. Anotamos que este método requiere un número impar de sen- sores. Aunque una mayoría de 60% de los sensores coincidieron con el mismo resultado, un 40% dieron salidas distintas. Si deseamos, podríamos incluir esta información como un grado de confianza en el resultado final. Sistemas replicados y de votación son muy importantes en sistemas críticos de control, como por ejemplo, los que se encuentran en aviones, redes ferroviarias, plantas de energía nuclear, etcétera. Ahora consideramos el caso de una variable de entrada de tipo numé- rico, por ejemplo, temperatura. Suponemos que para esta variable tene- mos un solo sensor y un dato o lectura. Podríamos asignar un valor de “ponderación” (cociente) a la variable para indicar su fiabilidad en gene- ral. Es decir, su tendencia para dar resultados incorrectos, relativo a algu- na medida absoluta. Otra opción sería asignar un valor que representa un grado de fiabilidad para las diferentes bandas que existen en su distribu- ción. Por ejemplo, si tenemos el siguiente conjunto de lecturas de tempe- ratura en grados Celsius, {1, 1, 3, 3, 25}, el valor 25 sería considerado como “sospechoso”, “improbable” o “poco-fiable”. Sin embargo, la fia- bilidad de los valores depende de la distribución en cada caso, así que el 25CONCEPTOS valor 25 en el conjunto {25, 25, 30, 30, 45} sí que sería considerado como fiable. Por consiguiente, a cada valor podríamos asignarle un gra- do de fiabilidad, con un valor entre 0 y 1, dónde 1 sería totalmente fiable y 0 indicaría ninguna fiabilidad. Más adelante veremos como Yager y Torra han extendido esta idea para permitir que los operadores de agregación incluyan grados tanto pa- ra la fiabilidad como para la relevancia de cada variable de entrada. 2.3.NAGREGACIÓN DE VARIABLES Y DATOS En esta sección vamos a presentar unas técnicas que sirven para agre- gar datos y variables para dar una respuesta, diagnóstico o pronóstico a partir de un conjunto de datos de entrada. El operador “Ordered Weighted Average” (OWA): es una técnica que permite incluir un “cuantificador” en un proceso de agregación de una serie de casos de datos correspondientes. Fue detallado por la pri- mera vez por Yager en [Yager88]. Con el OWA, Yager trató de encon- trar una solución al problema de agregar criterios múltiples para formar una función universal de decisión. Una propiedad clave del operador OWA es la capacidad de orientar su resultado (salida) entre el “y”, para el cual se deben cumplir todos los criterios, y el “o”, para el cual se debe cumplir como mínimo sólo uno de los criterios. De esta forma, permite una aproximación más cercana a la forma de tomar decisiones de las personas, en la cual a menudo requerimos el cumplimiento de “la mayoría” o “muchos”, o “como mínimo la mitad” o “más de cuatro” de los criterios. El operador WOWA: Torra en [Torra97a] describe el operador Weigh- ted OWA (WOWA), que combinan las ventajas deloperador de la media ponderada (WM, o Weighted Mean) con las del operador OWA. De esta forma se solucionan algunas de las carencias de estos operadores cuando se consideran por separados. WOWA incluye dos vectores de cocientes: el vector � corresponde a la relevancia de las fuentes de datos (como en la media ponderada) y el vector � corresponde a la relevancia, que noso- tros en este libro interpretamos como la “fiabilidad”, de los valores (como en OWA). Una de las dificultades que se encuentra en usar los operadores de agregación es la asignación inicial de los cocientes asocia- 26 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS dos, por ejemplo, los pesos de relevancia � de cada fuente de informa- ción. En [Nettleton01b] se contrastan diferentes métodos de análisis de datos cuyo fin es determinar unos valores iniciales para los cocientes de WOWA. Elección del operador WOWA: hemos elegido el operador WOWA para agregar los datos que describen los casos de pacientes. El operador produce como resultado, un diagnóstico para el síndrome de apnea, según detallado luego en los Capítulos 10 y 11. Una de las razones de usar WOWA preferentemente a otros posibles operadores como OWA o WM, es porque nos permite incluir una cuantificación tanto para la “fiabilidad” como para la “relevancia” en el proceso de agregación. El operador también es adecuado para procesar datos cuya representación es en la forma difusa, mediante la incorporación de grados de pertenen- cia como un vector adicional con los datos de entrada. En la literatura, el operador WOWA ha sido comparado con otros operadores y técnicas, como por ejemplo, OWA, Choquet Integral, Sugeno Integral [Suge- no74] y fuzzy t-integral [Murofushi91]. Se puede decir que el Choquet Integral o el Sugeno Integral son más apropiados para el proceso de datos con grados de pertenencia. Sin embargo, Torra ha demostrado en [Torra98c] que WOWA es equivalente al Choquet Integral en determi- nadas circunstancias. El “Joining Algorithm” de Hartigan: el “Joining Algorithm” [Har- tigan75] realiza sucesivas fusiones de las variables usando como entra- da una matriz de covarianzas de estas variables. Una consecuencia de la fusión es la reducción del conjunto inicial de variables a un espacio de dimensión 2 o 3, la cual simplifica, por ejemplo, la visualización de los datos. El algoritmo de fusión sirve para lograr dos objetivos: el pri- mero siendo la reducción de variables mediante su progresiva unifica- ción; el segundo siendo la identificación de los factores de mayor rele- vancia y los factores entre los cuales existe mayor relación. Resumen: en cada paso, se fusiona la pareja de variables con la mayor covarian- za para forma una nueva variable, hasta que se obtiene el número de- seado de variables o hasta que el árbol binario de agrupaciones es completo. Es a partir de este árbol de variables fusionadas que se pue- den seleccionar diferentes descripciones de los objetos que están siendo analizados; descripciones que tengan la dimensión más conve- niente en cada caso. 27CONCEPTOS Elección del “Joining Algorithm” de Hartigan: el libro de Hartigan, Clustering Algorithms [Hartigan75] fue un hito de referencia para la comunidad de investigadores en algoritmos de clustering. Ha sido usado como una fuente para algoritmos de prueba, y a partir de la cual han sur- gido nuevas variantes y mejoras de los algoritmos originales. Además de ser una fuente de algoritmos contrastados, el libro también proporciona y (en general) explica bien el código fuente de los algoritmos, siendo estos escritos en el lenguaje Fortran. La implementación de los algoritmos por parte de Nettleton en el presente libro fue en lenguaje Borland “C”. El enfoque de Hartigan tiene una base sólida en el campo de la estadística clásica, y sus algoritmos son claramente de naturaleza crisp (determinis- ta en vez de probabilística). Esto proporciona un banco de prueba para una posterior generalización y adaptación para el proceso de los datos con técnicas difusas. Trabajos posteriores de Hartigan incluyen algunas consideraciones respecto a la distribución de los datos en el proceso de clustering [Hartigan77][Hartigan78], la consistencia [Hartigan81] y as- pectos más teóricos [Hartigan85a][Hartigan85b]. Otros autores comparables en el campo del análisis factorial y el análisis multivariante son [Mardia79][Lebart85][Kaufman90]. [Kauf- man90], es de especial relevancia, dado a que sus métodos de análisis se basan en la forma difusa, y su amplia gama de 10 algoritmos distintos para fusión de variables, siendo estos distintos a los de Hartigan. 2.4.NLA REPRESENTACIÓN “DIFUSA”DE LOS DATOS Existen diferentes técnicas para representar datos de forma difusa. Por ejemplo, la representación heterogénea de Hathaway y Bezdek [Hat- haway96] y los “Parmenidean Pairs” de [Aguilar91]. En [Aguilar91] se presenta una técnica que se llama “Parmenidean Pairs” (en castellano, pares parmenideanos), que genera de forma automática a un número impar de etiquetas lingüísticas a partir de dos conceptos lingüísticos antagónicos. Las cinco etiquetas lingüísticas generadas representan los valores ordenados de la variable, derivado de lo que se termina “Parme- nidean Pair”, que responde a los valores básicos y opuestos que puede asumir la variable. Este método es muy apto para variables como “días de estancia en el hospital”. Para esta variable podríamos definir cinco valo- res difusos para la estancia del paciente: MUY CORTA, CORTA, ME- 28 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS DIANA, LARGA, MUY LARGA, derivados a partir de los apuestos básicos de CORTA, LARGA. La complejidad y utilidad de la técnica res- ta en el cálculo automático de las propiedades geométricas de las funcio- nes de pertenencia: pendiente, centro de masa, solapamiento entre cada etiqueta lingüística, longitud de los pendientes, y el resultante grado de difusión que cada una de estas propiedades define. La Figura 2.3 indica una sencilla representación para una VLD (Va- riable Lingüística Difusa). Desde un punto de vista semántico, se puede identificar una VLD con 3 parámetros: su posición relativa a las demás variables, su grado de imprecisión, y su grado de incerteza. Se pueden unificar los últimos dos parámetros en un solo concepto, la “blandura”, que sería el concepto opuesto de la “dureza” (o crispness). Las formas trapeziodal y triangular pueden ser consideradas como aproximaciones a funciones de pertenencia cuya forma natural es una curva. La forma de curva es más compleja de generar que los trapezoi- des que hemos visto antes, y a menudo se representa con una ecuación paramétrica. La curva se genera, o se interpola, a partir de un número finito de puntos. En la Figura 2.4 se ve un ejemplo de una función de per- tenencia no-lineal, en la cual los cinco conjuntos difusos definidos por los trapezoides de la Figura 2.3 ahora quedan representadas por curvas continuas. Observamos que en la Figura 2.3 existe una zona de solapa- miento de tres de los conjuntos difusos, siendo estos: muy corta-corta- mediana y mediana-larga-muy larga. Esto implica que un punto podría tener un grado de pertenencia significativo que corresponde a cada uno de los tres posibles conjuntos difusos. Por otra parte, en la Figura 2.4 un solapamiento solo puede existir entre dos conjuntos difusos en cualquier 29CONCEPTOS Figura 2.3.NRepresentación de variables léxicas con áreas trapezoidales. punto. Además, se observa que los rangos de los conjuntos difusos sobre el eje-x son diferentes entre las Figuras 2.3 y 2.4. Referencias relacionadas con la representación de funciones de pertenencia y etiquetas lingüísticas A continuación citamos algunas referencias recientes: [Roychowd- hury97] trata de conjuntos difusos trapezoidales y triangulares, [Boixa- der97] considera las funciones de pertenencia complejas que pueden asu- mir formas irregulares; por último, [Torra99c] considera la generación de funciones de pertenencia a partir de conjuntos de observaciones. 2.5.NANÁLISIS DEDATOS CON TÉCNICAS “DIFUSAS” El análisis de datos con técnicas difusas se considera en detalle en otros capítulos del libro (Capítulo 3, Capítulo 7 Sec 7.5 y Capítulo 8). En la presente sección ofrecemos una breve introducción con referencia a algunos de los algoritmos claves. Fuzzy c-Means clustering: se pueden considerar algoritmos de agru- pación difusa como herramientas matemáticas para la detección de simi- litudes entre miembros de un conjunto de objetos. Uno de los algoritmos más conocidos es el “Fuzzy Isostar” o “Fuzzy c-Means”, definido en [Bez- dek73] y [Dunn74]. El algoritmo de clustering “Fuzzy c-Means” es un método de partición de conjuntos basado en el proceso de Picard. Para 30 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS Figura 2.4.NEjemplo de funciones de pertenencia no-lineales. dicho proceso se definen las condiciones necesarias para optimizar una función objetivo (Jm) de la suma ponderada del error cuadrado (en inglés, “weighted sum of squared errors”). El número m es un pará- metro de ranking de 1 hasta ; J1 es una función objetiva que sirve para definir los algoritmos c-Means y ISODATA [Duda73], que son de tipo no-difuso. Dunn fue el primero en extender J1 hasta J2 en [Dunn74], y Bezdek lo generalizó de J2 a Jm para 1 < m < en [Bez- dek73]. Mucho del trabajo de fondo de los aspectos teóricos y la estructura matemática de Fuzzy c-Means fue definido en [Bezdek81]. Los estudios posteriores de [Bezdek87] y [Pal97] introdujeron los algoritmos “c-varieties” y “c-medians”, respectivamente. Estos algo- ritmos no requieren una asignación a priori del parámetro “c”, el nú- mero de particiones, y permiten el uso de tipos mixtos de variables como entradas. Matriz de covarianzas difusas: Gustafson y Kessel [Gustafson79] fueron los primeros en usar el término “matriz de covarianzas difusas”, y generalizaron el algoritmo fuzzy c-Means para incluir este concepto. Su motivación fue la de obtener una agrupación (clustering) más precisa. El cálculo en sí se limitó a la covarianza de una agrupación difusa respecto al prototipo de la misma agrupación. Trabajos más recientes, como los de [Watada94], [Wangh95] y [Nakamori97], han creado cálculos de cova- rianza para aplicaciones específicas. Agrupación difusa con ponderación de las variables: un trabajo reciente [Keller00] considera la agrupación difusa usando variables con valores ponderados. Una función objetiva basada en la técnica de la agru- pación difusa asigna un parámetro de influencia a cada variable de entra- da para cada cluster. La medida de distancia determina la influencia de los atributos de datos para cada cluster, y así facilita la identificación de los mismos que determinan la clase que el cluster representa. Se pue- de usar el parámetro de influencia para reducir el efecto de un atributo sobre algunos de los clusters, pero sin eliminarla para toda la clasifica- ción. La información que resulta sirve para segmentar un conjunto de datos en grupos más reducidos con un número menor de atributos. Una vez realizado la partición de esta forma, se puede seguir con el análisis de los datos en los grupos reducidos. Modelización de datos difusos: la modelización de datos tiene como objetivo la creación de un modelo con N entradas y M salidas, y que sea 31CONCEPTOS capaz de simular el comportamiento de las salidas respecto a las entra- das. Un modelo de regresión es un modelo estadístico típico, que en- cuentra el mejor ajuste de las salidas respecto a las entradas. Tanto el clustering como la clasificación son ambas técnicas de modelización, y los veremos con más detalle en capítulos posteriores del libro. Si sospechamos que en la naturaleza de los datos existe un componente “difuso”, entonces podemos considerar técnicas que permiten la mani- pulación de este tipo de información. En el modelo difuso de Sugeno- Takagi [Takagi85], se emplean funciones gausianas junto con la dis- tancia Mahalonobis para ajustar la función característica del modelo. La motivación de Sugeno-Takagi en este caso es la mejora de la opti- mización mediante una buena asignación de los parámetros iniciales. Uno de los métodos usados para inicializar los parámetros es la “buena aproximación” o la “aproximación mejorada”. Una vez asignados los parámetros iniciales, el modelo crece de forma incremental, a partir de una, dos o tres reglas iniciales a las cuales se van añadiendo reglas nuevas. Modelización difusa con redes neuronales: los modelos que usan la técnica de redes neuronales intentan simular la funcionalidad del cerebro biológico definiendo una red interconectada de “neuronas” para proce- sar las entradas de datos y producir las salidas correspondientes. Un modelo sencillo de red neuronal consiste en una capa de neuronas de “entrada”, una capa intermedia que se llama “oculta”, y una capa de neu- ronas de “salida”. Se definen “cocientes” que quedan asignados a las interconexiones entre las neuronas. Estos “cocientes” son valores que de- finen el grado de fuerza o debilidad de una interconexión y se van mo- dificando de forma dinámica durante el proceso de “entrenamiento” del modelo. Los pesos aumentan o disminuyen según los estímulos que re- ciben de las entradas y mediante la propagación de los datos a través de las diferentes capas del modelo. Mediante sucesivas presentaciones de las entradas, la red comienza a modelizar los datos y a acertar cada vez más en los valores de las salidas. Hay diferentes formas de incluir las técnicas difusas en un modelo neuronal: la primera, siendo en la representación de los datos. Por ejemplo, se puede incluir grados de pertenencia como entradas adicionales al modelo. Otra forma de incluir técnicas difusas sería modificar el funcionamiento interno del modelo para que realice una interpretación difusa los datos. Por ejemplo, se podría cambiar la for- 32 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS ma de asignar los cocientes asignados a cada neurona, o se podría incor- porar un aspecto difuso en el mecanismo de propagación de los datos dentro de la red. Inducción difusa de reglas: la inducción de reglas es una técnica cuya meta es la de crear un conjunto de reglas a partir de un conjunto de datos. Un algoritmo de inducción de reglas no dispone de información adicional más que los datos en sí. La calidad de las reglas es un aspecto clave que combina precisión y relevancia. La precisión se trata de que una regla determinada clasifique correctamente a un alto porcentaje de los casos correspondientes. La relevancia se refiere a que un número sig- nificativo de casos corresponde a la regla en concreto, respecto al núme- ro total de casos. ¿Cómo podemos incluir técnicas difusas en la induc- ción de reglas? Una primera opción sería en la representación, incluyendo los grados de pertenencia como entradas. Una segunda opción sería modificar el funcionamiento interno del proceso de induc- ción para procesar los datos de forma difusa. Por ejemplo, una definición difusa de las decisiones a tomar en cada nodo del árbol, o en las fases de podado y compactación. En el estudio [Miyoshi97] se desarrolló un algoritmo de inducción difusa de reglas llamado ID3* y que se basa en la técnica llamada “Fuzzy Projection Pursuit”. El trabajo de Miyoshi cita otras versiones difusas del algoritmo de inducción de reglas ID3, y referencias más recientes de Quinlan. En su trabajo, Miyoshi unifica el enfoque del Fuzzy ID3 de [Umano94] con el “Projection Persuit” de [Friedman74]. De otra parte, en [Wangc96] se presentó “FILSMR”, una estrategia de aprendizaje mediante la inducción difusa, que genera reglas modulares. Este método elige el mejor “atributo-valor”, mientras que la versión estándar de ID3 elige el mejor “atributo”. Por consiguiente, se podría decir que el algoritmo FILSMR posee una mayor “granularidad” que ID3. Se considera que un “valor de pertenencia a una clase” es equiva- lente a una “instancia difusa”. El algoritmo de Wang encuentra pares relevantes de atributo-relación, y maximiza la “ganancia en información difusa”.
Compartir