Nettleton_2011_LIBRO_Técnicas_Para_el_Análisis_de_Datos_Clínicos

•

SIN SIGLA

Edgardo Alfonso Sánchez Patiño

21/3/2024

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Enfermería

226.152 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

http://booksmedicos.org
TÉCNICAS PARA
EL ANÁLISIS DE DATOS
CLÍNICOS

DAVID F. NETTLETON
TÉCNICAS PARA EL
ANÁLISIS DE DATOS
CLÍNICOS
3INTRODUCCIÓN
Madrid-Buenos Aires
© David F. Nettleton, 2005 (Libro en papel)
� David F. Nettleton, 2011 (Libro electrónico)
Reservados todos los derechos.
“No está permitida la reproducción total o parcial de este libro, ni su
tratamiento informático, ni la transmisión de ninguna forma o por
cualquier medio, ya sea electrónico, mecánico, por fotocopia, por
registro u otros métodos sin el permiso previo y por escrito de los
titulares del Copyright”
Ediciones Díaz de Santos, S.A.
Albasanz, 2
28037 MADRID
http.//ediciones.diazdesantos.es
ediciones@díazdesantos.es
ISBN: 978-84-9969-067-4 (Libro electrónico)
ISBN: 978-84-7978-721- (Libro en papel)
http.//ediciones.diazdesantos.es
mailto:ediciones@d�azdesantos.es

El autor agradece las contribuciones y colaboración de las personas y
entidades que se citan a continuación.
El área de la representación de datos de diferentes tipos, que com-
prende las Secciones 2.4, 6.1 y 6.2 del libro, fue realizada en colabora-
ción con la doctora Karina Gibert del Departamento de Matemáticas y
Estadísticas de la Universidad Politécnica de Cataluña, en el periodo
1996-1997. El área de agregación y proceso difuso de los datos, que com-
prende las secciones 2.2, 2.3, 7.3, 7.4, 7.5 y 8.2 del libro, se realizó en
colaboración con el doctor Vicenc Torra del Instituto de Investigación en
Inteligencia Artificial, Bellaterra y el doctor Juan Jacas del Departamen-
to de Matemáticas, Escuela de Arquitectura, Universidad Politécnica de
Cataluña, en el periodo 1997-2001.
Las técnicas han sido probadas en dos áreas clínicas, en colaboración
con tres hospitales durante un periodo de cinco años: datos de pacientes
de UCI del Hospital Parc Taulí de Sabadell; datos de pacientes de apnea
del Hospital Clínico de Barcelona y datos de pacientes de apnea del Hos-
pital de la Santísima Trinidad de Salamanca. El autor reconoce y agrade-
ce la colaboración del doctor Xavier Companys (anteriormente del Hos-
pital Parc Taulí de Sabadell) en proporcionar el conjunto de datos usado
en el Capítulo 9 del libro, y su colaboración en la interpretación de los
resultados del análisis. El autor reconoce y agradece la colaboración de la
doctora Lourdes Hernández del Laboratorio del Sueño del Hospital Clí-
nico de Barcelona, en proporcionar el conjunto de datos usado en el
Capítulo 10 del libro y en realizar la contribución al Capítulo 5 y de las
Tablas 5.1 y 5.2. Por último, el autor reconoce y agradece a los doctores
Joaquín y Joaquina Muñiz del Centro de Estudios del Sueño del Hospital
de la Santísima Trinidad de Salamanca, por su colaboración en la capta-
1
Agradecimientos y reconocimientos
ción de datos de los pacientes de apnea a partir de los cuestionarios que
hemos usado en el Capítulo 11. Asimismo, se agradece su colaboración
en la interpretación de los resultados del análisis, y por su contribución al
Capítulo 5.
Por último, agradecemos a María Sánchez Leiva por realizar las ilus-
traciones en las páginas 39, 67, 73, 190, 191, 194, 243, 247 y 263, que
fueron encargadas especialmente para el libro.
VIII AGRADECIMIENTOS Y RECONOCIMIENTOS
Agradecimientos y reconocimientos ...........................................
11. Introducción .........................................................................
11.1. Contexto de la obra .....................................................
11.2. Motivos .......................................................................
11.3. Objetivos .....................................................................
11.4. El alcance y la orientación del libro desde el punto de
vista del análisis de datos ............................................
Parte I. Conceptos y técnicas .......................................................
12. Conceptos ..............................................................................
12.1. La “minería de datos” .................................................
12.2. Relevancia y fiabilidad ...............................................
12.3. Agregación de variables y datos .................................
12.4. La representación “difusa” de los datos ......................
12.5. Análisis de datos con técnicas “difusas” ....................
12.6. Clustering ...................................................................
12.7. Clasificación ...............................................................
13. La perspectiva difusa ...........................................................
13.1. Conceptos básicos .......................................................
13.2. Concepto de “pertenencia difusa” ..............................
13.3. Relaciones difusas ......................................................
13.4. Definición de un “conjunto difuso” ............................
13.5. Siete métodos para definir una función de pertenencia ..
13.6. Definición de “variable difusa” ..................................
13.7. Definición de “número difuso” ...................................
13.8. Los “cuantificadores” .................................................
VII
1
4
5
6
8
11
13
13
20
26
28
30
34
36
39
39
40
41
42
43
44
45
45
1
Índice
13.9. Representación difusa de variables de tipo binario ....
3.10. La selección de características ....................................
3.11. Funciones de pertenencia para datos clínicos .............
14. El diagnóstico y el pronóstico clínico .................................
14.1. Enfoque de la estadística “clásica” .............................
14.2. Sistemas de puntuación de pronóstico en cuidados
intensivos ....................................................................
14.3. Ejemplos de algunos de los sistemas más comunes de
puntuación de pronóstico ............................................
14.4. Enfoques de la inteligencia artificial ..........................
14.5. Grupo de la Universidad de California en Irving: Repo-
sitorio base de datos sobre aprendizaje automatizado ..
15. El diagnóstico del síndrome de apnea del sueño ...............
15.1. Presentación clínica ....................................................
15.2. Prevalencia ..................................................................
15.3. Morbidity y mortalidad ...............................................
15.4. Diagnóstico .................................................................
16. La representación, comparación y proceso de datos de
diferentes tipos .....................................................................
16.1. Representación y proceso de datos de tipos diferentes ..
16.2. Comparación entre diferentes tipos de datos ..............
16.3. La mejora del cuestionario para el diagnóstico de ap-
nea del sueño (estudio del Capítulo 11) ......................
17. Técnicas ................................................................................
17.1. Técnicas estadísticas ...................................................
17.2. La técnica de inducción de reglas: ID3 y C4.5/5.0 .....
17.3. La técnica de “amalgamación”: los algoritmos de
clustering de Hartigan .................................................
17.4. La técnica de “agregación”: CP, OWA y WOWA .......
17.5. La técnica de “agrupación difusa”: Fuzzy c-Means ...
17.6. La técnica de redes neuronales para clustering (tipo
“Kohonen SOM”) .......................................................
17.7. La técnica de “redes neuronales” para predicción ......
17.8. La técnica del “algoritmo evolutivo” (o “genético”) ...
47
49
50
55
55
56
57
59
64
67
68
68
69
69
73
73
83
103
119
119
125
135
139
146
153
156
158
X ÍNDICE
18. Resumen de los aspectos claves en la adaptación e imple-
mentación de las técnicas ....................................................
18.1. El cálculo de covarianzas difusas entre variables .......
18.2. Resumen de las adaptaciones del operador de agrega-
ción WOWA ................................................................Parte II. Aplicación de las técnicas a casos reales .....................
19. Pronóstico de pacientes de la UCI - Hospital Parc Tauli de
Sabadell .................................................................................
19.1. Exploración inicial de los datos ..................................
19.2. Proceso del conjunto de datos UCI con la técnica de
inducción de reglas C4.5 .............................................
19.3. Proceso del conjunto de datos UCI con la técnica de
inducción de reglas ID3 ..............................................
19.4. Clustering con la red neuronal Kohonen SOM ..........
19.5. Aplicación del joining algorithm de Hartigan a los
datos UCI, usando covarianzas “difusas” y “no-difu-
sas” como entradas .....................................................
19.6. Proceso de los datos UCI con la técnica “Fuzzy c-
Means” ........................................................................
19.7. Resumen .....................................................................
10. Datos del cuestionario de apnea. Laboratorio del sueño.
Neumología (ICPCT), Hospital Clínico de Barcelona ......
10.1. El diagnóstico de apnea usando WOWA con cocientes
asignados por el médico experto .................................
10.2. La comparación de diferentes métodos para asignar
los cocientes de relevancia y fiabilidad. Agregación
de datos usando el operador WOWA para casos de
apnea del sueño ...........................................................
10.3. Resumen .....................................................................
11. Datos del cuestionario de apnea. Centro de Estudios del
Sueño (Neumosalud), Hospital de la Santísima Trinidad
de Salamanca) ......................................................................
11.1. Datos de prueba–variables seleccionadas ...................
11.2. Comparación de las formas de representación categóri-
ca y como escala, de las preguntas del cuestionario .....
165
171
181
189
191
194
201
217
227
231
238
242
247
249
253
261
263
265
269
XIÍNDICE
11.3. Aprendizaje y asignación de los valores de relevancia
y fiabilidad ..................................................................
11.4. Resultados: diagnóstico de apnea usando el operador
de agregación WOWA ................................................
11.5. Comparación de la precisión predictiva en el diagnós-
tico usando agregación WOWA respecto a otros méto-
dos de modelización predictiva ...................................
11.6. Resumen .....................................................................
12. Resumen y conclusiones ......................................................
Anexo A. Descripción de todas las variables del conjunto de
datos de “Admisiones Hospitalarias UCI”, procesado en el
Capítulo 9 del libro .......................................................................
Anexo B. Cuestionario de apnea screening usado en Capítu-
los 10 (versión no-difusa/categórica) y 11 (versión difusa/con
escalas) ...........................................................................................
Glosario .........................................................................................
Índice de autores ..........................................................................
Bibliografía ...................................................................................
Índice analítico .............................................................................
272
276
277
278
281
287
295
303
313
317
325
XII ÍNDICE
Este libro está dirigido a las personas que por razones profesionales o
académicas tienen la necesidad de analizar datos de pacientes, con el
motivo de realizar un diagnóstico o un pronóstico. Se explican en detalle
las diversas técnicas estadísticas y de aprendizaje automatizado para su
aplicación al análisis de datos clínicos. Además, el libro describe de forma
estructurada, una serie de técnicas adaptadas y enfoques originales, basán-
dose en la experiencia y colaboraciones del autor en este campo.
El autor incorpora materia tanto de su experiencia práctica como de
sus diversos proyectos de investigación, para enriquecer el contenido, el
cual ofrece un enfoque original sobre la problemática del tema. En la Par-
te II (Capítulos 9 al 11), ejemplos prácticos derivados de proyectos rea-
les sirven para ilustrar los conceptos y técnicas explicadas en la Parte I
(Capítulos 2 al 8).
Prácticamente todos los métodos, técnicas e ideas que se presentan,
por ejemplo “representación de datos”, “relevancia y fiabilidad de los da-
tos” y “agregación”, pueden ser aprovechados tanto por el estudiante de
medicina, de informática clínica o de estadística, como por un empleado
de un laboratorio clínico u hospital. No es imprescindible disponer de un
gran volumen de datos, y las herramientas de análisis citadas están dis-
ponibles a un precio módico o son de distribución gratuita. A los lectores
del libro, sí que se les supone una cierta familiaridad con la estadística, y
de los objetivos básicos del análisis de datos clínicos: diagnóstico,
pronóstico, identificación de tendencias, excepciones, similitudes, etc.
Con referencia a la Figura 1.1, la Primera Parte del libro consiste de
los Capítulos 2 al 8. En los Capítulos 2 al 5 se presentan los conceptos
de análisis y los entornos de datos clínicos: Capítulo 2, Conceptos; Capí-
tulo 3, La perspectiva difusa; Capítulo 4, El diagnóstico y el pronóstico
clínico; Capítulo 5, Diagnóstico del síndrome de Apnea del Sueño. En
1
Introducción
Capítulos 6 al 8, se afrontan con mayor profundidad las técnicas usadas,
la problemática de la representación de los datos, y las adaptaciones pro-
pias de las técnicas estándar: Capítulo 6, Representación, comparación y
procesos de datos de diferentes tipos; Capítulo 7, Técnicas, y Capítulo 8,
Adaptaciones de las técnicas estándar.
Con referencia a la Figura 1.2, la Segunda Parte del libro consiste de
los Capítulos 9 al 11, en los cuales se explica la aplicación de las técnicas
y conceptos en tres situaciones reales: Capítulo 9, UCI – datos para el
pronóstico (Hospital Parc Taulí, Sabadell); Capítulo 10, Datos (no-difu-
sas) cuestionario Apnea (Hospital Clínico, Barcelona), y Capítulo 11,
Datos (difusas) cuestionario Apnea (Hospital de la Santísima Trinidad,
Salamanca). El Capítulo 9 trata del pronóstico de pacientes admitidos a
la UCI, en términos de supervivencia y tiempo de estancia en el hospital.
El Capítulo 10 trata del diagnóstico de pacientes de apnea a partir de
datos captados de forma no-difusa (categórica), y por último, el Capítulo
11 explica el diagnóstico de pacientes de Apnea a partir de datos capta-
dos de forma no-difusa y difusa (escalas).
2 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Figura 1.1.NParte I: relación de capítulos (enumerados en rectángulos correspondien-
tes con los conceptos y las técnicas expuestas).
Conceptos
3
La perspectiva
difusa.
7
Técnicas.
7.3
Amalgamación:
Hartigan.
7.4
Agregación:
WOWA.
7.1
Técnicas
estadísticas.
Agrupación 7.5
difusa:
fuzzy c-Means.
7.6
Agrupación SOM, red
neuronal tipo Kohonen.
7.7
Redes neuronales predictivas
tipo ‘propagación hacia delante.’
7.8
Algoritmos
genéticos.
Inducción 7.2
de Reglas:C4.5
e ID3.
4
Diagnóstico
y pronóstico
clínico.
5
Diagnosis del
síndrome de
apnea en el
sueño.
Representa- 6
ción, compara-
ción y proceso
de datos de
diferentes tipos.
Adaptaciones 8
de las técnicas
estándar.
El cálculo de 8.1
covarianzas difusas
entre variables.
Adaptaciones 8.2
del operador de
agregación WOWA.
•nData Mining. 2
•nRelevancia y fiabilidad.
•nAgregación de
variables y datos.
•nRepresentación difusa de
los datos.
•nAnálisis de los datos
con técnicas difusas.
•nClustering.
•nClasificación.
Relación de los capítulos del libro con los conceptos
y las técnicas presentadas
➡
➡
Para los lectores que deseen enfocar en los aspectos más prácticos,
se recomienda la siguiente lectura del libro: Capítulo 2, Conceptos;Capí-
tulo 4, El diagnóstico y pronóstico clínico; Capítulo 5, Diagnóstico del
Síndrome de Apnea del Sueño; Capítulo 9, UCI – datos para el pronósti-
co (Hospital Parc Taulí, Sabadell); Capítulo 10, Datos (no-difusas) cues-
tionario Apnea (Hospital Clínico, Barcelona), y Capítulo 11, Datos
(difusas) cuestionario Apnea (Hospital de la Santísima Trinidad, Sala-
manca).
Para los lectores que están interesados en los aspectos teóricos, se
recomienda un mayor enfoque en los siguientes capítulos del libro: Capí-
tulo 3, La perspectiva difusa; Capítulo 6, Representación, comparación y
procesos de datos de diferentes tipos; Capítulo 7, Técnicas, y Capítulo 8,
Adaptaciones de las técnicas estándar.
3INTRODUCCIÓN
Figura 1.2.NParte II: capítulos (enumerados) dedicados a la descripción y resultados
de la aplicación de los conceptos y técnicas a entornos reales.
Relación de los capítulos del libro: aplicación de los conceptos y las técnicas
a entornos reales
•nTécnicas estadísticas están-
dar y de visualización de
datos.
•nInducción de Reglas: C4.5 o
ID3.
Redes neuronales predictivas
tipo ‘propagación hacia-delante’.
Amalgamación: Hartigan usan-
do covarianzas difusas y no
difusas como entradas.
Agrupación SOM red neuronal
tipo Kohonen.
•nAgrupación difusa: fuzzy
c-Means.
•nCuestionario que captura los
datos de forma categórica.
•nDiagnóstico usando WOWA.
•nAsignación de los cocientes de
fiabilidad y relevancia por el es-
pecialista médico.
•n– comparativa con OWA y
‘Componentes Principales’.
•nAsignación de los cocientes
de fiabilidad y relevancia asig-
nados por un consenso de
diferentes técnicas.
•n– k-Means, Kohonen, Con-
dorcet.
Covarianzas Pearson ‘Cross
Product’.
Regresión logística, regresión
lineal, C4.5 inducción de reglas,
red neuronal prop. delante.
•nDos cuestionarios: uno que
captura los datos de forma
categórica y otro que captura
los datos de forma difusa.
•nComparación de la forma de
representación categórica de
las preguntas con la forma
difusa.
•nComparación de la asignación
de los cocientes por el médico
con la asignación/aprendizaje
de los cocientes por un algo-
ritmo genético.
•nComparación del acierto pre-
dictivo en diagnosis de la téc-
nica de agregación WOWA,
con las técnicas de red neuro-
nal e inducción de árbol ID3.
Pronóstico de
pacientes admitidos
a la UCI (Hospital
Parc Tauli, Sabadell).
9
Diagnóstico del
síndrome de apnea
en el sueño (Hospital
Clínico. Barcelona).
10
Diagnóstico del
síndrome de apnea
en el sueño (Hospital
Santísima Trinidad,
Salamanca).
11
Entornos reales
1.1.NCONTEXTO DE LA OBRA
Este libro cubre una serie de líneas de investigación aplicada que
comprenden el periodo desde 1996 hasta 2001. El objetivo global del
trabajo contempla el desarrollo y refinamiento de un conjunto de mé-
todos y herramientas que se pueden aplicar a las diferentes fases en
el proceso de “minería de datos clínicos”. Una primera consideración
ha sido cómo representar y procesar de forma conjunta a diferentes
tipos de datos, por ejemplo, los tipos categórico, numérico y difuso,
usando técnicas de agregación, amalgamación de variables y técnicas
difusas.
El área de la representación de datos de diferentes tipos (Secciones
2.4, 6.1 y 6.2 del libro), fue realizada en el periodo 1996-1997, en cola-
boración con la doctora Karina Gibert (Departamento de Matemáticas y
Estadísticas, Universidad Politécnica de Cataluña). Está seguido por el
estudio y contraste de diferentes técnicas de modelización de datos, co-
mo por ejemplo, clustering, redes neuronales e inducción de reglas (Ca-
pítulos 9 y 10). La segunda área principal de estudio es la representación
y proceso difuso de los datos y la agregación de datos (Secciones 2.3, 6.3,
7.4, 8.2, Capítulos 10 y 11). Este estudio se realizó en colaboración con
el doctor Vicenc Torra (Instituto de Investigación en Inteligencia Artifi-
cial, Bellaterra) y el doctor Juan Jacas (Departamento de Matemáticas,
Escuela de Arquitectura, Universidad Politécnica de Cataluña) entre
1997 y 2001. Se centra en el uso de operadores de agregación, como, por
ejemplo, WOWA, para procesar dominios reales de datos clínicos. Asi-
mismo, se proponen soluciones para algunos de los problemas implícitos
en estos operadores, como, por ejemplo, el tratamiento de datos desco-
nocidos y la asignación de los valores de los cocientes.
Diversos conjuntos de datos artificiales de prueba han sido procesa-
dos, además de tres conjuntos reales de datos clínicos. Los conjuntos de
datos de prueba usados incluyen Iris, y datos publicados por Hartigan,
Bezdek y Torra. Además, las técnicas han sido aplicadas a dos dominios
médicos, en colaboración con tres hospitales durante un periodo de cin-
co años: datos de pacientes de UCI del Hospital Parc Taulí, Sabadell, Espa-
ña; datos de pacientes de apnea del Hospital Clínico, Barcelona, España, y
datos de pacientes de apnea del Hospital de la Santísima Trinidad, Sala-
manca, España.
4 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
El análisis de datos y la representación de datos son dos áreas que
han sido revolucionadas por el advenimiento de los métodos de aprendi-
zaje automatizado a partir de 1950. A mediados de la década de los 60,
Zadeh introdujo los conceptos difusos para el análisis de datos. Poste-
riormente, otros investigadores evolucionaron estas ideas. Bezdek, por
ejemplo, llegó a definir el algoritmo Fuzzy c-Means para la agrupación
difusa de datos. Otros hitos claves fueron la aparición de las redes neuro-
nales para la modelización supervisada, de las cuales el feedforward NN
(propagación por delante) era de los más comunes. Una de las primeras
referencias de redes neuronales es la de [Rosenblatt59].
Después entró en escena la inducción de reglas, que prometió ser una
técnica con una amplia área de aplicación. Quinlan definió el algoritmo
ID3, que llegó a ser el primer algoritmo “estándar” de inducción de
reglas en la industria del software. Las redes neuronales perdieron su
popularidad en la década de los 70 debido a problemas teóricos no re-
sueltos (por ejemplo los mínimos locales), pero volvieron a destacar en
los años 80. Los sistemas expertos adquirieron popularidad en los años 80,
aunque con la llegada de la década de los 90 fueron absorbidos por apli-
caciones híbridas y en aplicaciones que resolvieron problemas específi-
cos. Sistemas basados en reglas evolucionaron hacía una combinación de
sistemas basados en conocimientos expertos y herramientas para inducir
reglas de forma automática a partir de los datos históricos. Otros enfo-
ques fueron el Case Based Reasoning (razonamiento basado en casos),
los Belief Networks (redes de creencias) y los operadores de agregación
basados en técnicas de inteligencia artificial. Los operadores de agrega-
ción llegaron a ser herramientas de uso práctico, debido especialmente al
trabajo de Yager en consolidar los aspectos teóricos.
1.2.NMOTIVOS DEL ENFOQUE DEL LIBRO
Muchos aspectos de análisis y la representación de datos aún están
por resolver, cuando los datos no caen en categorías bien definidas, o
cuando no se puede representarlos de una forma simple. En el área de
análisis de datos clínicos, hay una constante búsqueda para métodos que
aportan una mayor precisión en el diagnóstico de casos positivos y nega-
tivos, y una mejor precisión en el pronóstico de la recuperación del
paciente a medio y largo plazo.
5INTRODUCCIÓN
El debate respecto a cómo mejor representar y capturar los datos tam-
bién es un área de estudio actual dónde no existen las “mejores solucio-
nes”. Otra consideración es el hecho de que muchos algoritmos necesitan
un gran volumen de datos para poder llegar a un resultado aceptable. Esto
es a pesar de que muchos dominios de datos clínicos e incluso otros domi-
nios disponen de un número de casos relativamente pequeño. Como ejem-
plo, un conjunto de datos clínicos podría consistir en unos 150 casos,
mientras que el número de variables descriptivas sería 15 o más. Existen
muchas técnicas estadísticas y de minería de datos quesiguen asignando
los tipos de las variables de forma arbitraria para poder entrar los datos
en los procesos y algoritmos de exploración o modelización. El operador
WOWA es una técnica de agregación de datos que ofrece una posible solu-
ción para algunos de estos problemas. Evaluamos los resultados de aplicar
esta técnica a datos reales en los Capítulos 10 y 11 del libro. En el caso del
operador WOWA en su forma estándar, requerimos que sea capaz de pro-
cesar conjuntos con datos desconocidos, con una mínima pérdida de pre-
cisión global. Un inconveniente del operador WOWA es la dificultad de
una asignación manual de los vectores de metadatos (cocientes) a partir de
un dominio de datos reales. Por esta razón, evaluamos métodos que apren-
den los cocientes a partir de los datos históricos. Proponemos desarrollar
un método que permita comparar variables de tipo “difuso” y “unificarlas”
en un número reducido de factores más significativos. Este método parte
de la necesidad de explorar y modelizar un conjunto de datos que incluye
variables de diversos tipos. Si revisamos los entornos comerciales actuales
de minería de datos, como, por ejemplo, Clementine, IBM Intelligent
Miner y SAS Enterprise Miner, observamos que hay una falta en general
de la capacidad de procesar datos en la forma difusa. Asimismo, no ofre-
cen la posibilidad de definir múltiples vectores de cocientes como entradas
al modelo de datos. Por último, hay una falta de operadores de agregación
y algoritmos de modelización que dan resultados aceptables para conjun-
tos de datos que contengan un número reducido de casos.
1.3.NOBJETIVOS
El primer objetivo del libro es el desarrollo de un conjunto de méto-
dos y herramientas que se pueden aplicar a las distintas fases en el pro-
ceso de minería de datos. Es decir, la representación de datos, la explo-
6 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
ración de los mismos y la creación de modelos. Un segundo objetivo
es la revisión de las técnicas existentes, aplicándolas a conjuntos de
datos reales y artificiales, e identificando sus limitaciones. De esta for-
ma, podemos definir áreas susceptibles de mejora y podemos desarro-
llar técnicas que aportan soluciones para los datos y los dominios en
cuestión.
Demostramos los aspectos fuertes y débiles de una selección de las
técnicas más conocidas de análisis estadístico e inteligencia artificial,
tanto supervisadas como no-supervisadas. Revisamos técnicas de cluste-
ring como k-Means, Fuzzy c-Means y el Kohonen SOM. En lo que se
refiere a técnicas de clasificación o modelización predictiva, considera-
mos a redes neuronales feedforward, inducción de reglas ID3 y C4.5 y la
regresión lineal y logística.
Consideramos diferentes aspectos de la naturaleza de los datos, por
ejemplo, los diversos tipos que los datos pueden asumir: numérico,
categórico, binario, etcétera. Evaluamos diferentes formas de repre-
sentar y analizar los mismos, como, por ejemplo, clustering (segmen-
tación) y clasificación. Comprobamos técnicas, como la agregación,
que aportan información adicional al proceso de los datos mediante el
uso de criterios de ponderación (cocientes) para indicar la fiabilidad y
relevancia de los datos de entrada. Usando técnicas de componentes
principales y amalgamación, podemos identificar estructuras sub-
yacentes, mediante un estudio de la forma en que las variables estén
agrupadas.
Además, como condicionante del entorno real de los datos clínicos,
estamos interesados en encontrar técnicas para su representación y pro-
ceso que permitan conseguir un resultado aceptable, de clasificación,
segmentación, o predicción, a partir de un número relativamente pequeño
de casos.
Se evalúan herramientas y métodos para todas las fases de minería de
datos: la fase de representación y definición inicial de los mismos; la fase
de exploración que incluye el estudio de relaciones entre variables que
pueden estar definidas como tipos distintos; y por último, la fase de mo-
delización. Estas herramientas nos permiten representar y procesar datos
en la forma difusa, junto con datos no-difusos. En la fase de exploración
de los datos usamos algoritmos como el “joining algorithm” de Harti-
7INTRODUCCIÓN
gan, y un cálculo propio de distancias difusas de covarianza. En la fase de
modelización usamos operadores de agregación como WOWA, para pro-
cesar conjuntos de datos con un número pequeño de casos. Hemos adap-
tado WOWA para poder procesar datos con valores ausentes, e incorpo-
rando un método de aprendizaje de los vectores de cocientes a partir de
los datos históricos.
1.4.NEL ALCANCE Y LA ORIENTACIÓN DEL LIBRO
DESDE EL PUNTO DE VISTA DEL ANÁLISIS DE DATOS
El alcance del libro, desde el punto de vista de los dominios de
datos, contempla diversos conjuntos de datos artificiales de prueba y
tres conjuntos reales de datos clínicos, uno de los cuales ha sido reco-
gido especialmente para el estudio del Capítulo 11. En lo que se refiere
a la representación de los datos, revisamos una diversidad de tipos de
representación, y se evalúa el caso por la forma difusa. En cuanto a los
métodos de proceso de datos, usamos una selección de métodos están-
dar, como por ejemplo redes neuronales, inducción de reglas y méto-
dos de la estadística clásica, y comparamos estos métodos con técnicas
de uso menos “habitual” como la de Hartigan, Fuzzy c-Means u ope-
radores de agregación como WOWA. La orientación del libro tiene dos
puntos de énfasis: (1) la evaluación de técnicas difusas para mejo-
rar los métodos existentes de análisis y representación de datos; (2) la
aplicación de estas técnicas a datos clínicos para el pronóstico en el
caso de los datos UCI, y el diagnóstico en el caso de los datos de
apnea.
Para terminar la Introducción, en la Figura 1.3 se ve un resumen de
los diferentes métodos que han sido usados y probados, tanto estándar
como propios, y su relación con las fases de minería de datos. Observa-
mos que la aplicación de los métodos de clustering, como k-Means o
Kohonen SOM, está restringida a la fase de exploración de los datos.
Por su parte, los métodos de clasificación, como la inducción de reglas,
se emplean tanto en la fase de exploración como en la fase de modeli-
zación.
8 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
9INTRODUCCIÓN
Figura 1.3.NHerramientas y métodos usados (fila central), su relación a las diferentes
fases de Data Mining (fila superior), y métodos existentes usados para comparación
(fila inferior).
Definición y
representación
de los datos
Definición función de pertenencia,
cuantificadores, vectores de cocientes,
representaciones homogéneas para
diferentes tipo de datos, captura de
datos.
Representación categórica y no-difusa
de los datos.
Exploración
de los datos
Covarianzas difu-
sas, visualización,
‘joining algorithm’
de Hartigan, fuzzy
c-Means.
Operador de agre-
gación WOWA.
Redes neuronales propa-
gación hacia delante, in-
ducción de reglas (C4.5),
regresión lineal y logística,
operadores de agregación
de datos OWA y WM.
k-Means, Kohonen
SOM, covarianzas
no-difusas, induc-
ción de reglas (C4.5
e ID3).
Modelización
de los datos
En esta Primera Parte, que consiste de los Capítulos 2 al 8, se presen-
tan los conceptos y técnicas que usamos luego en la Segunda Parte del
libro para analizar los datos clínicos en diferentes entornos. Considera-
mos tanto los conceptos de análisis de datos como los conceptos clínicos.
En el entorno clínico, presentamos dos aplicaciones: la UCI y la pro-
blemática de cuidados intensivos, y el Centro de Estudios del Sueño y la
problemática del síndrome de apnea.
En el Capítulo 2 presentamos los conceptos de Data Mining, relevan-
cia y fiabilidad de los datos, agregación de variables y datos, representa-
ción difusa de los mismos y el análisis con técnicas difusas. Por último,
en el Capítulo 2 presentamos dos conceptos básicos en el análisis de
datos: clustering, es decir, la agrupación de los datos sin información a
priori, y la clasificación, que los agrupa en diferentes clases definidasa
priori.
En el Capítulo 3 introducimos el propósito del enfoque “difuso” (en
inglés “fuzzy”) como una forma de representar y procesar los datos, y
establecemos por qué este enfoque es el más adecuado para determina-
dos tipos de datos.
En el Capítulo 4 presentamos los conceptos clínicos de diagnóstico y
pronóstico, junto con una introducción a los sistemas más establecidos de
diagnóstico en la UCI (Apache, MPM, SAPS, …). Por último, presenta-
mos técnicas existentes en la literatura para el diagnóstico y pronóstico
clínico con técnicas de inteligencia artificial.
En el Capítulo 5 presentamos la problemática de diagnóstico del sín-
drome de apnea del sueño, y en qué consiste. En el Capítulo 6 introduci-
mos la problemática de la representación, comparación y proceso de
datos de diferentes tipos.
Parte I
Conceptos y técnicas
Con el Capítulo 7 pasamos de los conceptos a las técnicas que vamos
a usar en la Parte Segunda para analizar los datos. Hay tanto técnicas de
la estadística clásica, como del ámbito de la inteligencia artificial. De la
estadística clásica, se definen técnicas cómo la correlación, covarianza,
regresión y las técnicas de Hartigan. De la inteligencia artificial, presen-
tamos una diversidad de técnicas: inducción de reglas ID3 y C4.5; el ope-
rador de agregación WOWA; el método de agrupación difusa Fuzzy c-
Means; el Kohonen SOM para el clustering no-supervisado basado en
redes neuronales; redes neuronales predictivas tipo “propagación hacia
delante” y algoritmos genéticos.
Para terminar la Primera Parte del libro, el Capítulo 8 resume las
adaptaciones realizadas por el autor a las técnicas estándar (descritas en
el Capítulo 7). Dichas adaptaciones servirán para las necesidades especí-
ficas del análisis de datos clínicos que vamos a realizar después en la Par-
te Segunda.
12 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
En este capítulo definimos los conceptos básicos que vamos a usar para
el análisis y modelización de datos, como, por ejemplo, la minería de
datos, el clustering y la clasificación. Además, hacemos un repaso de al-
gunos de los enfoques más recientes de investigación e ideas innovadoras
en áreas relevantes de la temática del libro. Dentro de esta sinopsis, inclui-
mos los trabajos de Takagi y Sugeno en la modelización de datos, Dubois
en metodología y representación, y Nakamori en el análisis factorial.
2.1.NLA “MINERÍA DE DATOS”
Definimos la minería de datos como el análisis de datos con herra-
mientas sofisticadas, que permiten el proceso y visualización de múltiples
“vistas”, y la búsqueda de relaciones complejas en los datos. Además de
presentar y manipular información conocida respecto a los datos, permite
el descubrimiento de nuevos conocimientos. Podemos decir que la minería
de datos se caracteriza por el descubrimiento de nuevo conocimiento.
La Minería de Datos (en inglés conocida cómo Data Mining o Knowled-
ge Data Discovery), es un proceso de análisis de datos de naturaleza inter-
disciplinaria, cuya propuesta es la identificación y extracción de conoci-
mientos de alto valor a partir de los datos. Los conjuntos de datos pueden ser
de alto o bajo volumen, tener muchos atributos descriptivos, estructuras poca
claras, e incorporar datos desconocidos, erróneos y con “ruido”.
2
Conceptos
La minería de datos utiliza diversas técnicas para analizar y procesar
los datos:
a)NEstadística clásica: regresión lineal, correlación, etc...
b)NAlgoritmos de aprendizaje automatizado para clasificación y pre-
dicción: inducción de reglas, redes neuronales, etc...
c)NExploración de datos usando herramientas para su visualización
gráfica y manipulación.
La estadística, por su parte, ofrece técnicas como la clasificación
automática, discriminación, métodos factoriales y visualización gráfica.
Por otra parte, la propuesta de algoritmos “inteligentes” es “aprender”, a
partir de un conjunto de datos, y formar un modelo que representa el
entorno, sea predictivo o de clasificación. Las técnicas que se suelen usar
más son: redes neuronales para predecir y clasificar, inducción de reglas
para explicar la estructura de un modelo y los perfiles de las clasificacio-
nes; algoritmos genéticos para problemas de optimización; y algoritmos
de correlación que sirven para identificar los factores más relevantes en
un problema determinado. Todas esas técnicas se orientan hacía el des-
cubrimiento de estructura en un conjunto de datos multidimensional. La
relación entre el descubrimiento de conocimiento en bases de datos y el
análisis clásico de datos se ve resumido en la Figura 2.1.
14 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Figura 2.1.NEl “descubrimiento de conocimiento en las bases de datos” y el “análisis
clásico de datos”, entendidas como áreas interdisciplinarias.
Estadística
Descubrimiento de
conocimiento en
bases de datos
Análisis clásico
de datos
Inteligencia
artificial
Visualización
Sistemas de
gestión de
bases de datos
Los proyectos de minería de datos suelen estar orientados hacía el
descubrimiento de conocimiento y la generación de modelos de datos.
Suelen emplear técnicas como la predicción, clasificación, segmenta-
ción, asociación, el descubrimiento de secuencias y el análisis de series
temporales. Se pueden usar modelos predictivos; por ejemplo, para pre-
decir los pacientes varones entre 45 y 65 años de edad con una probabi-
lidad mayor de 70% para recuperarse de una enfermedad. Modelos de
inducción, que nos pueden indicar los perfiles de los 1.000 pacientes de
mayor riesgo para desarrollar una determinada enfermedad. Procesos de
asociación, que extraen información como: si el paciente ha padecido A,
entonces el/la padecerá B también, en un 65% de los casos.
Asimismo, podemos usar técnicas para el descubrimiento de se-
cuencias para deducir; por ejemplo, que una asistencia de tipo A ocu-
rre después de una intervención de tipo C, para 2 de cada 5 pacientes.
El descubrimiento de secuencias parecidas en el tiempo nos propor-
ciona información como: si el paciente ha necesitado A, entonces
necesitará también B en los próximos 3 meses, en 70% de los casos.
Por último, la segmentación o clustering, puede describir estructuras
subyacentes sin la necesidad de tener conocimientos a priori sobre los
datos. Por ejemplo, podemos establecer tendencias comunes entre pa-
cientes en diferentes áreas del hospital, y asignar recursos comunes
para ellos.
Algunos de los centros para la minería de datos y grupos de investi-
gadores que han destacado más en los últimos años son: Usama Fayy-
dad de MicroSoft Research, EE UU; Willi Klösgen in GMD (German
National Research Centre for Information Technology); Heikki Manni-
la, anteriormente de la Universidad de Helsinki, Finlandia; G. Nakhaei-
zadeh de Daimler Benz Research Centre AG, Forschungszentrum, Ulm,
Alemania; Gregory Piatetsky-Shapiro de GTE Laboratories, EE UU;
Ross Quinlan, del Centre for Advanced Computing Sciences, New
South Wales Institute of Technology, Australia; Ken Totton, Data Mi-
ning Group, British Telecom, Inglaterra; Barry Devlin, IBM Dublin,
Irlanda.
El enfoque del grupo de la Universidad de Helsinki se basa en el aná-
lisis de secuencias de datos y en la identificación de características recu-
rrentes y subyacentes en secuencias de eventos. Utilizan cadenas de Mar-
kov y métodos Monte Carlo para examinar en detalle las dependencias
15CONCEPTOS
entre eventos. Aplican métodos de clustering para encontrar regularida-
des en los datos. Uno de los enfoques especiales adoptados por este gru-
po de investigadores se basa en redes neuronales Kohonen para el cluste-
ring no-supervisado.
Enfoques actuales
En el presente y durante la última década ha habido muchas aplica-
ciones usando las técnicas de redes neuronales, inducción de reglas y
algoritmos genéticos, y en combinación con la estadística clásica. En el
área de la minería de datos, existen además referencias a conceptos de la
lógica difusa, aplicados al clustering, y la representación y el tratamien-
to de la imprecisión. En el áreade clasificación jerárquica, las referencias
tienden estar relacionadas con la inducción de árboles.
Borgelt, de la Universidad de Magdeburg, Alemania, ha estudiado
medidas de evaluación para el aprendizaje en redes probabilísticas y
posibilísticas [Borgelt97]. Borgelt ha colaborado con el grupo de Da-
ta Mining de Daimler-Benz bajo los auspicios de Nakhaeizadeh. En
[Borgelt97], se emplean las medidas de �� y de entropía para calcular
la ganancia o pérdida de información, y para propagar estos datos en
una red.
Una de las áreas de especial enfoque del grupo de investigación de
minería de datos de Daimler-Benz ha sido la de técnicas de reducción
de datos para grandes números de atributos, y con un número reducido de
tipos de datos. Han comprobado sus algoritmos con diferentes dominios
de datos, aunque su área principal es, lógicamente para Daimler-Benz, el
análisis de fallos de componentes de automóviles y sus características.
Dubois, del Institut de Recherche en Informatique de Toulouse,
Francia, en su artículo [Dubois97] se centró en una síntesis de los datos
dirigida por el usuario y basado en reglas graduadas. Algunos ejemplos
de los temas que su grupo de investigadores ha estudiado son: prepro-
ceso y reducción de la dimensionalidad de los datos, y la identificación
inicial de estructuras en los mismos. Una de sus conclusiones fue, res-
pecto al uso de las técnicas de Kohonen, C4.5 y c-Means para identifi-
car estructuras iniciales en los datos. En el caso de c-Means se concluyó
que se debe usar esta técnica con cautela dado que según sus pruebas no
16 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
funciona bien en la presencia de valores extremos (outliers). Además, c-
Means requiere que el usuario especifique el número inicial de clusters.
Como alternativa, se puede usar una técnica del tipo de simulated an-
nealing, como por ejemplo, ID3, el cual proporcionaría una buena so-
lución inicial. Asimismo, se podría usar el modelo Sugeno-Takagi como
sustituto para el Kohonen SOM estándar. Las técnicas de Kohonen
SOM y c-Means pueden encontrar particiones muy distintas en el mis-
mo conjunto de datos, lo que es útil si deseamos demostrar técnicas
contrastadas.
En [Dubois97] se explica una metodología para el análisis de un con-
junto de datos: paso 1, identificar puntos típicos; paso 2, calcular centros;
paso 3, refinar reglas. En los datos de ejemplo había sólo dos atributos,
dado a que se suponía un preproceso de los datos para elegir las variables
más relevantes. El método centra en la creación de reglas a partir de estas
variables.
En el proyecto Europeo [Esprit] de StatLog [StatLog94], se realizó
una comparativa entre 20 de los algoritmos más importantes que sirven
para la clasificación usando técnicas basadas tanto en la inteligencia arti-
ficial como en la estadística clásica. Entre los algoritmos puestos a prue-
ba se incluyeron: C4.5, discriminante lineal y cuadrática y NewID
(variante de ID3). No se incluyó ningún algoritmo basado en la lógica
difusa (por ejemplo fuzzy c-Means).
Sistemas comerciales de minería de datos
Existe hoy una diversidad de oferta en sistemas comerciales de análi-
sis de datos. Los principales sistemas, en lo que se refiere a ventas, son:
Clementine de SPSS, Intelligent Miner for Data de IBM, Enterprise Miner
de SAS, y Oracle Data Mining Suite (anteriormente este producto se
llamó “Darwin” y Oracle lo compró de la empresa “Thinking Machines”).
Todos estos sistemas contienen un repertorio básico de funciones
estadísticas para la preparación de los datos, la exploración y la mode-
lización. Además, todos tienen una o más técnicas para la clasificación
y segmentación (clustering). Para predicción, suelen incluir las técni-
cas de “redes neuronales”, o “regresión lineal” y “regresión logística”.
Para la clasificación: “inducción de reglas” (suelen usar C5.0 o ID3,
17CONCEPTOS
o algo parecido). Para agrupar datos: “red neuronal Kohonen SOM” o
“k-Means”.
En el caso de “Intelligent Miner” de IBM, para predicción también
tiene la técnica Función de Base Radial (RBF), y para segmenta-
ción tiene una técnica basada en el Criterio de Condorcet que crea
modelos “demográficos”. El Condorcet ofrece una mejora para datos
con muchos valores categóricos. Hay diferentes técnicas para el análi-
sis de asociaciones, series temporales y patrones de secuencias, que se
basan en el análisis de frecuencias y reconocimiento de patrones de
secuencias (lo que usted hace a simple vista él lo hace de forma auto-
matizada y más rápida). Intelligent Miner destaca por la calidad sus
algoritmos y su capacidad de trabajar con grandes volúmenes de
datos. En cuanto al interfaz del usuario, una de las características más
potentes en manos de un buen usuario, es la forma de mostrar los
datos, tanto para exploración como para resultados. Se suelen mostrar
juntas a todas las variables (o cuantas quepan en la ventana) con sus
distribuciones (histograma por variables numéricas y pastel para
variables de categorías). Esto permite un escrutinio de las tendencias
de cada variable, y las variables entre sí, a través de diferentes téc-
nicas de proceso (red neuronal, RBF...) y conjuntos de datos (en-
trenamiento, prueba, sólo clientes de Barcelona, sólo clientes de
Madrid...).
El Enterprise Miner de SAS emplea una metodología de análisis
de datos que se llama SEMMA (sample, explore, modify, model
y assess), es decir: muestreo, explorar, modificar, modelizar y eva-
luar los resultados. Tiene una interface tipo canvas basado en el uso
de iconos distintivos que representan las diferentes técnicas y proce-
sos disponibles. Los iconos se usan de forma “coger, arrastrar, sol-
tar”. La interfaz en sí pretende guiar el usuario mediante la meto-
dología SEMMA. Aporta técnicas específicas para asociaciones,
patrones secuenciales, árboles de decisión (CHAID/CART/C5.0),
redes neuronales, regresión logística, segmentación (k-Means), RBF
y una amplia selección de técnicas estadísticas. Podemos decir que
los puntos fuertes de esta herramienta son su herencia estadísti-
ca (SAS originó como una compañía de herramientas estadísticas) y
las buenas prácticas impuestas al usuario mediante la metodología
SEMMA.
18 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Clementine de SPSS (anteriormente de ISL) incorpora técnicas de
redes neuronales, regresión e inducción de reglas, con redes Kohonen
para segmentación y C5.0 para árboles de decisión. Clementine usa téc-
nicas visuales de forma extensa, las cuales proporcionan al usuario una
agilidad para la manipulación y el proceso de los datos. Se puede visua-
lizar los resultados con una variedad de representaciones gráficas como
plots, scatter, histogramas o tablas de distribución (alineadas de forma
horizontal) y diagramas “telaraña” para desvelar relaciones entre los
datos. También es capaz de crear modelos para la predicción, pronóstico,
estimación y clasificación que se pueden exportar en lenguaje “C” y usar
en otros programas. Tiene una interfaz tipo “canvas”, parecido a la de
Enterprise Miner. Podemos decir que el punto fuerte de Clementine es su
agilidad en manipular los datos: se puede generar un gráfico, seleccionar
una región de ella y hacer un drill-down sobre los datos correspondien-
tes, además de poder “enganchar” procesos de modelización con los de
preproceso de los datos, con cierta facilidad.
Aunque estas modernas “cajas de herramientas” de minería de
datos son bastante completas en su funcionalidad para la exploración y
modelización de datos, ninguno de los sistemas más conocidos hasta el
presente ofrece el proceso y/o una representación difusa de los mis-
mos. Tampoco suelen disponer de la técnica de algoritmos genéticos
accesible por el usuario final. Sí que existen herramientas específicas,
como el DataEngine de MIT GmbH’s, que permite el diseño, defini-
ción y ejecución de reglas de lógica difusa y de funciones de pertenen-
cia. En el campo de los algoritmos genéticos, el programa Genehunter,
de Ward Systems, permite la definición y ejecuciónde problemas
mediante una interfaz tipo hoja de cálculo. Un problema real se define
en términos de conjunto de datos, los genes modificables y parámetros
como la tasa de mutación y el tipo de intercambio (crossover). Véase
Sección 7.8 del libro para una descripción más detallada de los algorit-
mos genéticos.
En el campo de la agregación de datos, no existen operadores explíci-
tos de agregación en las herramientas comerciales más conocidas. Para la
selección de atributos y su ordenación desde el punto de vista de relevan-
cia, normalmente existen técnicas contrastadas, como por ejemplo, el
análisis de componentes principales, análisis de sensibilidad con red neu-
ronal, podado de arboles de decisión, y diversos tipos de correlación y
19CONCEPTOS
covarianza. En la práctica distintas técnicas pueden dar resultados di-
ferentes.
2.2.NRELEVANCIA Y FIABILIDAD
Consideramos un conjunto de casos C1, por ejemplo el conjunto de
personas que gozan de buena salud. Cada persona Pn en el conjunto se
define por M variables que la describen, por ejemplo, edad, sexo, pre-
sión sanguínea, nivel de colesterol, “mapa genético”, si fuma, cantidad
que fuma, tipo de dieta, si realiza ejercicio físico, color del cabello,
etcétera. Ya hemos determinado el concepto que identifica a los miem-
bros del conjunto (CDC, o concepto que define el conjunto), esto sien-
do el de las personas que gozan de buena salud. Por lo tanto, podemos
decir que algunas de las variables que describen a la persona serán más
relevantes que otras al concepto CDC del conjunto. Por ejemplo, sabe-
mos que se puede analizar la variable “mapa genético” para saber si la
persona tiene una propensión a padecer determinadas enfermedades.
Además, innovaciones más recientes en las técnicas de análisis del
“mapa genético” han hecho posible su interpretación precisa. El resul-
tado ha sido que una variable, que hasta hace sólo unos años no estaba
disponible, ahora puede tener precedencia sobre cualquier otra variable
como indicador de la salud futura de una persona. Así que podemos
realizar una suposición cualitativa inicial de que “mapa genético” es
relevante para “gozar de buena salud”. De otra parte, la variable “color
del cabello” no tiene ninguna influencia en absoluto respecto a sí una
persona goza de un mejor o peor estado de salud. En conjuntos com-
plejos de datos con muchas variables, un problema clave al inicio es el
de establecer la relevancia de forma cuantitativa de las variables, en
relación con un concepto determinado, o “salida”, y obtener una orde-
nación (ranking) de todos las variables en orden de relevancia. Como
consecuencia, quedan eliminadas las variables cuya relevancia es
menor que un umbral determinado. De esta forma conseguimos reducir
las variables a un conjunto mínimo con mayor relevancia. En el análi-
sis de datos, esto es nuestro objetivo principal en el contexto de la rele-
vancia.
20 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Trabajos recientes en el área de “relevancia”
El trabajo de [Gonzalez97] presenta dos enfoques contrastados res-
pecto al problema de obtener el conjunto de variables más relevantes.
El primer enfoque se trata de eliminar las variables no-relevantes del
conjunto total, mientras que en el segundo enfoque se pretende cons-
truir un conjunto de variables de mayor relevancia de forma incremen-
tal. SLAVE (Structured Learning Algorithm in Vague Environment) tie-
ne como uno de sus objetivos el de acelerar el proceso de aprendizaje,
con un tiempo de ejecución dos veces menor que el algoritmo están-
dar con el mismo número de reglas. Dos criterios para la “bondad”
de una regla son (1) el grado de consistencia “blanda” y (2) el grado de
completitud. Los conjuntos de datos usados para prueba son: Ionosphe-
re, Soybean y Wine. Para seleccionar las reglas se emplea un algoritmo
genético de dos niveles, el nivel de variable y el nivel de valor (del
dato). Además, se consideran dos niveles de información: el nivel de
relevancia y el nivel de dependencia entre variables. Una regla tiene la
siguiente estructura:
Regla
SI Precedence
ENTONCES Antecedente {representado por un cromosoma}
En resumen, el método de González usa información sobre la rele-
vancia de las variables predictivas para mejorar los modelos resultantes.
[Blum97] tiene diferentes definiciones para la relevancia, que depen-
den del contexto y objetivos en cada caso. El término “relevancia al ob-
jetivo” que usa Blum se refiere a que una característica xi es relevante a
un concepto objetivo c si existe una pareja de ejemplos A y B en el es-
pacio de instancias, tales que A y B difieren sólo en su asignación a xi
y c(A) �� c(B). De esta forma, característica xi es relevante si existe
algún ejemplo para el cual, como consecuencia de una modificación de
su valor, se ve afectada la clasificación dada por el concepto c. Blum
también cita otras definiciones de relevancia, como la “relevancia fuer-
te a la muestra/distribución”, “relevancia débil a la muestra/distribu-
ción”, “relevancia como una medida de la complejidad”, y “utilidad
incremental”.
21CONCEPTOS
Dependiendo de cómo definimos el concepto de “relevancia”, dife-
rentes características o grupos pueden quedar identificados como rele-
vantes. Blum propone una fase de preproceso para reducir el número de
características antes de aplicar la fase de clasificación (inducción).
[Blum97] describe un enfoque basado en un “filtro”, parecido pero me-
nos interactivo que el enfoque de Kohavi [Kohavi97]. Primero se ejecu-
ta un módulo que es el filtro en sí, seguido por el proceso de inducción.
Blum cita dos ejemplos de algoritmos de filtro. El primer es RELIEF
[Kira92], que ha sido usado por muchas aplicaciones de análisis de
datos clínicos. RELIEF asigna un “cociente” de relevancia a cada ca-
racterística, el cual indica la relevancia de la característica respecto
al concepto objetivo. A continuación, se realiza un muestreo aleatorio
del conjunto de datos de entreno y se actualizan los valores de relevan-
cia, basándose en la diferencia entre el ejemplo (caso) seleccionado y
los dos ejemplos más cercanos a la misma clase y de la clase opuesta. El
segundo algoritmo de filtro es FOCUS [Almuallim91], que examina de
forma exhaustiva todos los subconjuntos de características, seleccionan-
do el subconjunto minimal de características que sea suficiente para
determinar el valor de la etiqueta para todos los ejemplos en el conjunto
de datos de entreno.
[Kohavi97] explora la relación entre la relevancia y la selección
de un subconjunto óptimo de características. Se presenta un mecanis-
mo que se llama el “envuelto”, o FSS-Feature Subset Selection. Este
mecanismo se incorpora en los algoritmos de inducción de reglas
C4.5 e ID3, y en el algoritmo de Niave-Bayes. Se demuestra una
mejora en la precisión clasificadora para conjuntos de datos como
Corral, Monk1 y Monk2-local, del repositorio de conjuntos de datos
la Universidad de California en Irving. Como resultado, se consiguió
una precisión igual que con otras técnicas usando un número menor
de características como entradas. La justificación para este enfoque
es que muchos de los algoritmos de inducción más conocidos pier-
den rápidamente su precisión predictiva en la presencia de un gran
número de características, si la relevancia de estas no es buena
para predecir el resultado/salida deseada. El algoritmo estándar de
Naive Bayes, por ejemplo, pierde precisión rápidamente cuando se
añaden características con una correlación baja con el resultado de-
seado.
22 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Kohavi afirma que el enfoque del “envuelto” ofrece una mejora res-
pecto al simple uso de un filtro como en los algoritmos de FOCUS o
RELIEF. Según Kohavi, la principal desventaja de la técnica del filtro es
que no toma en cuenta los efectos del subconjunto seleccionado de carac-
terísticas sobre el rendimiento del algoritmo de inducción. En contraste,
su enfoque sí que toma en cuenta estos efectos. Con el enfoque del
“envuelto”, el subconjuntode características queda optimizado para su
uso con el algoritmo de inducción.
Kohavi, en [Kohavi97], revisa diversas definiciones de “relevancia”
en la literatura. Su revisión sólo considera las definiciones para da-
tos de tipo categórico, aunque Kohavi afirma que sería posible exten-
derlas a datos de tipo numérico. Kohavi concluye que son necesarios
dos grados de relevancia para garantizar resultados únicos. Estos dos
grados se definen como el grado “débil” y el grado “fuerte”. Demues-
tra su planteamiento con un ejemplo usando Xor: una característica Xi
es relevante en grado “fuerte” si y sólo si existe un xi, y un si para los
cuales (Xi = xi, Si=si) > 0 tal que p(Y=y|Xi=xi,Si=si)!=p(Y=y|Si=si).
Una característica Xi es relevante en grado “débil” si y sólo si no es
relevante en grado “fuerte” y existe un subconjunto de característi-
cas S’i de Si para el cual existe un xi, y un s’i con p(Xi =xi,S’i=s’i)
!= p(Y=y|S’i =s’i).
23CONCEPTOS
Conjunto de
entrenamiento
Conjunto
de caracte-
rísticas
Conjunto
de caracte-
rísticas
Hipótesis
Conjunto de prueba
Precisión
estimada
Estimación de
la calidad del
resultado
Conjunto de
entrenamiento
Conjunto de
características
Búsqueda y selección de
características
Evaluación de características
Algoritmo de inducción
Algoritmo de
inducción
Evaluación final
Figura 2.2.NEl enfoque de “envuelto” aplicado a la selección de un subconjunto de
características.El algoritmo de inducción esta usado como una “caja negra” por el algo-
ritmo de selección de características.
En la Figura 2.2 vemos una síntesis del enfoque del “envuelto” expli-
cado en [Kohavi97], en la cual se ve que el algoritmo de selección del
subconjunto de características actúa como un “envuelto” alrededor del al-
goritmo de inducción. El algoritmo de selección realiza una búsqueda
para un subconjunto “bueno” usando el algoritmo de inducción como un
componente de la función que evalúa los subconjuntos de características.
De este modo, se considera que el algoritmo de inducción es una “caja
negra”, que procesa el conjunto de datos, particionándolo internamente
en conjuntos de entrenamiento y prueba, para los cuales se han elimina-
do diferentes grupos de características. El subconjunto de características
que consigue la evaluación más alta es elegido como el conjunto defini-
tivo sobre el cual se ejecutará el algoritmo de inducción. A continuación,
se evalúa el resultante clasificador sobre un conjunto de prueba indepen-
diente que no ha sido usado previamente.
Kohavi contrasta dos técnicas para la búsqueda y selección de carac-
terísticas: (a) hill climbing y (b) best first search. Se aplican estas técni-
cas de forma sucesiva a los conjuntos de datos de prueba, usando como
algoritmos de inducción, el ID3, C4.5 y Naive Bayes. Los resultados
indican una ligera mejora en la precisión de clasificación de algunos de
los casos. Sin embargo, la principal mejora es la capacidad de crear un
modelo de clasificación con un número significativamente menor de ca-
racterísticas de entrada, manteniendo mientras una precisión predictiva
similar a los algoritmos originales.
Fiabilidad
La fiabilidad es un campo que fue muy activo en los años 80, con
especial referencia a sistemas tolerantes a fallos. Como ejemplos de
aplicaciones prácticas, podemos citar a la tolerancia de fallos en redes
de comunicaciones y en las unidades centrales de proceso de los orde-
nadores (CPU); el control de procesos críticos (aviones, centrales nu-
cleares), y la toma de decisiones criticas (diagnóstico, pronóstico, …).
Una solución tradicional y sencilla, pero costosa, fue la replicación de
unidades, su ejecución en paralelo y una medición de consenso. La sali-
da global del sistema sería igual al valor asignado a la mayoría de las
salidas. Por ejemplo, si hay cinco salidas, tres de las cuales tienen asig-
nadas el valor SÍ y dos de las cuales tienen asignadas el valor NO,
24 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
entonces por mayoría simple, la salida global sería SÍ. Otra solución
para la tolerancia a fallos fue la redundancia intrínseca en un sistema.
Es decir, si unidad A falla, unidad B, idéntica a la A, se pone en marcha
para sustituirla.
Ahora vamos a considerar lo que acabamos de comentar desde el
punto de vista de la fiabilidad de los valores de los datos. Un enfoque
común para maximizar la fiabilidad de los datos es el uso de múltiples
fuentes para el mismo valor. Por ejemplo, varios sensores para la me-
dición de una temperatura, o varias opiniones expertos para un diag-
nóstico clínico. De los N sensores u opiniones, se realizaría una “vota-
ción” por mayoría simple sobre un número impar de valores de salida,
para producir el resultado definitivo. Como ejemplo, suponemos que
hay cinco sensores de temperatura {A,B,C,D,E} y tres de ellos
{A,C,E} dicen que la temperatura es entre 10 y 12 grados Celsius,
mientras que {B} dice que la temperatura es entre 10 y 15 grados, y
{D} indica una temperatura de entre 25 y 50 grados. La salida como
resultado sería que la temperatura es entre 10 y 12 grados, por mayoría
simple. Anotamos que este método requiere un número impar de sen-
sores. Aunque una mayoría de 60% de los sensores coincidieron con el
mismo resultado, un 40% dieron salidas distintas. Si deseamos,
podríamos incluir esta información como un grado de confianza en el
resultado final.
Sistemas replicados y de votación son muy importantes en sistemas
críticos de control, como por ejemplo, los que se encuentran en aviones,
redes ferroviarias, plantas de energía nuclear, etcétera.
Ahora consideramos el caso de una variable de entrada de tipo numé-
rico, por ejemplo, temperatura. Suponemos que para esta variable tene-
mos un solo sensor y un dato o lectura. Podríamos asignar un valor de
“ponderación” (cociente) a la variable para indicar su fiabilidad en gene-
ral. Es decir, su tendencia para dar resultados incorrectos, relativo a algu-
na medida absoluta. Otra opción sería asignar un valor que representa un
grado de fiabilidad para las diferentes bandas que existen en su distribu-
ción. Por ejemplo, si tenemos el siguiente conjunto de lecturas de tempe-
ratura en grados Celsius, {1, 1, 3, 3, 25}, el valor 25 sería considerado
como “sospechoso”, “improbable” o “poco-fiable”. Sin embargo, la fia-
bilidad de los valores depende de la distribución en cada caso, así que el
25CONCEPTOS
valor 25 en el conjunto {25, 25, 30, 30, 45} sí que sería considerado
como fiable. Por consiguiente, a cada valor podríamos asignarle un gra-
do de fiabilidad, con un valor entre 0 y 1, dónde 1 sería totalmente fiable
y 0 indicaría ninguna fiabilidad.
Más adelante veremos como Yager y Torra han extendido esta idea
para permitir que los operadores de agregación incluyan grados tanto pa-
ra la fiabilidad como para la relevancia de cada variable de entrada.
2.3.NAGREGACIÓN DE VARIABLES Y DATOS
En esta sección vamos a presentar unas técnicas que sirven para agre-
gar datos y variables para dar una respuesta, diagnóstico o pronóstico a
partir de un conjunto de datos de entrada.
El operador “Ordered Weighted Average” (OWA): es una técnica
que permite incluir un “cuantificador” en un proceso de agregación de
una serie de casos de datos correspondientes. Fue detallado por la pri-
mera vez por Yager en [Yager88]. Con el OWA, Yager trató de encon-
trar una solución al problema de agregar criterios múltiples para formar
una función universal de decisión. Una propiedad clave del operador
OWA es la capacidad de orientar su resultado (salida) entre el “y”, para
el cual se deben cumplir todos los criterios, y el “o”, para el cual se
debe cumplir como mínimo sólo uno de los criterios. De esta forma,
permite una aproximación más cercana a la forma de tomar decisiones
de las personas, en la cual a menudo requerimos el cumplimiento de “la
mayoría” o “muchos”, o “como mínimo la mitad” o “más de cuatro” de
los criterios.
El operador WOWA: Torra en [Torra97a] describe el operador Weigh-
ted OWA (WOWA), que combinan las ventajas deloperador de la media
ponderada (WM, o Weighted Mean) con las del operador OWA. De esta
forma se solucionan algunas de las carencias de estos operadores cuando
se consideran por separados. WOWA incluye dos vectores de cocientes:
el vector � corresponde a la relevancia de las fuentes de datos (como en
la media ponderada) y el vector � corresponde a la relevancia, que noso-
tros en este libro interpretamos como la “fiabilidad”, de los valores
(como en OWA). Una de las dificultades que se encuentra en usar los
operadores de agregación es la asignación inicial de los cocientes asocia-
26 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
dos, por ejemplo, los pesos de relevancia � de cada fuente de informa-
ción. En [Nettleton01b] se contrastan diferentes métodos de análisis de
datos cuyo fin es determinar unos valores iniciales para los cocientes
de WOWA.
Elección del operador WOWA: hemos elegido el operador WOWA
para agregar los datos que describen los casos de pacientes. El operador
produce como resultado, un diagnóstico para el síndrome de apnea,
según detallado luego en los Capítulos 10 y 11. Una de las razones de
usar WOWA preferentemente a otros posibles operadores como OWA o
WM, es porque nos permite incluir una cuantificación tanto para la
“fiabilidad” como para la “relevancia” en el proceso de agregación. El
operador también es adecuado para procesar datos cuya representación
es en la forma difusa, mediante la incorporación de grados de pertenen-
cia como un vector adicional con los datos de entrada. En la literatura,
el operador WOWA ha sido comparado con otros operadores y técnicas,
como por ejemplo, OWA, Choquet Integral, Sugeno Integral [Suge-
no74] y fuzzy t-integral [Murofushi91]. Se puede decir que el Choquet
Integral o el Sugeno Integral son más apropiados para el proceso de
datos con grados de pertenencia. Sin embargo, Torra ha demostrado en
[Torra98c] que WOWA es equivalente al Choquet Integral en determi-
nadas circunstancias.
El “Joining Algorithm” de Hartigan: el “Joining Algorithm” [Har-
tigan75] realiza sucesivas fusiones de las variables usando como entra-
da una matriz de covarianzas de estas variables. Una consecuencia de
la fusión es la reducción del conjunto inicial de variables a un espacio
de dimensión 2 o 3, la cual simplifica, por ejemplo, la visualización de
los datos. El algoritmo de fusión sirve para lograr dos objetivos: el pri-
mero siendo la reducción de variables mediante su progresiva unifica-
ción; el segundo siendo la identificación de los factores de mayor rele-
vancia y los factores entre los cuales existe mayor relación. Resumen:
en cada paso, se fusiona la pareja de variables con la mayor covarian-
za para forma una nueva variable, hasta que se obtiene el número de-
seado de variables o hasta que el árbol binario de agrupaciones es
completo. Es a partir de este árbol de variables fusionadas que se pue-
den seleccionar diferentes descripciones de los objetos que están
siendo analizados; descripciones que tengan la dimensión más conve-
niente en cada caso.
27CONCEPTOS
Elección del “Joining Algorithm” de Hartigan: el libro de Hartigan,
Clustering Algorithms [Hartigan75] fue un hito de referencia para la
comunidad de investigadores en algoritmos de clustering. Ha sido usado
como una fuente para algoritmos de prueba, y a partir de la cual han sur-
gido nuevas variantes y mejoras de los algoritmos originales. Además de
ser una fuente de algoritmos contrastados, el libro también proporciona y
(en general) explica bien el código fuente de los algoritmos, siendo estos
escritos en el lenguaje Fortran. La implementación de los algoritmos por
parte de Nettleton en el presente libro fue en lenguaje Borland “C”. El
enfoque de Hartigan tiene una base sólida en el campo de la estadística
clásica, y sus algoritmos son claramente de naturaleza crisp (determinis-
ta en vez de probabilística). Esto proporciona un banco de prueba para
una posterior generalización y adaptación para el proceso de los datos
con técnicas difusas. Trabajos posteriores de Hartigan incluyen algunas
consideraciones respecto a la distribución de los datos en el proceso de
clustering [Hartigan77][Hartigan78], la consistencia [Hartigan81] y as-
pectos más teóricos [Hartigan85a][Hartigan85b].
Otros autores comparables en el campo del análisis factorial y el
análisis multivariante son [Mardia79][Lebart85][Kaufman90]. [Kauf-
man90], es de especial relevancia, dado a que sus métodos de análisis se
basan en la forma difusa, y su amplia gama de 10 algoritmos distintos
para fusión de variables, siendo estos distintos a los de Hartigan.
2.4.NLA REPRESENTACIÓN “DIFUSA”DE LOS DATOS
Existen diferentes técnicas para representar datos de forma difusa.
Por ejemplo, la representación heterogénea de Hathaway y Bezdek [Hat-
haway96] y los “Parmenidean Pairs” de [Aguilar91]. En [Aguilar91] se
presenta una técnica que se llama “Parmenidean Pairs” (en castellano,
pares parmenideanos), que genera de forma automática a un número
impar de etiquetas lingüísticas a partir de dos conceptos lingüísticos
antagónicos. Las cinco etiquetas lingüísticas generadas representan los
valores ordenados de la variable, derivado de lo que se termina “Parme-
nidean Pair”, que responde a los valores básicos y opuestos que puede
asumir la variable. Este método es muy apto para variables como “días de
estancia en el hospital”. Para esta variable podríamos definir cinco valo-
res difusos para la estancia del paciente: MUY CORTA, CORTA, ME-
28 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
DIANA, LARGA, MUY LARGA, derivados a partir de los apuestos
básicos de CORTA, LARGA. La complejidad y utilidad de la técnica res-
ta en el cálculo automático de las propiedades geométricas de las funcio-
nes de pertenencia: pendiente, centro de masa, solapamiento entre cada
etiqueta lingüística, longitud de los pendientes, y el resultante grado de
difusión que cada una de estas propiedades define.
La Figura 2.3 indica una sencilla representación para una VLD (Va-
riable Lingüística Difusa). Desde un punto de vista semántico, se puede
identificar una VLD con 3 parámetros: su posición relativa a las demás
variables, su grado de imprecisión, y su grado de incerteza. Se pueden
unificar los últimos dos parámetros en un solo concepto, la “blandura”,
que sería el concepto opuesto de la “dureza” (o crispness).
Las formas trapeziodal y triangular pueden ser consideradas como
aproximaciones a funciones de pertenencia cuya forma natural es una
curva. La forma de curva es más compleja de generar que los trapezoi-
des que hemos visto antes, y a menudo se representa con una ecuación
paramétrica. La curva se genera, o se interpola, a partir de un número
finito de puntos. En la Figura 2.4 se ve un ejemplo de una función de per-
tenencia no-lineal, en la cual los cinco conjuntos difusos definidos por
los trapezoides de la Figura 2.3 ahora quedan representadas por curvas
continuas. Observamos que en la Figura 2.3 existe una zona de solapa-
miento de tres de los conjuntos difusos, siendo estos: muy corta-corta-
mediana y mediana-larga-muy larga. Esto implica que un punto podría
tener un grado de pertenencia significativo que corresponde a cada uno
de los tres posibles conjuntos difusos. Por otra parte, en la Figura 2.4 un
solapamiento solo puede existir entre dos conjuntos difusos en cualquier
29CONCEPTOS
Figura 2.3.NRepresentación de variables léxicas con áreas trapezoidales.
punto. Además, se observa que los rangos de los conjuntos difusos sobre
el eje-x son diferentes entre las Figuras 2.3 y 2.4.
Referencias relacionadas con la representación
de funciones de pertenencia y etiquetas lingüísticas
A continuación citamos algunas referencias recientes: [Roychowd-
hury97] trata de conjuntos difusos trapezoidales y triangulares, [Boixa-
der97] considera las funciones de pertenencia complejas que pueden asu-
mir formas irregulares; por último, [Torra99c] considera la generación de
funciones de pertenencia a partir de conjuntos de observaciones.
2.5.NANÁLISIS DEDATOS CON TÉCNICAS “DIFUSAS”
El análisis de datos con técnicas difusas se considera en detalle en
otros capítulos del libro (Capítulo 3, Capítulo 7 Sec 7.5 y Capítulo 8). En
la presente sección ofrecemos una breve introducción con referencia a
algunos de los algoritmos claves.
Fuzzy c-Means clustering: se pueden considerar algoritmos de agru-
pación difusa como herramientas matemáticas para la detección de simi-
litudes entre miembros de un conjunto de objetos. Uno de los algoritmos
más conocidos es el “Fuzzy Isostar” o “Fuzzy c-Means”, definido en [Bez-
dek73] y [Dunn74]. El algoritmo de clustering “Fuzzy c-Means” es un
método de partición de conjuntos basado en el proceso de Picard. Para
30 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Figura 2.4.NEjemplo de funciones de pertenencia no-lineales.
dicho proceso se definen las condiciones necesarias para optimizar
una función objetivo (Jm) de la suma ponderada del error cuadrado (en
inglés, “weighted sum of squared errors”). El número m es un pará-
metro de ranking de 1 hasta ; J1 es una función objetiva que sirve
para definir los algoritmos c-Means y ISODATA [Duda73], que son
de tipo no-difuso. Dunn fue el primero en extender J1 hasta J2 en
[Dunn74], y Bezdek lo generalizó de J2 a Jm para 1 < m < en [Bez-
dek73]. Mucho del trabajo de fondo de los aspectos teóricos y la
estructura matemática de Fuzzy c-Means fue definido en [Bezdek81].
Los estudios posteriores de [Bezdek87] y [Pal97] introdujeron los
algoritmos “c-varieties” y “c-medians”, respectivamente. Estos algo-
ritmos no requieren una asignación a priori del parámetro “c”, el nú-
mero de particiones, y permiten el uso de tipos mixtos de variables
como entradas.
Matriz de covarianzas difusas: Gustafson y Kessel [Gustafson79]
fueron los primeros en usar el término “matriz de covarianzas difusas”, y
generalizaron el algoritmo fuzzy c-Means para incluir este concepto. Su
motivación fue la de obtener una agrupación (clustering) más precisa. El
cálculo en sí se limitó a la covarianza de una agrupación difusa respecto
al prototipo de la misma agrupación. Trabajos más recientes, como los de
[Watada94], [Wangh95] y [Nakamori97], han creado cálculos de cova-
rianza para aplicaciones específicas.
Agrupación difusa con ponderación de las variables: un trabajo
reciente [Keller00] considera la agrupación difusa usando variables con
valores ponderados. Una función objetiva basada en la técnica de la agru-
pación difusa asigna un parámetro de influencia a cada variable de entra-
da para cada cluster. La medida de distancia determina la influencia de
los atributos de datos para cada cluster, y así facilita la identificación
de los mismos que determinan la clase que el cluster representa. Se pue-
de usar el parámetro de influencia para reducir el efecto de un atributo
sobre algunos de los clusters, pero sin eliminarla para toda la clasifica-
ción. La información que resulta sirve para segmentar un conjunto de
datos en grupos más reducidos con un número menor de atributos. Una
vez realizado la partición de esta forma, se puede seguir con el análisis de
los datos en los grupos reducidos.
Modelización de datos difusos: la modelización de datos tiene como
objetivo la creación de un modelo con N entradas y M salidas, y que sea
31CONCEPTOS
capaz de simular el comportamiento de las salidas respecto a las entra-
das. Un modelo de regresión es un modelo estadístico típico, que en-
cuentra el mejor ajuste de las salidas respecto a las entradas. Tanto el
clustering como la clasificación son ambas técnicas de modelización,
y los veremos con más detalle en capítulos posteriores del libro. Si
sospechamos que en la naturaleza de los datos existe un componente
“difuso”, entonces podemos considerar técnicas que permiten la mani-
pulación de este tipo de información. En el modelo difuso de Sugeno-
Takagi [Takagi85], se emplean funciones gausianas junto con la dis-
tancia Mahalonobis para ajustar la función característica del modelo.
La motivación de Sugeno-Takagi en este caso es la mejora de la opti-
mización mediante una buena asignación de los parámetros iniciales.
Uno de los métodos usados para inicializar los parámetros es la “buena
aproximación” o la “aproximación mejorada”. Una vez asignados los
parámetros iniciales, el modelo crece de forma incremental, a partir
de una, dos o tres reglas iniciales a las cuales se van añadiendo reglas
nuevas.
Modelización difusa con redes neuronales: los modelos que usan la
técnica de redes neuronales intentan simular la funcionalidad del cerebro
biológico definiendo una red interconectada de “neuronas” para proce-
sar las entradas de datos y producir las salidas correspondientes. Un
modelo sencillo de red neuronal consiste en una capa de neuronas de
“entrada”, una capa intermedia que se llama “oculta”, y una capa de neu-
ronas de “salida”. Se definen “cocientes” que quedan asignados a las
interconexiones entre las neuronas. Estos “cocientes” son valores que de-
finen el grado de fuerza o debilidad de una interconexión y se van mo-
dificando de forma dinámica durante el proceso de “entrenamiento” del
modelo. Los pesos aumentan o disminuyen según los estímulos que re-
ciben de las entradas y mediante la propagación de los datos a través de
las diferentes capas del modelo. Mediante sucesivas presentaciones de las
entradas, la red comienza a modelizar los datos y a acertar cada vez más
en los valores de las salidas. Hay diferentes formas de incluir las técnicas
difusas en un modelo neuronal: la primera, siendo en la representación de
los datos. Por ejemplo, se puede incluir grados de pertenencia como
entradas adicionales al modelo. Otra forma de incluir técnicas difusas
sería modificar el funcionamiento interno del modelo para que realice
una interpretación difusa los datos. Por ejemplo, se podría cambiar la for-
32 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
ma de asignar los cocientes asignados a cada neurona, o se podría incor-
porar un aspecto difuso en el mecanismo de propagación de los datos
dentro de la red.
Inducción difusa de reglas: la inducción de reglas es una técnica
cuya meta es la de crear un conjunto de reglas a partir de un conjunto de
datos. Un algoritmo de inducción de reglas no dispone de información
adicional más que los datos en sí. La calidad de las reglas es un aspecto
clave que combina precisión y relevancia. La precisión se trata de que
una regla determinada clasifique correctamente a un alto porcentaje de
los casos correspondientes. La relevancia se refiere a que un número sig-
nificativo de casos corresponde a la regla en concreto, respecto al núme-
ro total de casos. ¿Cómo podemos incluir técnicas difusas en la induc-
ción de reglas? Una primera opción sería en la representación,
incluyendo los grados de pertenencia como entradas. Una segunda
opción sería modificar el funcionamiento interno del proceso de induc-
ción para procesar los datos de forma difusa. Por ejemplo, una definición
difusa de las decisiones a tomar en cada nodo del árbol, o en las fases de
podado y compactación.
En el estudio [Miyoshi97] se desarrolló un algoritmo de inducción
difusa de reglas llamado ID3* y que se basa en la técnica llamada “Fuzzy
Projection Pursuit”. El trabajo de Miyoshi cita otras versiones difusas
del algoritmo de inducción de reglas ID3, y referencias más recientes
de Quinlan. En su trabajo, Miyoshi unifica el enfoque del Fuzzy ID3 de
[Umano94] con el “Projection Persuit” de [Friedman74].
De otra parte, en [Wangc96] se presentó “FILSMR”, una estrategia de
aprendizaje mediante la inducción difusa, que genera reglas modulares.
Este método elige el mejor “atributo-valor”, mientras que la versión
estándar de ID3 elige el mejor “atributo”. Por consiguiente, se podría
decir que el algoritmo FILSMR posee una mayor “granularidad” que
ID3. Se considera que un “valor de pertenencia a una clase” es equiva-
lente a una “instancia difusa”. El algoritmo de Wang encuentra pares
relevantes de atributo-relación, y maximiza la “ganancia en información
difusa”.