Desarrollo-de-arboles-de-decisiones-usando-sas-enterprise-miner-6 1-no-aplica

Matemáticas

•

Exatas

Aprendiendo Matemáticas y Fisica

25/7/2022

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Matemáticas

637.579 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

De
Fecha
1 Desarro
Oscar C
U
FACU
sarrollo
QU
Licencia
Aseso
a: Julio de 2
ollo de árbo
Camarillo Le
UNIVE
AUTO
ULTAD
de árbol
UE PAR
ado en m
or: Marí
012
oles de decis
al
ERSID
ONOM
D DE ES
AC
les de de
M
RA OBTE
matemáti
PRE
Oscar C
a del Ca
siones usand

DAD NA
MA DE
STUDIO
CATÁN

ecisiones
iner 6.1

Tesis

ENER E

icas apli

ESENTA

Camarillo

armen G

do SAS Ente

ACION
MÉXI
OS SUP
N
s usando
EL TITU
icadas y
A
o Leal
onzález
erprise Min
NAL
ICO
PERIOR
o SAS En
ULO DE
computa
Videgar
ner 6.1 |

RES
nterprise
ación
ray
e

UNAM – Dirección General de Bibliotecas
Tesis Digitales
Restricciones de uso

DERECHOS RESERVADOS ©
PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL

Todo el material contenido en esta tesis esta protegido por la Ley Federal
del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México).
El uso de imágenes, fragmentos de videos, y demás material que sea
objeto de protección de los derechos de autor, será exclusivamente para
fines educativos e informativos y deberá citar la fuente donde la obtuvo
mencionando el autor o autores. Cualquier uso distinto como el lucro,
reproducción, edición o modificación, será perseguido y sancionado por el
respectivo titular de los Derechos de Autor.

2 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 |
Oscar Camarillo Leal

3 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 |
Oscar Camarillo Leal

Dedicatoria y agradecimientos

A mis papás Julio Camarillo y Silvia Leal
que siempre me apoyaron durante toda mi educación
y sin su apoyo esta tesis no se hubiese materializado;
a Gaby Rojas y a mi hija Paola que siempre han apoyado
cada proyecto que tengo a su lado y a la UNAM
por todo el conocimiento compartido y las enseñanzas
otorgadas a través de los profesores.

4 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 |
Oscar Camarillo Leal

OBJETIVO .............................................................................................................................................. 5
HIPÓTESIS ............................................................................................................................................. 5
INTRODUCCIÓN ..................................................................................................................................... 6
CAPÍTULO I. ¿QUÉ ES MINERÍA DE DATOS Y PARA QUÉ SIRVE? ............................................................... 7
CAPÍTULO II. ÁRBOLES DE DECISIÓN Y REDES NEURONALES COMO MODELOS PREDICTIVOS ................ 16
MODELOS MATEMÁTICOS Y MODELOS PREDICTIVOS .......................................................................................... 16
ÁRBOLES DE DECISIÓN.................................................................................................................................. 18
CAPÍTULO III. ALGORITMOS DE ÁRBOLES DE DECISIÓN ......................................................................... 23
INTRODUCCIÓN ........................................................................................................................................... 23
PREPARACIÓN DE DATOS .............................................................................................................................. 25
DEFINICIÓN DE OBJETIVO ............................................................................................................................. 29
SELECCIÓN DE CRITERIOS DE CRECIMIENTO DE ÁRBOL Y ALGORITMOS DE SEGMENTACIÓN Y CLASIFICACIÓN DE CASOS
................................................................................................................................................................. 30
DEFAULT .................................................................................................................................................... 32
PROBABILIDAD JI-CUADRADA ....................................................................................................................... 33
GINI (O DIVERSIDAD DE POBLACIÓN) ............................................................................................................. 40
ENTROPÍA (GANANCIA DE LA INFORMACIÓN) .................................................................................................. 43
CAPÍTULO IV. DESARROLLO DE CASO PRÁCTICO ................................................................................... 52
INTRODUCCIÓN AL PROBLEMA DE NEGOCIO ................................................................................................... 52
RESULTADOS............................................................................................................................................... 53
EXPLORACIÓN ESTADÍSTICA .......................................................................................................................... 55
CÓDIGO SAS .............................................................................................................................................. 55
PARTICIÓN DE DATOS ................................................................................................................................... 57
IMPUTACIÓN ............................................................................................................................................... 58
TRANSFORMACIÓN DE VARIABLES .................................................................................................................. 59
SEGMENTACIÓN DE VARIABLES (CLUSTERING DE VARIABLES) ............................................................................ 60
ÁRBOL DE DECISIÓN ..................................................................................................................................... 62
Árbol de decisión con regla de partición probabilidad ji cuadrada ................................. 62
Árbol de decisión con regla de partición entropía ................................................................ 65
ANÁLISIS DE RESULTADOS ............................................................................................................................. 65
EVALUACIÓN DE LOS MODELOS ...................................................................................................................... 67
REGLAS DE NEGOCIO ................................................................................................................................... 70
HERRAMIENTAS ALTERNAS PARA EL DESARROLLO DE MODELADO PREDICTIVO ..................................................... 73
CONCLUSIONES ................................................................................................................................... 75
CASO DE NEGOCIO ...................................................................................................................................... 75
CONCLUSIONES DE NEGOCIO ........................................................................................................................ 78
ANEXO 1 ............................................................................................................................................. 80
ANEXO 2 ............................................................................................................................................. 81
ANEXO 3 ............................................................................................................................................. 82
BIBLIOGRAFÍA ..................................................................................................................................... 83

5 Desarrollo de árboles de decisionesusando SAS Enterprise Miner 6.1 |
Oscar Camarillo Leal

Objetivo

Describir y entender las capacidades analíticas de los árboles de decisiones dentro del
marco de desarrollo de modelos predictivo utilizando SAS Enterprise Miner 6.1.
Asimismo mostrar las bondades de utilizar esta herramienta analítica y observar
beneficios tangibles empleando técnicas de modelado predictivo para un caso de
negocio en específico.

Hipótesis

El desarrollo de modelos predictivos, en específico los modelos de árboles de decisión
son altamente competitivos y efectivos en su capacidad predictiva ante los métodos
tradicionales de estimación y predicción que mayormente están basados en la
experiencia de industria que puedan tener los analistas y expertos. El desarrollo de
modelos predictivos (árboles de decisión) en diversas industrias, refuerzan y mejoran
los criterios de toma de decisiones, explican mejor lo que está pasando y podrían
finalmente entregar a los tomadores de decisión un fundamento analítico que puede
alinearse a las expectativas de negocio.

En resumen la hipótesis está sustentada en la comprobación del supuesto de que los
modelos de árboles de decisiones son lo suficientemente efectivos ante cualquier
método empírico (o incluso estadístico sí es que se utilizan técnicas y herramientas
tradicionales como Excel) ejecutado por los expertos en el negocio o la industria,
además de proporcionar nuevas reglas de negocio que se adaptan a los constantes
cambios que existen en la industria de seguros. Con toda certeza, esta hipótesis no
puede generalizarse sobre iniciativas con fines predictivos dado que las condiciones
cambian de industria a industria, e incluso los proceso son distintos entre
organizaciones.

6 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 |
Oscar Camarillo Leal

Introducción

La minería de datos tiene como esencia primordial la manipulación de grandes
volúmenes de datos que junto con técnicas analíticas o de minería de datos y
herramientas computacionales pueden detectar patrones de comportamiento en una
población, así como predecir algún evento en particular con un alto nivel de precisión
que incrementan la rentabilidad de algún negocio en específico o problemática
planteada. En este sentido, es indispensable la buena predicción de los modelos de
minería de datos, ya que mientras más precisión exista en su predicción, más
confiables serán en su aplicación. De aquí que a lo largo de las últimas décadas ha
habido una explotación considerable de los modelos predictivos como árboles de
decisión, redes neuronales y regresiones lineales, entre otros modelos analíticos.

Hablando específicamente de los modelos analíticos nos referiremos a los árboles de
decisión, dado que sus propiedades son menos complejas que las expuestas por otros
modelos predictivos. El desarrollo de modelos predictivos ha cobrado auge entre los
tomadores de decisiones de las industrias más representativas del mundo sin embargo
existen algunos huecos que cubrir todavía, dado que en muchas organizaciones siguen
utilizando técnicas rudimentarias para incrementar las ganancias de las
organizaciones, fundamentando la toma de decisiones en criterios subjetivos y en
viejas prácticas que los expertos de negocio han establecido. Es aquí donde la
inteligencia analítica y en específico los modelos predictivos pueden ser aprovechados
de una forma proactiva. Particularmente, hablando de los modelos de árboles de
decisión, estos ayudarían a sustentar de una forma analítica las decisiones tomadas,
basando sus criterios en reglas de fácil interpretación y en métodos estadísticos
tradicionales que conjuntamente con los conocimientos de negocio de un experto en la
industria generarían una mayor ganancia e indudablemente darían a las organizaciones
un valor agregado. Conocer a los clientes, lanzar campañas de mercado, optimizar
precios, medir riesgo, prevenir fraude, entre otras problemáticas de negocio son los
principales retos de las organizaciones y los árboles de decisión son un arma
indispensable en esta generación en donde la información ha cobrado un valor
fundamental. Veremos que los árboles de decisión son de fácil interpretación,
seguimiento y construcción, ya que estadísticamente, son estructuras sencillas que nos
ayudan a entender que es lo que está pasando en nuestro problema de negocio.

Siendo así, el presente proyecto de tesis no pretende persuadir al lector en la
utilización de modelos basados exclusivamente en árboles de decisión, sino establecer
y demostrar que estos modelos pueden ser altamente efectivos en su capacidad de
predicción sí son combinados con reglas y conocimiento de negocio de la industria. La
herramienta analítica de SAS (Enterprise Miner 6.1) está diseñada para tomadores de
decisión que desean agregar valor y obtener beneficio de su negocio instrumentando
modelos analíticos sobre objetivos de negocio en particular.

7 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 |
Oscar Camarillo Leal

Capítulo I. ¿Qué es minería de
datos y para qué sirve?

“El grado sumo del saber es contemplar el por
qué”.
Sócrates. (470 AC -399 AC) Filósofo griego

En la actualidad los grandes volúmenes de datos crecen exponencialmente, dado que
la cantidad de transacciones realizadas en la vida cotidiana son incontables, como lo
dice la ley de Moore:” La cantidad de datos en el mundo se duplica a los 18 o 24 meses en
las bases de datos”. Hoy en día, el ver esas cantidades de información, ya no asusta a
nadie. Estas transacciones u operaciones se ven reflejadas en bancos, tiendas
departamentales, telecomunicaciones, áreas de investigación, gobierno, manufactura
y un sinfín de campos más. Todas estas áreas acumulan grandes cantidades de datos,
que necesitan ser almacenadas con el propósito de transformar estos datos en
información y posteriormente la información en conocimiento para finalmente pasar a
formar parte de decisiones inteligentes.

Es necesario describir esta secuencia de hechos, que bien podría adjudicársele el
nombre de causa efecto y que ha venido ocurriendo en su primera etapa cuando los
datos se convierten en algo ya no tan intangible y en su segunda etapa cuando se
obtiene inteligencia de los datos.

Los datos como entes individuales son convertidos en información, esta información
ya tiene un valor que puede ser explotado y cuando la información es bien explotada
se obtiene conocimiento y una vez que se es generado a partir de este conocimiento
adquirido un aprendizaje razonado, se alcanza la cúspide al producir inteligencia.

Estas cinco palabras clave son las que dan sentido a lo que es minería de datos:

Minería de datos es el conjunto de métodos y técnicas analíticas que permiten por
medio de alguna metodología explorar, conocer, interpretar y modelar grandes
cantidades de datos que son convertidos previamente información; cumpliendo el
objetivo de transformar esta información en conocimiento y posteriormente éste
en inteligencia.

Otra definición de minería de datos es la expresada por SAS, la cual es una de las
principales empresas de inteligencia de negocios y que tiene una de las mejores
propuestas de plataforma de inteligencia de negocios sustentada en los componentes
analíticos que ofrece la estadística y en específico la minería de datos:

Métod
volúm

Se tie

De ac
nuevo
datos
matem

“Mine
para
para q

“Mine
máqu
carac
datos

De he
están
en m

Una
soluc
comp
inteli

i Jim G
ii The
iii Dav
Cambr
iv Pete
Data M
NJ, 19
v The

8 Desarro
Oscar C
dos analíticos
menes de info
enen alguna
cuerdo al G
os patrones d
s, usando té
máticasii”.
ería de datos
encontrar nu
que estos sea
ería de datos
uina, reconoc
terísticas pri
s”iv.
echo, la rev
n surgiendo
inería de da
forma de
ciones que
posición de
igencia de n

Goodnight, CE
Gartner Groupvid Hand, Heikk
ridge, MA, 200
er Cabena, Pabl
Mining: From C
998.
Technology R
ollo de árbo
Camarillo Le
s avanzados d
ormacióni.
s definicione
Grupo de Ga
de comporta
écnicas de re
s es el análisi
uevas relacio
an entendidos
s en un cam
cimiento de
incipales de
vista MIT eli
con gran de
atos será el m
mostrar est
ofrece SAS
la cadena
negocios.
F

O de SAS Inst
p, www.gartner
ki Mannila, an
01.
lo Hadjinian, R
Concept to Imp
Review Ten, MI
oles de decis
al
de exploració
es más, com
artner: “Min
amiento, corr
econocimient
is de observa
nes o asociac
s y usados po
mpo interdisc
patrones, e
los datos, to
ge a la min
emanda y ca
más sobreva
ta secuenci
S. A contin
de valor qu
Figura 1.1. Ca

titute.
r.com.
nd Padhraic Sm
Rolf Stadler, Ja
plementation, P
IT Technology
siones usand
ón y modelado
mo las siguie
nería de dato
relaciones, t
to de patron
ar conjuntos d
ciones, y pre
r la gente de
ciplinario que
estadística, b
odo lo anter
ería de dato
ambiarán el
aluado…”v
a de cause
uación en
ue ofrece S
adena de Valo
myth, Principles
aapVerhees, an
Prentice Hall, U
Review, Janua
do SAS Ente
o de asociaci
entes:
os es el proc
endencias, e
nes, así com
de datos o gr
esentar los d
e negocio”iii.
e contempla
base de dat
rior extraído
os como un
rumbo de l
e y efecto
la figura 1
SAS en sus s
or de SAS.
s of Data Minin
nd Alessandro Z
Upper Saddle R
ary/February 20
erprise Min
ón de patron
ceso de descu
en grandes re
mo técnicas
randes volúm
datos de dife
a en sí mism
tos y visualiz
de grandes
a de las tec
os negocios
o está refle
1.1 una mu
soluciones i

ng, MIT Press,
Zanasi, Discov
River,
001.
ner 6.1 |
nes en grande
ubrimiento d
epositorios d
estadísticas
menes de dato
erentes forma
mo aprendizaj
zación de lo
volúmenes d
cnologías qu
. “El expert
ejada en la
uestra de l
integrales d
,
vering
es
de
de
y
os
as
je
os
de
ue
to
as
la
de

Autor
llama
de lo
tema
acota

El co
multi
patro
datos
oport
dado

Como
funda








Siend
mine
que i
pregu
asimi

Parta
conve
ejem
espec
valor
nomb
9 Desarro
Oscar C
res y expert
an KDD (Kno
os Datos) o s
a es amplio,
ar o definirla
oncepto de
idisciplinaria
ones en los
s científicas
tunistas, ya
en el tiemp
o lo muest
amental de
Bases de
Estadístic
Reconocim
Aprendiza
Inteligenc
Redes neu
do matemáti
ría de datos
involucra KD
unta radica
ismo SAS ofr
amos del he
ertirlos en
mplo muy clá
cífico; en es
r, ya que seg
bres de call
ollo de árbo
Camarillo Le
tos en mine
owldedge Dis
si minería de
y para efe
a como lo m
Figura 1.2. M
e KDD fue
a dentro de
grandes vo
s y/o exper
que para ef
po.
tra la figur
la minería d
datos
ca
miento de p
aje de máqu
cia artificial
uronales
icamente es
s es entonce
DD. Pero, ¿C
en la secu
rece en su ca
echo de qu
información
ásico es cu
se momento
guimos perd
es, direccio
oles de decis
al
ría de datos
scovery Data
e datos es u
ectos de con
muestra el di
Minería de da
definido a
e la investig
olúmenes de
rimentales.
fectos de ne
ra 1.2, las
de datos son
patrones
uina

strictos de a
es un conjun
Cuál es la ot
uencia causa
adena de va
ue los datos
n para dar v
ando estam
o el tener la
didos, hasta
ones, ciudad
siones usand
s no termina
a, en españo
un sinónimo
nocer lo que
agrama con
atos como un á
finales de
gación, ten
e datos, los
Hoy en día
egocio pued
s herramien
:
acuerdo a la
nto inclusivo
tra parte qu
a efecto qu
alor.
s son objet
valor agrega
mos perdidos
a dirección e
que nos hac
des y aparta
do SAS Ente
an por defin
ol Descubrim
de KDD. Lo
e es minería
tenido en la
área interdisci
e los años
ía como ta
s cuales era
los datos u
den agregar
ntas analíti
a lógica de V
o de KDD, es
ue forma a K
ue se menci
tos puros si
ado a un de
s y querem
en mano es
cemos de un
ado postal.
erprise Min
nir si perten
miento del C
o que es cie
a de datos
a figura 1.2:

iplinaria.
80´s, sien
area primord
an tomados
utilizados se
valor en alg
icas que fo
Venn y a la
s un segmen
KDD? La resp
ionó previam
in valor y
eterminado
os llegar a
un dato, pe
n mapa, el c
Está ya es
ner 6.1 |
nece a lo qu
Conocimient
erto es que e
es preferibl

ndo un áre
dial detecta
de bases d
e denomina
gún moment
orman part
figura 1.2, l
to de todo l
puesta a est
mente y qu
es necesari
negocio. U
un lugar e
ero carece d
cual contien
información
ue
to
el
le
ea
ar
de
an
to
te
la
lo
ta
ue
io
Un
en
de
ne
n,
10 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 |
Oscar Camarillo Leal

dado que es de utilidad para buscar la dirección que tratamos de localizar. De manera
semejante funciona el KDD; es indispensable tener una preparación previa de los datos
para poderla convertir en información.

El término KDD se refiere entonces a un proceso integral de descubrimiento del
conocimiento en las bases de datos y como tal considera varias tareas previas a la de
minería de datos. Estos pasos previos a la extracción de conocimiento y
reconocimiento de patrones que proporciona la minería de datos son:

1. Preparación de datos. Actividad que consiste en la creación de un Data Mart o
Data Warehose que permita extraer la información de las bases de datos donde
se encuentran los millones de registros que serán de interés para analizar. El
formar un repositorio en el cual se concentre toda la información necesaria y
suficiente para el análisis de minería de datos es la tarea principal en todo
análisis previo de minería de datos. Los terminos data mart y data warehouse
se refieren a este repositorio o tabla única que contenga las variables y los
millones de registros necesarios para extraerles conocimiento. De acuerdo a la
definición de SAS, un datawarehouse es un repositorio que contiene toda la
información generada dentro de un negocio, este repositorio es el nivel óptimo
que se ha alcanzado en términos de inteligencia de negocio ya que no sólo
permite describir el comportamiento del negocio en el pasado, sino también
entender porque en el presente se comportan de algún modo los datos y muy
posiblemente estimar lo que ocurra en el futuro. El data mart cumple la misma
función, sólo que éste no representa o no contiene los datos de toda una
empresa o negocio, sino sólo la información de un área o departamento en
particular, por ejemplo pensemos en una empresa que vende servicios de
logística: esta empresa tiene varias bases de datos, entre ellas la de líneas
transportistas, proveedores, ventas, clientes, productos que se manejan,
catálogo de productos y transacciones, inventarios, entre otros. Si deseamos
crear un data warehouse entonces se debe de considerar toda esta información
en un único repositorio; por otro lado un Data Mart sería la concentración de la
información de todos los ejecutivos de tráfico que producen y almacena
información al día en sus repositorios personales y que para algún análisis de
minería de datos en particular será necesario reunir toda la información
necesaria en un solo lugar.

2. Selección de datos. Se refiere a la tarea de tomar todas las variables
correctas, discriminado aquellas que no son relevantes para el negocio o que
no tienen relevancia dentro del data warehouse. Puede ser que el data
warehouse generado contenga información que no es indispensable, un ejemplo
es cuando el data warehouse de alguna tienda departamental se encuentra la
variable edad y fecha de cumpleaños, ambas proporcionan la misma
información, sin embargo alguna de ellas será irrelevante. Para tener la
información correcta en el data mart es importante formarlo con información
consistente y suficiente. Más adelante se mencionarán técnicas de minería de
datos que permiten hacer una selección de variables. En este momento del
tiempo sólo nos ocupamos de entregar un data warehouse con toda la
información necesaria.11 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 |
Oscar Camarillo Leal

3. Limpieza de datos. La limpieza se refiere a la tarea de estandarización de
valores de alguna variable, formatos, eliminación en algunos casos de variables
con alto número de valores perdidos y optimización de los datos. Ocurre
frecuentemente que la gente de algún centro de atención a clientes captura los
nombre de los clientes y muchas veces o se escriben mal, o se antepone el Sr. o
Sra.; se usan comas entre apellidos y nombre; se escriben con mayúsculas, se
escribe primero el nombre y después el apellido, etc. Es aquí donde se deben
realizar tareas de limpieza y estandarización de datos.

4. Incorporación de conocimiento a priori. Una vez que la preparación de los
datos ha concluido se puede agregar conocimiento de negocio. El experto de
negocio ya sea en un banco, en una tienda departamental, en una investigación
de enfermedades patológicas, determinará algunas reglas que deberán ser
consideradas dentro del análisis de minería de datos. En el caso de un banco, si
se desea realizar la calificación de un cliente para saber si es buen candidato
para otorgar un crédito, es buena práctica que el experto de negocio explique
cómo es que se ha seleccionado esa gente, qué criterio se utiliza, si es que se
usa algún criterio de morosidad, o si el cliente se encuentra al día en sus
pagos, así como el comportamiento de los clientes en ese país, entre otras
reglas de negocio.

5. Minería de Datos. Hasta este momento los datos han sido convertidos en
información lista para ser explotada y generar conocimiento. Como lo
mencionamos anteriormente, hacer minería de datos implica considerar una
metodología, y en este caso infinidad de autores y expertos han propuesto
ciertas metodologías, sin embargo nos inclinaremos por la que proporciona SAS.
La metodología de SAS es conocida como SEMMA y se encuentra definida dentro
de la misma aplicación de Enterprise Miner 6.1 de SAS9.1.3. Por su siglas en
inglés, SEMMA significa Sample (Muestreo), Explore (Exploración de los datos),
Modify (Modificación de los datos), Model (Modelado de los datos), Assess
(Comparación de modelos). Cada uno de ellos se explica a continuación,
aunque es importante recalcar que no se profundizará en la explicación del
ambiente SAS, esto será retomado en el caso práctico.

 Sample (muestreo): Se utilizan técnicas estadísticas y mejores prácticas
de muestreo, el cual considera varios nodos dentro de la aplicación:
Input Data, Data Partition, Simple y Time Siries.
 Explore (exploración de datos): Se explora la calidad de los datos y se
analizan algunos aspectos con estadística descriptiva y técnicas de
asociación. Los nodos para la exploración de estos datos son
Association, Cluster, Multiplot, Path Analysis, SOM, StatExplorer, Text
Miner, Variables Selection.
 Modify (modificación de los datos). Algunos datos requieren ser
ajustados, parametrizados o incluso eliminados. Para estas tareas SAS
proporciona los nodos de Drop, Filter, Impute, Principal Components,
Replacement, Transform Variables.
 Model (modelado de los datos). Los modelos predictivos, de asociación,
segmentación, entre otros, propuestos por SAS son: AutoNeurona,
12 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 |
Oscar Camarillo Leal

Decision Tree, Dmine Regression, DMNeural, Ensamble, Memory Based
Reasoning, Neural Network, Regression, Rul Induction, Two Statesvi.
 Assess (comparación de modelos). Este paso dentro de la metodología
permite cotejar y comparar los modelos de manera tal que se pueda
elegir el que mejor se ajuste a los datos, o menor cantidad de falsos
positivos arroje. Los nodos aquí son Decision, Model Comparition,
Segment Profile, Score. Definitivamente el nodo que estaremos
utilizando es Model Comparition.

6. La interpretación de resultados. Es prácticamente el paso final dentro de un
estudio de Minería de datos, no olvidemos que es parte de KDD. Esta parte es la
que cierra la secuencia de causa efecto de la que hemos hablando, ya que aquí
es donde el aprendizaje de un modelo (ya sea redes neuronales, árbol de
decisión, regresión, etc.), se verá reflejado en la inteligencia que tendrá para
darnos reglas de negocio que darán valor a los objetivos perseguidos y
finalmente estaremos asegurando que el conocimiento extraído refleja lo
existente en los datos. Se resumiría esta última parte como la de aprendizaje
basado en entrenamiento y obtención de decisiones de negocio que se traducen
en inteligencia.

SAS por su parte ofrece estos 6 puntos es sus soluciones de negocios, por ello el uso
de la herramienta dentro de esta tesis, ya que es una de las más completas para ir
de la mano en la competitiva carrera de inteligencia de negocios. Hoy en día las
grandes empresas no sólo pretenden conocer el pasado y entender el presente de
sus datos, sino predecir el futuro utilizando minería de datos y SAS es una
alternativa que ofrece de manera integral estos siete puntos antes señalados.

Minería de datos es un amplio campo en el que se pretende resolver las siguientes
seis tareas:

 Clasificación. Consisten en examinar las características de un nuevo objeto
u elemento y asignarlo a algún grupo o clase ya definida. Cuando un objeto
es clasificado se asigna a esa clase y de algún modo es etiquetado. El
objetivo de ser clasificado es construir un modelo que pueda describir y
determinar más objetos con esta característica y aplicar alguna acción en
particular. Algunos ejemplos de clasificación son: calificación de
solicitantes a una tarjeta de crédito, como bueno, malo y regular;
determinar el número telefónico corresponde a un número de fax, etc.

 Estimación. Dado un ingreso de datos como entrada, la estimación está
dada por el valor de alguna variable continua desconocida como también
por variables de entrada, pesos, o algún balance en el caso de una
calificación de crédito. Algunos ejemplos son, estimación del número de
niños en una comunidad, estimación de los ingresos anuales de la empresa
que es competencia, estimación de la probabilidad de que algún cliente se
fugue a la competencia telefónica.

vi Para propósitos de esta tésis de licenciatura sólo se considerarán los modelos de árboles de decisión y
modelos de minería de datos.
13 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 |
Oscar Camarillo Leal

 Predicción. Prácticamente es lo mismo que la clasificación y la estimación,
excepto que una observación es clasificada de acuerdo a algunas
características de futuros comportamientos o futuras estimaciones. Aquí la
única manera de saber si se está realizando una buena predicción es
esperando a que los datos maduren y se realice la correspondiente
predicción para saber si fue asertiva o no lo fue. Algunos ejemplos son:
predecir que cliente comprara el producto que sale a la venta; predecir la
cantidad de inventario para los siguientes seis meses.

 Afinidad o reglas de asociación. Consiste en asociar eventos en un mismo
contexto. El ejemplo clásico es el de un supermercado en el que dado que
se compró un producto A existe una probabilidad de que se adquiera el
producto B; el contexto aquí es el supermercado.

 Segmentación. es la tarea de dividir una población heterogénea, en varios
grupos de poblaciones homogéneas o conglomerados. Lo que hará que cada
segmento esté clasificado de acuerdo a un conjunto de variables que
describen a cada integrante de la población de la misma manera.

 Descripción de perfiles. Muchas veces el propósito de minería de datos es
simplemente describir qué es lo que pasa en una base de datos y así
comprender más el comportamiento de los clientes o productos. El objetivo
de esta tarea es sólo descriptivo y explicativo para conocer lo que pasa en
el presente y posiblementetomar alguna decisión a futuro.

De acuerdo con lo antes señalado, uno de los principales objetivos de la minería de
datos es encontrar modelos predictivos (estadísticos y/o matemáticos) que sean
representativos de los datos basados en el entrenamiento de estos, tomando un
algoritmo de aprendizaje y así adquirir inteligencia. Estos modelos de minería de
datos requieren de una variable objetivo, también llamada variable de respuesta o
variable dependiente (target) y variables independientes o variables de entrada
(inputs). Estos modelos se pueden generar a partir de algoritmos diseñados por
expertos que con el tiempo han ido perfeccionando y optimizando dado que los
grandes volúmenes de información requieren de técnicas más sofisticadas. Los
modelos predictivos que se pueden generar con minería de datos dependerán del
objetivo que se persiga. Se tiene así un análisis supervisado y no supervisado,
de acuerdo a la clasificación de SAS:

 Análisis supervisado. Es aquel en el que se conoce el objetivo o variable de
respuesta.

 Análisis no supervisado. Se desconoce la variable de respuesta y sólo se
tienen variables de entrada o variables independientes.

Entonces los diferentes tipos de modelos predictivos estadísticos o matemáticos
dependerán del tipo de variable de respuesta que se tenga. También existen
ciertos modelos que se pueden aplicar a un análisis supervisado o no supervisado.
En la figura 1.4 se muestra este cuadro de clasificación de los modelos.
14 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 |
Oscar Camarillo Leal

Clasificación de
Modelos Predictivos
Tipo de Análisis
Supervisado No supervisado
Variables
de
resupesta
Continua
Redes
Neuronales,
Árboles de
Decisión,
Regresión
No se conoce la
variable
Discreta
Redes
Neuronales,
Árboles de
Decisión,
Regresión
No se conoce la
variable
No
conocida
Ninguno
Modelos de
Asociación,
Modelos de
Segmentación,
Modelos de
Clasificación
Figura 1.4. Clasificación de modelos predictivos.

Ahora bien, ¿Para qué o por qué minería de datos? La respuesta a esta pregunta
está enfocada, como ya lo mencionamos en un inicio, al considerable volumen de
datos que se tiene actualmente en las grandes empresas. Éstas generalmente
pertenecen a alguno segmento de negocio que se han clasificado de la siguiente
manera:

 Aeronáutica
 Bioinformática
 Medicina
 Salud
 Finanzas e inversiones
 Manufactura, cadenas de producción y cadenas de subministro
 Negocios y mercado
 Redes de telecomunicaciones
 Dominio científico

Y las aplicaciones dentro de cada uno de estos segmentos son incontables:

 Detección de fraude
 Calificación de riesgo
 Calificación de crédito
 Predicción de fuga, segmentación de clientes, entre otros.

15 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 |
Oscar Camarillo Leal

Entonces la respuesta a por qué se debe utilizar minería de datos, es porqué el
crecimiento de los volúmenes de información en las bases de datos de las
organizaciones ya no sólo se dedican a almacenar de manera histórica los datos,
sino que ahora la tarea es encontrar y detectar nuevas oportunidades que permitan
incrementar la utilidad y rentabilidad de la empresa, conociendo a los clientes y
explotando los datos, y ¿Cómo explotarlos? Utilizando técnicas analíticas
fundamentadas en una metodología y algoritmos computacionales que permitan
optimizar en tiempo y forma estas tareas. Para efectos de esta tesis emplearemos
sólo modelos predictivos supervisados de minería de datos, sin embargo no está
por demás mencionar los modelos predictivos con los que se cuenta en la
actualidad:

 Modelos de árboles de decisión
 Modelos de redes neuronales
 Modelos de regresión
 Modelos de segmentación
 Modelos de afinidad

Básicamente estos son los modelos más comunes y utilizados dentro de la metodología
SAS. En los siguientes capítulos describiremos en qué consisten y cómo trabajan los
modelos de minería de datos, específicamente los árboles de decisión.

16 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 |
Oscar Camarillo Leal

Capítulo II. Árboles de decisión y
redes neuronales como modelos
predictivos

“La matemática es la ciencia del orden y la
medida; de bellas asociaciones de razonamiento, todas sencillas y fáciles”.
René Descartes. (1596 -1650) Filósofo y matemático francés

Modelos matemáticos y modelos predictivos

Los modelos matemáticos son fuertes herramientas que en pleno siglo XXI junto con la
explotación de datos ha revolucionado las estrategias de negocio y ha fortalecido la
toma de decisiones basando sus estrategias en argumentos más sofisticados que son
proporcionados por algoritmos y modelos matemáticos que conjuntamente con los
datos forman parte de lo que ahora llamamos minería de datos.

Los modelos matemáticos han innovado la forma de tomar decisiones y como ejemplo
se tienen ciencias como la investigación de operaciones y teoría de juegos en la cual
se arma un conjunto de reglas, de manera tal que se obtenga el mejor y mayor
beneficio o el menor costo y menos riesgo para un cierto objetivo en particular.
Existen muchas maneras de modelar problemas matemáticos y muchas áreas de
aplicación. Pueden tener varias formas de clasificación, entre ellas por su objetivo,
por el tipo de análisis, por su aleatoriedad o por el tipo de aplicación al que están
orientados. Siendo así, analizaremos los modelos matemáticos que están encaminados
a conseguir un objetivo. Como vimos en el capítulo anterior los modelos predictivos
están enfocados a resolver problemas de “análisis supervisado” y/o “análisis no
supervisado”. En este caso un modelo predictivo en el que se conoce la función
objetivo o la variable dependiente, se conoce como modelo predictivo de análisis
supervisado.

La clasificación de los modelos matemáticos de acuerdo con su objetivo son los
siguientes:

17 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 |
Oscar Camarillo Leal

 Los modelos descriptivos son aquellos que simplemente describen el
comportamiento del caso de estudio o que expresan el comportamiento de
algún fenómeno.

 Los modelos explicativos tienen como objetivo encontrar relaciones de causa y
efecto, tal es el caso de un análisis de afinidad.

 Los modelos de pronósticos o predictivos son modelos matemáticos enfocados a
predecir eventos en el futuro considerando un conjunto de variables de entrada
o variables independientes. Las variables independientes deben tratar de
modelar y ajustarse a la variable independiente o función objetivo con la
finalidad de detectar el patrón a seguir y predecir así su comportamiento en un
futuro. Como ya lo hemos mencionado algunos de los modelos predictivos
utilizados en la industria y más conocidos son los modelos de árboles de
decisión y los modelos de redes neuronales en los que se conoce cuál es la
función objetivo o la variable independiente (en inglés también conocido como
el target). Es por ello que el alcance de esta tesis se centra en estos dos tipos
de modelos predictivos. Otro tipo de modelos son los de pronósticos de series
de tiempo en los que se utiliza el histórico de valores de la variable
dependiente para pronosticar próximos valores.

 Los modelos de control se utilizan cuando se desea mantener el funcionamiento
o el desempeño de algún fenómeno en un mismo estatus o alguna condición
conveniente. Son útiles en control de calidad y procesos.

Como lo revisamos en el primer capítulo, los árboles de decisión y las redes neuronales
forman parte de modelos matemáticos que nos ayudan a predecir eventos o
fenómenos de interés. Es entonces indispensable describir el significado del modelado
predictivo de manera más formal:

SAS definea un modelo predictivo dentro de minería de datos como aquella técnica o
forma de clasificación matemática y estadística de análisis supervisado que por medio
Modelos Matemáticos
por objetivo

Modelos descriptivos
Modelos explicativos
Modelos de pronósticos
Modelos de optimización
Modelos de control
18 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 |
Oscar Camarillo Leal

de algoritmos matemáticos complejos tiene la capacidad de encontrar relaciones
razonables entre variables de entrada (o variables dependientes) y la función objetivo
(o la variable independiente) tomado información de bases de datos con grandes
volúmenes de información.

Uno de los objetivos de este capítulo es el dar un vistazo general sobre los modelos
predictivos de árboles de decisiones, basándonos en la clasificación de los modelos
matemáticos y definiendo ciertas características básicas de estos modelos predictivos
de minería de datos. Las especificaciones y características más a fondo de cómo
funcionan dichos modelos y sus algoritmos serán mostradas en los siguientes dos
capítulos; hasta este capítulo señalaremos algunas características básicas que nos
encaminaran al estudio y diferenciación detallada de estos modelos predictivos.

Árboles de decisión

Los árboles de decisión son una técnica de predicción supervisada muy particular ya
que es la más común y más sencilla en cuanto a su interpretación. Este modelo de
predicción es el más utilizado a nivel internacional, por su simplicidad en la
interpretación y construcción.

Algunos expertos disciernen en nombrar a este tipo de modelos predictivos como
árboles de decisiones, ya que los árboles de decisiones están más ligados a lo que es el
análisis de decisiones. Una definición de estos árboles de decisión orientados al
análisis de decisión es la siguiente:

“El árbol de decisiones es una representación cronológica del proceso de decisión,
mediante una red que utiliza dos tipos de nodos: los nodos de decisión, representados
por medio de una forma cuadrada (el nodo de elección), y los nodos de estados de la
naturaleza, representados por círculos (el nodo de probabilidad). Se dibuja la lógica
del problema construyendo un árbol de decisiones; para los nodos de probabilidad se
debe asegurar de que las probabilidades en todas las ramas salientes sumen uno;
finalmente se calculan los beneficios esperados retrocediendo en el árbol,
comenzando por la derecha y trabajando hacia la izquierda”vii.

En realidad los árboles de decisiones son representaciones que por medio de
decisiones y estados de naturaleza, permiten determinar la mejor elección de acuerdo
a los beneficios deseados asignando a cada una de las ramas o decisiones
probabilidades que permitirán maximizar o minimizar un objetivo según el análisis
deseado.

Un ejemplo de ello está en la figura 2.1 donde el árbol de decisiones en el que se
tiene nodos que son estado de la naturaleza y nodos de elección, así como
probabilidades en los diversos estados de la naturaleza por nodo.

vii Profesor Hossein Arsham, http://home.ubalt.edu/ntsbarsh/opre640S/SpanishP.htm#rtreeinflunce, 2006,
consulta realizada Mayo de 2007.
1

Como
más
ocurr

De lo
datos
una
forma

Donde
Xmn=
m= ni
n=ram

El árb

19 Desarro
Oscar C
o podemos o
bien, de a
rencias se el
o contrario u
s), es aquel
disyunción
adas de la si
(X0
V (X0
V… V
V… V(X
e
Variable de e
ivel o profund
ma del árbol
bol de decis
ollo de árbo
Camarillo Le
Figura 2.1.
observar est
acuerdo a
lige la que m
un algoritmo
que toma
de conjunc
iguiente ma
00 Λ X11 Λ X21
X00 Λ X12 Λ X21
(X00 Λ X1n Λ X
X00 Λ X1n Λ X2
entrada en el
didad del árb
ión que repr
oles de decis
al
Árbol de dec
e árbol de d
la informac
mejor conve
o de modela
en cuentas
ciones, esto
anera:
Λ…) V (X00 Λ X
1 Λ…) V (X00 Λ
X21 Λ…) V (X00
2n Λ… ΛXm-1n-
l nivel o profu
bol
resenta la e
siones usand
isión aplicable
decisiones n
ción obteni
nga al caso
ado predicti
reglas simp
o es reglas
X11 Λ X22 Λ…)
X21 Λ X22 Λ…)
0 Λ 1n Λ X22 Λ…
- 1 Λ Xm1) V…
undidad m, r
structura an
do SAS Ente
e en teoría de
o es un árbo
ida en cad
de estudio.
vo (árbol de
ples de deci
s o estruct
V… V (X00 Λ X
) V… V (X00 Λ X
…) V… V (X00 Λ
V(X00 Λ X1n Λ
rama n
nterior está
erprise Min

juegos
ol de “si-en
da una de

e decisión e
sión y está
turas lógica
X11 Λ X2n Λ…)
X12 Λ X2n Λ…)
Λ X1n Λ X2n Λ…
Λ X2n Λ… Λ Xmn
en la figura
ner 6.1 |
tonces”, sin
sus posible
en minería d
formado po
as que está

…)
n)
a 2.2:
no
es
de
or
án
2

Como
gene
de m
empl
llama
mode

Los á
1963.
gene
que c
datos
simbó
en fo
con a
de un
comp

Los á
corre
un á
jerár
las co

Como
decis
para
datos
una
comp

20 Desarro
Oscar C
o vimos, el
radas en el
minería de d
eada por la
aremos tamb
elos de mine
árboles de de
. Son una
rados a part
construyen
s. “Compren
ólica y fácil
orma verbal
algunos otro
n modelo in
portamiento
árboles de d
ectamente e
árbol de de
quica, de ta
ondiciones q
o ya lo vim
siones son la
clasificació
s; mientras
función ob
portamiento
ollo de árbo
Camarillo Le
Figu
nombre de
análisis de
datos, sin em
a gran mayo
bién arbole
ería de datos
ecisión fuero
técnica de
tir de grand
una hipótes
nsible” porq
de interpre
(esto hace
os modelos c
nteligente c
de los dato
decisiones tr
el objetivo d
ecisiones es
al manera qu
que se cump
mos y lo me
a clasificaci
n sirve para
que un mod
bjetivo o v
de los dato
oles de decis
al
ura 2.3. Estruc
árboles de
decisiones
mbargo para
oría de los a
es de decisi
s, ya sean p
on desarroll
e aprendiza
des volúmen
sis o repres
que estos m
etar, en form
diferentes
como el de
apaz de det
os.
rabajan bajo
de esta técn
un conjun
ue la decisió
plen desde la
encionamos
ión y la pre
a describir,
delo predict
variable ind
os en función
siones usand
ctura de árbol
e decisiones
y técnicame
a generaliza
autores y ex
iones a las
redictivos o
lados por pri
je de mod
es de inform
sentación de
modelos pue
ma de conju
los modelos
redes neuro
tectar los p
o el lema d
nica de aná
nto de regl
ón final a to
a raíz del ár
anteriorme
edicción. Un
entender y
tivo basado
dependiente
n de esta va
do SAS Ente
l de decisiones
s se atribuye
ente no son
ar y estar a
xpertos, a l
representac
de clasifica
imera vez p
delos comp
mación. El t
el comporta
eden ser re
unto de cond
s predictivos
onales). El re
patrones y la
de “divide y
álisis predict
las organiza
omar se pue
bol hasta un
ente, las ta
n modelo d
explicar el
en árboles
e para inte
riable.
erprise Min
s
e a las repr
n propias de
acorde a la
o largo de
ciones gene
ación.
por Morgan y
prensibles d
término “mo
amiento o p
epresentados
diciones o re
s de árboles
esultado es
as reglas qu
y vencerás”,
tivo. Podem
adas en un
ede determin
na de sus ho
areas de lo
de árboles d
l comportam
de decision
erpretar y
ner 6.1 |

resentacione
e los modelo
terminologí
esta tesis d
rados por lo
y Sonquist e
de decisión
odelo” indic
patrón de lo
s de maner
eglas escrita
s de decisió
la obtenció
ue definen e
, que resum
mos decir qu
na estructur
nar siguiend
ojas.
s árboles d
de decisione
miento de lo
nes consider
predecir e
es
os
ía
de
os
en
n,
ca
os
ra
as
ón
ón
el
me
ue
ra
do
de
es
os
ra
el
2

Una d
parti
analiz
así só
acció
categ
señal

Existe
más
son u
decis
ACLS

Algun
decis



21 Desarro
Oscar C
de las grand
r de una c
zar sólo una
ólo llegar a
ón. Otra ve
goría indepe
ladas en los
en varios al
populares y
utilizados en
sión (figura
(1982) , ASS
Figu
nos concept
sión como m
Función o
o predeci
Variables
variable o
ollo de árbo
Camarillo Le
des ventajas
condición d
a situación,
una rama
entaja más
endiente de
siguientes c
goritmos pa
conocidos
n Enterpris
2.3). Existe
SISTANT(198
ra2.4. Vista d
tos antes d
odelos pred
objetivo o t
r (también c
s predictiva
objetivo.
oles de decis
al
de los árbo
eterminada
pudiendo se
que represe
es que pue
ntro de cad
capítulos.
ara realizar
están el mé
e Miner de
en algunos o
87) y Exhaus
el nodo de árb
e entrar de
dictivos de m
target. Indi
conocida co
as o indepe
siones usand
oles de decis
son mutua
eguir el árbo
entaría sólo
ede trabaja
da variable.
esta clasific
étodo CHAID
SAS dentro
otros algorit
stive CHAID,
bol de decisión
e lleno a e
minería de da
ca la variab
mo variable
endientes. V
do SAS Ente
siones es qu
amente exc
ol de decisió
o una decisió
ar con valo
Éstas y otr
cación y par
D, C&RT, C4
o de sus alg
tmos como
entre otros
n en SAS Ent
explicar lo
atos son los
ble cuyos val
e dependient
Variables ut
erprise Min
e las opcion
cluyentes. E
ón apropiad
ón a tomar
ores perdido
ras caracter
rticionamien
4.5 y C.5. Es
goritmos par
CLS (1966)
s.

terprise Miner
que son lo
siguientes:
lores querem
te).
tilizadas par
ner 6.1 |
nes posibles
Esto permit
damente par
o una únic
os como un
rísticas será
nto. Entre lo
stos método
ra árboles d
, ID3 (1979
r
s árboles d

mos clasifica
ra estimar l
a
te
ra
ca
na
án
os
os
de
),
de
ar
la
22 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 |
Oscar Camarillo Leal

 Partición de datos. Se requiere particionar los datos para su entrenamiento y
validación. Es indispensable una muestra significativa de datos que permita
encontrar patrones o buena capacidad predictiva en entrenamiento así como
en otra muestra de validación o prueba. El método de particionamiento lo
veremos más a detalle en el capítulo de prueba, sin embargo es indispensable
considerar este término que entra en la metodología de minería de datos
incluida en la metodología SEMMA de SAS.

 Nodo raíz. Es el nodo que contiene todos los casos con su clasificación. Nodo
inicial de donde se parte para el desarrollo de los algoritmos de
particionamiento.

 Criterio de partición. Es un estadístico para el cual se define un p-value dado
que cuando se encuentre una relación con un valor mayor o menor que el valor
especificado se forme la regla a partir de la cual se partirán los datos. El
criterio puede ser Gini, entropía o algún otro.

 Rama. Es un subconjunto de condiciones lógicas que definen una regla y que
agrupan a los casos que la cumplen.

 Nodo hoja. Contiene los casos obtenidos una vez que se aplicaron reglas
sucesivas y para los cuales no existen reglas que lo dividan porque se ha
cumplido alguno de los criterios de parada.

 Profundidad del árbol. Es el número de reglas necesarias hasta llegar al nodo
hoja que más condiciones necesita.

 Umbral de soporte. Cuando nos encontramos un nodo con menos de “n”
ejemplos podemos detener el proceso de construcción del árbol de decisión, ya
que no consideramos que es confiable la clasificación avalada por menos de
“n” casos de entrenamiento.

 Criterios de parada. Es una condición que se utiliza para no seguir dividiendo
un árbol. Los tipos de condición pueden ser el valor de un estadístico, un
número de casos mínimo en un nodo o la profundidad del árbol o reglas
definidas hasta llegar al nodo hoja. Estos criterios de parada también reciben
el nombre de prepurning.

 Matriz de costos. Este tipo de matriz permite incluir información referente a
los casos costos o beneficios. Los costos están asociados a una mala
clasificación o predicción por parte del árbol y los beneficios a una correcta
clasificación o predicción.

 Matriz de confusión. Es una medida de bondad de ajuste del árbol de
decisión. Se representa por medio de una tabla en la que se estima la
probabilidad esperada de que se esté realizando una buena predicción o
clasificación; se hace un contraste con los eventos reales y así determinar el
nivel de certeza o capacidad predictiva del modelo. Esta matriz permite
conocer qué tan bueno es el modelo en su capacidad predictiva.
23 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 |
Oscar Camarillo Leal

Capítulo III. Algoritmos de
árboles de decisión

“Somos tan fuertes como cuando nos unimos y
tan débiles como cuando nos separamos”.
Albus Dumbledore, personaje creado por J. K.
Rowling en la novela de Harry Poter

Introducción

En el capítulo anterior se estudiaron los árboles de decisión con una breve
introducción a su estructura y su utilización dentro de las aplicaciones minería de
datos, específicamente en modelos predictivos de análisis supervisado y su uso en
diversas áreas. Vimos que los árboles de decisiones están también orientados al
análisis de decisiones, pero así mismo son llamados árboles de clasificación por la
forma en que trabajan y de igual manera son estructuras que se emplean durante el
modelado predictivo.

Un árbol de clasificación es denominado así por la siguiente razón: Clasifica eventos o
variables en los distintos nodos de un árbol de acuerdo a su semejanza o parentesco
entre elementos del mismo nodo que responden de forma similar a un evento y se
agrupan de forma homogénea caracterizando a dicho nodo por algún patrón en
específico y que al mismo tiempo esta clasificación responde a un objetivo en
particular.

En este capítulo analizaremos a los árboles de decisión (o también conocidos como
clasificación, que no deben ser confundidos con los árboles orientados a la toma de
decisiones o análisis de decisiones mencionados en el capítulo II), su construcción, los
algoritmos que utilizan para clasificar, la forma en que se mide su grado de precisión,
y finalmente se analizará la interpretación de estos árboles por medio de la extracción
de reglas. Dicha extracción de reglas tiene como objetivo entender y dar valor de
negocio a través de resultados tangibles que faciliten la interpretación de estos
modelos predictivos de acuerdo a un objetivo en específico. Todo lo anterior estará
apoyado en la herramienta más completa de Minería de Datos de SAS según los
cuadrantes de Gartnerviii y el nodo de modelado predictivo que ofrece SAS 9.2 en su
versión de Enterprise Miner 6.1.

El estudio de los árboles de decisión tratados en esta tesis así como todos los modelos
mencionados estarán enfocados al modelado predictivo, aun cuando estos modelos

viii Los cuadrantes de Gartner clasifican a SAS como el software de inteligencia analítica líder en
capacidades de minería de datos y análisis predictivo según la última publicación de dicho cuadrante en el
2010.
2

tenga
decis

Duran
consi
predi

Los p
mode

En e
capac
tema
práct

ix La r
irrelev
indepe
razona
24 Desarro
Oscar C
an otra util
siones, etc.
nte el desa
dera una se
icción de ca
pasos genera
elos de árbo
F
l transcurso
cidades qu
as/tópicos
tico.

educción de di
vantes. Los árb
endiente es irre
ablemente débi
ollo de árbo
Camarillo Le
lidad como

arrollo de u
erie de paso
so de negoc
ales dentro
les de decis
Figura 3.1. Me
o de este
ue la soluc
específicos

imensionalidad
oles de decisió
elevante con re
il.
oles de decis
al
segmentaci
un modelo
os que descr
cio a resolve
de la metod
iones son lo
etodología par
trabajo se
ción de SA
que serán

d es la práctica
ón son utilizado
especto a la var
siones usand
ión, reducc
de minería
riben la técn
r.
dología emp
os mostrados
ra construcció
explicará e
AS Enterpr
desglosado
realizada en la
os en la reducc
riable de respue
do SAS Ente
ción de dim
a usando ár
nica para c
pleada por S
s en la siguie
ón de árboles d
el estado d
rise Miner
os en este
a eliminación d
ción de variable
esta si su aport
erprise Min
mensionalida
rboles de d
conseguir la
SAS para el d
ente figura 3
de decisión
del arte ali
brinda. Se
y el siguiede variables red
es irrelevantes
tación predictiv
ner 6.1 |
dix, toma d
decisiones s
solución y/
desarrollo d
3.1:

ineado a la
e abordará
ente capítul
dundantes e
. Una variable
va es
de
se
/o
de
as
án
lo
2

Algun
mues

Prep

En es
predi
consi
gene
prepa
o var
modo
un ca

Ejem
Supon
de bu
La ta
mode

25 Desarro
Oscar C
nas de las ca
stran en la F
Op
paración d
sta etapa se
ictivo, se r
derar tarea
ral la evalu
aración de d
riables por
o aseguraría
aso en partic
plo hipotéti
ngamos que
uró de crédi
abla extraída
elo se vería
ollo de árbo
Camarillo Le
apacidades
Figura 3.2.
pción Pr

Mé
Figura
de datos
e concentra
realizan cá
as de explo
uación inicia
dicho model
cada observ
amos que el
cular.
ico.
e se desea ge
ito. Una de
a del data
de la siguien
oles de decis
al
generales q
ropiedad
Máximo núme
Criterio de
Reglas de parad
Método de
étodo de tratam
Perdi
a 3.2. Capacid
an las variab
álculos de
ración de d
al para el
o se debe c
vación con
análisis pre
enerar un m
esas variab
warehouse
nte forma e
siones usand
que se revisa
ero de ramas
partición
a o crecimiento
e podado
miento de valores
idos
dades en árbol
bles conside
variables. E
datos, selec
desarrollo d
considerar la
su correspo
edictivo es r
modelo de m
les es la lla
para el aná
n la figura 3
do SAS Ente
arán en este
Opciones
predeterm
Logw
o Logworth
Ajuste de p
Máxima p
Tamaño mín
Averag
s Best
les de decision
eradas para
En esta m
cción de mu
del modelo
a creación d
ondiente va
realizado ún
minería de da
mada Saldo
álisis de esta
3.3.
erprise Min
e capítulo so
minadas
2
worth
Threshold
profundidad
profundidad
nimo de hojas
ge Profit
t Leaf
nes
la creación
isma etapa
uestras de
o predictivo
de una tabla
riable objet
nicamente u
atos basado
o en los últim
a variable d
ner 6.1 |
on las que s
n del model
a se puede
análisis y e
. Durante l
a de atributo
tivo, de est
una vez sobr
o en variable
mos 2 meses
de entrada a
se
lo
en
en
la
os
te
ré
es
s.
al
26 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 |
Oscar Camarillo Leal

No.
Cuenta Mes
Meses con
Saldo
Creditos
Revolventes
Tipo de
cliente ……………. Saldo
1234 1 1 1 Oro ……………. 2,700.00
1234 2 1 1 Oro ……………. 1,000.00
1234 3 3 1 Premium ……………. 4,230.00
……………. …… ……………. ……………. ……………. ……………. …………….
1235 1 1 3 Premium ……………. 300.00
1235 2 1 3 Premium ……………. 700.00
1235 3 1 3 Premium ……………. 1,200.00
Figura 3.3. Ejemplo de arreglo de datos

Lo primero que habría que notar es que el número de cuenta se repite más de una vez,
esto quiere decir que pueden existir atributos que dificulten el desarrollo de minería
de datos si se toma tal cual la extracción de esta tabla, ya que se debe tener un
registro único por caso, en el ejemplo se debe tener un solo registro por número de
cuenta. El segundo punto es que la variable Saldo en los últimos dos meses no existe,
sin embargo puede ser calculada usando el campo saldo y el campo mes. Es decir se
debe emplear una técnica para generar dicha variable; lo que muchos llaman un
proceso de ETL (Extracción, Transformación y Carga de datos). Una vez considerados
estos puntos se puede obtener la tabla que se muestra en la figura 3.4.

No.
Cuenta
Meses con
Saldo Actual
Creditos
Revolventes Actual
Tipo de
cliente
Actual …………….
Saldo en dos
meses
1234 1 1 Oro …………….

3,700.00
1235 1 3 Premium …………….

1,000.00
Figura 3.4. Ejemplo de arreglo de datos aplicando técnicas de integración de datos

Nótese que las demás variables también cambiaron de nombre, ya que reflejan el
estado actual de cada cuenta, es decir sólo aparecerían los últimos valores de sus
características. En cuanto a la variable Saldo en los dos últimos meses vemos que se
encuentra calculada y de este modo ya se cuenta con registros únicos.

El análisis exploratorio también se realiza en esta etapa para conocer las variables que
se estarán utilizando. Dicho análisis es realizado a través de técnicas de estadística
descriptiva:

1. Histogramas de Frecuencia
2. Graficas de línea
3. Medidas de tendencia central
4. Cálculo de percentiles
5. Análisis univariado
6. Análisis de valores perdidos
7. Análisis de valores repetidos

Cuando se concluye la tarea de exploración de variables se pueden descartar variables
por falta de valores o aportación al modelo desde el punto de vista de negocio. Todo
27 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 |
Oscar Camarillo Leal

esto deberá estar fundamentado y justificado con el análisis estadístico y la visión de
negocio.

En la selección de muestra es muy importante seleccionar la ventana de información
más adecuada. Esto debido a que el negocio debe indicar la ventana de tiempo de
información que es más confiable. Y a partir de ahí seleccionar muestras de análisis,
así como alguna técnica en específico (aleatorio, estratificado, conglomerado). Se
debe asumir que el análisis de minería de datos requiere muestreos estratificados,
esto debido a que debe ser la muestra representativa con respecto a la variable
objetivo. Técnicamente el muestreo estratificado es un muestreo proporcional.

El muestreo estratificado es aquel que divide a la población en N individuos en k sub
poblaciones o estratos, atendiendo una variable objetivo, de tamaño respectivo N ,…,
N .

N=N N N ⋯ N

Y realizando en cada una de la estratos muestreos aleatorios simples de tamaño
n =1,…., k.

Para efectos de los ejemplos de minería de datos expuestos en esta tesis sólo
analizaremos casos con variable objetivo que cuente con dos clases, valores o estratos
y se empleará muestreo estratificado para efectos de entrenamiento del modelo. Esto
es variables binarias.

Ejemplo hipotético.

Existe un caso de negocio para la detección de fallas en dispositivos de
telecomunicaciones en el que se encuentran un total de 1,000,000 de casos de los
cuales 385,503 son casos de fallas en dispositivos y 614,497 son de casos sin fallas en
los dispositivos.

La distribución real de estos casos se ve de la siguiente manera en la figura 3.5.

28 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 |
Oscar Camarillo Leal

Figura 3.5. Histograma de distribución de casos

Ahora bien, al aplicar un muestreo estratificado del 50% de los datos usando como
referencia esta variable llamada “casos de estudio” se obtiene la siguiente gráfica que
se muestra en la figura 3.6.

Figura 3.5. Histograma de distribución de casos aplicando muestreo estratificado

De donde se puede deducir que se realizó un muestreo estratificado por la variable
caso de estudio del 50%; resultando en la distribución original de la muestra con
29 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 |
Oscar Camarillo Leal

respecto a la población: 39% de concentración en casos de fallas y 61% en casos de no
fallas.

Definición de objetivo

Como lo vimos en los capítulos I y II, el desarrollo de un modelo predictivo supervisado
requiere de casos comprobados, variable objetivo o estrictamente hablando, se
necesita saber “¿Qué es lo que se desea predecir?” y se debe saber ¿Qué se tiene para
realizar esta predicción? basado en hallazgos e historia ya preconcebida. Para que un
modelo pueda predecir algún evento se requiere de una base de conocimiento de
hechos a través de los cuales ya se haya aprendido y se tenga experiencia para poder
tomar la decisión más acertada. Pongamos un ejemplo tradicional.

Un ama de casa ayuda a la economía de su hogar vendiendo oro a diversos clientes
entre ellos amigos, vecinos, compañeros, amigos de los amigos, etcétera. Al iniciar su
negocio no tiene conocimientoalguno sobre a quienes vender o no oro y lo comienza a
hacer sin reservarse el derecho a la no venta sobre alguno de ellos. Conforme pasa el
tiempo se da cuenta de que existe gente que cumple con sus pagos y otra que no lo
hace, de este modo la vendedora de oro va generando una base de conocimiento más
sólida y menos subjetiva que en un inicio; esto debido a que ha aprendido a analizar
las características de sus clientes y sabe que aquellos clientes que no cuentan con un
trabajo estable no serán buenos pagadores, o que aquellos que compran oro por más
de tres veces la recomendarán con alguien más, entre otra infinidad de reglas de
conocimiento deductivo que puede extraer a través de esa base de conocimiento que
ya formó y la experiencia misma. Del mismo modo trabaja un modelo de minería; es
indispensable generar una buena base de conocimiento y definir una correcta variable
objetivo para alcanzar la predicción deseada y conocer a los clientes para este caso.
La diferencia entre la ama de casa que vende oro y el banco que realiza créditos es
que la primera puede vender a tal vez no más de 100 personas, ya que podría perder
el control de sus clientes ella misma; y la institución bancaria realiza préstamos a
miles de clientes, esto incrementa la demanda sobre la base de conocimiento para el
caso del banco.

De este modo la variable objetivo (que describe el caso a resolver) está definida de
acuerdo a las necesidades del negocio, ejemplos de esto, se encuentran a
continuación:

Pregunta de Negocio Base de conocimiento supervisado
¿Qué nuevos clientes representan riesgo para el
banco?
El banco ya cuenta con historia de
clientes buenos y malos, ahí radica su
base de conocimiento.
¿Qué nuevos clientes de una tienda
departamental son más propensos a comprar
productos de belleza?
La tienda departamental seguramente ya
cuenta con una base de clientes que han
comprado estos productos.
30 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 |
Oscar Camarillo Leal

¿Qué clientes de un servicio telefónico se irán
con la competencia?
La compañía telefónica cuenta con una
base de conocimiento en la que se tienen
registrados a los clientes que se han ido
con la competencia.

Entonces, es básico definir la variable objetivo, target o variable dependiente, para la
generación de un modelo predictivo supervisado. Asimismo contar con una base de
conocimiento sobre estos casos.

Selección de criterios de crecimiento de árbol y algoritmos de
segmentación y clasificación de casos

Como vimos en el capítulo anterior los árboles de decisión son estructuras topológicas
que describen como se clasifican de mejor manera los casos de estudio de acuerdo a
una serie de atributos, pero la forma en la que crece esta estructura topológica es
controlada, obedeciendo a los siguientes criterios o preguntas:

 ¿Cómo deben combinarse las variables nominales de entrada?
 ¿Cómo serán ordenadas y combinados los nodos del árbol?, ¿Los nodos
están acorde a su nivel de medición (continuos, ordinales o nominales)?
 ¿Cuántos nodos o ramas se considerarán en el árbol?
 ¿Cuántos nodos serán ordenados para cada nivel del árbol de decisión?
 ¿Con qué criterio se determinará la diferencia de concentración de
casos en un nodo (poder predictivo de las ramas)?
 ¿Cuántos nodos serán evaluados, seleccionados y desplegados?
 ¿Cuántos casos serán el límite a considerar en un nodo?
 ¿Qué pasará cuando en un nodo del árbol exista concentración de
valores perdidos?
 ¿Qué prueba de hipótesis se utilizará para evaluar el crecimiento del
árbol?
 ¿Qué ramas del árbol deben ser podadas o que ramas deben crecer más
dada la serie de criterios seleccionados?
 ¿Cuándo el proceso de decisión se detiene para identificar ramas
potencialmente predictivas?
 ¿Cuándo detener el árbol para identificar los nodos potencialmente
predictivos?

Toda esta gama de preguntas se pueden resolver durante el desarrollo del modelo, a lo
que le llamamos la etapa de configuración del modelo.

En una primera etapa de configuración, se encuentra la definición de parámetros que
deberán ser considerados previos al momento de construir el modelo de árbol de
decisión. Este menú de configuración es general para cualquier modelo que se
desarrollará dentro de la herramienta de SAS.

En e
predi








En el
parám
defin
conti

x El m
trabajo
31 Desarro
Oscar C
ste menú s
ictivo:
Máximo n
predeterm
es ajustab
Rechazo d
supuesto
Número d
predefini
cuenta co
Detectar
permite h
nominale
Rechazar
de clases
nominale
Rechazar
la opción
l siguiente m
metros prop
nido básicam
nuación y d

menú de configu
o de tesis sólo
ollo de árbo
Camarillo Le
se identifica
número de v
minados que
ble.
de variables
u opción an
de clases p
da es clasif
on menos de
los niveles
habilitar la
s.
las variabl
s. El núme
s es de 20.
variables co
anterior, co
menú de con
pios del mod
mente por
ependiendo

uración de árbo
se mostrarán y
oles de decis
al
an seis opci
valores perd
e se permite
s con exceso
nterior se ap
permitidas e
ficar una v
e 20 clases.
s de las v
regla ante
es ordinales
ro predeter
on exceso en
on 20 clases
nfiguraciónx
delo de árbo
una serie
de la etapa

oles de decisión
y explicarán la
siones usand
iones para
didos permit
en es de 50
o de valores
plica.
en una varia
variable ord
variables or
erior para d
s o nominal
rminado pa
n valores de
s en variable
que se obs
oles de deci
de rubros
a en la que n
n es aún más c
as propiedades
do SAS Ente
el desarrol
tidos. El má
0, esta canti
s perdidos.
able ordina
dinal o nom
rdinales o
detectar las
les con un n
ara rechaza
e clase prede
es ordinales
serva en la
isión, es un
que serán
nos encontre
completo, sin e
que agreguen v
erprise Min
lo de cualq
áximo númer
idad de valo
Esto quiere
al o nomina
minal como
nominales.
variables o
número pre
ar variables
eterminados
y/o nomina
figura 3.6 s
panel que
analizados
emos.
mbargo para lo
valor a dicho t
ner 6.1 |

quier model
ro de valore
ores perdido
decir que e
al. La opció
aquella qu
Esta opció
ordinales y/
edeterminad
ordinales
s. Se habilit
ales.
e definen lo
se encuentr
a detalle
os fines de este
trabajo
lo
es
os
el
ón
ue
ón
/o
do
o
ta
os
ra
a
e
3


Defa

32 Desarro
Oscar C
Figura 3.6
Propiedad
propiedad
decisione

Criterio d
empleará
a la varia

ault
Este crite
casos en
para aque
variable i
más ade
enfatizare
cuadrada
ollo de árbo
Camarillo Le
6. Menú de con
des de Reg
des o criteri
es.
de intervalo
á para realiz
ble dependi
erio está bas
donde la va
ellos casos
ndependien
lante). Par
emos sobre
.
oles de decis
al
nfiguración de
la de partic
io de partic
o y nominal
zar la partici
iente. Los cr
sado en el us
ariable depe
en que la v
nte es ordina
ra efectos
el primer
siones usand
e árboles de d
ción. En est
ionamiento
. En el crite
ión de los n
riterios son
so y cálculo
endiente es
variable dep
al usa un mé
del model
caso en el
do SAS Ente
decisión en SA
te menú de
de los nodo
erio que def
odos y sepa
los siguiente
de la proba
nominal o
pendiente e
étodo llama
lo que est
l que se us
erprise Min

AS Enterprise M
opciones se
os dentro de
fine el algo
arar los caso
es:
abilidad Ji-c
binaria. El
es continua;
ado entropía
taremos rev
sa el estad
ner 6.1 |
Miner
e definen la
e un árbol d
oritmo que s
os de acuerd
uadrada par
estadístico
y cuando l
a (se revisar
visando sól
dístico de J
as
de
se
do
ra
F
la
rá
lo
i-
3

Prob

33 Desarro
Oscar C
babilidad J
El cálcul
formada
analizand
lo define

Funcionam

Utilizarem

Sobre la
encuentra
trataremo
el espacio
amarillo)
horizonta

Recordem
un nodo y
primera r
comenzar
haya más

La primerEste inici
entrada d
intervalo
considera
promedio
entrada.

Para sele
generan d
ollo de árbo
Camarillo Le
Ji-Cuadrad
o de este
entre las
do y las cate
el p-value d
miento.
mos el siguie
siguiente gr
an distribuid
os de prede
o definido.
con respe
l y al eje ve
mos que los
y otro son l
regla que r
r a partir lo
reglas por a
ra parte de
ia con la se
disponibles
cada valo
ado en el pro
o del target

eccionar una
dos grupos.
oles de decis
al
da
estadístico
categorías
egóricas de
del estadístic
ente ejemplo
ráfica en la
dos una seri
cir el color
Se asume q
cto a dos
ertical.
nodos del á
las que orde
realizará el
s datos en d
aplicar ento
l algoritmo
elección de
a partir en
or es utiliza
oceso de par
es tomado
a variable
Casos con v
siones usand
está asoci
de la va
la variable
co.
o para obse
que se obse
ie de punto
de algún pu
que la distr
variables
árbol repres
enan qué re
algoritmo
dos reglas. A
nces estaría
se llama bú
una variab
n segmentos
ado como
rtición. Si el
dentro de c
de entrada
valores meno
do SAS Ente
iado a una
riable inde
dependient
rvar cómo t
erva un map
s verdes y a
unto basánd
ribución del
y qu
sentan regla
egla se debe
será la est
Al llegar a u
amos llegand
úsqueda de
ble de entra
s. En caso
único y p
l valor es no
cada nivel d
a y fijar un
ores que el
erprise Min
tabla de
pendiente
te, el punto
rabaja este
peo de dos
amarillos. D
donos en su
target bina
ue correspo
as y que las
e ejecutar.
tablecer un
un nodo en
do a la hoja
partición (s
ada de las
de ser una
potencial qu
ominal, ento
e la variable
n punto de
punto de pa
ner 6.1 |
contingenci
que se est
de partició
algoritmo:
variables, s
De este mod
ubicación e
ario (verde
onden al ej

s líneas entr
Entonces, l
nodo raíz
el que ya n
de un árbol
split search
variables d
a variable d
ue debe se
onces el valo
e nominal d
partición s
artición de l
ia
tá
ón
se
do
en
y
je

re
la
y
no
l.
).
de
de
er
or
de
se
la
34 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 |
Oscar Camarillo Leal

variable, es decir una rama derecha y casos con valores de la variable mayores
al punto de partición, es decir, la rama izquierda. Pongamos un ejemplo donde
se tenga la variable ingresos y sobre esta se realiza una partición en el valor de
$10,000. Los grupos, combinados con los valores de la variable target u
objetivo son utilizados para realizar una tabla de contingencias de 2X2 en
donde las columnas de la tabla de contingencia son especificadas por las ramas
(personas con ingresos menores a $10,000 y personas con ingresos mayores a
$10,000); y los renglones estarían descritos por los valores de respuesta. En la
siguiente tabla se puede observar lo mencionado arriba.

Ingreso < $10,000 Ingreso >= $10,000 Total
Responden ∙
No Responden ∙
Total ∙ ∙ N

De esta forma es aplicado el estadístico ji-cuadrada para cuantificar la
independencia entre las columnas de la tabla, es decir, se trata de probar que
la variable de entrada separa correctamente los casos definidos en el target.
En otras palabras se pretende mostrar que las muestras no son iguales. Un valor
grande de dicho estadístico indica que la proporción de valores en cero y en
uno del target que están en la rama izquierda es distinta a la proporción de
casos de ceros y unos de la rama derecha. Una diferencia en la proporción de
ambas ramas indica un buen particionamiento.

Estadísticamente se realizará la siguiente prueba de hipótesis:

Donde

=
∙
, =
∙
, y P= ∙

La traducción de la hipótesis nula es el argumento en el que las proporciones
de casos de respuesta con menos de $10,000 de ingresos no son diferentes de
los caso de respuesta donde el ingreso es mayor a $10,000.

Así entonces, tendremos la siguiente tabla de contingencias con las reglas de
proporciones definidas de la siguiente forma:

Ingreso < $10,000 Ingreso >= $10,000
Responden ∙ ∙
No
Responden 1 ∙

1 ∙

Entonces el estadístico Ji-cuadrada es calculado de la siguiente manera:

35 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 |
Oscar Camarillo Leal

Debido a que el estadístico de ji-cuadrada puede aplicarse a múltiples valores
de la variable de respuesta, este estadístico es convertido en una probabilidad
“p-value”. El p-value indica la verosimilitud de obtener el valor observado del
estadístico asumiendo que la proporción del target en ambas ramas es la
misma. Para la evaluación donde el número de casos es muy grande el p-value
es muy cercano a cero. Por esta razón, el estadístico es mostrado a través de la
función logarítmica y con la métrica llamada logworth.

De este modo cada valor de una variable de entrada puede calcular su propio
logworth, sin embargo el umbral para identificar cuál es el punto en el que el
árbol separa correctamente los datos es donde el p-value del estadístico ji-
cuadrada toma el valor de 0.20, que corresponde al valor 0.70 en el logworth.
Entonces, el objetivo es maximizar el logworth dentro del proceso de
particionamiento.

La regla de sustitución es la siguiente:

( > Calculada | es verdadera)= . Y el es
simplemente calculado como .

Veamos en el siguiente ejemplo como es que trabaja este algoritmo.

Se pretende clasificar con un árbol de decisiones un caso nuevo dentro del
siguiente plano que contempla dos variables , y un target binario
(1=Verde, 0=Amarillo). Si se identifica la posición de este caso dentro del plano
denotado por las dos variables se observa lo siguiente:
3

36 Desarro
Oscar C
Primer p
calcula e
distribuci
de logwor

Enseguida
decir se c
acuerdo
óptima.

ollo de árbo
Camarillo Le
articionamie
l logworth
ón de los pu
rth y se iden
a se proced
calculará el
a los valore
oles de decis
al
ento. Se ap
para la var
untos de izq
ntifica que e
de a hacer
logworth p
es de dicha
siones usand
plica la pri
riable ; e
quierda a de
en el valor 0
lo mismo p
para identifi
a variable.
do SAS Ente
mera tabla
es decir se
erecha para
0.52 se encu
pero ahora s
icar la clasi
Se identific
erprise Min

a de contin
recorre la s
a buscar el p
uentra el má
sobre la va
ficación de
có la siguie
ner 6.1 |
gencias y s
superficie d
punto óptim
áximo valor.
riable , e
los casos d
ente solució
se
de
mo

es
de
ón
3

37 Desarro
Oscar C
Comparan

La variab
realizadas
sentido la

ollo de árbo
Camarillo Le
ndo ambas s
le que sepa
s es la vari
a primera pa
oles de decis
al
soluciones, o
ra mejor los
able ; qu
artición esta
siones usand
obtenemos l
s casos de a
ue correspon
aría represen
do SAS Ente
o siguiente:
acuerdo a la
nde a un lo
ntada de la
erprise Min

as tablas de
ogworth de
siguiente fo
ner 6.1 |
contingenci
4.92. En es
orma.

ia
se
3

38 Desarro
Oscar C
Observem
de decisi
forma en

Los sigui
depender
un par de

A continu
acuerdo a
de logwor
Aquí se ob

ollo de árbo
Camarillo Le
mos que del
ones y del
que se part
entes pasos
rá de la prec
e iteraciones
uación se to
al proceso d
rth de mane
bserva el cá
oles de decis
al
lado izquie
lado derech
irán los dato
s se repite
cisión que s
s más.
ma aquella
e clasificaci
era vertical y
lculo de log
siones usand
erdo se tiene
ho es el pla
os de acuerd
en sobre ca
e pretenda
rama donde
ión anterior
y horizontal
gworth sobre
do SAS Ente
e la estruct
ano con los
do a este cri
ada rama y
que tenga e
e el valor es
y se observ
respectivam
e la variable
erprise Min
tura topológ
s casos dist
iterio.
y el criterio
el modelo.
s menor a 0
van los siguie
mente
e .
ner 6.1 |

gica del árbo
tribuidos y l
o de parad
Realizaremo
0.63 en d
entes valore

ol
la
da
os
de
es
39 Desarrollo de árboles de decisiones usando SAS Enterprise