Logo Studenta

Desarrollo-de-arboles-de-decisiones-usando-sas-enterprise-miner-6 1-no-aplica

¡Este material tiene más páginas!

Vista previa del material en texto

De
Fecha
1 Desarro
Oscar C
U
FACU
sarrollo 
QU
Licencia
Aseso
a: Julio de 2
ollo de árbo
Camarillo Le
UNIVE
AUTO
ULTAD
de árbol
UE PAR
ado en m
or: Marí
012 
oles de decis
al 
ERSID
ONOM
D DE ES
AC
les de de
M
RA OBTE
matemáti
PRE
Oscar C
a del Ca
siones usand
 
DAD NA
MA DE 
STUDIO
CATÁN
 
ecisiones
iner 6.1
 
Tesis 
 
ENER E
 
icas apli
 
ESENTA
 
Camarillo
 
armen G
 
 
 
do SAS Ente
 
ACION
MÉXI
OS SUP
N 
s usando
EL TITU
icadas y 
A 
o Leal 
onzález 
erprise Min
NAL 
ICO 
PERIOR
o SAS En
ULO DE 
computa
Videgar
ner 6.1 | 
 
RES 
nterprise
ación 
ray 
e 
 
UNAM – Dirección General de Bibliotecas 
Tesis Digitales 
Restricciones de uso 
 
DERECHOS RESERVADOS © 
PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL 
 
Todo el material contenido en esta tesis esta protegido por la Ley Federal 
del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). 
El uso de imágenes, fragmentos de videos, y demás material que sea 
objeto de protección de los derechos de autor, será exclusivamente para 
fines educativos e informativos y deberá citar la fuente donde la obtuvo 
mencionando el autor o autores. Cualquier uso distinto como el lucro, 
reproducción, edición o modificación, será perseguido y sancionado por el 
respectivo titular de los Derechos de Autor. 
 
 
 
2 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
Dedicatoria	y	agradecimientos	
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
A mis papás Julio Camarillo y Silvia Leal 
que siempre me apoyaron durante toda mi educación 
y sin su apoyo esta tesis no se hubiese materializado; 
a Gaby Rojas y a mi hija Paola que siempre han apoyado 
cada proyecto que tengo a su lado y a la UNAM 
 por todo el conocimiento compartido y las enseñanzas 
 otorgadas a través de los profesores. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
 
 
OBJETIVO .............................................................................................................................................. 5 
HIPÓTESIS ............................................................................................................................................. 5 
INTRODUCCIÓN ..................................................................................................................................... 6 
CAPÍTULO I. ¿QUÉ ES MINERÍA DE DATOS Y PARA QUÉ SIRVE? ............................................................... 7 
CAPÍTULO II. ÁRBOLES DE DECISIÓN Y REDES NEURONALES COMO MODELOS PREDICTIVOS ................ 16 
MODELOS MATEMÁTICOS Y MODELOS PREDICTIVOS .......................................................................................... 16 
ÁRBOLES DE DECISIÓN.................................................................................................................................. 18 
CAPÍTULO III. ALGORITMOS DE ÁRBOLES DE DECISIÓN ......................................................................... 23 
INTRODUCCIÓN ........................................................................................................................................... 23 
PREPARACIÓN DE DATOS .............................................................................................................................. 25 
DEFINICIÓN DE OBJETIVO ............................................................................................................................. 29 
SELECCIÓN DE CRITERIOS DE CRECIMIENTO DE ÁRBOL Y ALGORITMOS DE SEGMENTACIÓN Y CLASIFICACIÓN DE CASOS
 ................................................................................................................................................................. 30 
DEFAULT .................................................................................................................................................... 32 
PROBABILIDAD JI-CUADRADA ....................................................................................................................... 33 
GINI (O DIVERSIDAD DE POBLACIÓN) ............................................................................................................. 40 
ENTROPÍA (GANANCIA DE LA INFORMACIÓN) .................................................................................................. 43 
CAPÍTULO IV. DESARROLLO DE CASO PRÁCTICO ................................................................................... 52 
INTRODUCCIÓN AL PROBLEMA DE NEGOCIO ................................................................................................... 52 
RESULTADOS............................................................................................................................................... 53 
EXPLORACIÓN ESTADÍSTICA .......................................................................................................................... 55 
CÓDIGO SAS .............................................................................................................................................. 55 
PARTICIÓN DE DATOS ................................................................................................................................... 57 
IMPUTACIÓN ............................................................................................................................................... 58 
TRANSFORMACIÓN DE VARIABLES .................................................................................................................. 59 
SEGMENTACIÓN DE VARIABLES (CLUSTERING DE VARIABLES) ............................................................................ 60 
ÁRBOL DE DECISIÓN ..................................................................................................................................... 62 
Árbol de decisión con regla de partición probabilidad ji cuadrada ................................. 62 
Árbol de decisión con regla de partición entropía ................................................................ 65 
ANÁLISIS DE RESULTADOS ............................................................................................................................. 65 
EVALUACIÓN DE LOS MODELOS ...................................................................................................................... 67 
REGLAS DE NEGOCIO ................................................................................................................................... 70 
HERRAMIENTAS ALTERNAS PARA EL DESARROLLO DE MODELADO PREDICTIVO ..................................................... 73 
CONCLUSIONES ................................................................................................................................... 75 
CASO DE NEGOCIO ...................................................................................................................................... 75 
CONCLUSIONES DE NEGOCIO ........................................................................................................................ 78 
ANEXO 1 ............................................................................................................................................. 80 
ANEXO 2 ............................................................................................................................................. 81 
ANEXO 3 ............................................................................................................................................. 82 
BIBLIOGRAFÍA ..................................................................................................................................... 83 
 
5 Desarrollo de árboles de decisionesusando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
Objetivo	
 
Describir y entender las capacidades analíticas de los árboles de decisiones dentro del 
marco de desarrollo de modelos predictivo utilizando SAS Enterprise Miner 6.1. 
Asimismo mostrar las bondades de utilizar esta herramienta analítica y observar 
beneficios tangibles empleando técnicas de modelado predictivo para un caso de 
negocio en específico. 
 
Hipótesis 
 
El desarrollo de modelos predictivos, en específico los modelos de árboles de decisión 
son altamente competitivos y efectivos en su capacidad predictiva ante los métodos 
tradicionales de estimación y predicción que mayormente están basados en la 
experiencia de industria que puedan tener los analistas y expertos. El desarrollo de 
modelos predictivos (árboles de decisión) en diversas industrias, refuerzan y mejoran 
los criterios de toma de decisiones, explican mejor lo que está pasando y podrían 
finalmente entregar a los tomadores de decisión un fundamento analítico que puede 
alinearse a las expectativas de negocio. 
 
En resumen la hipótesis está sustentada en la comprobación del supuesto de que los 
modelos de árboles de decisiones son lo suficientemente efectivos ante cualquier 
método empírico (o incluso estadístico sí es que se utilizan técnicas y herramientas 
tradicionales como Excel) ejecutado por los expertos en el negocio o la industria, 
además de proporcionar nuevas reglas de negocio que se adaptan a los constantes 
cambios que existen en la industria de seguros. Con toda certeza, esta hipótesis no 
puede generalizarse sobre iniciativas con fines predictivos dado que las condiciones 
cambian de industria a industria, e incluso los proceso son distintos entre 
organizaciones. 
 
 
 
 
 
 
 
 
 
 
 
 
 
6 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
Introducción	
 
La minería de datos tiene como esencia primordial la manipulación de grandes 
volúmenes de datos que junto con técnicas analíticas o de minería de datos y 
herramientas computacionales pueden detectar patrones de comportamiento en una 
población, así como predecir algún evento en particular con un alto nivel de precisión 
que incrementan la rentabilidad de algún negocio en específico o problemática 
planteada. En este sentido, es indispensable la buena predicción de los modelos de 
minería de datos, ya que mientras más precisión exista en su predicción, más 
confiables serán en su aplicación. De aquí que a lo largo de las últimas décadas ha 
habido una explotación considerable de los modelos predictivos como árboles de 
decisión, redes neuronales y regresiones lineales, entre otros modelos analíticos. 
 
Hablando específicamente de los modelos analíticos nos referiremos a los árboles de 
decisión, dado que sus propiedades son menos complejas que las expuestas por otros 
modelos predictivos. El desarrollo de modelos predictivos ha cobrado auge entre los 
tomadores de decisiones de las industrias más representativas del mundo sin embargo 
existen algunos huecos que cubrir todavía, dado que en muchas organizaciones siguen 
utilizando técnicas rudimentarias para incrementar las ganancias de las 
organizaciones, fundamentando la toma de decisiones en criterios subjetivos y en 
viejas prácticas que los expertos de negocio han establecido. Es aquí donde la 
inteligencia analítica y en específico los modelos predictivos pueden ser aprovechados 
de una forma proactiva. Particularmente, hablando de los modelos de árboles de 
decisión, estos ayudarían a sustentar de una forma analítica las decisiones tomadas, 
basando sus criterios en reglas de fácil interpretación y en métodos estadísticos 
tradicionales que conjuntamente con los conocimientos de negocio de un experto en la 
industria generarían una mayor ganancia e indudablemente darían a las organizaciones 
un valor agregado. Conocer a los clientes, lanzar campañas de mercado, optimizar 
precios, medir riesgo, prevenir fraude, entre otras problemáticas de negocio son los 
principales retos de las organizaciones y los árboles de decisión son un arma 
indispensable en esta generación en donde la información ha cobrado un valor 
fundamental. Veremos que los árboles de decisión son de fácil interpretación, 
seguimiento y construcción, ya que estadísticamente, son estructuras sencillas que nos 
ayudan a entender que es lo que está pasando en nuestro problema de negocio. 
 
Siendo así, el presente proyecto de tesis no pretende persuadir al lector en la 
utilización de modelos basados exclusivamente en árboles de decisión, sino establecer 
y demostrar que estos modelos pueden ser altamente efectivos en su capacidad de 
predicción sí son combinados con reglas y conocimiento de negocio de la industria. La 
herramienta analítica de SAS (Enterprise Miner 6.1) está diseñada para tomadores de 
decisión que desean agregar valor y obtener beneficio de su negocio instrumentando 
modelos analíticos sobre objetivos de negocio en particular. 
 
7 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
Capítulo	I.	¿Qué	es	minería	de	
datos	y	para	qué	sirve?	
 
 “El grado sumo del saber es contemplar el por 
qué”. 
Sócrates. (470 AC -399 AC) Filósofo griego 
 
 
 
En la actualidad los grandes volúmenes de datos crecen exponencialmente, dado que 
la cantidad de transacciones realizadas en la vida cotidiana son incontables, como lo 
dice la ley de Moore:” La cantidad de datos en el mundo se duplica a los 18 o 24 meses en 
las bases de datos”. Hoy en día, el ver esas cantidades de información, ya no asusta a 
nadie. Estas transacciones u operaciones se ven reflejadas en bancos, tiendas 
departamentales, telecomunicaciones, áreas de investigación, gobierno, manufactura 
y un sinfín de campos más. Todas estas áreas acumulan grandes cantidades de datos, 
que necesitan ser almacenadas con el propósito de transformar estos datos en 
información y posteriormente la información en conocimiento para finalmente pasar a 
formar parte de decisiones inteligentes. 
 
Es necesario describir esta secuencia de hechos, que bien podría adjudicársele el 
nombre de causa efecto y que ha venido ocurriendo en su primera etapa cuando los 
datos se convierten en algo ya no tan intangible y en su segunda etapa cuando se 
obtiene inteligencia de los datos. 
 
Los datos como entes individuales son convertidos en información, esta información 
ya tiene un valor que puede ser explotado y cuando la información es bien explotada 
se obtiene conocimiento y una vez que se es generado a partir de este conocimiento 
adquirido un aprendizaje razonado, se alcanza la cúspide al producir inteligencia. 
 
Estas cinco palabras clave son las que dan sentido a lo que es minería de datos: 
 
Minería de datos es el conjunto de métodos y técnicas analíticas que permiten por 
medio de alguna metodología explorar, conocer, interpretar y modelar grandes 
cantidades de datos que son convertidos previamente información; cumpliendo el 
objetivo de transformar esta información en conocimiento y posteriormente éste 
en inteligencia. 
 
Otra definición de minería de datos es la expresada por SAS, la cual es una de las 
principales empresas de inteligencia de negocios y que tiene una de las mejores 
propuestas de plataforma de inteligencia de negocios sustentada en los componentes 
analíticos que ofrece la estadística y en específico la minería de datos: 
 
 
Métod
volúm
 
Se tie
 
De ac
nuevo
datos
matem
 
“Mine
para 
para q
 
“Mine
máqu
carac
datos
 
De he
están
en m
 
Una 
soluc
comp
inteli
 
 
i Jim G
ii The 
iii Dav
Cambr
iv Pete
Data M
NJ, 19
v The 
 
8 Desarro
Oscar C
dos analíticos
menes de info
enen alguna
cuerdo al G
os patrones d
s, usando té
máticasii”. 
ería de datos
encontrar nu
que estos sea
ería de datos
uina, reconoc
terísticas pri
s”iv. 
echo, la rev
n surgiendo 
inería de da
forma de 
ciones que 
posición de 
igencia de n
 
Goodnight, CE
Gartner Groupvid Hand, Heikk
ridge, MA, 200
er Cabena, Pabl
Mining: From C
998. 
Technology R
ollo de árbo
Camarillo Le
s avanzados d
ormacióni. 
s definicione
Grupo de Ga
de comporta
écnicas de re
s es el análisi
uevas relacio
an entendidos
s en un cam
cimiento de 
incipales de 
vista MIT eli
con gran de
atos será el m
mostrar est
ofrece SAS
la cadena 
negocios. 
F
 
O de SAS Inst
p, www.gartner
ki Mannila, an
01. 
lo Hadjinian, R
Concept to Imp
Review Ten, MI
oles de decis
al 
de exploració
es más, com
artner: “Min
amiento, corr
econocimient
is de observa
nes o asociac
s y usados po
mpo interdisc
 patrones, e
los datos, to
ge a la min
emanda y ca
más sobreva
ta secuenci
S. A contin
de valor qu
Figura 1.1. Ca
 
titute. 
r.com. 
nd Padhraic Sm
Rolf Stadler, Ja
plementation, P
IT Technology 
siones usand
ón y modelado
mo las siguie
nería de dato
relaciones, t
to de patron
ar conjuntos d
ciones, y pre
r la gente de
ciplinario que
estadística, b
odo lo anter
ería de dato
ambiarán el 
aluado…”v 
a de cause
uación en 
ue ofrece S
adena de Valo
myth, Principles
aapVerhees, an
Prentice Hall, U
Review, Janua
do SAS Ente
o de asociaci
entes: 
os es el proc
endencias, e
nes, así com
de datos o gr
esentar los d
e negocio”iii. 
e contempla 
base de dat
rior extraído 
os como un
 rumbo de l
e y efecto
la figura 1
SAS en sus s
or de SAS. 
s of Data Minin
nd Alessandro Z
Upper Saddle R
ary/February 20
erprise Min
ón de patron
ceso de descu
en grandes re
mo técnicas 
randes volúm
datos de dife
a en sí mism
tos y visualiz
 de grandes 
a de las tec
os negocios
o está refle
1.1 una mu
soluciones i
 
ng, MIT Press,
Zanasi, Discov
River, 
001. 
ner 6.1 | 
nes en grande
ubrimiento d
epositorios d
estadísticas 
menes de dato
erentes forma
mo aprendizaj
zación de lo
volúmenes d
cnologías qu
. “El expert
ejada en la
uestra de l
integrales d
, 
vering 
es 
de 
de 
y 
os 
as 
je 
os 
de 
ue 
to 
as 
la 
de 
 
Autor
llama
de lo
tema
acota
 
 
El co
multi
patro
datos
oport
dado 
 
Como
funda
 
 
 
 
 
 
 
 
Siend
mine
que i
pregu
asimi
 
Parta
conve
ejem
espec
valor
nomb
9 Desarro
Oscar C
res y expert
an KDD (Kno
os Datos) o s
a es amplio,
ar o definirla
oncepto de
idisciplinaria
ones en los 
s científicas
tunistas, ya 
 en el tiemp
o lo muest
amental de 
Bases de 
Estadístic
Reconocim
Aprendiza
Inteligenc
Redes neu
do matemáti
ría de datos
involucra KD
unta radica 
ismo SAS ofr
amos del he
ertirlos en 
mplo muy clá
cífico; en es
r, ya que seg
bres de call
ollo de árbo
Camarillo Le
tos en mine
owldedge Dis
si minería de
 y para efe
a como lo m
Figura 1.2. M
e KDD fue 
a dentro de
 grandes vo
s y/o exper
 que para ef
po. 
tra la figur
la minería d
datos 
ca 
miento de p
aje de máqu
cia artificial
uronales 
icamente es
s es entonce
DD. Pero, ¿C
 en la secu
rece en su ca
echo de qu
información
ásico es cu
se momento
guimos perd
es, direccio
oles de decis
al 
ría de datos
scovery Data
e datos es u
ectos de con
muestra el di
Minería de da
definido a
e la investig
olúmenes de
rimentales. 
fectos de ne
ra 1.2, las
de datos son
patrones 
uina 
 
strictos de a
es un conjun
Cuál es la ot
uencia causa
adena de va
ue los datos
n para dar v
ando estam
o el tener la
didos, hasta 
ones, ciudad
siones usand
s no termina
a, en españo
un sinónimo 
nocer lo que
agrama con
atos como un á
 finales de
gación, ten
e datos, los
Hoy en día 
egocio pued
s herramien
: 
acuerdo a la
nto inclusivo
tra parte qu
a efecto qu
alor. 
s son objet
valor agrega
mos perdidos
a dirección e
 que nos hac
des y aparta
do SAS Ente
an por defin
ol Descubrim
 de KDD. Lo
e es minería
tenido en la
área interdisci
e los años 
ía como ta
s cuales era
 los datos u
den agregar 
ntas analíti
a lógica de V
o de KDD, es
ue forma a K
ue se menci
tos puros si
ado a un de
s y querem
en mano es 
cemos de un
ado postal. 
erprise Min
nir si perten
miento del C
o que es cie
a de datos 
a figura 1.2:
 
iplinaria. 
 80´s, sien
area primord
an tomados 
utilizados se
 valor en alg
icas que fo
Venn y a la 
s un segmen
KDD? La resp
ionó previam
in valor y 
eterminado 
os llegar a 
un dato, pe
n mapa, el c
 Está ya es 
ner 6.1 | 
nece a lo qu
Conocimient
erto es que e
es preferibl
 
ndo un áre
dial detecta
 de bases d
e denomina
gún moment
orman part
figura 1.2, l
to de todo l
puesta a est
mente y qu
es necesari
 negocio. U
 un lugar e
ero carece d
cual contien
 información
ue 
to 
el 
le 
ea 
ar 
de 
an 
to 
te 
la 
lo 
ta 
ue 
io 
Un 
en 
de 
ne 
n, 
10 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
dado que es de utilidad para buscar la dirección que tratamos de localizar. De manera 
semejante funciona el KDD; es indispensable tener una preparación previa de los datos 
para poderla convertir en información. 
 
El término KDD se refiere entonces a un proceso integral de descubrimiento del 
conocimiento en las bases de datos y como tal considera varias tareas previas a la de 
minería de datos. Estos pasos previos a la extracción de conocimiento y 
reconocimiento de patrones que proporciona la minería de datos son: 
 
1. Preparación de datos. Actividad que consiste en la creación de un Data Mart o 
Data Warehose que permita extraer la información de las bases de datos donde 
se encuentran los millones de registros que serán de interés para analizar. El 
formar un repositorio en el cual se concentre toda la información necesaria y 
suficiente para el análisis de minería de datos es la tarea principal en todo 
análisis previo de minería de datos. Los terminos data mart y data warehouse 
se refieren a este repositorio o tabla única que contenga las variables y los 
millones de registros necesarios para extraerles conocimiento. De acuerdo a la 
definición de SAS, un datawarehouse es un repositorio que contiene toda la 
información generada dentro de un negocio, este repositorio es el nivel óptimo 
que se ha alcanzado en términos de inteligencia de negocio ya que no sólo 
permite describir el comportamiento del negocio en el pasado, sino también 
entender porque en el presente se comportan de algún modo los datos y muy 
posiblemente estimar lo que ocurra en el futuro. El data mart cumple la misma 
función, sólo que éste no representa o no contiene los datos de toda una 
empresa o negocio, sino sólo la información de un área o departamento en 
particular, por ejemplo pensemos en una empresa que vende servicios de 
logística: esta empresa tiene varias bases de datos, entre ellas la de líneas 
transportistas, proveedores, ventas, clientes, productos que se manejan, 
catálogo de productos y transacciones, inventarios, entre otros. Si deseamos 
crear un data warehouse entonces se debe de considerar toda esta información 
en un único repositorio; por otro lado un Data Mart sería la concentración de la 
información de todos los ejecutivos de tráfico que producen y almacena 
información al día en sus repositorios personales y que para algún análisis de 
minería de datos en particular será necesario reunir toda la información 
necesaria en un solo lugar. 
 
2. Selección de datos. Se refiere a la tarea de tomar todas las variables 
correctas, discriminado aquellas que no son relevantes para el negocio o que 
no tienen relevancia dentro del data warehouse. Puede ser que el data 
warehouse generado contenga información que no es indispensable, un ejemplo 
es cuando el data warehouse de alguna tienda departamental se encuentra la 
variable edad y fecha de cumpleaños, ambas proporcionan la misma 
información, sin embargo alguna de ellas será irrelevante. Para tener la 
información correcta en el data mart es importante formarlo con información 
consistente y suficiente. Más adelante se mencionarán técnicas de minería de 
datos que permiten hacer una selección de variables. En este momento del 
tiempo sólo nos ocupamos de entregar un data warehouse con toda la 
información necesaria.11 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
3. Limpieza de datos. La limpieza se refiere a la tarea de estandarización de 
valores de alguna variable, formatos, eliminación en algunos casos de variables 
con alto número de valores perdidos y optimización de los datos. Ocurre 
frecuentemente que la gente de algún centro de atención a clientes captura los 
nombre de los clientes y muchas veces o se escriben mal, o se antepone el Sr. o 
Sra.; se usan comas entre apellidos y nombre; se escriben con mayúsculas, se 
escribe primero el nombre y después el apellido, etc. Es aquí donde se deben 
realizar tareas de limpieza y estandarización de datos. 
 
4. Incorporación de conocimiento a priori. Una vez que la preparación de los 
datos ha concluido se puede agregar conocimiento de negocio. El experto de 
negocio ya sea en un banco, en una tienda departamental, en una investigación 
de enfermedades patológicas, determinará algunas reglas que deberán ser 
consideradas dentro del análisis de minería de datos. En el caso de un banco, si 
se desea realizar la calificación de un cliente para saber si es buen candidato 
para otorgar un crédito, es buena práctica que el experto de negocio explique 
cómo es que se ha seleccionado esa gente, qué criterio se utiliza, si es que se 
usa algún criterio de morosidad, o si el cliente se encuentra al día en sus 
pagos, así como el comportamiento de los clientes en ese país, entre otras 
reglas de negocio. 
 
5. Minería de Datos. Hasta este momento los datos han sido convertidos en 
información lista para ser explotada y generar conocimiento. Como lo 
mencionamos anteriormente, hacer minería de datos implica considerar una 
metodología, y en este caso infinidad de autores y expertos han propuesto 
ciertas metodologías, sin embargo nos inclinaremos por la que proporciona SAS. 
La metodología de SAS es conocida como SEMMA y se encuentra definida dentro 
de la misma aplicación de Enterprise Miner 6.1 de SAS9.1.3. Por su siglas en 
inglés, SEMMA significa Sample (Muestreo), Explore (Exploración de los datos), 
Modify (Modificación de los datos), Model (Modelado de los datos), Assess 
(Comparación de modelos). Cada uno de ellos se explica a continuación, 
aunque es importante recalcar que no se profundizará en la explicación del 
ambiente SAS, esto será retomado en el caso práctico. 
 
 Sample (muestreo): Se utilizan técnicas estadísticas y mejores prácticas 
de muestreo, el cual considera varios nodos dentro de la aplicación: 
Input Data, Data Partition, Simple y Time Siries. 
 Explore (exploración de datos): Se explora la calidad de los datos y se 
analizan algunos aspectos con estadística descriptiva y técnicas de 
asociación. Los nodos para la exploración de estos datos son 
Association, Cluster, Multiplot, Path Analysis, SOM, StatExplorer, Text 
Miner, Variables Selection. 
 Modify (modificación de los datos). Algunos datos requieren ser 
ajustados, parametrizados o incluso eliminados. Para estas tareas SAS 
proporciona los nodos de Drop, Filter, Impute, Principal Components, 
Replacement, Transform Variables. 
 Model (modelado de los datos). Los modelos predictivos, de asociación, 
segmentación, entre otros, propuestos por SAS son: AutoNeurona, 
12 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
Decision Tree, Dmine Regression, DMNeural, Ensamble, Memory Based 
Reasoning, Neural Network, Regression, Rul Induction, Two Statesvi. 
 Assess (comparación de modelos). Este paso dentro de la metodología 
permite cotejar y comparar los modelos de manera tal que se pueda 
elegir el que mejor se ajuste a los datos, o menor cantidad de falsos 
positivos arroje. Los nodos aquí son Decision, Model Comparition, 
Segment Profile, Score. Definitivamente el nodo que estaremos 
utilizando es Model Comparition. 
 
6. La interpretación de resultados. Es prácticamente el paso final dentro de un 
estudio de Minería de datos, no olvidemos que es parte de KDD. Esta parte es la 
que cierra la secuencia de causa efecto de la que hemos hablando, ya que aquí 
es donde el aprendizaje de un modelo (ya sea redes neuronales, árbol de 
decisión, regresión, etc.), se verá reflejado en la inteligencia que tendrá para 
darnos reglas de negocio que darán valor a los objetivos perseguidos y 
finalmente estaremos asegurando que el conocimiento extraído refleja lo 
existente en los datos. Se resumiría esta última parte como la de aprendizaje 
basado en entrenamiento y obtención de decisiones de negocio que se traducen 
en inteligencia. 
 
SAS por su parte ofrece estos 6 puntos es sus soluciones de negocios, por ello el uso 
de la herramienta dentro de esta tesis, ya que es una de las más completas para ir 
de la mano en la competitiva carrera de inteligencia de negocios. Hoy en día las 
grandes empresas no sólo pretenden conocer el pasado y entender el presente de 
sus datos, sino predecir el futuro utilizando minería de datos y SAS es una 
alternativa que ofrece de manera integral estos siete puntos antes señalados. 
 
Minería de datos es un amplio campo en el que se pretende resolver las siguientes 
seis tareas: 
 
 Clasificación. Consisten en examinar las características de un nuevo objeto 
u elemento y asignarlo a algún grupo o clase ya definida. Cuando un objeto 
es clasificado se asigna a esa clase y de algún modo es etiquetado. El 
objetivo de ser clasificado es construir un modelo que pueda describir y 
determinar más objetos con esta característica y aplicar alguna acción en 
particular. Algunos ejemplos de clasificación son: calificación de 
solicitantes a una tarjeta de crédito, como bueno, malo y regular; 
determinar el número telefónico corresponde a un número de fax, etc. 
 
 Estimación. Dado un ingreso de datos como entrada, la estimación está 
dada por el valor de alguna variable continua desconocida como también 
por variables de entrada, pesos, o algún balance en el caso de una 
calificación de crédito. Algunos ejemplos son, estimación del número de 
niños en una comunidad, estimación de los ingresos anuales de la empresa 
que es competencia, estimación de la probabilidad de que algún cliente se 
fugue a la competencia telefónica. 
 
vi Para propósitos de esta tésis de licenciatura sólo se considerarán los modelos de árboles de decisión y 
modelos de minería de datos. 
13 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
 
 Predicción. Prácticamente es lo mismo que la clasificación y la estimación, 
excepto que una observación es clasificada de acuerdo a algunas 
características de futuros comportamientos o futuras estimaciones. Aquí la 
única manera de saber si se está realizando una buena predicción es 
esperando a que los datos maduren y se realice la correspondiente 
predicción para saber si fue asertiva o no lo fue. Algunos ejemplos son: 
predecir que cliente comprara el producto que sale a la venta; predecir la 
cantidad de inventario para los siguientes seis meses. 
 
 Afinidad o reglas de asociación. Consiste en asociar eventos en un mismo 
contexto. El ejemplo clásico es el de un supermercado en el que dado que 
se compró un producto A existe una probabilidad de que se adquiera el 
producto B; el contexto aquí es el supermercado. 
 
 Segmentación. es la tarea de dividir una población heterogénea, en varios 
grupos de poblaciones homogéneas o conglomerados. Lo que hará que cada 
segmento esté clasificado de acuerdo a un conjunto de variables que 
describen a cada integrante de la población de la misma manera. 
 
 Descripción de perfiles. Muchas veces el propósito de minería de datos es 
simplemente describir qué es lo que pasa en una base de datos y así 
comprender más el comportamiento de los clientes o productos. El objetivo 
de esta tarea es sólo descriptivo y explicativo para conocer lo que pasa en 
el presente y posiblementetomar alguna decisión a futuro. 
 
De acuerdo con lo antes señalado, uno de los principales objetivos de la minería de 
datos es encontrar modelos predictivos (estadísticos y/o matemáticos) que sean 
representativos de los datos basados en el entrenamiento de estos, tomando un 
algoritmo de aprendizaje y así adquirir inteligencia. Estos modelos de minería de 
datos requieren de una variable objetivo, también llamada variable de respuesta o 
variable dependiente (target) y variables independientes o variables de entrada 
(inputs). Estos modelos se pueden generar a partir de algoritmos diseñados por 
expertos que con el tiempo han ido perfeccionando y optimizando dado que los 
grandes volúmenes de información requieren de técnicas más sofisticadas. Los 
modelos predictivos que se pueden generar con minería de datos dependerán del 
objetivo que se persiga. Se tiene así un análisis supervisado y no supervisado, 
de acuerdo a la clasificación de SAS: 
 
 Análisis supervisado. Es aquel en el que se conoce el objetivo o variable de 
respuesta. 
 
 Análisis no supervisado. Se desconoce la variable de respuesta y sólo se 
tienen variables de entrada o variables independientes. 
 
Entonces los diferentes tipos de modelos predictivos estadísticos o matemáticos 
dependerán del tipo de variable de respuesta que se tenga. También existen 
ciertos modelos que se pueden aplicar a un análisis supervisado o no supervisado. 
En la figura 1.4 se muestra este cuadro de clasificación de los modelos. 
14 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
 
 
 
Clasificación de 
Modelos Predictivos 
Tipo de Análisis 
Supervisado No supervisado 
Variables 
de 
resupesta 
Continua 
Redes 
Neuronales, 
Árboles de 
Decisión, 
Regresión 
No se conoce la 
variable 
Discreta 
Redes 
Neuronales, 
Árboles de 
Decisión, 
Regresión 
No se conoce la 
variable 
No 
conocida 
Ninguno 
Modelos de 
Asociación, 
Modelos de 
Segmentación, 
Modelos de 
Clasificación 
Figura 1.4. Clasificación de modelos predictivos. 
 
Ahora bien, ¿Para qué o por qué minería de datos? La respuesta a esta pregunta 
está enfocada, como ya lo mencionamos en un inicio, al considerable volumen de 
datos que se tiene actualmente en las grandes empresas. Éstas generalmente 
pertenecen a alguno segmento de negocio que se han clasificado de la siguiente 
manera: 
 
 Aeronáutica 
 Bioinformática 
 Medicina 
 Salud 
 Finanzas e inversiones 
 Manufactura, cadenas de producción y cadenas de subministro 
 Negocios y mercado 
 Redes de telecomunicaciones 
 Dominio científico 
 
Y las aplicaciones dentro de cada uno de estos segmentos son incontables: 
 
 Detección de fraude 
 Calificación de riesgo 
 Calificación de crédito 
 Predicción de fuga, segmentación de clientes, entre otros. 
 
15 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
Entonces la respuesta a por qué se debe utilizar minería de datos, es porqué el 
crecimiento de los volúmenes de información en las bases de datos de las 
organizaciones ya no sólo se dedican a almacenar de manera histórica los datos, 
sino que ahora la tarea es encontrar y detectar nuevas oportunidades que permitan 
incrementar la utilidad y rentabilidad de la empresa, conociendo a los clientes y 
explotando los datos, y ¿Cómo explotarlos? Utilizando técnicas analíticas 
fundamentadas en una metodología y algoritmos computacionales que permitan 
optimizar en tiempo y forma estas tareas. Para efectos de esta tesis emplearemos 
sólo modelos predictivos supervisados de minería de datos, sin embargo no está 
por demás mencionar los modelos predictivos con los que se cuenta en la 
actualidad: 
 
 Modelos de árboles de decisión 
 Modelos de redes neuronales 
 Modelos de regresión 
 Modelos de segmentación 
 Modelos de afinidad 
 
Básicamente estos son los modelos más comunes y utilizados dentro de la metodología 
SAS. En los siguientes capítulos describiremos en qué consisten y cómo trabajan los 
modelos de minería de datos, específicamente los árboles de decisión. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
16 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
Capítulo	II.	Árboles	de	decisión	y	
redes	neuronales	como	modelos	
predictivos	
 
 “La matemática es la ciencia del orden y la 
medida; de bellas asociaciones de razonamiento, todas sencillas y fáciles”. 
René Descartes. (1596 -1650) Filósofo y matemático francés 
 
 
Modelos matemáticos y modelos predictivos 
 
Los modelos matemáticos son fuertes herramientas que en pleno siglo XXI junto con la 
explotación de datos ha revolucionado las estrategias de negocio y ha fortalecido la 
toma de decisiones basando sus estrategias en argumentos más sofisticados que son 
proporcionados por algoritmos y modelos matemáticos que conjuntamente con los 
datos forman parte de lo que ahora llamamos minería de datos. 
 
Los modelos matemáticos han innovado la forma de tomar decisiones y como ejemplo 
se tienen ciencias como la investigación de operaciones y teoría de juegos en la cual 
se arma un conjunto de reglas, de manera tal que se obtenga el mejor y mayor 
beneficio o el menor costo y menos riesgo para un cierto objetivo en particular. 
Existen muchas maneras de modelar problemas matemáticos y muchas áreas de 
aplicación. Pueden tener varias formas de clasificación, entre ellas por su objetivo, 
por el tipo de análisis, por su aleatoriedad o por el tipo de aplicación al que están 
orientados. Siendo así, analizaremos los modelos matemáticos que están encaminados 
a conseguir un objetivo. Como vimos en el capítulo anterior los modelos predictivos 
están enfocados a resolver problemas de “análisis supervisado” y/o “análisis no 
supervisado”. En este caso un modelo predictivo en el que se conoce la función 
objetivo o la variable dependiente, se conoce como modelo predictivo de análisis 
supervisado. 
 
 La clasificación de los modelos matemáticos de acuerdo con su objetivo son los 
siguientes: 
 
 
 
 
 
 
 
 
 
 
17 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Los modelos descriptivos son aquellos que simplemente describen el 
comportamiento del caso de estudio o que expresan el comportamiento de 
algún fenómeno. 
 
 Los modelos explicativos tienen como objetivo encontrar relaciones de causa y 
efecto, tal es el caso de un análisis de afinidad. 
 
 Los modelos de pronósticos o predictivos son modelos matemáticos enfocados a 
predecir eventos en el futuro considerando un conjunto de variables de entrada 
o variables independientes. Las variables independientes deben tratar de 
modelar y ajustarse a la variable independiente o función objetivo con la 
finalidad de detectar el patrón a seguir y predecir así su comportamiento en un 
futuro. Como ya lo hemos mencionado algunos de los modelos predictivos 
utilizados en la industria y más conocidos son los modelos de árboles de 
decisión y los modelos de redes neuronales en los que se conoce cuál es la 
función objetivo o la variable independiente (en inglés también conocido como 
el target). Es por ello que el alcance de esta tesis se centra en estos dos tipos 
de modelos predictivos. Otro tipo de modelos son los de pronósticos de series 
de tiempo en los que se utiliza el histórico de valores de la variable 
dependiente para pronosticar próximos valores. 
 
 Los modelos de control se utilizan cuando se desea mantener el funcionamiento 
o el desempeño de algún fenómeno en un mismo estatus o alguna condición 
conveniente. Son útiles en control de calidad y procesos. 
 
Como lo revisamos en el primer capítulo, los árboles de decisión y las redes neuronales 
forman parte de modelos matemáticos que nos ayudan a predecir eventos o 
fenómenos de interés. Es entonces indispensable describir el significado del modelado 
predictivo de manera más formal: 
 
SAS definea un modelo predictivo dentro de minería de datos como aquella técnica o 
forma de clasificación matemática y estadística de análisis supervisado que por medio 
Modelos Matemáticos 
por objetivo 
 
Modelos descriptivos 
Modelos explicativos 
Modelos de pronósticos 
Modelos de optimización 
Modelos de control 
18 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
de algoritmos matemáticos complejos tiene la capacidad de encontrar relaciones 
razonables entre variables de entrada (o variables dependientes) y la función objetivo 
(o la variable independiente) tomado información de bases de datos con grandes 
volúmenes de información. 
 
Uno de los objetivos de este capítulo es el dar un vistazo general sobre los modelos 
predictivos de árboles de decisiones, basándonos en la clasificación de los modelos 
matemáticos y definiendo ciertas características básicas de estos modelos predictivos 
de minería de datos. Las especificaciones y características más a fondo de cómo 
funcionan dichos modelos y sus algoritmos serán mostradas en los siguientes dos 
capítulos; hasta este capítulo señalaremos algunas características básicas que nos 
encaminaran al estudio y diferenciación detallada de estos modelos predictivos. 
 
Árboles de decisión 
 
Los árboles de decisión son una técnica de predicción supervisada muy particular ya 
que es la más común y más sencilla en cuanto a su interpretación. Este modelo de 
predicción es el más utilizado a nivel internacional, por su simplicidad en la 
interpretación y construcción. 
 
Algunos expertos disciernen en nombrar a este tipo de modelos predictivos como 
árboles de decisiones, ya que los árboles de decisiones están más ligados a lo que es el 
análisis de decisiones. Una definición de estos árboles de decisión orientados al 
análisis de decisión es la siguiente: 
 
“El árbol de decisiones es una representación cronológica del proceso de decisión, 
mediante una red que utiliza dos tipos de nodos: los nodos de decisión, representados 
por medio de una forma cuadrada (el nodo de elección), y los nodos de estados de la 
naturaleza, representados por círculos (el nodo de probabilidad). Se dibuja la lógica 
del problema construyendo un árbol de decisiones; para los nodos de probabilidad se 
debe asegurar de que las probabilidades en todas las ramas salientes sumen uno; 
finalmente se calculan los beneficios esperados retrocediendo en el árbol, 
comenzando por la derecha y trabajando hacia la izquierda”vii. 
 
En realidad los árboles de decisiones son representaciones que por medio de 
decisiones y estados de naturaleza, permiten determinar la mejor elección de acuerdo 
a los beneficios deseados asignando a cada una de las ramas o decisiones 
probabilidades que permitirán maximizar o minimizar un objetivo según el análisis 
deseado. 
 
Un ejemplo de ello está en la figura 2.1 donde el árbol de decisiones en el que se 
tiene nodos que son estado de la naturaleza y nodos de elección, así como 
probabilidades en los diversos estados de la naturaleza por nodo. 
 
 
vii Profesor Hossein Arsham, http://home.ubalt.edu/ntsbarsh/opre640S/SpanishP.htm#rtreeinflunce, 2006, 
consulta realizada Mayo de 2007. 
1
 
 
Como
más 
ocurr
 
De lo
datos
una 
forma
 
 
Donde
Xmn=
m= ni
n=ram
 
El árb
 
19 Desarro
Oscar C
o podemos o
bien, de a
rencias se el
o contrario u
s), es aquel 
disyunción 
adas de la si
(X0
V (X0
V… V 
V… V(X
e 
Variable de e
ivel o profund
ma del árbol 
bol de decis
ollo de árbo
Camarillo Le
Figura 2.1.
observar est
acuerdo a 
lige la que m
un algoritmo
 que toma 
de conjunc
iguiente ma
00 Λ X11 Λ X21 
X00 Λ X12 Λ X21
 (X00 Λ X1n Λ X
X00 Λ X1n Λ X2
entrada en el
didad del árb
ión que repr
oles de decis
al 
 Árbol de dec
e árbol de d
la informac
mejor conve
o de modela
en cuentas 
ciones, esto
anera: 
 Λ…) V (X00 Λ X
1 Λ…) V (X00 Λ 
X21 Λ…) V (X00
2n Λ… ΛXm-1n-
l nivel o profu
bol 
resenta la e
siones usand
isión aplicable
decisiones n
ción obteni
nga al caso 
ado predicti
 reglas simp
o es reglas
X11 Λ X22 Λ…) 
 X21 Λ X22 Λ…)
0 Λ 1n Λ X22 Λ…
- 1 Λ Xm1) V… 
undidad m, r
structura an
do SAS Ente
e en teoría de 
o es un árbo
ida en cad
 de estudio. 
vo (árbol de
ples de deci
s o estruct
 V… V (X00 Λ X
) V… V (X00 Λ X
…) V… V (X00 Λ
 V(X00 Λ X1n Λ
rama n 
nterior está 
erprise Min
 
juegos 
ol de “si-en
da una de 
 
e decisión e
sión y está 
turas lógica
X11 Λ X2n Λ…) 
X12 Λ X2n Λ…)
Λ X1n Λ X2n Λ…
Λ X2n Λ… Λ Xmn
 en la figura
ner 6.1 | 
tonces”, sin
sus posible
en minería d
 formado po
as que está
 
…) 
n) 
a 2.2: 
no 
es 
de 
or 
án 
2
 
 
Como
gene
de m
empl
llama
mode
 
Los á
1963.
gene
que c
datos
simbó
en fo
con a
de un
comp
 
Los á
corre
un á
jerár
las co
 
Como
decis
para 
datos
una 
comp
 
20 Desarro
Oscar C
o vimos, el 
radas en el 
minería de d
eada por la
aremos tamb
elos de mine
árboles de de
. Son una 
rados a part
construyen 
s. “Compren
ólica y fácil 
orma verbal 
algunos otro
n modelo in
portamiento 
árboles de d
ectamente e
árbol de de
quica, de ta
ondiciones q
o ya lo vim
siones son la
 clasificació
s; mientras 
función ob
portamiento 
ollo de árbo
Camarillo Le
Figu
nombre de 
 análisis de 
datos, sin em
a gran mayo
bién arbole
ería de datos
ecisión fuero
técnica de
tir de grand
una hipótes
nsible” porq
 de interpre
 (esto hace 
os modelos c
nteligente c
 de los dato
decisiones tr
el objetivo d
ecisiones es
al manera qu
que se cump
mos y lo me
a clasificaci
n sirve para
que un mod
bjetivo o v
 de los dato
oles de decis
al 
ura 2.3. Estruc
 árboles de
 decisiones 
mbargo para
oría de los a
es de decisi
s, ya sean p
on desarroll
e aprendiza
des volúmen
sis o repres
que estos m
etar, en form
 diferentes 
como el de 
apaz de det
os. 
rabajan bajo
de esta técn
 un conjun
ue la decisió
plen desde la
encionamos 
ión y la pre
a describir, 
delo predict
variable ind
os en función
siones usand
ctura de árbol
e decisiones
y técnicame
a generaliza
autores y ex
iones a las 
redictivos o 
lados por pri
je de mod
es de inform
sentación de
modelos pue
ma de conju
los modelos
redes neuro
tectar los p
o el lema d
nica de aná
nto de regl
ón final a to
a raíz del ár
 anteriorme
edicción. Un
 entender y 
tivo basado 
dependiente
n de esta va
do SAS Ente
l de decisiones
s se atribuye
ente no son
ar y estar a
xpertos, a l
representac
 de clasifica
imera vez p
delos comp
mación. El t
el comporta
eden ser re
unto de cond
s predictivos
onales). El re
patrones y la
de “divide y
álisis predict
las organiza
omar se pue
bol hasta un
ente, las ta
n modelo d
 explicar el
 en árboles 
e para inte
riable. 
erprise Min
s 
e a las repr
n propias de
acorde a la 
o largo de 
ciones gene
ación. 
por Morgan y
prensibles d
término “mo
amiento o p
epresentados
diciones o re
s de árboles
esultado es 
as reglas qu
y vencerás”,
tivo. Podem
adas en un
ede determin
na de sus ho
areas de lo
de árboles d
l comportam
 de decision
erpretar y 
ner 6.1 | 
 
resentacione
e los modelo
 terminologí
esta tesis d
rados por lo
y Sonquist e
de decisión
odelo” indic
patrón de lo
s de maner
eglas escrita
s de decisió
 la obtenció
ue definen e
, que resum
mos decir qu
na estructur
nar siguiend
ojas. 
s árboles d
de decisione
miento de lo
nes consider
predecir e
es 
os 
ía 
de 
os 
en 
n, 
ca 
os 
ra 
as 
ón 
ón 
el 
me 
ue 
ra 
do 
de 
es 
os 
ra 
el 
2
 
Una d
parti
analiz
así só
acció
categ
señal
 
Existe
más 
son u
decis
ACLS
 
 
 
Algun
decis
 
 
 
 
 
21 Desarro
Oscar C
de las grand
r de una c
zar sólo una
ólo llegar a
ón. Otra ve
goría indepe
ladas en los 
en varios al
populares y 
utilizados en
sión (figura 
(1982) , ASS
Figu
nos concept
sión como m
Función o
o predeci
Variables
variable o
ollo de árbo
Camarillo Le
des ventajas 
condición d
a situación, 
 una rama 
entaja más 
endiente de
 siguientes c
goritmos pa
 conocidos 
n Enterpris
2.3). Existe
SISTANT(198
ra2.4. Vista d
tos antes d
odelos pred
objetivo o t
r (también c
s predictiva
objetivo. 
oles de decis
al 
 de los árbo
eterminada 
 pudiendo se
que represe
es que pue
ntro de cad
capítulos. 
ara realizar 
están el mé
e Miner de 
en algunos o
87) y Exhaus
el nodo de árb
e entrar de
dictivos de m
target. Indi
conocida co
as o indepe
siones usand
oles de decis
 son mutua
eguir el árbo
entaría sólo
ede trabaja
da variable.
esta clasific
étodo CHAID
 SAS dentro
otros algorit
stive CHAID,
bol de decisión
e lleno a e
minería de da
ca la variab
mo variable
endientes. V
do SAS Ente
siones es qu
amente exc
ol de decisió
o una decisió
ar con valo
 Éstas y otr
cación y par
D, C&RT, C4
o de sus alg
tmos como 
 entre otros
n en SAS Ent
explicar lo 
atos son los 
ble cuyos val
e dependient
Variables ut
erprise Min
e las opcion
cluyentes. E
ón apropiad
ón a tomar 
ores perdido
ras caracter
rticionamien
4.5 y C.5. Es
goritmos par
 CLS (1966)
s. 
 
terprise Miner
que son lo
 siguientes: 
lores querem
te). 
tilizadas par
ner 6.1 | 
nes posibles 
Esto permit
damente par
 o una únic
os como un
rísticas será
nto. Entre lo
stos método
ra árboles d
, ID3 (1979
r 
s árboles d
 
mos clasifica
ra estimar l
 a 
te 
ra 
ca 
na 
án 
os 
os 
de 
), 
de 
ar 
la 
22 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
 Partición de datos. Se requiere particionar los datos para su entrenamiento y 
validación. Es indispensable una muestra significativa de datos que permita 
encontrar patrones o buena capacidad predictiva en entrenamiento así como 
en otra muestra de validación o prueba. El método de particionamiento lo 
veremos más a detalle en el capítulo de prueba, sin embargo es indispensable 
considerar este término que entra en la metodología de minería de datos 
incluida en la metodología SEMMA de SAS. 
 
 Nodo raíz. Es el nodo que contiene todos los casos con su clasificación. Nodo 
inicial de donde se parte para el desarrollo de los algoritmos de 
particionamiento. 
 
 Criterio de partición. Es un estadístico para el cual se define un p-value dado 
que cuando se encuentre una relación con un valor mayor o menor que el valor 
especificado se forme la regla a partir de la cual se partirán los datos. El 
criterio puede ser Gini, entropía o algún otro. 
 
 Rama. Es un subconjunto de condiciones lógicas que definen una regla y que 
agrupan a los casos que la cumplen. 
 
 Nodo hoja. Contiene los casos obtenidos una vez que se aplicaron reglas 
sucesivas y para los cuales no existen reglas que lo dividan porque se ha 
cumplido alguno de los criterios de parada. 
 
 Profundidad del árbol. Es el número de reglas necesarias hasta llegar al nodo 
hoja que más condiciones necesita. 
 
 Umbral de soporte. Cuando nos encontramos un nodo con menos de “n” 
ejemplos podemos detener el proceso de construcción del árbol de decisión, ya 
que no consideramos que es confiable la clasificación avalada por menos de 
“n” casos de entrenamiento. 
 
 Criterios de parada. Es una condición que se utiliza para no seguir dividiendo 
un árbol. Los tipos de condición pueden ser el valor de un estadístico, un 
número de casos mínimo en un nodo o la profundidad del árbol o reglas 
definidas hasta llegar al nodo hoja. Estos criterios de parada también reciben 
el nombre de prepurning. 
 
 Matriz de costos. Este tipo de matriz permite incluir información referente a 
los casos costos o beneficios. Los costos están asociados a una mala 
clasificación o predicción por parte del árbol y los beneficios a una correcta 
clasificación o predicción. 
 
 Matriz de confusión. Es una medida de bondad de ajuste del árbol de 
decisión. Se representa por medio de una tabla en la que se estima la 
probabilidad esperada de que se esté realizando una buena predicción o 
clasificación; se hace un contraste con los eventos reales y así determinar el 
nivel de certeza o capacidad predictiva del modelo. Esta matriz permite 
conocer qué tan bueno es el modelo en su capacidad predictiva. 
23 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
Capítulo	III.	Algoritmos	de	
árboles	de	decisión		
 
 “Somos tan fuertes como cuando nos unimos y 
tan débiles como cuando nos separamos”. 
Albus Dumbledore, personaje creado por J. K. 
Rowling en la novela de Harry Poter 
 
 
Introducción 
 
En el capítulo anterior se estudiaron los árboles de decisión con una breve 
introducción a su estructura y su utilización dentro de las aplicaciones minería de 
datos, específicamente en modelos predictivos de análisis supervisado y su uso en 
diversas áreas. Vimos que los árboles de decisiones están también orientados al 
análisis de decisiones, pero así mismo son llamados árboles de clasificación por la 
forma en que trabajan y de igual manera son estructuras que se emplean durante el 
modelado predictivo. 
 
Un árbol de clasificación es denominado así por la siguiente razón: Clasifica eventos o 
variables en los distintos nodos de un árbol de acuerdo a su semejanza o parentesco 
entre elementos del mismo nodo que responden de forma similar a un evento y se 
agrupan de forma homogénea caracterizando a dicho nodo por algún patrón en 
específico y que al mismo tiempo esta clasificación responde a un objetivo en 
particular. 
 
En este capítulo analizaremos a los árboles de decisión (o también conocidos como 
clasificación, que no deben ser confundidos con los árboles orientados a la toma de 
decisiones o análisis de decisiones mencionados en el capítulo II), su construcción, los 
algoritmos que utilizan para clasificar, la forma en que se mide su grado de precisión, 
y finalmente se analizará la interpretación de estos árboles por medio de la extracción 
de reglas. Dicha extracción de reglas tiene como objetivo entender y dar valor de 
negocio a través de resultados tangibles que faciliten la interpretación de estos 
modelos predictivos de acuerdo a un objetivo en específico. Todo lo anterior estará 
apoyado en la herramienta más completa de Minería de Datos de SAS según los 
cuadrantes de Gartnerviii y el nodo de modelado predictivo que ofrece SAS 9.2 en su 
versión de Enterprise Miner 6.1. 
 
El estudio de los árboles de decisión tratados en esta tesis así como todos los modelos 
mencionados estarán enfocados al modelado predictivo, aun cuando estos modelos 
 
viii Los cuadrantes de Gartner clasifican a SAS como el software de inteligencia analítica líder en 
capacidades de minería de datos y análisis predictivo según la última publicación de dicho cuadrante en el 
2010. 
2
 
tenga
decis
 
Duran
consi
predi
 
Los p
mode
 
 
En e
capac
tema
práct
 
 
 
ix La r
irrelev
indepe
razona
24 Desarro
Oscar C
an otra util
siones, etc. 
nte el desa
dera una se
icción de ca
pasos genera
elos de árbo
F
l transcurso
cidades qu
as/tópicos 
tico. 
 
educción de di
vantes. Los árb
endiente es irre
ablemente débi
ollo de árbo
Camarillo Le
lidad como 
 
arrollo de u
erie de paso
so de negoc
ales dentro 
les de decis
Figura 3.1. Me
o de este 
ue la soluc
específicos 
 
imensionalidad
oles de decisió
elevante con re
il. 
oles de decis
al 
 segmentaci
un modelo 
os que descr
cio a resolve
de la metod
iones son lo
etodología par
trabajo se 
ción de SA
 que serán 
 
d es la práctica 
ón son utilizado
especto a la var
siones usand
ión, reducc
de minería
riben la técn
r. 
dología emp
os mostrados
ra construcció
explicará e
AS Enterpr
 desglosado
realizada en la
os en la reducc
riable de respue
do SAS Ente
ción de dim
a usando ár
nica para c
pleada por S
s en la siguie
ón de árboles d
el estado d
rise Miner 
os en este 
a eliminación d
ción de variable
esta si su aport
erprise Min
mensionalida
rboles de d
conseguir la 
SAS para el d
ente figura 3
de decisión 
del arte ali
brinda. Se
y el siguiede variables red
es irrelevantes
tación predictiv
ner 6.1 | 
dix, toma d
decisiones s
 solución y/
desarrollo d
3.1: 
 
ineado a la
e abordará
ente capítul
dundantes e 
. Una variable 
va es 
de 
se 
/o 
de 
as 
án 
lo 
2
 
Algun
mues
 
 
 
 
Prep
 
En es
predi
consi
gene
prepa
o var
modo
un ca
 
Ejem
Supon
de bu
La ta
mode
 
 
 
 
 
25 Desarro
Oscar C
nas de las ca
stran en la F
Op
paración d
sta etapa se
ictivo, se r
derar tarea
ral la evalu
aración de d
riables por 
o aseguraría
aso en partic
plo hipotéti
ngamos que
uró de crédi
abla extraída
elo se vería 
ollo de árbo
Camarillo Le
apacidades 
Figura 3.2. 
pción Pr
 
 
 
R
 
 
Mé
Figura
de datos 
e concentra
realizan cá
as de explo
uación inicia
dicho model
cada observ
amos que el 
cular. 
ico. 
e se desea ge
ito. Una de 
a del data 
de la siguien
oles de decis
al 
generales q
ropiedad 
Máximo núme
Criterio de 
Reglas de parad
Método de
étodo de tratam
Perdi
a 3.2. Capacid
an las variab
álculos de 
ración de d
al para el 
o se debe c
vación con 
 análisis pre
enerar un m
 esas variab
warehouse 
nte forma e
siones usand
que se revisa
ero de ramas 
partición 
a o crecimiento
e podado 
miento de valores
idos 
dades en árbol
bles conside
variables. E
datos, selec
desarrollo d
considerar la
su correspo
edictivo es r
modelo de m
les es la lla
para el aná
n la figura 3
do SAS Ente
arán en este
Opciones 
predeterm
Logw
o Logworth 
Ajuste de p
Máxima p
Tamaño mín
Averag
s Best
les de decision
eradas para 
En esta m
cción de mu
del modelo
a creación d
ondiente va
realizado ún
minería de da
mada Saldo
álisis de esta
3.3. 
erprise Min
e capítulo so
minadas 
2 
worth 
Threshold 
profundidad 
profundidad 
nimo de hojas 
ge Profit 
t Leaf 
nes 
 la creación
isma etapa
uestras de 
o predictivo
de una tabla
riable objet
nicamente u
atos basado
o en los últim
a variable d
ner 6.1 | 
on las que s
n del model
a se puede
análisis y e
. Durante l
a de atributo
tivo, de est
una vez sobr
o en variable
mos 2 meses
de entrada a
se 
lo 
en 
en 
la 
os 
te 
ré 
es 
s. 
al 
26 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
No. 
Cuenta Mes 
Meses con 
Saldo 
Creditos 
Revolventes 
Tipo de 
cliente ……………. Saldo 
1234 1 1 1 Oro ……………. 2,700.00 
1234 2 1 1 Oro ……………. 1,000.00 
1234 3 3 1 Premium ……………. 4,230.00 
……………. …… ……………. ……………. ……………. ……………. ……………. 
1235 1 1 3 Premium ……………. 300.00 
1235 2 1 3 Premium ……………. 700.00 
1235 3 1 3 Premium ……………. 1,200.00 
Figura 3.3. Ejemplo de arreglo de datos 
 
Lo primero que habría que notar es que el número de cuenta se repite más de una vez, 
esto quiere decir que pueden existir atributos que dificulten el desarrollo de minería 
de datos si se toma tal cual la extracción de esta tabla, ya que se debe tener un 
registro único por caso, en el ejemplo se debe tener un solo registro por número de 
cuenta. El segundo punto es que la variable Saldo en los últimos dos meses no existe, 
sin embargo puede ser calculada usando el campo saldo y el campo mes. Es decir se 
debe emplear una técnica para generar dicha variable; lo que muchos llaman un 
proceso de ETL (Extracción, Transformación y Carga de datos). Una vez considerados 
estos puntos se puede obtener la tabla que se muestra en la figura 3.4. 
 
No. 
Cuenta 
Meses con 
Saldo Actual 
Creditos 
Revolventes Actual 
Tipo de 
cliente 
Actual ……………. 
Saldo en dos 
meses 
1234 1 1 Oro ……………. 
 
3,700.00 
1235 1 3 Premium ……………. 
 
1,000.00 
Figura 3.4. Ejemplo de arreglo de datos aplicando técnicas de integración de datos 
 
Nótese que las demás variables también cambiaron de nombre, ya que reflejan el 
estado actual de cada cuenta, es decir sólo aparecerían los últimos valores de sus 
características. En cuanto a la variable Saldo en los dos últimos meses vemos que se 
encuentra calculada y de este modo ya se cuenta con registros únicos. 
 
El análisis exploratorio también se realiza en esta etapa para conocer las variables que 
se estarán utilizando. Dicho análisis es realizado a través de técnicas de estadística 
descriptiva: 
 
1. Histogramas de Frecuencia 
2. Graficas de línea 
3. Medidas de tendencia central 
4. Cálculo de percentiles 
5. Análisis univariado 
6. Análisis de valores perdidos 
7. Análisis de valores repetidos 
 
Cuando se concluye la tarea de exploración de variables se pueden descartar variables 
por falta de valores o aportación al modelo desde el punto de vista de negocio. Todo 
27 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
esto deberá estar fundamentado y justificado con el análisis estadístico y la visión de 
negocio. 
 
En la selección de muestra es muy importante seleccionar la ventana de información 
más adecuada. Esto debido a que el negocio debe indicar la ventana de tiempo de 
información que es más confiable. Y a partir de ahí seleccionar muestras de análisis, 
así como alguna técnica en específico (aleatorio, estratificado, conglomerado). Se 
debe asumir que el análisis de minería de datos requiere muestreos estratificados, 
esto debido a que debe ser la muestra representativa con respecto a la variable 
objetivo. Técnicamente el muestreo estratificado es un muestreo proporcional. 
 
El muestreo estratificado es aquel que divide a la población en N individuos en k sub 
poblaciones o estratos, atendiendo una variable objetivo, de tamaño respectivo N ,…, 
N . 
 
N=N N N ⋯ N 
 
Y realizando en cada una de la estratos muestreos aleatorios simples de tamaño 
n =1,…., k. 
 
Para efectos de los ejemplos de minería de datos expuestos en esta tesis sólo 
analizaremos casos con variable objetivo que cuente con dos clases, valores o estratos 
y se empleará muestreo estratificado para efectos de entrenamiento del modelo. Esto 
es variables binarias. 
 
Ejemplo hipotético. 
 
Existe un caso de negocio para la detección de fallas en dispositivos de 
telecomunicaciones en el que se encuentran un total de 1,000,000 de casos de los 
cuales 385,503 son casos de fallas en dispositivos y 614,497 son de casos sin fallas en 
los dispositivos. 
 
La distribución real de estos casos se ve de la siguiente manera en la figura 3.5. 
 
28 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
 
Figura 3.5. Histograma de distribución de casos 
 
 
Ahora bien, al aplicar un muestreo estratificado del 50% de los datos usando como 
referencia esta variable llamada “casos de estudio” se obtiene la siguiente gráfica que 
se muestra en la figura 3.6. 
 
 
Figura 3.5. Histograma de distribución de casos aplicando muestreo estratificado 
 
 
De donde se puede deducir que se realizó un muestreo estratificado por la variable 
caso de estudio del 50%; resultando en la distribución original de la muestra con 
29 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
respecto a la población: 39% de concentración en casos de fallas y 61% en casos de no 
fallas. 
 
Definición de objetivo 
 
Como lo vimos en los capítulos I y II, el desarrollo de un modelo predictivo supervisado 
requiere de casos comprobados, variable objetivo o estrictamente hablando, se 
necesita saber “¿Qué es lo que se desea predecir?” y se debe saber ¿Qué se tiene para 
realizar esta predicción? basado en hallazgos e historia ya preconcebida. Para que un 
modelo pueda predecir algún evento se requiere de una base de conocimiento de 
hechos a través de los cuales ya se haya aprendido y se tenga experiencia para poder 
tomar la decisión más acertada. Pongamos un ejemplo tradicional. 
 
Un ama de casa ayuda a la economía de su hogar vendiendo oro a diversos clientes 
entre ellos amigos, vecinos, compañeros, amigos de los amigos, etcétera. Al iniciar su 
negocio no tiene conocimientoalguno sobre a quienes vender o no oro y lo comienza a 
hacer sin reservarse el derecho a la no venta sobre alguno de ellos. Conforme pasa el 
tiempo se da cuenta de que existe gente que cumple con sus pagos y otra que no lo 
hace, de este modo la vendedora de oro va generando una base de conocimiento más 
sólida y menos subjetiva que en un inicio; esto debido a que ha aprendido a analizar 
las características de sus clientes y sabe que aquellos clientes que no cuentan con un 
trabajo estable no serán buenos pagadores, o que aquellos que compran oro por más 
de tres veces la recomendarán con alguien más, entre otra infinidad de reglas de 
conocimiento deductivo que puede extraer a través de esa base de conocimiento que 
ya formó y la experiencia misma. Del mismo modo trabaja un modelo de minería; es 
indispensable generar una buena base de conocimiento y definir una correcta variable 
objetivo para alcanzar la predicción deseada y conocer a los clientes para este caso. 
La diferencia entre la ama de casa que vende oro y el banco que realiza créditos es 
que la primera puede vender a tal vez no más de 100 personas, ya que podría perder 
el control de sus clientes ella misma; y la institución bancaria realiza préstamos a 
miles de clientes, esto incrementa la demanda sobre la base de conocimiento para el 
caso del banco. 
 
De este modo la variable objetivo (que describe el caso a resolver) está definida de 
acuerdo a las necesidades del negocio, ejemplos de esto, se encuentran a 
continuación: 
 
Pregunta de Negocio Base de conocimiento supervisado 
¿Qué nuevos clientes representan riesgo para el 
banco? 
El banco ya cuenta con historia de 
clientes buenos y malos, ahí radica su 
base de conocimiento. 
¿Qué nuevos clientes de una tienda 
departamental son más propensos a comprar 
productos de belleza? 
La tienda departamental seguramente ya 
cuenta con una base de clientes que han 
comprado estos productos. 
30 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
¿Qué clientes de un servicio telefónico se irán 
con la competencia? 
La compañía telefónica cuenta con una 
base de conocimiento en la que se tienen 
registrados a los clientes que se han ido 
con la competencia. 
 
Entonces, es básico definir la variable objetivo, target o variable dependiente, para la 
generación de un modelo predictivo supervisado. Asimismo contar con una base de 
conocimiento sobre estos casos. 
 
Selección de criterios de crecimiento de árbol y algoritmos de 
segmentación y clasificación de casos 
 
Como vimos en el capítulo anterior los árboles de decisión son estructuras topológicas 
que describen como se clasifican de mejor manera los casos de estudio de acuerdo a 
una serie de atributos, pero la forma en la que crece esta estructura topológica es 
controlada, obedeciendo a los siguientes criterios o preguntas: 
 
 ¿Cómo deben combinarse las variables nominales de entrada? 
 ¿Cómo serán ordenadas y combinados los nodos del árbol?, ¿Los nodos 
están acorde a su nivel de medición (continuos, ordinales o nominales)? 
 ¿Cuántos nodos o ramas se considerarán en el árbol? 
 ¿Cuántos nodos serán ordenados para cada nivel del árbol de decisión? 
 ¿Con qué criterio se determinará la diferencia de concentración de 
casos en un nodo (poder predictivo de las ramas)? 
 ¿Cuántos nodos serán evaluados, seleccionados y desplegados? 
 ¿Cuántos casos serán el límite a considerar en un nodo? 
 ¿Qué pasará cuando en un nodo del árbol exista concentración de 
valores perdidos? 
 ¿Qué prueba de hipótesis se utilizará para evaluar el crecimiento del 
árbol? 
 ¿Qué ramas del árbol deben ser podadas o que ramas deben crecer más 
dada la serie de criterios seleccionados? 
 ¿Cuándo el proceso de decisión se detiene para identificar ramas 
potencialmente predictivas? 
 ¿Cuándo detener el árbol para identificar los nodos potencialmente 
predictivos? 
 
Toda esta gama de preguntas se pueden resolver durante el desarrollo del modelo, a lo 
que le llamamos la etapa de configuración del modelo. 
 
En una primera etapa de configuración, se encuentra la definición de parámetros que 
deberán ser considerados previos al momento de construir el modelo de árbol de 
decisión. Este menú de configuración es general para cualquier modelo que se 
desarrollará dentro de la herramienta de SAS. 
 
3
 
 
En e
predi
 
 
 
 
 
 
 
 
En el
parám
defin
conti
 
x El m
trabajo
31 Desarro
Oscar C
ste menú s
ictivo: 
Máximo n
predeterm
es ajustab
Rechazo d
supuesto 
Número d
predefini
cuenta co
Detectar 
permite h
nominale
Rechazar 
de clases
nominale
Rechazar 
la opción 
l siguiente m
metros prop
nido básicam
nuación y d
 
menú de configu
o de tesis sólo 
ollo de árbo
Camarillo Le
se identifica
número de v
minados que
ble. 
de variables
 u opción an
de clases p
da es clasif
on menos de
 los niveles
habilitar la 
s. 
 las variabl
s. El núme
s es de 20. 
 variables co
 anterior, co
menú de con
pios del mod
mente por 
ependiendo 
 
uración de árbo
se mostrarán y
oles de decis
al 
an seis opci
valores perd
e se permite
s con exceso
nterior se ap
permitidas e
ficar una v
e 20 clases. 
s de las v
 regla ante
es ordinales
ro predeter
on exceso en
on 20 clases
nfiguraciónx 
delo de árbo
una serie 
 de la etapa
 
oles de decisión
y explicarán la
siones usand
iones para 
didos permit
en es de 50
o de valores
plica. 
en una varia
variable ord
variables or
erior para d
s o nominal
rminado pa
n valores de
s en variable
 que se obs
oles de deci
de rubros 
a en la que n
n es aún más c
as propiedades 
do SAS Ente
el desarrol
tidos. El má
0, esta canti
s perdidos. 
able ordina
dinal o nom
rdinales o 
detectar las 
les con un n
ara rechaza
e clase prede
es ordinales 
serva en la 
isión, es un 
que serán 
nos encontre
completo, sin e
que agreguen v
erprise Min
lo de cualq
áximo númer
idad de valo
Esto quiere 
al o nomina
minal como 
nominales. 
 variables o
número pre
ar variables 
eterminados
 y/o nomina
figura 3.6 s
 panel que 
analizados 
emos. 
mbargo para lo
valor a dicho t
ner 6.1 | 
 
quier model
ro de valore
ores perdido
 decir que e
al. La opció
 aquella qu
 Esta opció
ordinales y/
edeterminad
 ordinales 
s. Se habilit
ales. 
e definen lo
se encuentr
 a detalle 
os fines de este
trabajo 
lo 
es 
os 
el 
ón 
ue 
ón 
/o 
do 
o 
ta 
os 
ra 
a 
e 
3
 
 
 
Defa
 
32 Desarro
Oscar C
Figura 3.6
Propiedad
propiedad
decisione
 
Criterio d
empleará
a la varia
 
ault 
 Este crite
casos en 
para aque
variable i
más ade
enfatizare
cuadrada
ollo de árbo
Camarillo Le
6. Menú de con
des de Reg
des o criteri
es. 
de intervalo
á para realiz
ble dependi
erio está bas
donde la va
ellos casos 
ndependien
lante). Par
emos sobre 
. 
oles de decis
al 
nfiguración de
la de partic
io de partic
o y nominal
zar la partici
iente. Los cr
sado en el us
ariable depe
en que la v
nte es ordina
ra efectos 
 el primer 
siones usand
e árboles de d
ción. En est
ionamiento 
. En el crite
ión de los n
riterios son 
so y cálculo 
endiente es 
variable dep
al usa un mé
del model
 caso en el
do SAS Ente
decisión en SA
te menú de 
 de los nodo
erio que def
odos y sepa
los siguiente
 de la proba
 nominal o 
pendiente e
étodo llama
lo que est
l que se us
erprise Min
 
AS Enterprise M
 opciones se
os dentro de
fine el algo
arar los caso
es: 
abilidad Ji-c
binaria. El 
es continua;
ado entropía
taremos rev
sa el estad
ner 6.1 | 
Miner 
e definen la
e un árbol d
oritmo que s
os de acuerd
uadrada par
estadístico 
 y cuando l
a (se revisar
visando sól
dístico de J
as 
de 
se 
do 
ra 
 F 
la 
rá 
lo 
i-
3
 
Prob
 
 
 
33 Desarro
Oscar C
babilidad J
 El cálcul
formada 
analizand
lo define 
 
Funcionam
 
Utilizarem
 
 Sobre la 
encuentra
trataremo
el espacio
amarillo) 
horizonta
 
 
 Recordem
un nodo y
primera r
comenzar
haya más 
 
 La primerEste inici
entrada d
intervalo 
considera
promedio
entrada. 
 
 Para sele
generan d
ollo de árbo
Camarillo Le
Ji-Cuadrad
o de este 
entre las 
do y las cate
 el p-value d
miento. 
mos el siguie
siguiente gr
an distribuid
os de prede
o definido. 
 con respe
l y al eje ve
mos que los 
y otro son l
regla que r
r a partir lo
 reglas por a
ra parte de
ia con la se
disponibles 
 cada valo
ado en el pro
o del target 
 
eccionar una
dos grupos. 
oles de decis
al 
da 
estadístico 
categorías 
egóricas de 
del estadístic
ente ejemplo
ráfica en la 
dos una seri
cir el color 
 Se asume q
cto a dos 
ertical. 
 nodos del á
las que orde
realizará el 
s datos en d
aplicar ento
l algoritmo 
elección de 
a partir en
or es utiliza
oceso de par
 es tomado 
a variable 
Casos con v
siones usand
 está asoci
 de la va
la variable 
co. 
o para obse
 que se obse
ie de punto
 de algún pu
que la distr
variables 
árbol repres
enan qué re
 algoritmo 
dos reglas. A
nces estaría
 se llama bú
 una variab
n segmentos
ado como 
rtición. Si el
dentro de c
de entrada
valores meno
do SAS Ente
iado a una
riable inde
 dependient
rvar cómo t
erva un map
s verdes y a
unto basánd
ribución del 
 y qu
sentan regla
egla se debe
será la est
Al llegar a u
amos llegand
úsqueda de 
ble de entra
s. En caso 
único y p
l valor es no
cada nivel d
a y fijar un
ores que el 
erprise Min
 tabla de 
pendiente 
te, el punto 
rabaja este 
peo de dos 
amarillos. D
donos en su 
 target bina
ue correspo
as y que las
e ejecutar. 
tablecer un 
un nodo en 
do a la hoja 
 partición (s
ada de las 
de ser una
potencial qu
ominal, ento
e la variable
n punto de 
 punto de pa
ner 6.1 | 
contingenci
que se est
 de partició
 algoritmo: 
 variables, s
De este mod
 ubicación e
ario (verde 
onden al ej
 
s líneas entr
 Entonces, l
 nodo raíz 
 el que ya n
 de un árbol
split search
variables d
a variable d
ue debe se
onces el valo
e nominal d
 partición s
artición de l
ia 
tá 
ón 
se 
do 
en 
 y 
je 
 
re 
la 
y 
no 
l. 
). 
de 
de 
er 
or 
de 
se 
la 
34 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
variable, es decir una rama derecha y casos con valores de la variable mayores 
al punto de partición, es decir, la rama izquierda. Pongamos un ejemplo donde 
se tenga la variable ingresos y sobre esta se realiza una partición en el valor de 
$10,000. Los grupos, combinados con los valores de la variable target u 
objetivo son utilizados para realizar una tabla de contingencias de 2X2 en 
donde las columnas de la tabla de contingencia son especificadas por las ramas 
(personas con ingresos menores a $10,000 y personas con ingresos mayores a 
$10,000); y los renglones estarían descritos por los valores de respuesta. En la 
siguiente tabla se puede observar lo mencionado arriba. 
 
 Ingreso < $10,000 Ingreso >= $10,000 Total 
Responden ∙ 
No Responden ∙ 
Total ∙ ∙ N 
 
 De esta forma es aplicado el estadístico ji-cuadrada para cuantificar la 
independencia entre las columnas de la tabla, es decir, se trata de probar que 
la variable de entrada separa correctamente los casos definidos en el target. 
En otras palabras se pretende mostrar que las muestras no son iguales. Un valor 
grande de dicho estadístico indica que la proporción de valores en cero y en 
uno del target que están en la rama izquierda es distinta a la proporción de 
casos de ceros y unos de la rama derecha. Una diferencia en la proporción de 
ambas ramas indica un buen particionamiento. 
 
Estadísticamente se realizará la siguiente prueba de hipótesis: 
 
 : 
 
Donde 
 
=
∙
, =
∙
,		y P= ∙ 
 
 La traducción de la hipótesis nula es el argumento en el que las proporciones 
de casos de respuesta con menos de $10,000 de ingresos no son diferentes de 
los caso de respuesta donde el ingreso es mayor a $10,000. 
 
 Así entonces, tendremos la siguiente tabla de contingencias con las reglas de 
proporciones definidas de la siguiente forma: 
 
 Ingreso < $10,000 Ingreso >= $10,000 
Responden ∙ ∙ 
No 
Responden 1 ∙ 
 
1 ∙ 
 
 Entonces el estadístico Ji-cuadrada es calculado de la siguiente manera: 
 
35 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
 
 
 Debido a que el estadístico de ji-cuadrada puede aplicarse a múltiples valores 
de la variable de respuesta, este estadístico es convertido en una probabilidad 
“p-value”. El p-value indica la verosimilitud de obtener el valor observado del 
estadístico asumiendo que la proporción del target en ambas ramas es la 
misma. Para la evaluación donde el número de casos es muy grande el p-value 
es muy cercano a cero. Por esta razón, el estadístico es mostrado a través de la 
función logarítmica y con la métrica llamada logworth. 
 
		 	 
 
 De este modo cada valor de una variable de entrada puede calcular su propio 
logworth, sin embargo el umbral para identificar cuál es el punto en el que el 
árbol separa correctamente los datos es donde el p-value del estadístico ji-
cuadrada toma el valor de 0.20, que corresponde al valor 0.70 en el logworth. 
Entonces, el objetivo es maximizar el logworth dentro del proceso de 
particionamiento. 
 
 La regla de sustitución es la siguiente: 
 
( > Calculada | es verdadera)= . Y el es 
simplemente calculado como . 
 
 Veamos en el siguiente ejemplo como es que trabaja este algoritmo. 
 
 Se pretende clasificar con un árbol de decisiones un caso nuevo dentro del 
siguiente plano que contempla dos variables , y un target binario 
(1=Verde, 0=Amarillo). Si se identifica la posición de este caso dentro del plano 
denotado por las dos variables se observa lo siguiente: 
3
 
 
36 Desarro
Oscar C
 Primer p
calcula e
distribuci
de logwor
 
 Enseguida
decir se c
acuerdo 
óptima. 
 
ollo de árbo
Camarillo Le
articionamie
l logworth 
ón de los pu
rth y se iden
a se proced
calculará el
a los valore
oles de decis
al 
ento. Se ap
para la var
untos de izq
ntifica que e
de a hacer 
 logworth p
es de dicha
siones usand
plica la pri
riable ; e
quierda a de
en el valor 0
lo mismo p
para identifi
a variable. 
do SAS Ente
mera tabla
es decir se 
erecha para
0.52 se encu
pero ahora s
icar la clasi
Se identific
erprise Min
 
a de contin
recorre la s
a buscar el p
uentra el má
sobre la va
ficación de 
có la siguie
ner 6.1 | 
gencias y s
superficie d
punto óptim
áximo valor. 
riable , e
 los casos d
ente solució
se 
de 
mo 
 
 
es 
de 
ón 
3
 
 
37 Desarro
Oscar C
Comparan
 
 
 
 La variab
realizadas
sentido la
 
ollo de árbo
Camarillo Le
ndo ambas s
le que sepa
s es la vari
a primera pa
oles de decis
al 
soluciones, o
ra mejor los
able ; qu
artición esta
siones usand
obtenemos l
s casos de a
ue correspon
aría represen
do SAS Ente
o siguiente:
acuerdo a la
nde a un lo
ntada de la 
erprise Min
 
 
as tablas de 
ogworth de 
siguiente fo
ner 6.1 | 
 contingenci
4.92. En es
orma. 
 
ia 
se 
3
 
 
38 Desarro
Oscar C
 Observem
de decisi
forma en 
 
 Los sigui
depender
un par de
 
 A continu
acuerdo a
de logwor
Aquí se ob
 
ollo de árbo
Camarillo Le
mos que del 
ones y del 
 que se part
entes pasos
rá de la prec
e iteraciones
uación se to
al proceso d
rth de mane
bserva el cá
oles de decis
al 
 lado izquie
lado derech
irán los dato
s se repite
cisión que s
s más. 
ma aquella 
e clasificaci
era vertical y
lculo de log
siones usand
erdo se tiene
ho es el pla
os de acuerd
en sobre ca
e pretenda 
 rama donde
ión anterior 
y horizontal 
gworth sobre
do SAS Ente
e la estruct
ano con los
do a este cri
ada rama y
 que tenga e
e el valor es
 y se observ
 respectivam
e la variable
erprise Min
tura topológ
s casos dist
iterio. 
y el criterio
el modelo. 
s menor a 0
van los siguie
mente 
e . 
ner 6.1 | 
 
gica del árbo
tribuidos y l
o de parad
Realizaremo
0.63 en d
entes valore
 
ol 
la 
da 
os 
de 
es 
39 Desarrollo de árboles de decisiones usando SAS Enterprise

Continuar navegando