Logo Studenta

clasificadores_bayesianos

¡Este material tiene más páginas!

Vista previa del material en texto

Jesús García Herrero 
CLASIFICADORES BAYESIANOS 
 
En esta clase se presentan los algoritmos Análisis de Datos para abordar tareas de aprendizaje 
de modelos predictivos. 
Se particularizan las técnicas estadísticas vistas anteriormente para resolver tareas predictivas: 
por un lado la regresión (lineal o no lineal) para predecir valores numéricos, y su aplicación 
para predecir probabilidades y clasificar instancias mediante regresión logística, y los 
clasificadores bayesianos como modelo de aprendizaje de parámetros de distribuciones de 
probabilidad para predecir probabilidades de clases. 
La clasificación mediante regresión permite estimar las fronteras de decisión entre clases, 
presentando la equivalencia del aprendizaje de fronteras de clasificación al de las funciones de 
estimación de pertenencia a la clase. Se puede ver la limitación de esta técnica a problemas 
linealmente separables. 
Los clasificadores bayesianos parten del principio de probabilidad condicionada para estimar 
probabilidades a posteriori de pertencia a clases de las instancia, una vez calculadas las 
probabilidades de los valores de los atributos (probabilidades a priori) en la fase de 
entrenamiento. Estos clasificadores permiten tratar con datos nominales y numéricos, en este 
último caso utilizando distribuciones normales para simplificar el proceso. La limitación está en 
el cálculo de dependencias entre los atributos, que requeriría un número de datos exponencial 
con la dimensión de éstos, problema habitualmente tratado con la simplificación de 
independencia condicional (método “naïve Bayes”). Se completa el tema revisando aspectos 
prácticos que surgen al aplicar técnicas de clasificación sobre datos reales: tratamiento de 
datos incompletos y datos insuficientes para estimar probabilidades muy pequeñas. 
Técnicas Clásicas en Problemas de Clasificación 
Clasificadores Bayesianos 
Métodos probabilísticos y numéricos 
de clasificación 
Jesús García Herrero 
Universidad Carlos III de Madrid 
Técnicas Clásicas en Problemas de Clasificación 
Clasificación numérica 
• Modelado de datos con atributos numéricos para su aplicación a 
Clasificación. Generalización 
• Datos representados como vectores de atributos numéricos: patrones 
 
 
 
 
 
 
 
• Problemas: dimensionalidad, sobreajuste. 
 
 
 
 
 
 
 
 
 N21 X,...,X,X 
A1 A2 ... AF
x
1
1 x
1
2 ... x
1
F
x
2
1 x
2
2 ... x
2
F
x
3
1 x
3
2 ... x
3
F
... ... ... ...
x
N
1 x
N
2 ... x
N
F
Técnicas Clásicas en Problemas de Clasificación 
Clasificación numérica 
Problema de Clasificación 
• Clases: {C1, ..., CM} 
• Muestras:E= 
 
– Tamaño: 
 
• Para cada clase, Ci, hay ni patrones, cada uno con F 
atributos: para cada clase Ci: 
}X...,X ,...,X ,...,X ,X...,,X{
)M(
n
)M(
1
)2(
n
)2(
1
)1(
n
)1(
1
M21

}X...,,X{
)i(
n
)i(
1
i

i
)i(
Fj
)i(
j1
)i(
j n,...,1j;
x
x
X 










 



M
1j
jnN
Técnicas Clásicas en Problemas de Clasificación 
Clasificación numérica 
 
 
• Función discriminante de cada clase: 
 
 
 
 
 
• Propiedad deseable para el diseño de gi(.): sobre el conjunto de 
entrenamiento E, cada patrón de la clase Ci tiene un valor máximo con el 
discriminante gi(.): 
 
 
M,...,1i),X(gi 

)X(g1

)X(g2

)X(gM

X
 Max(.) Ĉ
i
i
jk
Mk
i
ji njXgXg ,...,1)},({max)(
)(
,...,1
)( 


)Xg(Ĉ X 
}C,...,C{CR:(.)g M1
F



Técnicas Clásicas en Problemas de Clasificación 
Fronteras de decisión 
lineales:)X(gij

0
5
10
15
20
25
30
0 5 10 15 20 25 30
X1
X
2
+
+
+
+
+ +
+
+ +
+
++
++
1
2
3
g13
g12
g23
Técnicas Clásicas en Problemas de Clasificación 
Fronteras de decisión 
scuadratica:)X(gij

0
5
10
15
20
25
30
0 5 10 15 20 25 30
X1
X
2
+
+
+
+
+ +
+
+ +
+
++
++
1
2
3
g13g12 g23
g12
Técnicas Clásicas en Problemas de Clasificación 
Clasificación con Regresión Lineal 
• Para cada clase se define la función de pertenencia gi: 
 
 
 
 
• Se construye una función lineal que “aproxime” gi: 
 
 
 
 
 
 
 
 
• Hay que “aprender” M funciones gi 
 
 
 
 
 






i
i
i
CX;0
CX;1
)X(g 


 
 
i
t
i
1
i
t
ii
t
)I(
n
t)1(
1
t
)i(
n
t)i(
1
ii yH]HH[A ;
X1
X1
X1
X1
H 
0
0
1
1
y
I
i 








 






















































todos los datos 1s en los patrones 
de Ci 
0s en resto 
Técnicas Clásicas en Problemas de Clasificación 
Clasificación bayesiana: 
aplicación de modelos estadísticos 
• Clasificación con modelo de estructura probabilística 
conocida 
 Clases: {C1, ..., CM}. Se conoce a priori: 
– Probabilidades de clase: P(Ci) 
– Distribuciones de probabilidad condicionadas 
(parámetros constantes) 
 
 
 
– densidad 
 
)C(P
)C,xX,...,xX(P
)C|xX,...,xX(P)C|x,...,x(F
i
iII11
iIII1iI1X


I1
iI1X
iI1X x...x
)C|x,...,x(F
)C|x,...,x(f





Técnicas Clásicas en Problemas de Clasificación 
• Parámetros: vector de medias y matriz covarianzas 
 
 
 
 
 
 
• Ejemplo 
 
Ej.: distribución normal multivariada 
 
































 
2
xxxxx
xxxx
2
1x
n
1
1t
2/n
F2n1F
F121
S;
)x(S)x(
2
1
exp
S2
1
)x(f





















216
621
S;
5
30
Técnicas Clásicas en Problemas de Clasificación 
Teorema de Bayes aplicado a clasificación 
 
 
 
• Probabilidad a posteriori: es la probabilidad de que el ejemplo tenga 
clase Ci: 
• Probabilidad a priori: P(Ci) es la probabilidad total de cada clase 
• Verosimilitud: : es la distribución de Ci aplicada a 
• Densidad total: 
Criterio de clasificación MAP: 
 
 
– función discriminante de Ci: proporcional a su prob a posteriori: 
 
 
– la clase es la de aquella que maximiza el discriminante 
 
 
 
)X(f
)C(p)C|X(f
)X|C(P iii 



)X|C(P i

)C|X(f i

)C(P)C|X(f...)C(P)C|X(f)X(f MM11


   )C(p)C|X(f
i
máximo)X|C(P
i
máximo)X(Clase iii


)C(p)C|X(f)X(g iii


X

Técnicas Clásicas en Problemas de Clasificación 
Clasificación bayesiana y distrib normal 
• Distribuciones condicionales gaussianas. Para cada clase Ci 
hay una función discriminante de parámetros ij, ij, j=1...I 
 
 
 
 
 
• Parámetros de distribución condicionada a cada clase 
• Regiones de decisión: 
– Funciones cuadráticas (hipérbolas) dadas por 
diferencias: 
 
– Si son iguales, y diagonales: regiones lineales (caso 
particular) 
 
 
2
ij
F
1i
2
ijj
1t
Fii2i1
2/n
i
iii
/)x(
2
1
K:ionsimplifica
)x(S)x(
2
1
...2
)C(P
log))C|x(f)C(Plog()x(g






 
)x(g)x(g)x(g jiij


Técnicas Clásicas en Problemas de Clasificación 
Ejemplo con distribución normal 
• C1: 
 
 
• C2: 
 
 
• C3: 
  








216
621
R;530C;3.0P 1
t
11
  






166
616
R;535C;2.0P 2
t
22
  






42
216
R;1010C;5.0P 3
t
33
Técnicas Clásicas en Problemas de Clasificación 
Ejemplo 
-50 -40 -30 -20 -10 0 10 20 30 40 50 
-30 
-20 
-10 
0 
10 
20 
30 
40 
C1 
g23 C3 
C2 
g13 
g12 
Técnicas Clásicas en Problemas de Clasificación 
Resumen clasificador bayesiano numérico 
• Algoritmo: 
• Estimar parámetros de cada clase Ci (entrenamiento) 
 
 
 
• Estimar probabilidad de cada clase 
 
 
 
• Obtener regiones de decisión: gij(.) 
 
ii
)i(
n
)i(
1i
C,}X...,,X{:C
i




M
1i
i
i
i nn;
N
n
)C(P̂


in
1j
)i(
ji
x
n
1ˆ 



in
1j
t
iiii
i
i )x)(x(
n
1
C

Técnicas Clásicas en Problemas de Clasificación 
Clasificación Bayesiana con Atributos Nominales 
Atributos nominales con valores discretos 
– Ai={V1,...,Vni}:atributo con ni valores posibles 
– Pasamos de densidades a probabilidades: 
probabilidad a priori: p(Ai=Vj|Ck)? 
– Estimación “contando” el número de casos: 
 
 
k
jik
kji
C clase de jemplose de ºn
VAcon C clase de jemplose de ºn
)C|VA(p


Técnicas Clásicas en Problemas de Clasificación 
Clasificación Bayesiana con Atributos Nominales 
• Simplificación: independencia de atributos (“Naive Bayes”): 
la probabilidad conjunta de varios atributos se pone como 
producto 
 
 
 
• Clasificación: 
 
 
 
 
)C|VA(p*...*C|VA(p*)C|VA(p)C|X(p
)VA,...,VA,VA(X
kIIk22k11ki
II2211i


)X(p
)C(p*)C|VA(p*...*)C|VA(p*)C|VA(p
)X(p
)C(p*)C|X(p
)X|C(p
i
kkFFk22k11
i
kki
ik


Técnicas Clásicas en Problemas de Clasificación 
Ejemplo con atributos nominales 
 
 
 
 
SALARIO CLIENTE EDAD HIJOS CRÉDITO 
Poco Sí Joven Uno NO 
Mucho Si Joven Uno SI 
Mucho Si Joven Uno SI 
Poco Si Joven Uno NO 
Mucho Si Joven Dos SI 
Poco Si Joven Dos NO 
Mucho Si Adulto Dos SI 
Mucho Si Adulto Dos SI 
Poco No Adulto Dos NO 
Mucho Si Adulto Dos SI 
Medio No Adulto Tres NO 
Mucho Si Adulto Dos SI 
Medio Si Adulto Dos SI 
Medio No Adulto Tres NO 
Medio No Adulto Dos SI 
Mucho No Mayor Tres NO 
Poco No Mayor Tres SI 
Poco No Mayor Tres SI 
Mucho No Mayor Tres NO 
Mucho No Mayor Tres SI 
 
p(SI) = 12/20 
p(NO) = 8/20 
 
Salario 
Crédito No Sí 
Poco 4/8 2/12 
Mucho 2/8 8/12 
Medio 2/8 2/12 
 
 
Cliente 
Crédito No Sí 
Sí 3/8 8/12 
No 5/8 4/12 
 
 
Edad 
Crédito No Sí 
Joven 3/8 3/12 
Adulto 3/8 6/12 
Mayor 2/8 3/12 
 
 
Hijos 
Crédito No Sí 
Uno 2/8 2/12 
Dos 2/8 7/12 
Tres 4/8 3/12 
 
Técnicas Clásicas en Problemas de Clasificación 
Ejemplo con atributos nominales 
• Ej.: (salario=poco, cliente=si, edad=adulto, hijos=tres) 
 
 
 
 
 
 
)Xi(p/0141.0)Xi(p/20/8*8/4*8/3*8/3*8/4
)X(p/)NO(p*)NO|tresh(p*)NO|adultoe(p*)NO|sic(p*)NO|pocos(p
)X|NO(p
)Xi(p/0083.0)Xi(p/20/12*12/3*12/6*12/8*12/2
)X(p/)SI(p*)SI|tresh(p*)SI|adultoe(p*)SI|sic(p*)SI|pocos(p
)X|SI(p
i
i
i
i






Técnicas Clásicas en Problemas de Clasificación 
Atributos sin valores 
• Si el ejemplo a clasificar no tiene un atributo, simplemente se 
omite. 
– Ej.: (salario=poco, cliente=si, edad=?, hijos=3) 
 
 
 
 
 
 
• Si hay faltas en la muestra de entrenamiento, no cuentan en la 
estimación de probabilidades de ese atributo 
)Xi(p/0375.0)Xi(p/20/8*8/4*8/3*8/4
)X(p/)NO(p*)NO|tresh(p*)NO|sic(p*)NO|pocos(p
)X|NO(p
)Xi(p/0167.0)Xi(p/20/12*12/3*12/8*12/2
)X(p/)SI(p*)SI|tresh(p*)SI|sic(p*)SI|pocos(p
)X|SI(p
i
i
i
i






Técnicas Clásicas en Problemas de Clasificación 
Faltas en atributo EDAD 
SALARIO CLIENTE EDAD HIJOS CRÉDITO
Poco Sí Joven Uno NO
Mucho Si Joven Uno SI
Mucho Si Joven Uno SI
Poco Si ? Uno NO
Mucho Si ? Dos SI
Poco Si ? Dos NO
Mucho Si ? Dos SI
Mucho Si Adulto Dos SI
Poco No Adulto Dos NO
Mucho Si Adulto Dos SI
Medio No Adulto Tres NO
Mucho Si Adulto Dos SI
Medio Si Adulto Dos SI
Medio No Adulto Tres NO
Medio No Adulto Dos SI
Mucho No Mayor Tres NO
Poco No Mayor Tres SI
Poco No Mayor Tres SI
Mucho No Mayor Tres NO
Mucho No Mayor Tres SI
 
Salario 
Crédito No Sí 
Poco 4/8 2/12 
Mucho 2/8 8/12 
Medio 2/8 2/12 
 
Cliente
Crédito No Sí
Sí 3/8 8/12
No 5/8 4/12
Edad
Crédito No Sí
Joven 1/6 2/10
Adulto 3/6 5/10
Mayor 2/6 3/10
p(SI) = 12/20 
p(NO) = 8/20 
 
Hijos 
Crédito No Sí 
Uno 2/8 2/12 
Dos 2/8 7/12 
Tres 4/8 3/12 
 
Técnicas Clásicas en Problemas de Clasificación 
Atributos no representados. 
Laplace 
• Problema: con muestra poco representativa, puede ocurrir que 
en alguna clase, un valor de atributo no aparezca: p(Ai=Vj|Ck)=0 
– Cualquier ejemplo X con Ai=Vj generará P(Ck|X)=0, 
independientemente de los otros atributos! 
• Se suele modificar la estimación de las probabilidades a priori 
con un factor que elimina los ceros. 
– Ej.: P(Edad|Crédito=NO)= 
– Ley : 
– A veces simplemente se inicializan las cuentas a 1 en vez de 0: 






8
2
:Mayor,
8
3
:Adulto,
8
3
:Joven












8
3/2
:Mayor,
8
3/3
:Adulto,
8
3/3
:Joven












38
12
:Mayor,
38
13
:Adulto,
38
13
:Joven
Técnicas Clásicas en Problemas de Clasificación 
Atributos mixtos 
• Independencia de atributos (“Naive Bayes”) 
 
– Atributos discretos: probabilidades a priori con cada clase Ck 
 
 
– Atributos continuos: densidades de clase Ck: normales de parámetros 
k, k 
 
 
 
 
 
 
 
 
 
)C|VA(p*...*)C|VA(p*)C|VA(p)C|X(p kFFk22k11ki 
k
jik
kji
C clase de jemplose de ºn
VAcon C clase de jemplose de ºn
)C|VA(p















2
ik
2
ikj
ik
kjiAkji
)V(
2
1
exp
2
1
)C|V(f)C|VA(p
Técnicas Clásicas en Problemas de Clasificación 
Ejemplo con atributos mixtos 
SALARIO CLIENTE EDAD HIJOS CRÉDITO 
525 Sí Joven 1 NO 
2000 Si Joven 1 SI 
2500 Si Joven 1 SI 
470 Si Joven 1 NO 
3000 Si Joven 2 SI 
510 Si Joven 2 NO 
2800 Si Adulto 2 SI 
2700 Si Adulto 2 SI 
550 No Adulto 2 NO 
2600 Si Adulto 2 SI 
1100 No Adulto 3 NO 
2300 Si Adulto 2 SI 
1200 Si Adulto 2 SI 
900 No Adulto 3 NO 
800 No Adulto 2 SI 
800 No Mayor 3 NO 
1300 No Mayor 3 SI 
1100 No Mayor 3 SI 
1000 No Mayor 3 NO 
4000 No Mayor 3 SI 
 
p(SI) = 12/20 
p(NO) = 8/20 
Hijos
Crédito No Sí
Media 2.25 2.08
Desv Estándar 0.89 0.67
 
Edad 
Crédito No Sí 
Joven 3/8 3/12 
Adulto 3/8 6/12 
Mayor 2/8 3/12 
 
 
Cliente 
Crédito No Sí 
Sí 3/8 8/12 
No 5/8 4/12 
 
Salario
Crédito No Sí
Media 732 2192
Desv Estándar 249 942
Técnicas Clásicas en Problemas de Clasificación 
Ejemplo con atributos mixtos 
 
• Ej.: (salario=700, cliente=si, edad=adulto, hijos=3) 
 
)Xi(p/5e81.2
)X(P/1*20/8*
89.0
)25.23(
2
1
exp
89.02
1
*8/3*8/3*
249
)732700(
2
1
exp
2492
1
)X(p/)NO(p*)NO|3h(f*)NO|adultoe(p*)NO|sic(p*)NO|700s(f
)X|NO(p
)Xi(p/6e61.5
)X(P/1*20/12*
67.0
)08.23(
2
1
exp
67.02
1
*12/6*12/8*
942
)2192700(
2
1
exp
9422
1
)X(p/)SI(p*)SI|3h(f*)SI|adultoe(p*)SI|sic(p*)SI|700s(f
)X|SI(p
i2
2
2
2
iHS
i
i2
2
2
2
iHS
i









 








 













 








 




Técnicas Clásicas en Problemas de Clasificación 
• MAP proporciona clasificación con mínima prob. de Error 
– Coste de decisión : prob. Error total= 
• Con frecuencia los costes son asimétricos, y unos errores son más 
graves que otros. Matriz de costes 
 
 
 
 
• Costes de cada decisión. Criterio de mínimo coste medio: dada una 
decisión, promedio los costes de cada equivocación y su coste: 
Clasificación con costes 
)X|C(P1 i

X|Di











0cc
c0c
cc0
3231
2321
1312
Clase 
real 
Clasificado como 
)X|C(pc)X|C(pc)X|D(tecos
)X|C(pc)X|C(pc)X|D(tecos
)X|C(pc)X|C(pc)X|D(tecos
2231133
3321122
3312211






Técnicas Clásicas en Problemas de Clasificación 
-30 -20 -10 0 10 20 30 40 50
-50
-40
-30
-20
-10
0
10
20
30
-30 -20 -10 0 10 20 30 40 50
-50
-40
-30
-20
-10
0
10
20
30
• Clasificación de setas con dos atributos, (X, Y) y tres categorías: 
Venenosa, Mal sabor, comestible: {V, MS, C} 
Ejemplo de clasificación con costes 










011
1001
100010000
Clase 
real 
Clasificado como 
V MS C 
V 
MS 
C 
 
 
  
























5145
4551
C;2020:MS
7140
4071
C;55:C
7150
5071
C;55:V
3
t
3
2
t
2
1
t
1
V 
C 
MS 
V 
C 
MS 
Mínimo 
error 
Mínimo 
coste

Continuar navegando

Materiales relacionados

38 pag.
Semana1_Estadistica_Descriptiva_Patricia_Guevara

Escola Santa Afra

User badge image

Edgar Gallegos

171 pag.
109 pag.
DocsTec-6241

ITESM

User badge image

Todo para Aprender