Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Jesús García Herrero CLASIFICADORES BAYESIANOS En esta clase se presentan los algoritmos Análisis de Datos para abordar tareas de aprendizaje de modelos predictivos. Se particularizan las técnicas estadísticas vistas anteriormente para resolver tareas predictivas: por un lado la regresión (lineal o no lineal) para predecir valores numéricos, y su aplicación para predecir probabilidades y clasificar instancias mediante regresión logística, y los clasificadores bayesianos como modelo de aprendizaje de parámetros de distribuciones de probabilidad para predecir probabilidades de clases. La clasificación mediante regresión permite estimar las fronteras de decisión entre clases, presentando la equivalencia del aprendizaje de fronteras de clasificación al de las funciones de estimación de pertenencia a la clase. Se puede ver la limitación de esta técnica a problemas linealmente separables. Los clasificadores bayesianos parten del principio de probabilidad condicionada para estimar probabilidades a posteriori de pertencia a clases de las instancia, una vez calculadas las probabilidades de los valores de los atributos (probabilidades a priori) en la fase de entrenamiento. Estos clasificadores permiten tratar con datos nominales y numéricos, en este último caso utilizando distribuciones normales para simplificar el proceso. La limitación está en el cálculo de dependencias entre los atributos, que requeriría un número de datos exponencial con la dimensión de éstos, problema habitualmente tratado con la simplificación de independencia condicional (método “naïve Bayes”). Se completa el tema revisando aspectos prácticos que surgen al aplicar técnicas de clasificación sobre datos reales: tratamiento de datos incompletos y datos insuficientes para estimar probabilidades muy pequeñas. Técnicas Clásicas en Problemas de Clasificación Clasificadores Bayesianos Métodos probabilísticos y numéricos de clasificación Jesús García Herrero Universidad Carlos III de Madrid Técnicas Clásicas en Problemas de Clasificación Clasificación numérica • Modelado de datos con atributos numéricos para su aplicación a Clasificación. Generalización • Datos representados como vectores de atributos numéricos: patrones • Problemas: dimensionalidad, sobreajuste. N21 X,...,X,X A1 A2 ... AF x 1 1 x 1 2 ... x 1 F x 2 1 x 2 2 ... x 2 F x 3 1 x 3 2 ... x 3 F ... ... ... ... x N 1 x N 2 ... x N F Técnicas Clásicas en Problemas de Clasificación Clasificación numérica Problema de Clasificación • Clases: {C1, ..., CM} • Muestras:E= – Tamaño: • Para cada clase, Ci, hay ni patrones, cada uno con F atributos: para cada clase Ci: }X...,X ,...,X ,...,X ,X...,,X{ )M( n )M( 1 )2( n )2( 1 )1( n )1( 1 M21 }X...,,X{ )i( n )i( 1 i i )i( Fj )i( j1 )i( j n,...,1j; x x X M 1j jnN Técnicas Clásicas en Problemas de Clasificación Clasificación numérica • Función discriminante de cada clase: • Propiedad deseable para el diseño de gi(.): sobre el conjunto de entrenamiento E, cada patrón de la clase Ci tiene un valor máximo con el discriminante gi(.): M,...,1i),X(gi )X(g1 )X(g2 )X(gM X Max(.) Ĉ i i jk Mk i ji njXgXg ,...,1)},({max)( )( ,...,1 )( )Xg(Ĉ X }C,...,C{CR:(.)g M1 F Técnicas Clásicas en Problemas de Clasificación Fronteras de decisión lineales:)X(gij 0 5 10 15 20 25 30 0 5 10 15 20 25 30 X1 X 2 + + + + + + + + + + ++ ++ 1 2 3 g13 g12 g23 Técnicas Clásicas en Problemas de Clasificación Fronteras de decisión scuadratica:)X(gij 0 5 10 15 20 25 30 0 5 10 15 20 25 30 X1 X 2 + + + + + + + + + + ++ ++ 1 2 3 g13g12 g23 g12 Técnicas Clásicas en Problemas de Clasificación Clasificación con Regresión Lineal • Para cada clase se define la función de pertenencia gi: • Se construye una función lineal que “aproxime” gi: • Hay que “aprender” M funciones gi i i i CX;0 CX;1 )X(g i t i 1 i t ii t )I( n t)1( 1 t )i( n t)i( 1 ii yH]HH[A ; X1 X1 X1 X1 H 0 0 1 1 y I i todos los datos 1s en los patrones de Ci 0s en resto Técnicas Clásicas en Problemas de Clasificación Clasificación bayesiana: aplicación de modelos estadísticos • Clasificación con modelo de estructura probabilística conocida Clases: {C1, ..., CM}. Se conoce a priori: – Probabilidades de clase: P(Ci) – Distribuciones de probabilidad condicionadas (parámetros constantes) – densidad )C(P )C,xX,...,xX(P )C|xX,...,xX(P)C|x,...,x(F i iII11 iIII1iI1X I1 iI1X iI1X x...x )C|x,...,x(F )C|x,...,x(f Técnicas Clásicas en Problemas de Clasificación • Parámetros: vector de medias y matriz covarianzas • Ejemplo Ej.: distribución normal multivariada 2 xxxxx xxxx 2 1x n 1 1t 2/n F2n1F F121 S; )x(S)x( 2 1 exp S2 1 )x(f 216 621 S; 5 30 Técnicas Clásicas en Problemas de Clasificación Teorema de Bayes aplicado a clasificación • Probabilidad a posteriori: es la probabilidad de que el ejemplo tenga clase Ci: • Probabilidad a priori: P(Ci) es la probabilidad total de cada clase • Verosimilitud: : es la distribución de Ci aplicada a • Densidad total: Criterio de clasificación MAP: – función discriminante de Ci: proporcional a su prob a posteriori: – la clase es la de aquella que maximiza el discriminante )X(f )C(p)C|X(f )X|C(P iii )X|C(P i )C|X(f i )C(P)C|X(f...)C(P)C|X(f)X(f MM11 )C(p)C|X(f i máximo)X|C(P i máximo)X(Clase iii )C(p)C|X(f)X(g iii X Técnicas Clásicas en Problemas de Clasificación Clasificación bayesiana y distrib normal • Distribuciones condicionales gaussianas. Para cada clase Ci hay una función discriminante de parámetros ij, ij, j=1...I • Parámetros de distribución condicionada a cada clase • Regiones de decisión: – Funciones cuadráticas (hipérbolas) dadas por diferencias: – Si son iguales, y diagonales: regiones lineales (caso particular) 2 ij F 1i 2 ijj 1t Fii2i1 2/n i iii /)x( 2 1 K:ionsimplifica )x(S)x( 2 1 ...2 )C(P log))C|x(f)C(Plog()x(g )x(g)x(g)x(g jiij Técnicas Clásicas en Problemas de Clasificación Ejemplo con distribución normal • C1: • C2: • C3: 216 621 R;530C;3.0P 1 t 11 166 616 R;535C;2.0P 2 t 22 42 216 R;1010C;5.0P 3 t 33 Técnicas Clásicas en Problemas de Clasificación Ejemplo -50 -40 -30 -20 -10 0 10 20 30 40 50 -30 -20 -10 0 10 20 30 40 C1 g23 C3 C2 g13 g12 Técnicas Clásicas en Problemas de Clasificación Resumen clasificador bayesiano numérico • Algoritmo: • Estimar parámetros de cada clase Ci (entrenamiento) • Estimar probabilidad de cada clase • Obtener regiones de decisión: gij(.) ii )i( n )i( 1i C,}X...,,X{:C i M 1i i i i nn; N n )C(P̂ in 1j )i( ji x n 1ˆ in 1j t iiii i i )x)(x( n 1 C Técnicas Clásicas en Problemas de Clasificación Clasificación Bayesiana con Atributos Nominales Atributos nominales con valores discretos – Ai={V1,...,Vni}:atributo con ni valores posibles – Pasamos de densidades a probabilidades: probabilidad a priori: p(Ai=Vj|Ck)? – Estimación “contando” el número de casos: k jik kji C clase de jemplose de ºn VAcon C clase de jemplose de ºn )C|VA(p Técnicas Clásicas en Problemas de Clasificación Clasificación Bayesiana con Atributos Nominales • Simplificación: independencia de atributos (“Naive Bayes”): la probabilidad conjunta de varios atributos se pone como producto • Clasificación: )C|VA(p*...*C|VA(p*)C|VA(p)C|X(p )VA,...,VA,VA(X kIIk22k11ki II2211i )X(p )C(p*)C|VA(p*...*)C|VA(p*)C|VA(p )X(p )C(p*)C|X(p )X|C(p i kkFFk22k11 i kki ik Técnicas Clásicas en Problemas de Clasificación Ejemplo con atributos nominales SALARIO CLIENTE EDAD HIJOS CRÉDITO Poco Sí Joven Uno NO Mucho Si Joven Uno SI Mucho Si Joven Uno SI Poco Si Joven Uno NO Mucho Si Joven Dos SI Poco Si Joven Dos NO Mucho Si Adulto Dos SI Mucho Si Adulto Dos SI Poco No Adulto Dos NO Mucho Si Adulto Dos SI Medio No Adulto Tres NO Mucho Si Adulto Dos SI Medio Si Adulto Dos SI Medio No Adulto Tres NO Medio No Adulto Dos SI Mucho No Mayor Tres NO Poco No Mayor Tres SI Poco No Mayor Tres SI Mucho No Mayor Tres NO Mucho No Mayor Tres SI p(SI) = 12/20 p(NO) = 8/20 Salario Crédito No Sí Poco 4/8 2/12 Mucho 2/8 8/12 Medio 2/8 2/12 Cliente Crédito No Sí Sí 3/8 8/12 No 5/8 4/12 Edad Crédito No Sí Joven 3/8 3/12 Adulto 3/8 6/12 Mayor 2/8 3/12 Hijos Crédito No Sí Uno 2/8 2/12 Dos 2/8 7/12 Tres 4/8 3/12 Técnicas Clásicas en Problemas de Clasificación Ejemplo con atributos nominales • Ej.: (salario=poco, cliente=si, edad=adulto, hijos=tres) )Xi(p/0141.0)Xi(p/20/8*8/4*8/3*8/3*8/4 )X(p/)NO(p*)NO|tresh(p*)NO|adultoe(p*)NO|sic(p*)NO|pocos(p )X|NO(p )Xi(p/0083.0)Xi(p/20/12*12/3*12/6*12/8*12/2 )X(p/)SI(p*)SI|tresh(p*)SI|adultoe(p*)SI|sic(p*)SI|pocos(p )X|SI(p i i i i Técnicas Clásicas en Problemas de Clasificación Atributos sin valores • Si el ejemplo a clasificar no tiene un atributo, simplemente se omite. – Ej.: (salario=poco, cliente=si, edad=?, hijos=3) • Si hay faltas en la muestra de entrenamiento, no cuentan en la estimación de probabilidades de ese atributo )Xi(p/0375.0)Xi(p/20/8*8/4*8/3*8/4 )X(p/)NO(p*)NO|tresh(p*)NO|sic(p*)NO|pocos(p )X|NO(p )Xi(p/0167.0)Xi(p/20/12*12/3*12/8*12/2 )X(p/)SI(p*)SI|tresh(p*)SI|sic(p*)SI|pocos(p )X|SI(p i i i i Técnicas Clásicas en Problemas de Clasificación Faltas en atributo EDAD SALARIO CLIENTE EDAD HIJOS CRÉDITO Poco Sí Joven Uno NO Mucho Si Joven Uno SI Mucho Si Joven Uno SI Poco Si ? Uno NO Mucho Si ? Dos SI Poco Si ? Dos NO Mucho Si ? Dos SI Mucho Si Adulto Dos SI Poco No Adulto Dos NO Mucho Si Adulto Dos SI Medio No Adulto Tres NO Mucho Si Adulto Dos SI Medio Si Adulto Dos SI Medio No Adulto Tres NO Medio No Adulto Dos SI Mucho No Mayor Tres NO Poco No Mayor Tres SI Poco No Mayor Tres SI Mucho No Mayor Tres NO Mucho No Mayor Tres SI Salario Crédito No Sí Poco 4/8 2/12 Mucho 2/8 8/12 Medio 2/8 2/12 Cliente Crédito No Sí Sí 3/8 8/12 No 5/8 4/12 Edad Crédito No Sí Joven 1/6 2/10 Adulto 3/6 5/10 Mayor 2/6 3/10 p(SI) = 12/20 p(NO) = 8/20 Hijos Crédito No Sí Uno 2/8 2/12 Dos 2/8 7/12 Tres 4/8 3/12 Técnicas Clásicas en Problemas de Clasificación Atributos no representados. Laplace • Problema: con muestra poco representativa, puede ocurrir que en alguna clase, un valor de atributo no aparezca: p(Ai=Vj|Ck)=0 – Cualquier ejemplo X con Ai=Vj generará P(Ck|X)=0, independientemente de los otros atributos! • Se suele modificar la estimación de las probabilidades a priori con un factor que elimina los ceros. – Ej.: P(Edad|Crédito=NO)= – Ley : – A veces simplemente se inicializan las cuentas a 1 en vez de 0: 8 2 :Mayor, 8 3 :Adulto, 8 3 :Joven 8 3/2 :Mayor, 8 3/3 :Adulto, 8 3/3 :Joven 38 12 :Mayor, 38 13 :Adulto, 38 13 :Joven Técnicas Clásicas en Problemas de Clasificación Atributos mixtos • Independencia de atributos (“Naive Bayes”) – Atributos discretos: probabilidades a priori con cada clase Ck – Atributos continuos: densidades de clase Ck: normales de parámetros k, k )C|VA(p*...*)C|VA(p*)C|VA(p)C|X(p kFFk22k11ki k jik kji C clase de jemplose de ºn VAcon C clase de jemplose de ºn )C|VA(p 2 ik 2 ikj ik kjiAkji )V( 2 1 exp 2 1 )C|V(f)C|VA(p Técnicas Clásicas en Problemas de Clasificación Ejemplo con atributos mixtos SALARIO CLIENTE EDAD HIJOS CRÉDITO 525 Sí Joven 1 NO 2000 Si Joven 1 SI 2500 Si Joven 1 SI 470 Si Joven 1 NO 3000 Si Joven 2 SI 510 Si Joven 2 NO 2800 Si Adulto 2 SI 2700 Si Adulto 2 SI 550 No Adulto 2 NO 2600 Si Adulto 2 SI 1100 No Adulto 3 NO 2300 Si Adulto 2 SI 1200 Si Adulto 2 SI 900 No Adulto 3 NO 800 No Adulto 2 SI 800 No Mayor 3 NO 1300 No Mayor 3 SI 1100 No Mayor 3 SI 1000 No Mayor 3 NO 4000 No Mayor 3 SI p(SI) = 12/20 p(NO) = 8/20 Hijos Crédito No Sí Media 2.25 2.08 Desv Estándar 0.89 0.67 Edad Crédito No Sí Joven 3/8 3/12 Adulto 3/8 6/12 Mayor 2/8 3/12 Cliente Crédito No Sí Sí 3/8 8/12 No 5/8 4/12 Salario Crédito No Sí Media 732 2192 Desv Estándar 249 942 Técnicas Clásicas en Problemas de Clasificación Ejemplo con atributos mixtos • Ej.: (salario=700, cliente=si, edad=adulto, hijos=3) )Xi(p/5e81.2 )X(P/1*20/8* 89.0 )25.23( 2 1 exp 89.02 1 *8/3*8/3* 249 )732700( 2 1 exp 2492 1 )X(p/)NO(p*)NO|3h(f*)NO|adultoe(p*)NO|sic(p*)NO|700s(f )X|NO(p )Xi(p/6e61.5 )X(P/1*20/12* 67.0 )08.23( 2 1 exp 67.02 1 *12/6*12/8* 942 )2192700( 2 1 exp 9422 1 )X(p/)SI(p*)SI|3h(f*)SI|adultoe(p*)SI|sic(p*)SI|700s(f )X|SI(p i2 2 2 2 iHS i i2 2 2 2 iHS i Técnicas Clásicas en Problemas de Clasificación • MAP proporciona clasificación con mínima prob. de Error – Coste de decisión : prob. Error total= • Con frecuencia los costes son asimétricos, y unos errores son más graves que otros. Matriz de costes • Costes de cada decisión. Criterio de mínimo coste medio: dada una decisión, promedio los costes de cada equivocación y su coste: Clasificación con costes )X|C(P1 i X|Di 0cc c0c cc0 3231 2321 1312 Clase real Clasificado como )X|C(pc)X|C(pc)X|D(tecos )X|C(pc)X|C(pc)X|D(tecos )X|C(pc)X|C(pc)X|D(tecos 2231133 3321122 3312211 Técnicas Clásicas en Problemas de Clasificación -30 -20 -10 0 10 20 30 40 50 -50 -40 -30 -20 -10 0 10 20 30 -30 -20 -10 0 10 20 30 40 50 -50 -40 -30 -20 -10 0 10 20 30 • Clasificación de setas con dos atributos, (X, Y) y tres categorías: Venenosa, Mal sabor, comestible: {V, MS, C} Ejemplo de clasificación con costes 011 1001 100010000 Clase real Clasificado como V MS C V MS C 5145 4551 C;2020:MS 7140 4071 C;55:C 7150 5071 C;55:V 3 t 3 2 t 2 1 t 1 V C MS V C MS Mínimo error Mínimo coste
Compartir