Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Universidad Nacional Autónoma de México Facultad de Ciencias Análisis Discriminante Aplicado a los Niveles de Bienestar en México TESIS QUE PARA OBTENER EL TÍTULO DE ACTUARIO PRESENTA: Isaac González Silva Director de Tesis: Doctora Silvia Ruiz Velasco Acosta México D. F. Febrero del 2007 UNAM – Dirección General de Bibliotecas Tesis Digitales Restricciones de uso DERECHOS RESERVADOS © PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL Todo el material contenido en esta tesis esta protegido por la Ley Federal del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). El uso de imágenes, fragmentos de videos, y demás material que sea objeto de protección de los derechos de autor, será exclusivamente para fines educativos e informativos y deberá citar la fuente donde la obtuvo mencionando el autor o autores. Cualquier uso distinto como el lucro, reproducción, edición o modificación, será perseguido y sancionado por el respectivo titular de los Derechos de Autor. Datos del jurado 1. Datos del alumno González Silva Isaac 55 29 18 38, Cel. 0 44 55 27 20 37 17 Universidad Nacional Autónoma de México Facultad de Ciencias Actuaría 095543075 2. Datos del tutor Doctora Silvia Ruiz Velasco Acosta 3. Datos del sinodal 1 Actuario Jaime Vázquez Alamilla 4. Datos del sinodal 2 Doctora Guillermina Eslava Gómez 5. Datos del sinodal 3 Matemática Margarita Elvira Chávez Cano 6. Datos del sinodal 4 Maestro en Ciencias Inocencio Rafael Madrid Ríos 7. Datos del trabajo escrito Análisis discriminante aplicado a los niveles de bienestar en México 80 p. 2007 Agradecimientos: Agradezco a mis Padres, por tener confianza en mi, por su apoyo, su cariño y sus constantes ánimos que me han brindado, por estar siempre presentes, contar con ellos hoy y siempre, mil gracias. A mis hermanos: Ricardo, Abel, Blanca y Mario por sus mejores deseos y por su apoyo brindado durante toda la vida. Agradezco a la Doctora Silvia Ruiz Velasco Acosta por que siempre estuvo dispuesta a darme sus mejores consejos y ser mi guía incansable para la terminación de esta tesis y cumplir de una de las metas de mi vida. Doy mis agradecimientos al Actuario Jaime Vázquez Alamilla, a la Doctora Guillermina Eslava Gómez, al Maestro en Ciencias Inocencio Rafael Madrid Ríos y a la Matemática Margarita Elvira Chávez Cano, integrantes del jurado, a todos ellos por sus valiosos consejos y aportación a mejorar la presentación de esta tesis, por el tiempo que le dedicaron a leerla y a preparar mi examen. A mis compañeros y amigos de la universidad que siempre estuvieron juntos en todas las circunstancias de la vida. Agradecimientos para la Universidad Nacional Autónoma de México por sus espacios y por ser una de las mejores universidades del País. A los Maestros de la Facultad de Ciencias a todos ellos por ser el pilar fundamental de miles de proyectos y metas de todos los que pasamos en las aulas de esta escuela. 3 Í n d i c e Introducción .................................................................................................. 5 Objetivo ......................................................................................................... 8 Capítulo 1. Análisis Discriminante .............................................................10 1.1 Historia........................................................................................................................11 1.2 Planteamiento de problema en el caso de clasificación entre dos grupos...................12 1.3 Clasificación con dos grupos y una variable clasificadora .........................................13 1.4 Función discriminante de Fisher para g grupos. .........................................................14 1.5 Planteamiento de hipótesis estadísticas ......................................................................19 1.6 Pruebas de hipótesis y evaluación de la bondad del ajuste.........................................20 1.7 Cálculo de probabilidades de pertenencia a una población ........................................21 1.8 Cálculo de probabilidades sin información a priori....................................................23 1.9 Cálculo de las probabilidades con información a priori .............................................24 1.10 Cálculo de probabilidades con información a priori y consideración de costos.......26 1.11 Selección de variables...............................................................................................27 1.12 Ejemplo para el caso de dos grupos. Aplicación del Análisis Discriminante para asignación de ayuda a poblaciones con bajo nivel de bienestar. ......................................30 1.12.1 Planteamiento del problema...............................................................................30 1.12.2 Grupos iniciales .................................................................................................31 1.12.3 Análisis Discriminante utilizando la variable porcentaje de viviendas con piso de tierra. ........................................................................................................................32 1.12.4 Análisis Discriminante utilizando la variable porcentaje de viviendas con servicio de drenaje. .......................................................................................................33 1.12.5 Análisis Discriminante utilizando dos variables (porcentaje de viviendas con piso de tierra y porcentaje viviendas con servicio de drenaje). ....................................35 1.12.6 Solución a la petición de ayuda a las dos poblaciones solicitantes....................38 Capítulo 2. Análisis Discriminante Aplicado a los niveles de Bienestar en México.........................................................................................................39 2.1 ¿Qué se entiende por Bienestar? .................................................................................40 2.2 Variables utilizadas.....................................................................................................40 2.3 Planteamiento del problema........................................................................................44 2.4 Clasificación del análisis discriminante utilizando una sola variable a la vez ...........45 2.5 Análisis discriminante aplicado en los 32 estados de la república con las 32 variables demográficas .....................................................................................................................46 2.6 Estadísticas por nivel de bienestar ..............................................................................46 2.7 Variables introducidas / eliminadas ............................................................................47 2.8 Variables incluidas en el modelo ................................................................................49 4 2.9 Variables no incluidas en el análisis........................................................................ 51 2.10 Estadístico lambda de Wilks ................................................................................. 53 2.11 Comparaciones entre pares de grupos ................................................................... 53 2.12 Valores propios..................................................................................................... 55 2.13 Comparación de funciones en el modelo ............................................................... 55 2.14 Valor de los centroides en las funciones discriminantes ........................................ 56 2.15 Coeficientes estandarizados de las funciones discriminantes canónicas ................. 56 2.16 Probabilidades previas utilizadas en la clasificación.............................................. 57 2.17 Mapa territorial.....................................................................................................57 2.18 Matriz de clasificación.......................................................................................... 58 2.19 Análisis del caso mal clasificado........................................................................... 59 2.20 Funciones discriminantes...................................................................................... 61 2.21 Comparación gráfica entre pares de funciones discriminantes ............................... 62 Conclusiones ..............................................................................................................69 Anexo .........................................................................................................................71 Lambda de Wilks ......................................................................................................... 72 Criterios ....................................................................................................................... 72 V de Rao ...................................................................................................................... 73 Base de datos................................................................................................................ 74 Referencias bibliográficas .........................................................................................78 5 Introducción El planteamiento estadístico del problema es el siguiente: se dispone de un conjunto de individuos que pueden venir de dos o más poblaciones distintas. En cada elemento se ha observado una variable aleatoria p-dimensional x, cuya pertenencia a una de las poblaciones consideradas se conoce. Se desea clasificar un nuevo elemento, con valores observados de las variables conocidas para asignarlo a una población. Por ejemplo, la primera aplicación del análisis discriminante consistió en clasificar los restos de un cráneo descubierto en una excavación como humano, utilizando la distribución de medidas físicas para los cráneos humanos y los de antropoides. El problema de discriminación aparece en muchas situaciones en que necesitamos clasificar elementos con información incompleta. Por ejemplo, los sistemas automáticos de concesión de créditos implantados en muchas instituciones financieras tienen que utilizar variables medibles (ingreso, antigüedad en el trabajo, patrimonio, etcétera.) para prever el comportamiento futuro en otros casos, la información podría estar disponible, pero puede ser muy costosa de adquirir ya que para ello se puede requerir destruir el elemento, como en el control de calidad de la resistencia a la tensión de unos componentes. En ingeniería el problema de discriminación se ha estudiado con el nombre de reconocimiento de patrones, para diseñar máquinas capaces de clasificar de manera automática. Por ejemplo, reconocer voces y sonidos, billetes o monedas, reconocer caracteres escritos en la computadora o clasificar cartas según el código postal. Otros ejemplos de aplicación del análisis discriminante son: asignar un texto escrito de procedencia desconocida a uno de varios autores por las frecuencias de utilización de palabras, asignar una partitura musical o un cuadro a un artista, una declaración de impuestos como potencialmente defraudadora o no, una empresa en riesgo de quiebra o no, las enseñanzas de un centro como teóricas o aplicadas, un paciente enfermo de cáncer o no, un nuevo método de fabricación como eficaz o no. Las técnicas reciben también el nombre de clasificación supervisada, para indicar que conocemos una muestra de elementos bien clasificados que sirve de pauta o modelo para la clasificación de las siguientes observaciones. 6 Existen varios enfoques posibles para este problema. Uno de ellos es el análisis discriminante clásico debido a Fisher (1936), basado en la normalidad multivariada de las variables consideradas y que es óptimo bajo dicho supuesto. Si todas las variables son continuas y aunque los datos originales no sean normales es posible transformar las variables para que lo sean. El análisis discriminante tiene como objetivo el de clasificar observaciones mediante un conjunto de variables, en dos o más grupos que por lo general son mutuamente excluyentes. También, nos permite establecer la relación entre la variable dependiente y grupos de variables independientes. En particular ver si un grupo de variables separa adecuadamente los grupos. La pertenencia a uno u otro grupo se puede introducir en el análisis mediante una variable categórica que toma tantos valores como grupos existentes. En el análisis discriminante está variable juega el papel de variable dependiente. La idea básica es determinar si unos grupos difieren en función de la media de una(s) variable(s), y emplear luego esa(s) variable(s) para predecir la pertenencia de una nueva observación a determinado grupo. A las variables que se utilizan para realizar la clasificación de los individuos las denominamos variables clasificadoras. En el análisis discriminante, la información de las variables clasificadoras se sintetiza en unas funciones denominadas funciones discriminantes, que son las que finalmente se utilizan en el proceso de clasificación. Por ejemplo, suponga que se tiene una medida de la estatura de un grupo de individuos, 50 hombres y 50 mujeres. En promedio, la estatura de las mujeres es inferior a la de los hombres, de forma que esta diferencia puede reflejarse en la diferencia entre las medias de ambos grupos. Así, la variable “estatura” permite discriminar entre hombres y mujeres de forma más adecuada: “Si una persona es alta, entonces es probable que sea un hombre; si una persona es baja, es posible que sea una mujer”. El análisis discriminante se aplica para fines explicativos y predictivos, en la utilización explicativa se trata de determinar la contribución de cada variable clasificadora a la clasificación correcta de cada uno de los individuos. En una aplicación predictiva, se trata de determinar el grupo al que pertenece un 7 individuo para el que se conocen los valores que toman las variables clasificadoras. El análisis discriminante está muy relacionado con el análisis de varianza multivariada con un factor, aunque el papel que juegan los distintos tipos de variables está invertido en uno y otro método. Así, en el análisis de varianza la variable categórica (el factor) es la variable explicativa, mientras que en el análisis discriminante la variable categórica es precisamente la variable dependiente. 8 Objetivo El objetivo de esta tesis es aplicar el método estadístico “Análisis Discriminante” a los niveles de bienestar en México a nivel estatal, los datos que se van a utilizar provienen del XII censo de población y vivienda 2000 que realizó el Instituto Nacional de Estadística Geografía e Informática (INEGI), y para la realización serán utilizadas 32 variables de tipo demográficas potencialmente discriminantes en cada uno de los 32 estados de la República Mexicana los cuales ya están integrados anticipadamente en un grupo de pertenencia inicial llamado nivel de bienestar dado por el INEGI, de esta manera la base de datos con la que se va a trabajar es de dimensión 32x32 (ver anexo). Dentro de todas las variables utilizadas se podrá saber si todas son necesarias e indispensables para distinguir entre un nivel de bienestar y otro o, solo una cantidad de ellas son las que reúnen las características necesarias para distinguir el nivel de bienestar entre las poblaciones. Se dará a conocer la función discriminante para el caso de que se requiera clasificar más poblaciones en alguno de los niveles de bienestar. Finalmente dentro de los objetivos es también explicar las salidas que nos arroja al correr el método del Análisis Discriminante con el paquete SPSS de manera clara tal que sea posible su uso para futuros estudiantes de la materia. Nuestro país en el transcurso de su historiaha quedado dividido en niveles socioeconómicos que definen la situación de bienestar en que se encuentra la población, a través de esto los gobernantes deciden impulsar nuevas formas de desarrollo económico que beneficie la situación en que se encuentra la población. Para identificar la posición se realiza un censo de población y vivienda de donde se obtiene la información básica, indispensables para definir la situación económica y social en que se encuentra la población, tanto en entidades federativas como en municipios y localidades, a estos tipos de situación se les llamó niveles de bienestar. Se considera en este estudio la división de los Estados de la República Mexicana en siete grupos a los cuales llamaremos niveles de bienestar. Así cada uno de los Estados pertenecen solo a uno de los siete niveles de bienestar, considerando como mejor nivel el séptimo y el peor será el primer nivel. Los factores que definirán su nivel de bienestar son económicos, 9 sociales, culturales y dentro de cada una de estas se obtienen más variables que nos ayudan en esta labor. Esta tesis está dividida en dos capítulos, en el primero se presenta la técnica estadística del análisis discriminante para el caso de dos grupos y una variable clasificadora, y la técnica generalizada para el caso de g grupos y p variables clasificadoras. Se encuentra también un ejemplo para 32 poblaciones clasificadas en dos niveles de bienestar, donde se tienen dos variables discriminantes, primero se aplica la técnica con una variable discriminante y después se aplica con la otra variable dando a conocer en estos casos el porcentaje de casos correctamente clasificados inicialmente y el grupo final en que quedaron clasificadas, en cada uno de ellas se obtendrá la función discriminante para futuras clasificaciones, posteriormente se aplica la técnica a las dos variables discriminantes al mismo tiempo obteniendo el porcentaje de casos correctamente clasificados y la función discriminante para clasificar a casos posteriores, en este caso inicialmente ya se habían propuesto dos casos y al final se dará su solución clasificándolos con la función que se obtuvo al utilizar las dos variables juntas. En el segundo capítulo se comienza con la definición que se aplica en esta tesis de lo que es bienestar y lo que significa tener un buen nivel de bienestar o tener un mal nivel de bienestar. Se mostrarán las 32 variables potencialmente discriminantes que se utilizarán en la aplicación del análisis discriminante en los 7 niveles de bienestar dentro de los 32 Estados de la república, y se mostrará la pertenencia inicial de los Estados en cada nivel de bienestar y al final se mostrará la clasificación final de cada Estado de la república en los niveles mencionados. En cada caso se explicarán las tablas y salidas estadísticas y al final de este capítulo se obtendrán las funciones discriminantes para posibles clasificaciones futuras, obteniendo la función que tiene la mejor discriminación entre estos niveles de bienestar. También se dará una interpretación gráfica entre funciones discriminantes para ver los grupos. 10 Capítulo 1. Análisis Discriminante 11 1.1 Historia. El análisis discriminante tiene su origen en el trabajo clásico de Fisher (1936). Las siguientes contribuciones están influidas por los trabajos pioneros de Neyman y Pearson sobre el contraste de hipótesis simples frente a alternativas simples. Welch (1939) dedujo, para distribuciones conocidas, las reglas de máxima verosimilitud y de Bayes, que ilustró en el caso de normalidad e igualdad de matrices de covarianzas. Este caso fue también tratado en Wald (1944), que estudió la distribución de la regla de clasificación lineal. El problema de la clasificación cuadrática fue estudiado primeramente por Cavalli (1945) y Penrose (1947) en el caso de n = 1 y por Smith (1947) en el caso de n > 1. La clasificación en k ≥ 2 poblaciones fue estudiada por Von Mises (1945), Rao (1948) y Bryan (1951), entre otros. A partir de estos trabajos pioneros, el número de publicaciones destinadas al análisis discriminante es realmente importante; también son numerosos los trabajos que tienen en cuenta distribuciones discretas o no normales. Se han desarrollado también técnicas de clasificación no paramétricas entre las que destacan las reglas basadas en la estimación no paramétrica de la función de densidad (Rosenblatt, 1956; Parzen, 1962), del vecino más cercano (Fix y Hodges, 1951) y basadas sobre distancias entre funciones de distribución empíricas (Das Gupta, 1964), Kendall (1966) propone un interesante método no paramétrico que ilustra con los datos de Fisher (1936). Se han utilizado también métodos de programación matemática para la obtención de funciones discriminantes. A partir de muestras controladas se obtienen funciones discriminantes lineales o cuadráticas que particionan a Rn en regiones excluyentes, según determinados criterios de optimización propios de las técnicas de investigación de operaciones. Estos métodos tienen la ventaja de no suponer distribuciones conocidas para las variables, ni probabilidades “a priori” para las poblaciones, (Rebollo y Escudero, 1977). Diferentes orientaciones del análisis (clasificación, identificación, asignación, reconocimiento de patrones, selección) es uno de los capítulos del análisis multivariado que ha tenido mayor desarrollo. Obras especialmente destinadas a este tema son: Romeder (1973), Cacoullos (1973), Duda y Hart (1973), Tou y González (1974), Lachenbruch (1975), Escudero (1977)(Cuadras 1991). 12 1.2 Planteamiento de problema en el caso de clasificación entre dos grupos. Sean P1 y P2 dos poblaciones donde tenemos definida una variable aleatoria vectorial, x p-dimensional. Supondremos que x es absolutamente continua y que las funciones de densidad de ambas poblaciones, f1 y f2, son conocidas. Vamos a estudiar el problema de clasificar un nuevo elemento, x0, con valores conocidos de las p variables en una de estas poblaciones. Si conocemos las probabilidades a priori π1 y π2, con π1 + π2 = 1, de que el elemento venga de cada una de las dos poblaciones, su distribución de probabilidad será una distribución mezclada )()()( 121 xfxfxf ππ += 1 Y una vez observado x0 podemos calcular las probabilidades a posteriori de que el elemento haya sido generado por cada una de las dos poblaciones P(i/ x0), con i = 1 , 2. Estas probabilidades se calculan por el teorema de Bayes )2()1( )1( )1( 0201 10 0 xpxp xp xp ππ π + = Y como )1( 0xp = 001 )( xxf ∆ , donde 0x∆ es la primera variación en el tiempo 0 así que tenemos que 202101 101 0 )()( )( )1( ππ π xfxf xf xp + = (1.2.1) Y para la segunda población, 202101 202 0 )()( )( )2( ππ π xfxf xf xp + = (1.2.2) Clasificaremos x0 en la población más probable a posteriori. Como los denominadores son iguales, clasificamos x0 en P2 si: 13 )()( 011022 xfxf ππ > Si las probabilidades a priori son iguales, la condición de clasificar en p2 se reduce a: )()( 0102 xfxf > Es decir clasificamos a x0 en la población más probable. 1.3 Clasificación con dos grupos y una variable clasificadora Se va a considerar el supuesto más sencillo en el que existen dos poblaciones o grupos, a los que se denomina P1 y P2, y una sola variable clasificadora, a la que se le denominará x. en el problema que se plantea es el de clasificar cada individuo en el grupo correcto atendiendo al valor de la variable clasificadora. Se han representado unas hipotéticas funciones de frecuencias de la variable x correspondientes a dos grupos. Tanto la configuración de distribución de frecuencias como la varianza son las mismas en los dos grupos; es decir, los dos grupos coinciden en todo excepto en su media. Como puede verse, las distribuciones de frecuencia, que se han representado, están entrelazadasen el sentido de que se enciman. Precisamente, al encimarse se cometen o pueden cometerse errores de clasificación, de no estar encimados, el problema de clasificar a cada individuo en una de los dos grupos sería trivial. Dados los supuestos establecidos y llamando IX ___ y IIX ___ las medias de los grupos I y II respectivamente, el punto de intersección de las dos funciones corresponde al valor medio de IX ___ y IIX ___ . Es decir, este punto medio (ver gráfica 1.3.2), al que denominaremos C, es igual a 2 ______ III XX C + = (1.3.1) 14 Gráfica 1.3.2. Funciones de distribución de frecuencias hipotéticas de dos grupos. A partir de la vista de la gráfica 1.3.2. se puede tomar razonablemente el siguiente criterio para clasificar a un individuo i: Si Xi < C, se clasifica al individuo i en el grupo I Si Xi > C, se clasifica al individuo i en el grupo II Designaremos a C como el punto de corte discriminante, o simplemente como el punto de corte, en el sentido de que es el punto que se toma como referencia para clasificar a un individuo en uno u otro grupo. Al aplicar estos criterios se cometen errores de clasificación como puede verse en la gráfica 1.3.2 donde los pertenecientes al área sombreada del lado derecho de C recoge casos pertenecientes al grupo I pero en los que Xi > C, es decir, son individuos del grupo I incorrectamente clasificados en el grupo II. Recíprocamente, el área rayada existente a la izquierda de C recoge casos pertenecientes al grupo II pero en los que Xi < C, es decir, son casos del grupo II incorrectamente clasificados en el grupo I. 1.4 Función discriminante de Fisher para g grupos. Fisher resolvió analíticamente la función discriminante para dos grupos en 1936 para el caso general de k variables clasificadoras. La función 15 discriminante de Fisher se obtiene como función lineal de k variables explicativas x, es decir, Función discriminante de Fisher D = kk xxx µµµ +++ ...2211 (1.4.1) El problema planteado es la obtención de los coeficientes de ponderación µ j. Si consideramos que existan k variables, podemos expresar la función discriminante para las n observaciones: Di = kikii xxx µµµ +++ ...2211 (1.4.2) Así Di es la puntuación discriminante correspondiente a la observación i- ésima. Expresando las variables explicativas en desviaciones respecto a la media, Di también lo estará. La anterior relación se puede expresar en forma matricial para el conjunto de las observaciones: nD D D ... 2 1 = knkk k k xxx xxx xxx ... ............ ... ... 21 22212 12111 kµ µ µ ... 2 1 (1.4.3) O en notación matricial más compacta: D = X µ (1.4.4) La variabilidad de la función discriminante es pueden expresar de la siguiente forma: D’D = µ ’X’X µ (1.4.5) El segundo miembro es de la forma cuadrática de la matriz X’X. Esta matriz, al estar expresadas las variables en desviaciones respecto a la media, es la matriz de suma de cuadrados y productos cruzados (SCPC) total de las variables x. En cualquier caso, esta matriz se puede descomponer en la matriz 16 SCPC entre-grupos y la SCPC residual o intra-grupos. Utilizando para estas matrices la terminología. La descomposición de X’X puede expresarse así: X’X = T = F + W (1.4.6) En términos de x se tiene que X’X = T = 11211111 12121211121 11121111111 ... . . . ... . . . . . . ... ... kkkk k k xxxxxx xxxxxx xxxxxx + ∑∑∑ ∑∑∑ ∑∑∑ === === === k i kiki k i iki k i iki k i kii k i ii k i ii k i kii k i ii k i ii xxxxxx xxxxxx xxxxxx 22 2 2 1 2 2 2 22 2 12 2 1 2 21 2 11 ... . . . ... . . . . . . ... ... donde T, F y W son las matrices de SCPC total, entre-grupos e intra-grupos respectivamente, sustituyendo las ecuaciones (1.4.5) y (1.4.6), se obtiene D’D = µ ’T µ = µ ’F µ + µ ’W µ (1.4.7) Se puede observar que en la expresión anterior T, F y W se pueden calcular con los datos de la muestra mientras que los coeficientes w están por determinar. Para su estimación. Fisher utilizó el siguiente criterio: Criterio para la obtención de la función discriminante de Fisher, de aquí se reduce en el caso de dos grupos. Maximización de grupos-dentro advariabilid grupos - entre advariabilid (1.4.8) Con este criterio se trata de determinar el eje discriminante de forma que las distribuciones proyectadas sobre el mismo estén lo más separadas posible entre sí (mayor variabilidad entre grupos) y, al mismo tiempo que cada una de las distribuciones esté lo menos dispersa (menor variabilidad dentro de los grupos). 17 Analíticamente, el criterio de Fisher se puede expresar de la siguiente forma: Criterio para la obtención de la función discriminante: Maximización de λ/µ = µµ µµ W' F' , (1.4.9) Como puede verse, se trata de que el primer término (entre–grupos) de (1.4.9) sea lo mayor posible en detrimento del segundo término (intra-grupos). La función discriminante de Fisher suele ir acompañada del calificativo de lineal, debido a que se obtiene como una combinación lineal de las variables originales. Los coeficientes kµµµ ,...,, 21 �(normalizados) que se obtienen en el proceso de maximización pueden contemplarse como un conjunto de cosenos que definen la situación del eje discriminante para esta interpretación, la normalización a que nos referimos es la suma de los coeficientes de la función discriminante. Las puntuaciones discriminantes son pues los valores que se obtienen al dar valores a ,1X ,2X ... , ,kX en la ecuación (1.4.2) y se corresponden con los valores obtenidos al proyectar cada punto dos espacio k-dimensional de las variables originales sobre el eje discriminante. Los centros de gravedad o la media (es decir, el vector de medias) son los estadísticos básicos que resumen la información sobre los grupos. La denominación que utilizaremos para designar a los centroides de los grupos I y II es la siguiente: X I = KI I I X X X ... 2 1 X II = KII II II X X X ... 2 1 (1.4.10) 18 Sustituyendo en (1.4.2) kxxx ,..., 21 por los elementos del vector XI, se obtiene que D I = µ 1 X 1,I + µ 2 X 2,I + + µ K X K,I (1.4.11) Procediendo de forma análoga en el grupo II, se obtiene: D II = µ 1 X 1,II + µ 2 X 2,II + + µ K X K,II (1.4.12) El punto de corte discriminante C se calcula promediando DI y DII, es decir: 2 III DD C + = (1.4.13) El criterio para clasificar al individuo I es el siguiente: Si DI < C, se clasifica al individuo i en grupo I Si DII > C, se clasifica al individuo i el en grupo II En general, cuando se aplica el análisis discriminante se le resta el valor de C a la función, de esta forma, la función discriminante viene dada por D – C = µ1 X1 + µ 2 X2 + + µ K XK - C (1.4.14) Así al utilizar la ecuación anterior (1.4.14), se clasifica a un individuo en el grupo I si DI - C < 0 y en el grupo II en otro caso. Si igualamos a cero el segundo miembro, en el caso de dos variables, se obtiene la ecuación de la recta: µ 1 X1 + µ 2 X2 - C = 0 (1.4.15) recta de trazos discontinuos que delimita en el plano (x1, x2) en ambos grupos I y II. 19 Existe una forma alternativa a la utilización de esta ecuación que consiste en construir funciones discriminantes para cada grupo, basadas también en el criterio. Estas funciones, a las que denominamos FI y FII, tienen la siguiente estructura: FI = aI,1 X1 + aI,2 X2 + + aI,K XK - CI (1.4.16) FII = aII,1 X1 + aII,2 X2 + + aII,K XK - CII Cuando se utilizan estas funciones,se clasifica a un individuo en el grupo para el cual el valor de la función FJ sea mayor. Este tipo de funciones clasificadoras tiene la ventaja de que se generalizan fácilmente al caso de que existan más de dos grupos. Además, en buena parte de los programas de análisis multivariado se suministran estas funciones. A partir de los coeficientes de las funciones (1.4.15) se pueden obtener los coeficientes de la función (1.4.14), a través de la siguiente equivalencia. FII – FI = (aII,1 - aI,1)X1+(aII,2 - aI,2)X2+. ..+( aII,K - aI,K)XK-(CII - CI) = µ1 X1 + µ 2 X2 + + µ K XK - C = D – C (1.4.17) 1.5 Planteamiento de hipótesis estadísticas La obtención de la función discriminante la realizó Fisher aplicando un enfoque libre de distribución, como ha sido el seguido en los dos apartados anteriores. Sin embargo, si con el análisis discriminante se desea ir más lejos de la simple clasificación se requiere la formulación previa de hipótesis estadísticas. Formulando estas hipótesis se pueden abordar algunos temas de carácter inferencial y otros relativos al modelo poblacional. Los temas de tipo inferencial se refieren a diversas pruebas de hipótesis sobre el modelo, así como pruebas de hipótesis utilizadas en el proceso de selección de variables cuando el número de éstas es muy grande y no se conoce a priori las variables que son relevantes en el análisis. Por otra parte, el cálculo de probabilidad de pertenencia a un grupo se requiere que previamente haya postulado algún modelo probabilístico de la población. 20 Las hipótesis estadísticas que se adoptan, se refieren tanto a la población como al proceso de obtención de la muestra. Las hipótesis sobre la población son las siguientes: Hipótesis estadísticas sobre la Población: a) La matriz de covarianzas de todos los grupos es igual a Σ. (Hipótesis de homoscedasticidad). b) Cada uno de los grupos tiene una distribución normal multivariada. Las anteriores hipótesis implican Xg ˜ N (µg , Σ) (1.5.1) La hipótesis sobre el proceso de obtención de la muestra facilita la realización del proceso de inferencia a partir de la información disponible. Hipótesis sobe el proceso de obtención de muestra: se supone que se ha extraído una muestra aleatoria independiente en cada uno de los g grupos. Bajo las hipótesis anteriores, la función discriminante obtenida por Fisher es óptima. La hipótesis (1.5.1) exige que las variables clasificadoras sigan una distribución Normal. Sin embargo, no sería razonable postular esta hipótesis respeto a variables categóricas, utilizadas frecuentemente en análisis discriminante como variables clasificadoras. Conviene señalar que, cuando se utilizan variables de este tipo, la función discriminante lineal de Fisher no tiene el carácter de óptima. En la exposición que se realizará a continuación, y basados en las hipótesis anteriores, se examinan las pruebas de hipótesis, el problema de selección de variables y el cálculo de probabilidades de pertenencia a una población. 1.6 Pruebas de hipótesis y evaluación de la bondad del ajuste Con las pruebas de hipótesis que se realizan en el análisis discriminante con dos grupos se trata de dar respuesta a tres tipos de cuestiones diferentes: 21 a) ¿Se cumple la hipótesis de homoscedasticidad del modelo? b) ¿Se cumple la hipótesis de normalidad? c) ¿Difieren significativamente las medias poblacionales de los dos grupos? La respuesta que se dé a la cuestión c) es crucial para la justificación de la realización del análisis discriminante. En el caso de que la respuesta fuese negativa carecería de interés continuar con el análisis, ya que significaría que las variables introducidas como variables clasificadoras no tienen una capacidad discriminante significativa. La hipótesis nula y alternativa para dar respuesta a la cuestión c) son las siguientes: Hipótesis nula y alternativa en el caso de dos grupos 210 : µµ =H 211 : µµ ≠H (1.6.1) El contraste de la hipótesis anterior se puede realizar específicamente mediante el estadístico 2T (Ver anexo). Existen otros estadísticos que se pueden emplear, diseñados para el caso general de g grupos, tales como el estadístico de Rao o el estadístico de Barlett. Estos últimos estadísticos están construidos a partir de la lambda de Wilks (ver anexo). En el caso de que se rechace la hipótesis nula (1.6.1) se puede aplicar el análisis univariado de la varianza para comparar la hipótesis de igualdad de medias para cada una de las variables clasificadoras por separado. 1.7 Cálculo de probabilidades de pertenencia a una población Las funciones discriminantes del tipo (1.4.2) o (1.4.14) clasifican a los diferentes individuos en uno u otro grupo, pero no dan más información acerca de los individuos investigados. En muchas ocasiones es conveniente tener información complementaria a las puntuaciones discriminantes. Con estas puntuaciones se puede clasificar a cada individuo, pero es interesante disponer además de información sobre la probabilidad de su pertenencia a cada grupo, ya que ello permitiría realizar 22 análisis más matizados. Para realizar este tipo de cálculos se suelen asumir las hipótesis (1.6.1), pero considerando que se conocen los parámetros poblacionales. Esta forma de proceder ocasiona ciertos problemas de los que nos ocuparemos posteriormente. El cálculo de probabilidades se va a realizar en el contexto de la teoría de la decisión, que permite tener en cuenta tanto la probabilidad de pertenencia a un grupo, como a los costos de una clasificación errónea. La clasificación de los individuos se va a realizar utilizando el teorema de Bayes. La aplicación del teorema de Bayes permite el cálculo de las probabilidades a posteriori a partir de estas probabilidades a priori y de la información muestral contenida en las puntuaciones discriminantes. Considerando el caso general de g grupos, el teorema de Bayes establece que la probabilidad a posteriori de pertenencia a un grupo g con una puntuación discriminante D (prob(g\D)) es la siguiente: Teorema de Bayes ∑ = × × = G i g g iDprob gDprob Dgprob 1 )/( )/( )/( π π (1.7.1) En el segundo miembro aparecen las probabilidades a priori gπ y las probabilidades condicionadas )/( gDprob . La probabilidad condicionada )/( gDprob se obtiene calculando la probabilidad de la puntuación observada suponiendo la pertenencia a un grupo g. Dado que el denominador del segundo miembro de (1.7.1) es una constante, se utiliza también, de forma equivalente, la siguiente expresión: )/()/( gDprobDgprob g ×∝ π Donde el símbolo ∝ significa proporcionalidad. La clasificación de cada individuo se puede realizar mediante la comparación de las probabilidades a posteriori. Así, se asignará un individuo al grupo para 23 el cual sea mayor su probabilidad a posteriori. Aunque a partir de ahora solamente se tratará el caso de dos grupos, se va presentar el cálculo de probabilidades de forma que sea fácilmente generalizable al caso de g grupos. El cálculo de probabilidades se va realizar bajo tres supuestos diferentes: cálculo de probabilidades sin información a priori, cálculo de probabilidades con información a priori y cálculo de probabilidades con información a priori y costos. 1.8 Cálculo de probabilidades sin información a priori Como se ha visto, el cálculo de probabilidad de la pertenencia a diferentes grupos permite introducir matices en la información acerca de cada individuo. Así por ejemplo si el encargado de asignar las ayudas en las poblaciones conoce, no solo que una población está clasificada en el grupo de los de buen nivel de bienestar, si no que la probabilidad de pertenencia a dicho grupo es de 90%, dispone de una información adicional que le permite valorar de forma más matizada sus decisiones. Evidentemente, esta información le resolvería las dudas que pudieratener si tiene que decidir la concesión de una ayuda a dicha población o a otra, también clasificada en el grupo de los de buen nivel de bienestar, pero con sólo una probabilidad del 52% de pertenencia a éste grupo. En el cálculo de las probabilidades que se va a realizar a continuación se considera que no existe conocimiento previo de las probabilidades de pertenencia a cada grupo. Cuando no existe dicha información, se adopta el supuesto de que la probabilidad de pertenencia a ambos grupos es la misma, es decir, se adopta el supuesto de que III ππ = . Esto implica que estas probabilidades a priori no afectan a los cálculos de las probabilidades a posteriori o bien que es proporcional al tamaño de la población. Bajo las hipótesis de (1.6.1), la probabilidad de pertenencia a cada grupo, dada la puntuación discriminante obtenida, viene dada por la siguiente expresión: 24 Probabilidad a posteriori (sin incorporar información a priori) III g FF F ee e Dgprob + =)/( (1.8.1) Donde IF y IIF son las funciones definidas en (1.4.16). Un individuo se clasifica en el grupo para el que la probabilidad (1.8.1) sea mayor. Este criterio implica que un individuo se clasificará en el grupo I si IF > IIF (1.8.2) Aplicando (1.8.1) se llega a los mismos resultados que aplicando la función discriminante de Fisher. Esto implica que el punto de corte C, dado en (1.4.13), sigue siendo aplicable con este nuevo enfoque. Por su interés, vamos a referirnos ahora a otro método para clasificar, que consiste en minimizar la probabilidad de clasificación errónea. Denominado )/( IIIprob la probabilidad de clasificar a un individuo en la población I perteneciendo a la II y )/( IIIprob la probabilidad de clasificar un individuo en la población II perteneciendo a la I, la probabilidad total de clasificar errónea es igual a )/()/( IIIprobIIIprob + (1.8.3) Minimizando esta probabilidad, bajo las hipótesis, se obtiene también como punto de corte el valor C. 1.9 Cálculo de las probabilidades con información a priori En ocasiones se dispone de información de la probabilidad a priori sobre pertenencia de un individuo a cada uno de los grupos. Así, por ejemplo en el caso de asignación de ayuda se puede tener información de que en caso de que la ayuda a poblaciones que no la necesitan suponen un 10% del total de ayudas otorgadas a lo largo de un periodo dado. Para tener en cuenta este tipo de información vamos a introducir probabilidades a priori en nuestro análisis. 25 Cuando se utilizan probabilidades apriori los individuos, o casos, se clasifican en el grupo en el cual la probabilidad a posteriori sea mayor. De acuerdo con la hipótesis (1.6.1) la probabilidad de pertenencia a cada grupo es igual a Probabilidad a posteriori utilizando información apriori III g F II F I F I ee e Dgprob ππ π + =)/( g = I, II (1.9.1) Con este criterio se clasifica a un individuo en el grupo I si IIIIII FF ππ lnln > (1.9.2) La aplicación de (1.9.2) implica que el punto de corte discriminante pC para dos poblaciones viene ahora definido por la siguiente expresión: Punto de corte con información a priori I IIIII P DD C π π ln 2 − + = (1.9.3) La razón de probabilidades a priori debe establecerse de forma que el punto de corte se desplace hacia el grupo con menor probabilidad a priori. Al desplazar el punto de corte de esta forma, se tenderá a clasificar una proporción menor de individuos en el grupo con menor probabilidad a priori. Cuando dos probabilidades a priori son igual a 0.5, entonces la expresión (1.9.3) se convierte en el valor de C. Si se introducen probabilidades a priori, la probabilidad total de clasificación errónea en el caso de dos grupos es igual a )/()/( IIIprobIIIprob III ×+× ππ (1.9.4) 26 Como puede verse, cada probabilidad de clasificación errónea va multiplicada por la probabilidad a priori del grupo real de pertenencia. Bajo las hipótesis estadísticas (1.61), se obtiene que el punto de corte es el dado en (1.9.3). 1.10 Cálculo de probabilidades con información a priori y consideración de costos Hasta ahora no se ha considerado el costo de una clasificación errónea puede tener. En muchas ocasiones el costo de clasificación errónea puede diferir para cada uno de los grupos. Considerando el ejemplo de concesión de ayudas. Cuando se esta tratando de clasificar a las poblaciones en buen nivel de bienestar y mala situación las dos posibilidades de clasificar errónea son las siguientes: Clasificar como mal nivel de bienestar a una población en buen nivel de bienestar y como buen nivel de bienestar una de mal nivel de bienestar. En la primera de esas posibilidades el costo sería no otorgar esa ayuda en una población que de verdad lo necesite. En cambio, en la segunda, sería no otorgar la ayuda a población que sí lo necesita. Cuando se introducen costos de clasificación no puede hablarse ya de cálculo de probabilidades a posteriori. No obstante se puede obtener un criterio para clasificar minimizando el costo total de clasificación errónea. Este costo total viene dado por la siguiente expresión: Costo total para clasificación errónea: )/(cos)/()/(cos)/( IIItoIIIprobIIItoIIIprob III ××+×× ππ (1.10.1) Como puede verse en (1.10.1), cada probabilidad va multiplicada por el costo en que se incurre. Cuando se minimiza (1.10.1) bajo la hipótesis (1.6.1), el punto de corte discriminante CPC , que se obtiene es el siguiente: Punto de corte con información a priori y costos )/(cos )/(cos ln 2, IIIto IIItoDD C I IIIII CP × × − + = π π (1.10.2) 27 En todos los desarrollos anteriores se han supuesto que las probabilidades son conocidas. En la práctica, sin embargo, se utilizan estadísticos muestrales en su lugar. El empleo de estadísticos muestrales tiene como consecuencia que se subestime la probabilidad de clasificación errónea, cometiéndose por lo tanto sesgos sistemáticos en la clasificación. Para disminuir estos sesgos se han propuesto, entre otros, dos procedimientos alternativos que pasamos a examinar. Un procedimiento consiste en dividir la muestra total en dos submuestras, utilizando la primera muestra para estimar la función discriminante, mientras que la segunda se utiliza para su validación. Así, la potencia discriminante de la función vendrá determinada por el porcentaje de individuos clasificados correctamente en esta segunda submuestra. El segundo procedimiento consiste en excluir un individuo del grupo I, calcular la función discriminante, y clasificar después al individuo que se ha excluido. Haciendo lo mismo con el resto de los individuos del grupo I, se estima la prob(II/I) con el porcentaje de individuos que han sido clasificados del grupo II. Procediendo de la misma forma con los individuos del grupo II, se estima al prob(I/II). A este segundo procedimiento se le conoce con la denominación jacknif 1.11 Selección de variables En las aplicaciones del análisis discriminante se dispone frecuentemente de observaciones de un número relativamente elevado de variables potencialmente discriminantes. Aunque en todos los desarrollos anteriores se han considerado que se conocen a priori cuáles son las variables clasificadoras, en la práctica se impone, cuando el número de variables es elevado, aplicar un sistema que permita seleccionar variables con más capacidad discriminante entre un conjunto de variables más amplio. En el análisis discriminante, al igual que en el análisis de regresión. Los tres métodos más conocidos para selección de variables son los siguientes: Selección hacia delante (forward). Selección hacia atrás (backward). Selección paso a paso (stepwise). 28 Vamos a examinar este último, ya que combina las características de los otros dos y además es el que se aplica con mayor frecuencia.Los tres procedimientos son procedimientos de carácter iterativo. La aplicación de procedimientos iterativos requiere definir previamente una regla de decisión para medir la bondad del ajuste en cada paso o iteración. Una regla de decisión suele ser la minimización del estadístico λ de Wilks (ver anexo), ya que cuanto menor sea este estadístico, mayor será el grado del ajuste. En cada paso se selecciona la variable para la que se obtenga un menor λ. Otra regla de decisión consiste en minimizar la distancia de Mahalanobis entre los dos centroides. En el procedimiento por pasos, en cada paso puede entrar, y también salir una variable en el conjunto seleccionado, dependiendo del valor que tenga el estadístico F corresponde a la λ de Wilks (ver anexo) o, en general, al estadístico que utilice como criterio. Cuanto mayor sea el valor de la F, más significativa será la variable para la que se calcula. Antes de comenzar la aplicación del procedimiento es necesario fijar un valor F mínimo para entrar (F min para entrar) y un valor de F máximo para salir (F max para salir). (ver anexo) El valor de F min-para-entrar debe ser mayor que el de F max-para-salir. De lo contrario, una variable podría estar entrando y saliendo de forma indefinida en la selección. Cuando se está aplicando el procedimiento por pasos, los niveles de significancia con los que se esta trabajando en cada paso no son los verdaderos. Para el cálculo de los niveles de significancia verdaderos se requeriría tener en cuenta todas las pruebas que se han realizado en el proceso. En la aplicación del procedimiento por pasos se suele fijar también un nivel de tolerancia, que es una medida del grado de asociación lineal entre las variables clasificadoras. Para la variable i la tolerancia se define igual a 1- 2ir , donde 2 ir es el coeficiente de determinación entre la variable i y el resto de las variables explicativas que figuran en el modelo, es decir, que están seleccionadas en ese momento. Cuando la tolerancia de la variable i es muy pequeña significa que dicha variable está muy correlacionada con el resto de las variables explicativas, lo que puede provocar problemas en la estimación. Generalmente, se suele fijar un nivel mínimo de tolerancia del 0.001, con lo 29 que las variables con una tolerancia menor a ese límite son excluidas del análisis. Al iniciar el procedimiento todas las variables explicativas están fuera del modelo. En la primera iteración se introduce en el modelo aquella variable con menor a λ de Wilks, si este es el criterio que se está empleando, siempre que el valor correspondiente de la F sea mayor que la F min-para-entrar. El estadístico F inicial de cada variable, correspondiente a la λ de Wilks, que se obtiene aplicando el análisis de la varianza a cada una de las variables clasificadoras por separado. Para cada una de las variables que están fuera (en esta primera iteración, todas menos una) se calcula el valor de la F correspondiente al cambio que produce la introducción de la variable λ de Wilks del modelo. (En la primera iteración, la lambda del modelo es la lambda de la variable que ya se ha introducido). A la F calculada de esta forma se le denomina F-para-entrar. Se introduce en el modelo aquella variable con la F-para-entrar más grande, siempre que su valor sea mayor que la F-min-para-entrar. Si se cumple la condición que se acaba de señalar, el modelo estará integrado por dos variables. A continuación se analiza como le afecta a la lambda del modelo (calculado con las dos variables), la exclusión de cada una de ellas. Para ello, se calcula la F correspondiente al cambio que experimenta la lambda del modelo al excluir una variable. A esta F se le denomina F-para-salir. Se elimina del modelo aquella variable cuya F-para-salir sea menor que la F-para- salir. El proceso continúa hasta que, entre las variables fuera del modelo, no exista ninguna variable a la que corresponda una F-para-entrar menor que la F-min- para-salir. De todas formas, en los paquetes estadísticos se suele fijar un número máximo de iteraciones deteniéndose el proceso en ese límite en el caso de que no se haya hecho antes. 30 1.12 Ejemplo para el caso de dos grupos. Aplicación del Análisis Discriminante para asignación de ayuda a poblaciones con bajo nivel de bienestar. 1.12.1 Planteamiento del problema Cuando el gobierno de un país destina una ayuda económica a una población se enfrenta a la doble posibilidad de que la ayuda sea otorgada a una población que la necesite o a una que no la necesite. En este último caso la ayuda será finalmente clasificada como ayuda mal asignada. Así pues, se pueden considerar dos tipos de poblaciones: poblaciones en buen nivel de bienestar y poblaciones con mal nivel de bienestar. Como es obvio, si el gobierno conociera de antemano que una población tiene buen nivel de bienestar no concedería la ayuda en ningún caso. Sin embargo, puede utilizar la información existente en las bases de datos de censos levantados en el pasado para la concesión de ayudas en el futuro de forma que se evite o, al menos se reduzca la posibilidad de conceder una ayuda que después pueda resultar que se otorgó de forma errada. Así en los archivos del gobierno seguramente existirá información sobre las características de las poblaciones a las que se han concedido ayudas, ya que una población que ha solicitado la ayuda facilita a los gobiernos datos acerca de sus características de la población tales como porcentaje de viviendas con piso de tierra, porcentaje de viviendas con drenaje, porcentaje de viviendas con agua entubada, porcentaje de viviendas con electricidad, porcentaje de viviendas con un cuarto, porcentaje de viviendas que usan leña o carbón para cocinar, porcentaje de viviendas sin baño exclusivo, porcentaje de viviendas sin refrigerador o porcentaje de viviendas sin televisión etc. Es muy posible que las poblaciones que realmente necesiten la ayuda tengan características diferentes a los de las poblaciones que no la necesitan. Utilizando estas características se trata de establecer unas funciones que clasifiquen lo más correctamente posible a las poblaciones que realmente necesitan la ayuda y a las poblaciones que no la necesitan. Posteriormente, estas funciones se emplearán, en el caso de que se haya realizado adecuadamente dicha clasificación, para determinar si se conceden o no las ayudas a futuras poblaciones solicitantes. En el gobierno se tienen información acerca de 32 poblaciones a los que se les concedió ayuda durante un periodo de las ayudas otorgadas en el periodo 31 había 16 poblaciones de este grupo de 32 que fueron clasificados como poblaciones con buen nivel de bienestar, mientras que las otras 16 poblaciones fueron clasificadas con mal nivel de bienestar y que realmente necesitaban la ayuda. Para cada una de las poblaciones se dispone de información sobre su porcentaje de viviendas con piso de tierra y porcentaje de viviendas que cuenta con el servicio de drenaje, correspondientes al momento de la solicitud. En el cuadro (1.12.1.1) se ha reflejado esta información así como la indicación de si resultaron o no de buen nivel de bienestar. Por otra parte, en la mesa del secretario de gobierno hay dos nuevas solicitudes de ayuda en este periodo. La primera población tiene el siguiente porcentaje en viviendas con piso de tierra de 34% y de viviendas con servicio de drenaje de 90%. Para el segundo solicitante los valores de estas variables son 10% y 95% respectivamente. ¿Cómo se realizaría en este caso la aplicación del análisis discriminante?, con la información sobre las variables porcentaje de viviendas con piso de tierra y porcentaje de viviendas con servicio de drenaje trata de construir una función discriminante que clasifique con el menor error posible a las poblaciones en dos grupos: buen nivel de bienestar y mal nivel de bienestar. Si se obtienenbuenos resultados en esta clasificación, en un paso posterior se utilizará está función construida para determinar si se concede el préstamo a las dos nuevas solicitantes. De esta forma, si a una población solicitante se le diagnostica como población en buen nivel de bienestar no se le concederá la ayuda solicitada. 1.12.2 Grupos iniciales A partir de la mediana de la variable porcentaje de viviendas con piso de tierra, la población que tiene un porcentaje menor al 11% se asigna en el grupo 1 y los que son igual o están arriba del 11% en el grupo 2. El cuadro 1.12.2.1 nos muestra las características de los integrantes de cada uno de los grupos en cada variable. 32 Grupo 1: Buen nivel de bienestar Grupo 2: Mal nivel de bienestar población %de viviendas con piso de tierra % de viviendas con servicio de drenaje población %de viviendas con piso de tierra % de viviendas con servicio de drenaje 1 3.03 95.40 4 14.00 64.00 2 4.23 82.40 6 11.40 93.70 3 10.00 81.00 7 38.00 62.70 5 4.43 83.70 10 12.20 74.10 8 6.11 85.60 12 36.40 54.00 9 1.19 98.60 13 17.90 66.00 11 10.00 76.80 16 18.10 75.10 14 6.65 92.30 17 13.30 85.70 15 6.46 86.70 18 11.70 80.60 19 3.34 91.10 20 39.40 45.80 22 9.22 76.20 21 22.20 65.90 23 9.98 84.20 24 21.60 62.40 28 8.53 74.60 25 13.70 74.60 29 8.76 82.80 26 12.30 79.50 31 5.56 58.70 27 12.70 85.70 32 8.57 70.80 30 26.20 68.10 Total 106.06 1320.90 Total 321.10 1137.90 Media 6.63 82.56 Media 20.07 71.12 Cuadro 1.12.2.1, Muestra la información de las variables porcentaje de viviendas con piso de tierra y porcentaje de viviendas con servicio de drenaje para cada población dentro de cada unos de los dos grupos. 1.12.3 Análisis Discriminante utilizando la variable porcentaje de viviendas con piso de tierra. Vamos a aplicar las ideas anteriores a los datos del cuadro 1.12.2.1, en donde se va a utilizar en este caso como variable clasificadora el porcentaje de viviendas con piso de tierra de las poblaciones, al que se denominará X1. El grupo de poblaciones en buen nivel de bienestar será el I mientras que el II corresponderá al grupo de mal nivel de bienestar. Las medias de los dos grupos son los siguientes: X1I = 6.63 X1II = 20.07 (1.12.3.1) Aplicando (1.3.1) se obtiene el siguiente valor para el punto de corte C: 2 11 1 III XX C + = 2 07.2063.6 + = = 13.35 (1.12.3.2) 33 Por lo tanto, este punto de corte Ci se utilizará para clasificar a los estados a los que se les ha concedido la ayuda en el gobierno. Si el porcentaje de piso de tierra es menor que 13.35 se clasifica a la población como en buen nivel de bienestar (I), mientras que se clasifica como población con mal nivel de bienestar (II) si el porcentaje de piso de tierra es mayor que esa cifra. De un total de 32 poblaciones se han clasificado correctamente a 26, lo que equivale a un 81.3% del total. En concreto, se han clasificado incorrectamente como poblaciones con mala situación a las poblaciones 6, 10, 17, 18, 26 Y 27. En el caso del grupo de buen nivel de bienestar se habían clasificado correctamente todos los casos. En el cuadro 1.12.3.3 se ha reflejado el porcentaje de clasificaciones correctas e incorrectas de cada grupo. Clasificado como Situación inicial Buen nivel de bienestar Mal nivel de bienestar Total Buen nivel de bienestar Mal nivel de bienestar 16 = 100% 6 = 37.5% 0 = 0 % 10 = 62.5% 16 = (100%) 16 = (100%) Cuadro 1.12.3.3 porcentaje de clasificaciones correctas e incorrectas utilizando la variable porcentajes de viviendas con piso de tierra. 81.3% del total de los casos fueron clasificados correctamente, del 100% que estaban clasificados en el grupo con mal nivel de bienestar, el 37.5% al final fueron clasificados en el grupo con buen nivel de bienestar. 1.12.4 Análisis Discriminante utilizando la variable porcentaje de viviendas con servicio de drenaje. Ahora vamos a utilizar la variable clasificadora porcentajes de viviendas con servicio de drenaje, la que designaremos por X2, para ver si se obtienen o no mejores resultados que con X1. los datos sobre el porcentaje de viviendas con servicio de drenaje también aparecen en el cuadro 1.12.2.1 Las medias muestrales de las deudas pendientes de los dos grupos son: X2I = 82.56 Y X2II = 71.12 (1.12.4.1) 34 Ahora el punto de corte es el siguiente: 2 22 2 III XX C + = 2 12.7156.82 + = = 76.84 (1.12.4.2) Si el porcentaje de viviendas con servicio de drenaje es mayor que 76.84% se clasifica a la población en buen nivel de bienestar (I), mientras que se clasifica a la población en mala situación (II) si el porcentaje de viviendas con drenaje son menores a esa cifra. En el cuadro 1.12.4.3 se ha reflejado el porcentaje de clasificaciones correctas e incorrectas tanto como para buen nivel de bienestar tanto como para mala situación. Clasificado como Situación inicial Buen nivel de bienestar Mal nivel de bienestar Total Buen nivel de bienestar Mal nivel de bienestar 11 = 68.8% 5= 31.2% 5 = 31.2 % 11 = 68.8 % 16 = (100%) 16 = (100%) Cuadro 1.12.4.3 porcentaje de clasificaciones correctas e incorrectas utilizando la variable porcentajes de viviendas con drenaje. 68.8% del total de los casos fueron clasificados correctamente, del 100% que estaban clasificados en el grupo de buen nivel de bienestar, el 31.2% paso al grupo de mal nivel de bienetar y del 100% que estaba clasificado en el grupo de mal nivel de bienestar, el 31.2% al final fueron clasificados en el grupo con buen nivel de bienestar. los resultados con esta segunda variable clasificadora son peores, ya que de los 32 casos se clasifican correctamente solo 22 (68.8%). En concreto, se han clasificado incorrectamente como en buen nivel de bienestar a las poblaciones 11, 22, 28, 31 y 32, por el contrario, se han clasificado erróneamente como en mala situación a las poblaciones 6, 17, 18, 26 y 27. En lo que hemos visto se han utilizado dos variables clasificadoras, pero de forma separada. ¿se puede mejorar el porcentaje de clientes clasificados correctamente si se utilizan las dos variables de forma conjunta?. esta cuestión será abordada en el siguiente punto, pero en principio, cabe esperar que la clasificación mejore, ya que de las 11 poblaciones que se clasifican incorrectamente 6 son distintos para ambas variables, y 5 son los mismos. 35 1.12.5 Análisis Discriminante utilizando dos variables (porcentaje de viviendas con piso de tierra y porcentaje viviendas con servicio de drenaje). Hemos utilizado en los ejemplos pasados como variables explicativas el porcentaje de viviendas con piso de tierra y porcentaje de viviendas con servicio de drenaje, los centros de gravedad o centroides de los grupos son los siguientes: X I = I I X X 2 1 = 56.82 63.6 X II = II II X X 2 1 = 12.71 07.20 (1.12.5.1) La función de clasificación lineal que se obtiene aplicando el método de FISHER es la siguiente: D = 0.31X1 + 0,05X2 (1.12.5.2) Las variables X1 y X2 tienen el mismo signo. Sustituyendo en la función anterior X1 y X2 por las medias X 1,I y X 2,I del grupo I, se obtiene que D I = 0,31 X 1,I + 0,05 X 2,I = 0,31(6.63) + 0,05(82.56) = 6.23 (1.12.5.3) procediendo de forma análoga en el grupo II, se obtiene: D II = 0,31 X 1,II + 0,05 X 2,II = 0,31(20.07)+0,05(71.12) = 9.83 (1.12.5.4) Aplicando (1.4.13) a este caso concreto, se obtiene el siguiente resultado: 2 III DD C + = = 2 83.923.6 + =C = 8.03 (1.12.5.5) para este caso la función discriminante dada en (1.4.14) es la siguiente: D - C = 0,31X1 + 0,05X2 - 8.03. (1.12.5.6) 36 El programa SPSS no ofrece la función discriminante de Fisher pero si ofrece las funciones a las que se les denominan “función discriminante lineal deFisher”, el cuadro siguiente recoge la salida del programa SPSS para este caso. Coeficientes de función de clasificación Función discriminante lineal de Fisher Grupo 1 2 Viviendas con piso de tierra 1.66093393 1.97163861 Viviendas con servicio de drenaje 1.40664909 1.45721849 Constante -64.2619422 -72.2950869 Cuadro 1.12.5.7 salida del SPSS de la función discriminante de Fisher aplicado a los niveles de bienestar de las 32 poblaciones. Puede comprobarse que si restamos, de acuerdo con (1.4.17), los coeficientes de la segunda columna (grupo II) de los coeficientes de la primera columna (grupo I), se obtiene los coeficientes de la función DI, DII y D – C. En el cuadro 1.12.5.8 se ha aplicado la función discriminante anterior a cada una de las poblaciones. La puntuación discriminante obtenida por cada población aparece en la penúltima columna. Todas las poblaciones que obtengan puntuación negativa son asignadas al grupo I, mientras que los que tienen puntuación positiva se asignan al grupo II. Contemplando el grupo real de pertenencia y el grupo asignado se observa que 5 poblaciones fueron mal clasificadas. 37 Población Grupo inicial Porcentaje de viviendas con piso de tierra Porcentaje de viviendas con servicio de drenaje Puntuación discriminante Grupo final 1 I 3.03 95.4 -2.27 I 2 I 4.23 82.4 -2.55 I 3 I 10 81 -0.83 I 5 I 4.43 83.7 -2.42 I 8 I 6.11 85.6 -1.81 I 9 I 1.19 98.6 -2.68 I 11 I 10 76.8 -1.04 I 14 I 6.65 92.3 -1.30 I 15 I 6.46 86.7 -1.64 I 19 I 3.34 91.1 -2.39 I 22 I 9.22 76.2 -1.32 I 23 I 9.98 84.2 -0.67 I 28 I 8.53 74.6 -1.61 I 29 I 8.76 82.8 -1.12 I 31 I 5.56 58.7 -3.34 I 32 I 8.57 70.8 -1.79 I 4 II 14 64 -0.45 I 6 II 11.4 93.7 0.25 II 7 II 38 62.7 6.94 II 10 II 12.2 74.1 -0.50 I 12 II 36.4 54 6.01 II 13 II 17.9 66 0.87 II 16 II 18.1 75.1 1.39 II 17 II 13.3 85.7 0.43 II 18 II 11.7 80.6 -0.32 I 20 II 39.4 45.8 6.52 II 21 II 22.2 65.9 2.20 II 24 II 21.6 62.4 1.83 II 25 II 13.7 74.6 0.00 I 26 II 12.3 79.5 -0.19 I 27 II 12.7 85.7 0.25 II 30 II 26.2 68.1 3.55 II Cuadro 1.12.5.8 clasificación inicial y final de los grupos en buen nivel de bienestar (grupo I) y mal nivel de bienestar (grupo II) utilizando la función discriminante de Fisher. En el cuadro 1.12.5.8 se ha reflejado el resúmen de la clasificación del cuadro 1.12.2.1. a veces se utiliza en el análisis discriminante la expresión de matriz de confusión para referirse a los cuadros del tipo 1.12.5.9 Clasificado como Situación inicial Buen nivel de bienestar Mal nivel de bienestar Total Buen nivel de bienestar Mal nivel de bienestar 16 = 62.5% 5 = 31.2% 0 = 0 % 11 = 68.8 % 16 = (100%) 16 = (100%) Cuadro 1.12.5.9 porcentaje de clasificaciones correctas e incorrectas utilizando la función discriminante. Total de casos clasificados correctamente: 27 (84.4%) 38 Como puede verse ha mejorado ligeramente el porcentaje de casos clasificados correctamente, respecto a la utilización de variables explicativas por separado. 1.12.6 Solución a la petición de ayuda a las dos poblaciones solicitantes Veamos ahora como se clasifican las dos solicitudes de ayuda que tiene el secretario de gobierno de ese país. Sustituyendo los valores de porcentaje de viviendas con piso de tierra y porcentaje de viviendas con servicio de drenaje en la ecuación (1.12.6.1) se obtienen los siguientes resultados: Ecuación D - C = 0,0537X2 - 0,0017X1 - 5,077. (1.12.6.1) D - C = 0,31X1 + 0,05X2 - 8.03. (1.12.6.2) Solicitante 1: D – C = 0,31 (34) + 0,05 (90) – 8.03 = 7.01 Solicitante 2: D – C = 0,31 (10) + 0,05(95) – 8.03 = -0.18 (1.12.6.3) Como la puntuación es positiva en el caso del primer solicitante se clasifica como población con mal nivel de bienestar. Y en buen nivel de bienestar el segundo solicitante. Y es de suponerse ya que la función discriminante de la primer población es muy elevada por el alto porcentaje de viviendas con piso de tierra que tiene. Así que el gobierno asignará apoyos a la primer población y a la segunda no le asignará. En el siguiente capítulo se verá inicialmente un contexto de la definición de bienestar que se aplicará en el desarrollo de esta tesis, la definición y la descripción de las variables, la aplicación del análisis discriminante a los niveles de bienestar en México, el resultado de la salida del SPSS a la base de los 32 estados de la república con 32 variables clasificadoras y 7 niveles de bienestar, la función discriminante estadísticamente más significativa, comparación gráfica entre pares de funciones discriminantes. 39 Capítulo 2. Análisis Discriminante Aplicado a los niveles de Bienestar en México 40 2.1 ¿Qué se entiende por Bienestar? Se entendería por bienestar como una abundancia en bienes y servicios, aunque en realidad definir bienestar es complejo, ya que, ésta es una palabra que se puede manejar en distintos ámbitos de la vida, por ejemplo una persona puede sentir un bienestar en cuestión espiritual mientras que en el sentido material carece de los bienes y servicios que le darían buen nivel de bienestar o viceversa; otro ejemplo podría citarse en cuestión de salud, donde una persona tendría un nivel de bienestar alto por tener una buena salud y el que carece de ella tendría un nivel de bienestar bajo. Para está tesis vamos a manejar el nivel de bienestar en el sentido de las variables demográficas que se manejarán, por ejemplo en el caso de que solo fuera la variable “porcentaje de viviendas con piso de tierra”, una población tendrá un nivel de bienestar elevado si su porcentaje es bajo, y caso contrario una población tendrá nivel de bienestar bajo si su porcentaje es alto, otro ejemplo sería que se midiera el bienestar con la variable “porcentaje de personas de 12 años o más que asisten a la escuela” si una población tiene este porcentaje elevado podría decirse que su nivel de bienestar es elevado y caso contrario que es bajo. Dado que el nivel de bienestar en general depende de muchas variables, se puede decir que una población tendría un nivel de bienestar alto si en la mayoría de las variables esta en situación privilegiada y caso contrario la población tendría un nivel de bienestar bajo. No quiere decir con esto, que una población que tenga estadísticamente un nivel de bienestar bajo, todos los habitantes lo tengan, ya que dentro de cada población puede haber gente pobre como no pobre, lo que sí se puede decir es que encontraremos con mayor probabilidad a gente pobre en las poblaciones donde su nivel de bienestar sea bajo. 2.2 Variables utilizadas Las variables que se van a utilizar se seleccionaron en base a su tipo, facilidad de obtención, indicador, además que son 32 variables potencialmente discriminantes. Y al aplicar el método nos permite seleccionar variables con más capacidad discriminantes entre este conjunto más amplio. Las datos para este trabajo se obtuvieron de la base del XII Censo de Población y Vivienda 2000, consultada en Internet del INEGI (Instituto 41 Nacional de Estadística Geografía e Informática); Para obtener las variables indicadoras de características y servicios con que cuentan las viviendas, se saca un promedio o el porcentaje en dado caso por cada estado y por variable. Se muestran y se describen a continuación las variables utilizadas: MEN15 Porcentaje de población menor de 15 años. NACOEDO Porcentaje de población residente nacida en otro estado. LEE6_15 Porcentaje de población de 6 a 14 años alfabeto. ALFAMAY15 Porcentaje de población de 15 años y más alfabeta. ESC6_11 Porcentaje de población de 6 a 11 años que asiste a la escuela. ESC12_14 Porcentaje de población de 12 a 14 años que asiste a la escuela. ESC15_19 Porcentaje de población de 15 a 19 años que asiste a la escuela. NVIVM12 Promedio de hijos nacidos vivos de mujeresde 12 años y mas. NVI12_19 Promedio de hijos nacidos vivos de mujeres de 12 a 19 años. PEA Porcentaje de población económicamente activa. ACTGOB Porcentaje de población que son trabajadores en servicios públicos. COMER Porcentaje de población que son comerciantes o dependientes. TRAME24 Porcentaje de población que trabaja menos de 24 horas a la semana. PITIERRA Porcentaje de viviendas con piso de tierra. VIDREN Porcentaje de viviendas con drenaje. VIAGUA Porcentaje de viviendas con agua entubada. VIELEC Porcentaje de viviendas con electricidad. NVI12_29 Número promedio de hijos nacidos vivos de mujeres de 12 a 29 años. RURAL Porcentaje de población rural. URBANA Porcentaje de población urbana. POSPRIM Porcentaje de población posprimaria. SEPRIM Porcentaje de población ocupada en el sector primario. SECTERC Porcentaje de población ocupada en el sector terciario. TRAME33 Porcentaje de población que trabaja menos de 33 horas a la semana. UNCUARTO Porcentaje de viviendas con un cuarto. LENA Porcentaje de viviendas que usan leña o carbón para cocinar. NODERECH Porcentaje de población no derechohabiente. SINPAGO Porcentaje de población ocupada que son trabajadores familiares sin pago. FAL20_29 Promedio de hijos fallecidos de mujeres de 20 a 29 años. SINSANEX Porcentaje de viviendas sin baño exclusivo. SINREFRI Porcentaje de viviendas sin refrigerador. SINTELE Porcentaje de viviendas sin televisión. 42 • Porcentaje de población menor de 15 años. Esta variable es un indicador de la población en promedio menor de 16 años de cada Estado de la republica. En general se trata de un número que contiene decimales; esta circunstancia no debe mal interpretarse: Ya que este porcentaje es obtenido de una población cerrada y nos arroja cantidades enteras. • Porcentaje de población residente nacida en otro estado. Esta variable nos indica movimiento migratorio. • Porcentaje de población de 6 a 14 años alfabeta. • Porcentaje de población de 15 años y más alfabeta. • Porcentaje de población de 6 a 11 años que asiste a la escuela. • Porcentaje de población de 12 a 14 años que asiste a la escuela. • Porcentaje de población de 15 a 19 años que asiste a la escuela. Estas cinco variables nos indican el nivel de desarrollo cultural y educativo dentro de cada uno de los estados. • Número promedio de hijos nacidos vivos de mujeres de 12 a 19 años. • Número promedio de hijos nacidos vivos de mujeres de 12 a 29 años. • Número promedio de hijos nacidos vivos de mujeres de 12 años y más. • Número promedio de hijos fallecidos de mujeres de 20 a 29 años. Las tres primeras variables son indicadores de la fecundidad de grupos de mujeres jóvenes (entre 12 y 19 años), de un grupo más grande mujeres jóvenes (entre 12 y 29 años) y del total de mujeres en edad fértil (mayores de 12 años); y un cuarto grupo indica la mortalidad infantil del segundo grupo (mujeres jóvenes entre 20 y 29 años). En general se tratará de un número decimal; esta circunstancia no debe mal interpretarse: Si bien es cierto que una madre no puede tener, por ejemplo, 0,34 hijos o 1,28 hijos, sí es posible que al hacer la media de todas las mujeres (madres o no) se obtenga un número decimal. Se debe insistir en que al interpretar esta media debe pensarse que es una medida de la fecundidad de las mujeres y de mortalidad infantil. 43 • Porcentaje de población que trabaja menos de 24 horas a la semana. • Porcentaje de población que trabaja menos de 33 horas a la semana. • Porcentaje de población que son comerciantes o dependientes. • Porcentaje de población que son trabajadores en servicios públicos. • Porcentaje de población posprimaria. • Porcentaje de población ocupada en el sector primario. • Porcentaje de población ocupada en el sector terciario. • Porcentaje de población ocupada que son trabajadores familiares sin pago. Estas variables son indicadoras de la población económicamente activa en general, en segunda instancia se menciona las horas trabajadas en la semana, tipo de ocupación y sector donde se desarrolla su actividad. • Porcentaje de viviendas con piso de tierra. • Porcentaje de viviendas con drenaje. • Porcentaje de viviendas con agua entubada. • Porcentaje de viviendas con electricidad. • Porcentaje de viviendas con un cuarto. • Porcentaje de viviendas que usan leña o carbón para cocinar. • Porcentaje de viviendas sin baño exclusivo. • Porcentaje de viviendas sin refrigerador. • Porcentaje de viviendas sin televisión. Estas variables son indicadoras de las características de las viviendas y de servicios con los que cuentan. • Porcentaje de población rural. • Porcentaje de población urbana. • Porcentaje de población no derechohabiente. Estas variables son indicadoras de características sociodemográficas y de salud de la población. 44 2.3 Planteamiento del problema. Se quiere saber si las 32 variables descritas en la tabla 2.2.1 pueden discriminar los niveles de bienestar propuestos en la tabla 2.3.1 o si se requieren menos variables para poder dar una discriminación de estos grupos, además de saber que porcentaje de poblaciones fueron clasificados correctamente y como objetivo último del análisis discriminante es encontrar la combinación lineal de las variables independientes que mejor permiten diferenciar (discriminar) a los grupos para futuras clasificaciones. Empecemos primero viendo el grupo al que pertenece cada población (ver tabla 2.3.1), esta tabla nos muestra los grupos y sus integrantes en cada uno de los niveles de bienestar que nos dio el INEGI, como podemos ver en el nivel de bienestar alto (nivel 7) está conformado solo con el Distrito Federal, y el nivel más bajo (nivel 1) está conformado por los estados de Chiapas, Guerrero y Oaxaca, los cuales están dentro del nivel de bienestar más bajo, y el grupo que contiene más estados es el grupo 6 (contiene de 9 estados). Estado Estrato (Grupo) Estado Estrato (grupo) Distrito Federal 7 Querétaro 4 Aguascalientes 6 Sinaloa 4 Baja California 6 Tlaxcala 4 Baja California Sur 6 Yucatán 4 Coahuila 6 Guanajuato 3 Chihuahua 6 Michoacán 3 México 6 Zacatecas 3 Nuevo León 6 Campeche 2 Sonora 6 Hidalgo 2 Tamaulipas 6 Puebla 2 Quintana Roo 5 San Luís Potosí 2 Colima 4 Tabasco 2 Durango 4 Veracruz 2 Jalisco 4 Chiapas 1 Morelos 4 Guerrero 1 Nayarit 4 Oaxaca 1 Tabla 2.3.1, la tabla muestra la pertenencia de los estados de la república en cada nivel de bienestar. 45 2.4 Clasificación del análisis discriminante utilizando una sola variable a la vez Veamos primeramente el porcentaje de casos correctamente clasificados al aplicar cada variable por separado. En la tabla 4.1.2 se muestran el porcentaje de casos clasificados correctamente cuando se aplica el análisis discriminante utilizando el paquete estadístico SPSS y utilizando una sola variable a la vez. No. Variable % de casos originales clasificados correctamente 1 Porcentaje de población menor a 15 años 65.6 2 Población nacida en otro estado 40.6 3 Población entre 6 y 15 años que sabe leer y escribir 59.4 4 Porcentaje de población mayor a 15 años alfabeto 53.1 5 Porcentaje de personas entre 6 y 11 años que asiste a la escuela 50 6 Porcentaje de personas entre 12 y 14 años que asiste a la escuela 28.1 7 Porcentaje de personas entre 15 y 19 años que asiste a la escuela 37.5 8 Promedio de hijos nacidos vivos de mujeres mayor a 12 años 56.3 9 Promedio de niños nacidos vivos de mujeres entre 12 y 19 años 28.1 10 población económicamente activa 31.3 11 Porcentaje de personas que trabajan en actividades del gobierno 18.8 12 Población ocupada en el comercio 40.6 13 Población que trabaja menos de 24 horas a la semana 25 14 Porcentaje de viviendas con piso de tierra 40.6 15 Porcentaje de viviendas con servicio de drenaje 46.9 16 Porcentaje de viviendas con servicio de agua entubada 56.3 17 Porcentaje de viviendas con servicio
Compartir