Logo Studenta

Analisis-discriminante-aplicado-a-los-niveles-de-bienestar-en-Mexico

Vista previa del material en texto

Universidad Nacional 
Autónoma de México 
 
Facultad de Ciencias 
 
 
 
Análisis Discriminante Aplicado a los 
Niveles de Bienestar en México 
 
 
TESIS 
QUE PARA OBTENER EL TÍTULO DE ACTUARIO 
 
 
PRESENTA: 
 
 
Isaac González Silva 
 
 
 
Director de Tesis: 
Doctora Silvia Ruiz Velasco Acosta 
 
 
 
México D. F. Febrero del 2007 
 
UNAM – Dirección General de Bibliotecas 
Tesis Digitales 
Restricciones de uso 
 
DERECHOS RESERVADOS © 
PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL 
 
Todo el material contenido en esta tesis esta protegido por la Ley Federal 
del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). 
El uso de imágenes, fragmentos de videos, y demás material que sea 
objeto de protección de los derechos de autor, será exclusivamente para 
fines educativos e informativos y deberá citar la fuente donde la obtuvo 
mencionando el autor o autores. Cualquier uso distinto como el lucro, 
reproducción, edición o modificación, será perseguido y sancionado por el 
respectivo titular de los Derechos de Autor. 
 
 
 
 
Datos del jurado 
 
1. Datos del alumno 
González 
Silva 
Isaac 
55 29 18 38, Cel. 0 44 55 27 20 37 17 
Universidad Nacional Autónoma de México 
Facultad de Ciencias 
Actuaría 
 095543075 
2. Datos del tutor 
Doctora 
Silvia 
Ruiz Velasco 
Acosta 
3. Datos del sinodal 1 
Actuario 
Jaime 
Vázquez 
Alamilla 
4. Datos del sinodal 2 
Doctora 
Guillermina 
Eslava 
Gómez 
5. Datos del sinodal 3 
Matemática 
Margarita Elvira 
Chávez 
Cano 
6. Datos del sinodal 4 
Maestro en Ciencias 
Inocencio Rafael 
Madrid 
Ríos 
7. Datos del trabajo escrito 
Análisis discriminante aplicado a los niveles de bienestar en México 
80 p. 
2007 
 
Agradecimientos: 
 
Agradezco a mis Padres, por tener confianza en mi, por su apoyo, su cariño y 
sus constantes ánimos que me han brindado, por estar siempre presentes, 
contar con ellos hoy y siempre, mil gracias. 
 
A mis hermanos: Ricardo, Abel, Blanca y Mario por sus mejores deseos y por 
su apoyo brindado durante toda la vida. 
 
Agradezco a la Doctora Silvia Ruiz Velasco Acosta por que siempre estuvo 
dispuesta a darme sus mejores consejos y ser mi guía incansable para la 
terminación de esta tesis y cumplir de una de las metas de mi vida. 
 
Doy mis agradecimientos al Actuario Jaime Vázquez Alamilla, a la Doctora 
Guillermina Eslava Gómez, al Maestro en Ciencias Inocencio Rafael Madrid 
Ríos y a la Matemática Margarita Elvira Chávez Cano, integrantes del jurado, 
a todos ellos por sus valiosos consejos y aportación a mejorar la presentación 
de esta tesis, por el tiempo que le dedicaron a leerla y a preparar mi examen. 
 
A mis compañeros y amigos de la universidad que siempre estuvieron juntos 
en todas las circunstancias de la vida. 
 
Agradecimientos para la Universidad Nacional Autónoma de México por sus 
espacios y por ser una de las mejores universidades del País. 
 
A los Maestros de la Facultad de Ciencias a todos ellos por ser el pilar 
fundamental de miles de proyectos y metas de todos los que pasamos en las 
aulas de esta escuela. 
 
 
 3 
Í n d i c e 
 
 
 
 
Introducción .................................................................................................. 5 
Objetivo ......................................................................................................... 8 
Capítulo 1. Análisis Discriminante .............................................................10 
1.1 Historia........................................................................................................................11 
1.2 Planteamiento de problema en el caso de clasificación entre dos grupos...................12 
1.3 Clasificación con dos grupos y una variable clasificadora .........................................13 
1.4 Función discriminante de Fisher para g grupos. .........................................................14 
1.5 Planteamiento de hipótesis estadísticas ......................................................................19 
1.6 Pruebas de hipótesis y evaluación de la bondad del ajuste.........................................20 
1.7 Cálculo de probabilidades de pertenencia a una población ........................................21 
1.8 Cálculo de probabilidades sin información a priori....................................................23 
1.9 Cálculo de las probabilidades con información a priori .............................................24 
1.10 Cálculo de probabilidades con información a priori y consideración de costos.......26 
1.11 Selección de variables...............................................................................................27 
1.12 Ejemplo para el caso de dos grupos. Aplicación del Análisis Discriminante para 
asignación de ayuda a poblaciones con bajo nivel de bienestar. ......................................30 
1.12.1 Planteamiento del problema...............................................................................30 
1.12.2 Grupos iniciales .................................................................................................31 
1.12.3 Análisis Discriminante utilizando la variable porcentaje de viviendas con piso 
de tierra. ........................................................................................................................32 
1.12.4 Análisis Discriminante utilizando la variable porcentaje de viviendas con 
servicio de drenaje. .......................................................................................................33 
1.12.5 Análisis Discriminante utilizando dos variables (porcentaje de viviendas con 
piso de tierra y porcentaje viviendas con servicio de drenaje). ....................................35 
1.12.6 Solución a la petición de ayuda a las dos poblaciones solicitantes....................38 
Capítulo 2. Análisis Discriminante Aplicado a los niveles de Bienestar en 
México.........................................................................................................39 
2.1 ¿Qué se entiende por Bienestar? .................................................................................40 
2.2 Variables utilizadas.....................................................................................................40 
2.3 Planteamiento del problema........................................................................................44 
2.4 Clasificación del análisis discriminante utilizando una sola variable a la vez ...........45 
2.5 Análisis discriminante aplicado en los 32 estados de la república con las 32 variables 
demográficas .....................................................................................................................46 
2.6 Estadísticas por nivel de bienestar ..............................................................................46 
2.7 Variables introducidas / eliminadas ............................................................................47 
2.8 Variables incluidas en el modelo ................................................................................49 
 4 
2.9 Variables no incluidas en el análisis........................................................................ 51 
2.10 Estadístico lambda de Wilks ................................................................................. 53 
2.11 Comparaciones entre pares de grupos ................................................................... 53 
2.12 Valores propios..................................................................................................... 55 
2.13 Comparación de funciones en el modelo ............................................................... 55 
2.14 Valor de los centroides en las funciones discriminantes ........................................ 56 
2.15 Coeficientes estandarizados de las funciones discriminantes canónicas ................. 56 
2.16 Probabilidades previas utilizadas en la clasificación.............................................. 57 
2.17 Mapa territorial.....................................................................................................57 
2.18 Matriz de clasificación.......................................................................................... 58 
2.19 Análisis del caso mal clasificado........................................................................... 59 
2.20 Funciones discriminantes...................................................................................... 61 
2.21 Comparación gráfica entre pares de funciones discriminantes ............................... 62 
Conclusiones ..............................................................................................................69 
Anexo .........................................................................................................................71 
Lambda de Wilks ......................................................................................................... 72 
Criterios ....................................................................................................................... 72 
V de Rao ...................................................................................................................... 73 
Base de datos................................................................................................................ 74 
Referencias bibliográficas .........................................................................................78 
 5 
Introducción 
 
El planteamiento estadístico del problema es el siguiente: se dispone de un 
conjunto de individuos que pueden venir de dos o más poblaciones distintas. 
En cada elemento se ha observado una variable aleatoria p-dimensional x, 
cuya pertenencia a una de las poblaciones consideradas se conoce. Se desea 
clasificar un nuevo elemento, con valores observados de las variables 
conocidas para asignarlo a una población. Por ejemplo, la primera aplicación 
del análisis discriminante consistió en clasificar los restos de un cráneo 
descubierto en una excavación como humano, utilizando la distribución de 
medidas físicas para los cráneos humanos y los de antropoides. 
 
El problema de discriminación aparece en muchas situaciones en que 
necesitamos clasificar elementos con información incompleta. Por ejemplo, 
los sistemas automáticos de concesión de créditos implantados en muchas 
instituciones financieras tienen que utilizar variables medibles (ingreso, 
antigüedad en el trabajo, patrimonio, etcétera.) para prever el comportamiento 
futuro en otros casos, la información podría estar disponible, pero puede ser 
muy costosa de adquirir ya que para ello se puede requerir destruir el 
elemento, como en el control de calidad de la resistencia a la tensión de unos 
componentes. En ingeniería el problema de discriminación se ha estudiado 
con el nombre de reconocimiento de patrones, para diseñar máquinas capaces 
de clasificar de manera automática. Por ejemplo, reconocer voces y sonidos, 
billetes o monedas, reconocer caracteres escritos en la computadora o 
clasificar cartas según el código postal. Otros ejemplos de aplicación del 
análisis discriminante son: asignar un texto escrito de procedencia 
desconocida a uno de varios autores por las frecuencias de utilización de 
palabras, asignar una partitura musical o un cuadro a un artista, una 
declaración de impuestos como potencialmente defraudadora o no, una 
empresa en riesgo de quiebra o no, las enseñanzas de un centro como teóricas 
o aplicadas, un paciente enfermo de cáncer o no, un nuevo método de 
fabricación como eficaz o no. 
 
Las técnicas reciben también el nombre de clasificación supervisada, para 
indicar que conocemos una muestra de elementos bien clasificados que sirve 
de pauta o modelo para la clasificación de las siguientes observaciones. 
 
 6 
Existen varios enfoques posibles para este problema. Uno de ellos es el 
análisis discriminante clásico debido a Fisher (1936), basado en la normalidad 
multivariada de las variables consideradas y que es óptimo bajo dicho 
supuesto. Si todas las variables son continuas y aunque los datos originales no 
sean normales es posible transformar las variables para que lo sean. 
 
El análisis discriminante tiene como objetivo el de clasificar observaciones 
mediante un conjunto de variables, en dos o más grupos que por lo general son 
mutuamente excluyentes. También, nos permite establecer la relación entre la 
variable dependiente y grupos de variables independientes. En particular ver si 
un grupo de variables separa adecuadamente los grupos. 
 
La pertenencia a uno u otro grupo se puede introducir en el análisis mediante 
una variable categórica que toma tantos valores como grupos existentes. En el 
análisis discriminante está variable juega el papel de variable dependiente. La 
idea básica es determinar si unos grupos difieren en función de la media de 
una(s) variable(s), y emplear luego esa(s) variable(s) para predecir la 
pertenencia de una nueva observación a determinado grupo. 
 
A las variables que se utilizan para realizar la clasificación de los individuos 
las denominamos variables clasificadoras. En el análisis discriminante, la 
información de las variables clasificadoras se sintetiza en unas funciones 
denominadas funciones discriminantes, que son las que finalmente se 
utilizan en el proceso de clasificación. 
 
Por ejemplo, suponga que se tiene una medida de la estatura de un grupo de 
individuos, 50 hombres y 50 mujeres. En promedio, la estatura de las mujeres 
es inferior a la de los hombres, de forma que esta diferencia puede reflejarse 
en la diferencia entre las medias de ambos grupos. Así, la variable “estatura” 
permite discriminar entre hombres y mujeres de forma más adecuada: “Si una 
persona es alta, entonces es probable que sea un hombre; si una persona es 
baja, es posible que sea una mujer”. 
 
El análisis discriminante se aplica para fines explicativos y predictivos, en la 
utilización explicativa se trata de determinar la contribución de cada variable 
clasificadora a la clasificación correcta de cada uno de los individuos. En una 
aplicación predictiva, se trata de determinar el grupo al que pertenece un 
 7 
individuo para el que se conocen los valores que toman las variables 
clasificadoras. 
 
El análisis discriminante está muy relacionado con el análisis de varianza 
multivariada con un factor, aunque el papel que juegan los distintos tipos de 
variables está invertido en uno y otro método. Así, en el análisis de varianza la 
variable categórica (el factor) es la variable explicativa, mientras que en el 
análisis discriminante la variable categórica es precisamente la variable 
dependiente. 
 
 8 
Objetivo 
 
El objetivo de esta tesis es aplicar el método estadístico “Análisis 
Discriminante” a los niveles de bienestar en México a nivel estatal, los datos 
que se van a utilizar provienen del XII censo de población y vivienda 2000 
que realizó el Instituto Nacional de Estadística Geografía e Informática 
(INEGI), y para la realización serán utilizadas 32 variables de tipo 
demográficas potencialmente discriminantes en cada uno de los 32 estados de 
la República Mexicana los cuales ya están integrados anticipadamente en un 
grupo de pertenencia inicial llamado nivel de bienestar dado por el INEGI, de 
esta manera la base de datos con la que se va a trabajar es de dimensión 32x32 
(ver anexo). Dentro de todas las variables utilizadas se podrá saber si todas 
son necesarias e indispensables para distinguir entre un nivel de bienestar y 
otro o, solo una cantidad de ellas son las que reúnen las características 
necesarias para distinguir el nivel de bienestar entre las poblaciones. Se dará a 
conocer la función discriminante para el caso de que se requiera clasificar más 
poblaciones en alguno de los niveles de bienestar. Finalmente dentro de los 
objetivos es también explicar las salidas que nos arroja al correr el método del 
Análisis Discriminante con el paquete SPSS de manera clara tal que sea 
posible su uso para futuros estudiantes de la materia. 
 
Nuestro país en el transcurso de su historiaha quedado dividido en niveles 
socioeconómicos que definen la situación de bienestar en que se encuentra la 
población, a través de esto los gobernantes deciden impulsar nuevas formas de 
desarrollo económico que beneficie la situación en que se encuentra la 
población. Para identificar la posición se realiza un censo de población y 
vivienda de donde se obtiene la información básica, indispensables para 
definir la situación económica y social en que se encuentra la población, tanto 
en entidades federativas como en municipios y localidades, a estos tipos de 
situación se les llamó niveles de bienestar. 
 
Se considera en este estudio la división de los Estados de la República 
Mexicana en siete grupos a los cuales llamaremos niveles de bienestar. Así 
cada uno de los Estados pertenecen solo a uno de los siete niveles de 
bienestar, considerando como mejor nivel el séptimo y el peor será el primer 
nivel. Los factores que definirán su nivel de bienestar son económicos, 
 9 
sociales, culturales y dentro de cada una de estas se obtienen más variables 
que nos ayudan en esta labor. 
 
Esta tesis está dividida en dos capítulos, en el primero se presenta la técnica 
estadística del análisis discriminante para el caso de dos grupos y una variable 
clasificadora, y la técnica generalizada para el caso de g grupos y p variables 
clasificadoras. Se encuentra también un ejemplo para 32 poblaciones 
clasificadas en dos niveles de bienestar, donde se tienen dos variables 
discriminantes, primero se aplica la técnica con una variable discriminante y 
después se aplica con la otra variable dando a conocer en estos casos el 
porcentaje de casos correctamente clasificados inicialmente y el grupo final en 
que quedaron clasificadas, en cada uno de ellas se obtendrá la función 
discriminante para futuras clasificaciones, posteriormente se aplica la técnica a 
las dos variables discriminantes al mismo tiempo obteniendo el porcentaje de 
casos correctamente clasificados y la función discriminante para clasificar a 
casos posteriores, en este caso inicialmente ya se habían propuesto dos casos y 
al final se dará su solución clasificándolos con la función que se obtuvo al 
utilizar las dos variables juntas. 
En el segundo capítulo se comienza con la definición que se aplica en esta 
tesis de lo que es bienestar y lo que significa tener un buen nivel de bienestar o 
tener un mal nivel de bienestar. Se mostrarán las 32 variables potencialmente 
discriminantes que se utilizarán en la aplicación del análisis discriminante en 
los 7 niveles de bienestar dentro de los 32 Estados de la república, y se 
mostrará la pertenencia inicial de los Estados en cada nivel de bienestar y al 
final se mostrará la clasificación final de cada Estado de la república en los 
niveles mencionados. En cada caso se explicarán las tablas y salidas 
estadísticas y al final de este capítulo se obtendrán las funciones 
discriminantes para posibles clasificaciones futuras, obteniendo la función que 
tiene la mejor discriminación entre estos niveles de bienestar. También se dará 
una interpretación gráfica entre funciones discriminantes para ver los grupos. 
 10 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Capítulo 1. Análisis Discriminante 
 11 
1.1 Historia. 
 
El análisis discriminante tiene su origen en el trabajo clásico de Fisher (1936). 
Las siguientes contribuciones están influidas por los trabajos pioneros de 
Neyman y Pearson sobre el contraste de hipótesis simples frente a alternativas 
simples. Welch (1939) dedujo, para distribuciones conocidas, las reglas de 
máxima verosimilitud y de Bayes, que ilustró en el caso de normalidad e 
igualdad de matrices de covarianzas. Este caso fue también tratado en Wald 
(1944), que estudió la distribución de la regla de clasificación lineal. El 
problema de la clasificación cuadrática fue estudiado primeramente por 
Cavalli (1945) y Penrose (1947) en el caso de n = 1 y por Smith (1947) en el 
caso de n > 1. La clasificación en k ≥ 2 poblaciones fue estudiada por Von 
Mises (1945), Rao (1948) y Bryan (1951), entre otros. A partir de estos 
trabajos pioneros, el número de publicaciones destinadas al análisis 
discriminante es realmente importante; también son numerosos los trabajos 
que tienen en cuenta distribuciones discretas o no normales. Se han 
desarrollado también técnicas de clasificación no paramétricas entre las que 
destacan las reglas basadas en la estimación no paramétrica de la función de 
densidad (Rosenblatt, 1956; Parzen, 1962), del vecino más cercano (Fix y 
Hodges, 1951) y basadas sobre distancias entre funciones de distribución 
empíricas (Das Gupta, 1964), Kendall (1966) propone un interesante método 
no paramétrico que ilustra con los datos de Fisher (1936). 
 
Se han utilizado también métodos de programación matemática para la 
obtención de funciones discriminantes. A partir de muestras controladas se 
obtienen funciones discriminantes lineales o cuadráticas que particionan a Rn 
en regiones excluyentes, según determinados criterios de optimización propios 
de las técnicas de investigación de operaciones. Estos métodos tienen la 
ventaja de no suponer distribuciones conocidas para las variables, ni 
probabilidades “a priori” para las poblaciones, (Rebollo y Escudero, 1977). 
 
Diferentes orientaciones del análisis (clasificación, identificación, asignación, 
reconocimiento de patrones, selección) es uno de los capítulos del análisis 
multivariado que ha tenido mayor desarrollo. Obras especialmente destinadas 
a este tema son: Romeder (1973), Cacoullos (1973), Duda y Hart (1973), Tou 
y González (1974), Lachenbruch (1975), Escudero (1977)(Cuadras 1991). 
 12 
1.2 Planteamiento de problema en el caso de clasificación entre dos 
grupos. 
 
Sean P1 y P2 dos poblaciones donde tenemos definida una variable aleatoria 
vectorial, x p-dimensional. Supondremos que x es absolutamente continua y 
que las funciones de densidad de ambas poblaciones, f1 y f2, son conocidas. 
Vamos a estudiar el problema de clasificar un nuevo elemento, x0, con valores 
conocidos de las p variables en una de estas poblaciones. Si conocemos las 
probabilidades a priori π1 y π2, con π1 + π2 = 1, de que el elemento venga de 
cada una de las dos poblaciones, su distribución de probabilidad será una 
distribución mezclada 
 
)()()( 121 xfxfxf ππ += 1 
 
Y una vez observado x0 podemos calcular las probabilidades a posteriori de 
que el elemento haya sido generado por cada una de las dos poblaciones P(i/ 
x0), con i = 1 , 2. Estas probabilidades se calculan por el teorema de Bayes 
 
)2()1(
)1(
)1(
0201
10
0
xpxp
xp
xp
ππ
π
+
=
 
 
Y como )1( 0xp = 001 )( xxf ∆ , donde 0x∆ es la primera variación en el tiempo 0 
así que tenemos que 
 
202101
101
0 )()(
)(
)1(
ππ
π
xfxf
xf
xp
+
=
 (1.2.1) 
 
Y para la segunda población, 
 
 202101
202
0 )()(
)(
)2(
ππ
π
xfxf
xf
xp
+
=
 (1.2.2) 
 
Clasificaremos x0 en la población más probable a posteriori. Como los 
denominadores son iguales, clasificamos x0 en P2 si: 
 
 13 
)()( 011022 xfxf ππ > 
Si las probabilidades a priori son iguales, la condición de clasificar en p2 se 
reduce a: 
 
)()( 0102 xfxf > 
 
Es decir clasificamos a x0 en la población más probable. 
1.3 Clasificación con dos grupos y una variable clasificadora 
 
Se va a considerar el supuesto más sencillo en el que existen dos poblaciones 
o grupos, a los que se denomina P1 y P2, y una sola variable clasificadora, a la 
que se le denominará x. en el problema que se plantea es el de clasificar cada 
individuo en el grupo correcto atendiendo al valor de la variable clasificadora. 
 
Se han representado unas hipotéticas funciones de frecuencias de la variable x 
correspondientes a dos grupos. Tanto la configuración de distribución de 
frecuencias como la varianza son las mismas en los dos grupos; es decir, los 
dos grupos coinciden en todo excepto en su media. Como puede verse, las 
distribuciones de frecuencia, que se han representado, están entrelazadasen el 
sentido de que se enciman. Precisamente, al encimarse se cometen o pueden 
cometerse errores de clasificación, de no estar encimados, el problema de 
clasificar a cada individuo en una de los dos grupos sería trivial. 
 
Dados los supuestos establecidos y llamando IX
___
 y IIX
___
 las medias de los 
grupos I y II respectivamente, el punto de intersección de las dos funciones 
corresponde al valor medio de IX
___
 y IIX
___
. Es decir, este punto medio (ver 
gráfica 1.3.2), al que denominaremos C, es igual a 
 
2
______
III XX
C
+
= (1.3.1) 
 
 14 
 
Gráfica 1.3.2. Funciones de distribución de frecuencias hipotéticas de dos grupos. 
 
A partir de la vista de la gráfica 1.3.2. se puede tomar razonablemente el 
siguiente criterio para clasificar a un individuo i: 
 
 Si Xi < C, se clasifica al individuo i en el grupo I 
 Si Xi > C, se clasifica al individuo i en el grupo II 
 
Designaremos a C como el punto de corte discriminante, o simplemente como 
el punto de corte, en el sentido de que es el punto que se toma como referencia 
para clasificar a un individuo en uno u otro grupo. 
 
Al aplicar estos criterios se cometen errores de clasificación como puede verse 
en la gráfica 1.3.2 donde los pertenecientes al área sombreada del lado 
derecho de C recoge casos pertenecientes al grupo I pero en los que Xi > C, es 
decir, son individuos del grupo I incorrectamente clasificados en el grupo II. 
Recíprocamente, el área rayada existente a la izquierda de C recoge casos 
pertenecientes al grupo II pero en los que Xi < C, es decir, son casos del grupo 
II incorrectamente clasificados en el grupo I. 
 
1.4 Función discriminante de Fisher para g grupos. 
 
Fisher resolvió analíticamente la función discriminante para dos grupos en 
1936 para el caso general de k variables clasificadoras. La función 
 15 
discriminante de Fisher se obtiene como función lineal de k variables 
explicativas x, es decir, 
 
Función discriminante de Fisher 
 
D = kk xxx µµµ +++ ...2211 (1.4.1) 
 
El problema planteado es la obtención de los coeficientes de ponderación µ j. 
 
Si consideramos que existan k variables, podemos expresar la función 
discriminante para las n observaciones: 
 
Di = kikii xxx µµµ +++ ...2211 (1.4.2) 
 
Así Di es la puntuación discriminante correspondiente a la observación i-
ésima. Expresando las variables explicativas en desviaciones respecto a la 
media, Di también lo estará. La anterior relación se puede expresar en forma 
matricial para el conjunto de las observaciones: 
 












nD
D
D
...
2
1
 = 












knkk
k
k
xxx
xxx
xxx
...
............
...
...
21
22212
12111












kµ
µ
µ
...
2
1
 (1.4.3) 
 
O en notación matricial más compacta: 
 
D = X µ (1.4.4) 
La variabilidad de la función discriminante es pueden expresar de la siguiente 
forma: 
 
D’D = µ ’X’X µ (1.4.5) 
 
El segundo miembro es de la forma cuadrática de la matriz X’X. Esta matriz, 
al estar expresadas las variables en desviaciones respecto a la media, es la 
matriz de suma de cuadrados y productos cruzados (SCPC) total de las 
variables x. En cualquier caso, esta matriz se puede descomponer en la matriz 
 16 
SCPC entre-grupos y la SCPC residual o intra-grupos. Utilizando para estas 
matrices la terminología. La descomposición de X’X puede expresarse así: 
 
X’X = T = F + W (1.4.6) 
 
En términos de x se tiene que 
X’X = T = 


















11211111
12121211121
11121111111
...
.
.
.
...
.
.
.
.
.
.
...
...
kkkk
k
k
xxxxxx
xxxxxx
xxxxxx
+


























∑∑∑
∑∑∑
∑∑∑
===
===
===
k
i
kiki
k
i
iki
k
i
iki
k
i
kii
k
i
ii
k
i
ii
k
i
kii
k
i
ii
k
i
ii
xxxxxx
xxxxxx
xxxxxx
22
2
2
1
2
2
2
22
2
12
2
1
2
21
2
11
...
.
.
.
...
.
.
.
.
.
.
...
...
 
 
donde T, F y W son las matrices de SCPC total, entre-grupos e intra-grupos 
respectivamente, sustituyendo las ecuaciones (1.4.5) y (1.4.6), se obtiene 
 
D’D = µ ’T µ = µ ’F µ + µ ’W µ (1.4.7) 
 
Se puede observar que en la expresión anterior T, F y W se pueden calcular 
con los datos de la muestra mientras que los coeficientes w están por 
determinar. Para su estimación. Fisher utilizó el siguiente criterio: 
 
Criterio para la obtención de la función discriminante de Fisher, de aquí se 
reduce en el caso de dos grupos. 
 
Maximización de 
grupos-dentro advariabilid
grupos - entre advariabilid (1.4.8) 
 
Con este criterio se trata de determinar el eje discriminante de forma que las 
distribuciones proyectadas sobre el mismo estén lo más separadas posible 
entre sí (mayor variabilidad entre grupos) y, al mismo tiempo que cada una de 
las distribuciones esté lo menos dispersa (menor variabilidad dentro de los 
grupos). 
 
 17 
Analíticamente, el criterio de Fisher se puede expresar de la siguiente forma: 
 
Criterio para la obtención de la función discriminante: 
Maximización de λ/µ = 
µµ
µµ
W'
F' , (1.4.9) 
 
Como puede verse, se trata de que el primer término (entre–grupos) de (1.4.9) 
sea lo mayor posible en detrimento del segundo término (intra-grupos). 
 
La función discriminante de Fisher suele ir acompañada del calificativo de 
lineal, debido a que se obtiene como una combinación lineal de las variables 
originales. 
 
Los coeficientes kµµµ ,...,, 21 �(normalizados) que se obtienen en el proceso 
de maximización pueden contemplarse como un conjunto de cosenos que 
definen la situación del eje discriminante para esta interpretación, la 
normalización a que nos referimos es la suma de los coeficientes de la función 
discriminante. 
 
Las puntuaciones discriminantes son pues los valores que se obtienen al dar 
valores a ,1X ,2X ... , ,kX en la ecuación (1.4.2) y se corresponden con los 
valores obtenidos al proyectar cada punto dos espacio k-dimensional de las 
variables originales sobre el eje discriminante. 
 
Los centros de gravedad o la media (es decir, el vector de medias) son los 
estadísticos básicos que resumen la información sobre los grupos. La 
denominación que utilizaremos para designar a los centroides de los grupos I y 
II es la siguiente: 
 
X I = 












KI
I
I
X
X
X
...
2
1
 X II = 














KII
II
II
X
X
X
...
2
1
 (1.4.10) 
 18 
Sustituyendo en (1.4.2) kxxx ,..., 21 por los elementos del vector XI, se 
obtiene que 
 
D I = µ 1 X 1,I + µ 2 X 2,I + + µ K X K,I (1.4.11) 
 
Procediendo de forma análoga en el grupo II, se obtiene: 
 
D II = µ 1 X 1,II + µ 2 X 2,II + + µ K X K,II (1.4.12) 
 
El punto de corte discriminante C se calcula promediando DI y DII, es decir: 
 
2
III DD
C
+
= (1.4.13) 
 
El criterio para clasificar al individuo I es el siguiente: 
 
 Si DI < C, se clasifica al individuo i en grupo I 
 Si DII > C, se clasifica al individuo i el en grupo II 
 
En general, cuando se aplica el análisis discriminante se le resta el valor de C 
a la función, de esta forma, la función discriminante viene dada por 
 
D – C = µ1 X1 + µ 2 X2 + + µ K XK - C (1.4.14) 
 
Así al utilizar la ecuación anterior (1.4.14), se clasifica a un individuo en el 
grupo I si DI - C < 0 y en el grupo II en otro caso. 
 
Si igualamos a cero el segundo miembro, en el caso de dos variables, se 
obtiene la ecuación de la recta: 
 
µ 1 X1 + µ 2 X2 - C = 0 (1.4.15) 
 
recta de trazos discontinuos que delimita en el plano (x1, x2) en ambos grupos 
I y II. 
 
 19 
Existe una forma alternativa a la utilización de esta ecuación que consiste en 
construir funciones discriminantes para cada grupo, basadas también en el 
criterio. Estas funciones, a las que denominamos FI y FII, tienen la siguiente 
estructura: 
 
FI = aI,1 X1 + aI,2 X2 + + aI,K XK - CI (1.4.16) 
FII = aII,1 X1 + aII,2 X2 + + aII,K XK - CII 
 
Cuando se utilizan estas funciones,se clasifica a un individuo en el grupo para 
el cual el valor de la función FJ sea mayor. Este tipo de funciones 
clasificadoras tiene la ventaja de que se generalizan fácilmente al caso de que 
existan más de dos grupos. Además, en buena parte de los programas de 
análisis multivariado se suministran estas funciones. A partir de los 
coeficientes de las funciones (1.4.15) se pueden obtener los coeficientes de la 
función (1.4.14), a través de la siguiente equivalencia. 
 
 FII – FI = (aII,1 - aI,1)X1+(aII,2 - aI,2)X2+. ..+( aII,K - aI,K)XK-(CII - CI) 
 
= µ1 X1 + µ 2 X2 + + µ K XK - C = D – C (1.4.17) 
 
1.5 Planteamiento de hipótesis estadísticas 
 
La obtención de la función discriminante la realizó Fisher aplicando un 
enfoque libre de distribución, como ha sido el seguido en los dos apartados 
anteriores. Sin embargo, si con el análisis discriminante se desea ir más lejos 
de la simple clasificación se requiere la formulación previa de hipótesis 
estadísticas. 
Formulando estas hipótesis se pueden abordar algunos temas de carácter 
inferencial y otros relativos al modelo poblacional. Los temas de tipo 
inferencial se refieren a diversas pruebas de hipótesis sobre el modelo, así 
como pruebas de hipótesis utilizadas en el proceso de selección de variables 
cuando el número de éstas es muy grande y no se conoce a priori las variables 
que son relevantes en el análisis. Por otra parte, el cálculo de probabilidad de 
pertenencia a un grupo se requiere que previamente haya postulado algún 
modelo probabilístico de la población. 
 
 20 
Las hipótesis estadísticas que se adoptan, se refieren tanto a la población como 
al proceso de obtención de la muestra. Las hipótesis sobre la población son las 
siguientes: 
 
 Hipótesis estadísticas sobre la Población: 
 
a) La matriz de covarianzas de todos los grupos es igual a Σ. 
(Hipótesis de homoscedasticidad). 
 
b) Cada uno de los grupos tiene una distribución normal multivariada. 
 
Las anteriores hipótesis implican Xg ˜ N (µg , Σ) (1.5.1) 
 
La hipótesis sobre el proceso de obtención de la muestra facilita la realización 
del proceso de inferencia a partir de la información disponible. 
 
Hipótesis sobe el proceso de obtención de muestra: se supone que se ha 
extraído una muestra aleatoria independiente en cada uno de los g grupos. 
 
Bajo las hipótesis anteriores, la función discriminante obtenida por Fisher es 
óptima. La hipótesis (1.5.1) exige que las variables clasificadoras sigan una 
distribución Normal. Sin embargo, no sería razonable postular esta hipótesis 
respeto a variables categóricas, utilizadas frecuentemente en análisis 
discriminante como variables clasificadoras. Conviene señalar que, cuando se 
utilizan variables de este tipo, la función discriminante lineal de Fisher no 
tiene el carácter de óptima. 
 
En la exposición que se realizará a continuación, y basados en las hipótesis 
anteriores, se examinan las pruebas de hipótesis, el problema de selección de 
variables y el cálculo de probabilidades de pertenencia a una población. 
 
1.6 Pruebas de hipótesis y evaluación de la bondad del ajuste 
 
Con las pruebas de hipótesis que se realizan en el análisis discriminante con 
dos grupos se trata de dar respuesta a tres tipos de cuestiones diferentes: 
 
 21 
a) ¿Se cumple la hipótesis de homoscedasticidad del modelo? 
b) ¿Se cumple la hipótesis de normalidad? 
c) ¿Difieren significativamente las medias poblacionales de los dos grupos? 
 
La respuesta que se dé a la cuestión c) es crucial para la justificación de la 
realización del análisis discriminante. En el caso de que la respuesta fuese 
negativa carecería de interés continuar con el análisis, ya que significaría que 
las variables introducidas como variables clasificadoras no tienen una 
capacidad discriminante significativa. 
 
La hipótesis nula y alternativa para dar respuesta a la cuestión c) son las 
siguientes: 
 
Hipótesis nula y alternativa en el caso de dos grupos 
 210 : µµ =H 
 211 : µµ ≠H (1.6.1) 
El contraste de la hipótesis anterior se puede realizar específicamente 
mediante el estadístico 2T (Ver anexo). Existen otros estadísticos que se 
pueden emplear, diseñados para el caso general de g grupos, tales como el 
estadístico de Rao o el estadístico de Barlett. Estos últimos estadísticos están 
construidos a partir de la lambda de Wilks (ver anexo). 
 
En el caso de que se rechace la hipótesis nula (1.6.1) se puede aplicar el 
análisis univariado de la varianza para comparar la hipótesis de igualdad de 
medias para cada una de las variables clasificadoras por separado. 
 
1.7 Cálculo de probabilidades de pertenencia a una población 
 
Las funciones discriminantes del tipo (1.4.2) o (1.4.14) clasifican a los 
diferentes individuos en uno u otro grupo, pero no dan más información 
acerca de los individuos investigados. 
 
En muchas ocasiones es conveniente tener información complementaria a las 
puntuaciones discriminantes. Con estas puntuaciones se puede clasificar a 
cada individuo, pero es interesante disponer además de información sobre la 
probabilidad de su pertenencia a cada grupo, ya que ello permitiría realizar 
 22 
análisis más matizados. Para realizar este tipo de cálculos se suelen asumir las 
hipótesis (1.6.1), pero considerando que se conocen los parámetros 
poblacionales. Esta forma de proceder ocasiona ciertos problemas de los que 
nos ocuparemos posteriormente. 
 
El cálculo de probabilidades se va a realizar en el contexto de la teoría de la 
decisión, que permite tener en cuenta tanto la probabilidad de pertenencia a un 
grupo, como a los costos de una clasificación errónea. La clasificación de los 
individuos se va a realizar utilizando el teorema de Bayes. La aplicación del 
teorema de Bayes permite el cálculo de las probabilidades a posteriori a partir 
de estas probabilidades a priori y de la información muestral contenida en las 
puntuaciones discriminantes. Considerando el caso general de g grupos, el 
teorema de Bayes establece que la probabilidad a posteriori de pertenencia a 
un grupo g con una puntuación discriminante D (prob(g\D)) es la siguiente: 
 
Teorema de Bayes 
 
∑
=
×
×
=
G
i
g
g
iDprob
gDprob
Dgprob
1
)/(
)/(
)/(
π
π
 (1.7.1) 
 
En el segundo miembro aparecen las probabilidades a priori gπ y las 
probabilidades condicionadas )/( gDprob . 
La probabilidad condicionada )/( gDprob se obtiene calculando la 
probabilidad de la puntuación observada suponiendo la pertenencia a un grupo 
g. 
 
Dado que el denominador del segundo miembro de (1.7.1) es una constante, se 
utiliza también, de forma equivalente, la siguiente expresión: 
 
)/()/( gDprobDgprob g ×∝ π 
 
Donde el símbolo ∝ significa proporcionalidad. 
 
La clasificación de cada individuo se puede realizar mediante la comparación 
de las probabilidades a posteriori. Así, se asignará un individuo al grupo para 
 23 
el cual sea mayor su probabilidad a posteriori. Aunque a partir de ahora 
solamente se tratará el caso de dos grupos, se va presentar el cálculo de 
probabilidades de forma que sea fácilmente generalizable al caso de g grupos. 
 
El cálculo de probabilidades se va realizar bajo tres supuestos diferentes: 
cálculo de probabilidades sin información a priori, cálculo de probabilidades 
con información a priori y cálculo de probabilidades con información a priori 
y costos. 
 
1.8 Cálculo de probabilidades sin información a priori 
 
Como se ha visto, el cálculo de probabilidad de la pertenencia a diferentes 
grupos permite introducir matices en la información acerca de cada individuo. 
Así por ejemplo si el encargado de asignar las ayudas en las poblaciones 
conoce, no solo que una población está clasificada en el grupo de los de buen 
nivel de bienestar, si no que la probabilidad de pertenencia a dicho grupo es de 
90%, dispone de una información adicional que le permite valorar de forma 
más matizada sus decisiones. Evidentemente, esta información le resolvería 
las dudas que pudieratener si tiene que decidir la concesión de una ayuda a 
dicha población o a otra, también clasificada en el grupo de los de buen nivel 
de bienestar, pero con sólo una probabilidad del 52% de pertenencia a éste 
grupo. 
 
En el cálculo de las probabilidades que se va a realizar a continuación se 
considera que no existe conocimiento previo de las probabilidades de 
pertenencia a cada grupo. Cuando no existe dicha información, se adopta el 
supuesto de que la probabilidad de pertenencia a ambos grupos es la misma, es 
decir, se adopta el supuesto de que III ππ = . Esto implica que estas 
probabilidades a priori no afectan a los cálculos de las probabilidades a 
posteriori o bien que es proporcional al tamaño de la población. 
 
Bajo las hipótesis de (1.6.1), la probabilidad de pertenencia a cada grupo, dada 
la puntuación discriminante obtenida, viene dada por la siguiente expresión: 
 
 
 
 24 
Probabilidad a posteriori (sin incorporar información a priori) 
 
III
g
FF
F
ee
e
Dgprob
+
=)/( (1.8.1) 
 
Donde IF y IIF son las funciones definidas en (1.4.16). 
 
Un individuo se clasifica en el grupo para el que la probabilidad (1.8.1) sea 
mayor. Este criterio implica que un individuo se clasificará en el grupo I si 
 
IF > IIF (1.8.2) 
 
Aplicando (1.8.1) se llega a los mismos resultados que aplicando la función 
discriminante de Fisher. Esto implica que el punto de corte C, dado en 
(1.4.13), sigue siendo aplicable con este nuevo enfoque. 
 
Por su interés, vamos a referirnos ahora a otro método para clasificar, que 
consiste en minimizar la probabilidad de clasificación errónea. 
 
Denominado )/( IIIprob la probabilidad de clasificar a un individuo en la 
población I perteneciendo a la II y )/( IIIprob la probabilidad de clasificar un 
individuo en la población II perteneciendo a la I, la probabilidad total de 
clasificar errónea es igual a 
 
)/()/( IIIprobIIIprob + (1.8.3) 
 
Minimizando esta probabilidad, bajo las hipótesis, se obtiene también como 
punto de corte el valor C. 
1.9 Cálculo de las probabilidades con información a priori 
 
En ocasiones se dispone de información de la probabilidad a priori sobre 
pertenencia de un individuo a cada uno de los grupos. Así, por ejemplo en el 
caso de asignación de ayuda se puede tener información de que en caso de que 
la ayuda a poblaciones que no la necesitan suponen un 10% del total de 
ayudas otorgadas a lo largo de un periodo dado. Para tener en cuenta este tipo 
de información vamos a introducir probabilidades a priori en nuestro análisis. 
 25 
 
Cuando se utilizan probabilidades apriori los individuos, o casos, se clasifican 
en el grupo en el cual la probabilidad a posteriori sea mayor. De acuerdo con 
la hipótesis (1.6.1) la probabilidad de pertenencia a cada grupo es igual a 
 
Probabilidad a posteriori utilizando información apriori 
 
III
g
F
II
F
I
F
I
ee
e
Dgprob
ππ
π
+
=)/( g = I, II (1.9.1) 
 
Con este criterio se clasifica a un individuo en el grupo I si 
 
IIIIII FF ππ lnln > (1.9.2) 
 
La aplicación de (1.9.2) implica que el punto de corte discriminante pC para 
dos poblaciones viene ahora definido por la siguiente expresión: 
 
Punto de corte con información a priori 
 
 
I
IIIII
P
DD
C
π
π
ln
2
−
+
= (1.9.3) 
La razón de probabilidades a priori debe establecerse de forma que el punto de 
corte se desplace hacia el grupo con menor probabilidad a priori. Al desplazar 
el punto de corte de esta forma, se tenderá a clasificar una proporción menor 
de individuos en el grupo con menor probabilidad a priori. 
 
Cuando dos probabilidades a priori son igual a 0.5, entonces la expresión 
(1.9.3) se convierte en el valor de C. 
 
Si se introducen probabilidades a priori, la probabilidad total de clasificación 
errónea en el caso de dos grupos es igual a 
 
)/()/( IIIprobIIIprob III ×+× ππ (1.9.4) 
 
 26 
Como puede verse, cada probabilidad de clasificación errónea va multiplicada 
por la probabilidad a priori del grupo real de pertenencia. Bajo las hipótesis 
estadísticas (1.61), se obtiene que el punto de corte es el dado en (1.9.3). 
1.10 Cálculo de probabilidades con información a priori y consideración 
de costos 
 
Hasta ahora no se ha considerado el costo de una clasificación errónea puede 
tener. En muchas ocasiones el costo de clasificación errónea puede diferir para 
cada uno de los grupos. Considerando el ejemplo de concesión de ayudas. 
Cuando se esta tratando de clasificar a las poblaciones en buen nivel de 
bienestar y mala situación las dos posibilidades de clasificar errónea son las 
siguientes: Clasificar como mal nivel de bienestar a una población en buen 
nivel de bienestar y como buen nivel de bienestar una de mal nivel de 
bienestar. En la primera de esas posibilidades el costo sería no otorgar esa 
ayuda en una población que de verdad lo necesite. En cambio, en la segunda, 
sería no otorgar la ayuda a población que sí lo necesita. 
 
 Cuando se introducen costos de clasificación no puede hablarse ya de cálculo 
de probabilidades a posteriori. No obstante se puede obtener un criterio para 
clasificar minimizando el costo total de clasificación errónea. Este costo total 
viene dado por la siguiente expresión: 
 
 
Costo total para clasificación errónea: 
 
 )/(cos)/()/(cos)/( IIItoIIIprobIIItoIIIprob III ××+×× ππ (1.10.1) 
 
Como puede verse en (1.10.1), cada probabilidad va multiplicada por el costo 
en que se incurre. Cuando se minimiza (1.10.1) bajo la hipótesis (1.6.1), el 
punto de corte discriminante CPC , que se obtiene es el siguiente: 
 
Punto de corte con información a priori y costos 
 
 
)/(cos
)/(cos
ln
2, IIIto
IIItoDD
C
I
IIIII
CP
×
×
−
+
=
π
π
 (1.10.2) 
 
 27 
En todos los desarrollos anteriores se han supuesto que las probabilidades son 
conocidas. En la práctica, sin embargo, se utilizan estadísticos muestrales en 
su lugar. El empleo de estadísticos muestrales tiene como consecuencia que se 
subestime la probabilidad de clasificación errónea, cometiéndose por lo tanto 
sesgos sistemáticos en la clasificación. Para disminuir estos sesgos se han 
propuesto, entre otros, dos procedimientos alternativos que pasamos a 
examinar. 
 
Un procedimiento consiste en dividir la muestra total en dos submuestras, 
utilizando la primera muestra para estimar la función discriminante, mientras 
que la segunda se utiliza para su validación. Así, la potencia discriminante de 
la función vendrá determinada por el porcentaje de individuos clasificados 
correctamente en esta segunda submuestra. 
 
El segundo procedimiento consiste en excluir un individuo del grupo I, 
calcular la función discriminante, y clasificar después al individuo que se ha 
excluido. Haciendo lo mismo con el resto de los individuos del grupo I, se 
estima la prob(II/I) con el porcentaje de individuos que han sido clasificados 
del grupo II. Procediendo de la misma forma con los individuos del grupo II, 
se estima al prob(I/II). A este segundo procedimiento se le conoce con la 
denominación jacknif 
1.11 Selección de variables 
 
En las aplicaciones del análisis discriminante se dispone frecuentemente de 
observaciones de un número relativamente elevado de variables 
potencialmente discriminantes. Aunque en todos los desarrollos anteriores se 
han considerado que se conocen a priori cuáles son las variables 
clasificadoras, en la práctica se impone, cuando el número de variables es 
elevado, aplicar un sistema que permita seleccionar variables con más 
capacidad discriminante entre un conjunto de variables más amplio. 
 
En el análisis discriminante, al igual que en el análisis de regresión. Los tres 
métodos más conocidos para selección de variables son los siguientes: 
Selección hacia delante (forward). 
Selección hacia atrás (backward). 
Selección paso a paso (stepwise). 
 28 
Vamos a examinar este último, ya que combina las características de los otros 
dos y además es el que se aplica con mayor frecuencia.Los tres 
procedimientos son procedimientos de carácter iterativo. 
 
La aplicación de procedimientos iterativos requiere definir previamente una 
regla de decisión para medir la bondad del ajuste en cada paso o iteración. Una 
regla de decisión suele ser la minimización del estadístico λ de Wilks (ver 
anexo), ya que cuanto menor sea este estadístico, mayor será el grado del 
ajuste. En cada paso se selecciona la variable para la que se obtenga un menor 
λ. Otra regla de decisión consiste en minimizar la distancia de Mahalanobis 
entre los dos centroides. 
 
En el procedimiento por pasos, en cada paso puede entrar, y también salir una 
variable en el conjunto seleccionado, dependiendo del valor que tenga el 
estadístico F corresponde a la λ de Wilks (ver anexo) o, en general, al 
estadístico que utilice como criterio. Cuanto mayor sea el valor de la F, más 
significativa será la variable para la que se calcula. Antes de comenzar la 
aplicación del procedimiento es necesario fijar un valor F mínimo para entrar 
(F min para entrar) y un valor de F máximo para salir (F max para salir). (ver 
anexo) 
 
El valor de F min-para-entrar debe ser mayor que el de F max-para-salir. De lo 
contrario, una variable podría estar entrando y saliendo de forma indefinida en 
la selección. Cuando se está aplicando el procedimiento por pasos, los niveles 
de significancia con los que se esta trabajando en cada paso no son los 
verdaderos. Para el cálculo de los niveles de significancia verdaderos se 
requeriría tener en cuenta todas las pruebas que se han realizado en el proceso. 
 
En la aplicación del procedimiento por pasos se suele fijar también un nivel de 
tolerancia, que es una medida del grado de asociación lineal entre las variables 
clasificadoras. Para la variable i la tolerancia se define igual a 1- 2ir , donde 
2
ir 
es el coeficiente de determinación entre la variable i y el resto de las variables 
explicativas que figuran en el modelo, es decir, que están seleccionadas en ese 
momento. Cuando la tolerancia de la variable i es muy pequeña significa que 
dicha variable está muy correlacionada con el resto de las variables 
explicativas, lo que puede provocar problemas en la estimación. 
Generalmente, se suele fijar un nivel mínimo de tolerancia del 0.001, con lo 
 29 
que las variables con una tolerancia menor a ese límite son excluidas del 
análisis. 
 
Al iniciar el procedimiento todas las variables explicativas están fuera del 
modelo. En la primera iteración se introduce en el modelo aquella variable con 
menor a λ de Wilks, si este es el criterio que se está empleando, siempre que el 
valor correspondiente de la F sea mayor que la F min-para-entrar. El 
estadístico F inicial de cada variable, correspondiente a la λ de Wilks, que se 
obtiene aplicando el análisis de la varianza a cada una de las variables 
clasificadoras por separado. 
 
Para cada una de las variables que están fuera (en esta primera iteración, todas 
menos una) se calcula el valor de la F correspondiente al cambio que produce 
la introducción de la variable λ de Wilks del modelo. (En la primera iteración, 
la lambda del modelo es la lambda de la variable que ya se ha introducido). A 
la F calculada de esta forma se le denomina F-para-entrar. Se introduce en el 
modelo aquella variable con la F-para-entrar más grande, siempre que su valor 
sea mayor que la F-min-para-entrar. 
 
Si se cumple la condición que se acaba de señalar, el modelo estará integrado 
por dos variables. A continuación se analiza como le afecta a la lambda del 
modelo (calculado con las dos variables), la exclusión de cada una de ellas. 
Para ello, se calcula la F correspondiente al cambio que experimenta la lambda 
del modelo al excluir una variable. A esta F se le denomina F-para-salir. Se 
elimina del modelo aquella variable cuya F-para-salir sea menor que la F-para-
salir. 
 
El proceso continúa hasta que, entre las variables fuera del modelo, no exista 
ninguna variable a la que corresponda una F-para-entrar menor que la F-min-
para-salir. De todas formas, en los paquetes estadísticos se suele fijar un 
número máximo de iteraciones deteniéndose el proceso en ese límite en el 
caso de que no se haya hecho antes. 
 
 30 
1.12 Ejemplo para el caso de dos grupos. Aplicación del Análisis 
Discriminante para asignación de ayuda a poblaciones con bajo 
nivel de bienestar. 
1.12.1 Planteamiento del problema 
 
Cuando el gobierno de un país destina una ayuda económica a una población 
se enfrenta a la doble posibilidad de que la ayuda sea otorgada a una población 
que la necesite o a una que no la necesite. En este último caso la ayuda será 
finalmente clasificada como ayuda mal asignada. Así pues, se pueden 
considerar dos tipos de poblaciones: poblaciones en buen nivel de bienestar y 
poblaciones con mal nivel de bienestar. Como es obvio, si el gobierno 
conociera de antemano que una población tiene buen nivel de bienestar no 
concedería la ayuda en ningún caso. Sin embargo, puede utilizar la 
información existente en las bases de datos de censos levantados en el pasado 
para la concesión de ayudas en el futuro de forma que se evite o, al menos se 
reduzca la posibilidad de conceder una ayuda que después pueda resultar que 
se otorgó de forma errada. Así en los archivos del gobierno seguramente 
existirá información sobre las características de las poblaciones a las que se 
han concedido ayudas, ya que una población que ha solicitado la ayuda facilita 
a los gobiernos datos acerca de sus características de la población tales como 
porcentaje de viviendas con piso de tierra, porcentaje de viviendas con 
drenaje, porcentaje de viviendas con agua entubada, porcentaje de viviendas 
con electricidad, porcentaje de viviendas con un cuarto, porcentaje de 
viviendas que usan leña o carbón para cocinar, porcentaje de viviendas sin 
baño exclusivo, porcentaje de viviendas sin refrigerador o porcentaje de 
viviendas sin televisión etc. Es muy posible que las poblaciones que realmente 
necesiten la ayuda tengan características diferentes a los de las poblaciones 
que no la necesitan. Utilizando estas características se trata de establecer unas 
funciones que clasifiquen lo más correctamente posible a las poblaciones que 
realmente necesitan la ayuda y a las poblaciones que no la necesitan. 
Posteriormente, estas funciones se emplearán, en el caso de que se haya 
realizado adecuadamente dicha clasificación, para determinar si se conceden o 
no las ayudas a futuras poblaciones solicitantes. 
 
En el gobierno se tienen información acerca de 32 poblaciones a los que se les 
concedió ayuda durante un periodo de las ayudas otorgadas en el periodo 
 31 
había 16 poblaciones de este grupo de 32 que fueron clasificados como 
poblaciones con buen nivel de bienestar, mientras que las otras 16 poblaciones 
fueron clasificadas con mal nivel de bienestar y que realmente necesitaban la 
ayuda. Para cada una de las poblaciones se dispone de información sobre su 
porcentaje de viviendas con piso de tierra y porcentaje de viviendas que 
cuenta con el servicio de drenaje, correspondientes al momento de la solicitud. 
En el cuadro (1.12.1.1) se ha reflejado esta información así como la indicación 
de si resultaron o no de buen nivel de bienestar. 
 
Por otra parte, en la mesa del secretario de gobierno hay dos nuevas 
solicitudes de ayuda en este periodo. La primera población tiene el siguiente 
porcentaje en viviendas con piso de tierra de 34% y de viviendas con servicio 
de drenaje de 90%. Para el segundo solicitante los valores de estas variables 
son 10% y 95% respectivamente. 
 
¿Cómo se realizaría en este caso la aplicación del análisis discriminante?, con 
la información sobre las variables porcentaje de viviendas con piso de tierra y 
porcentaje de viviendas con servicio de drenaje trata de construir una función 
discriminante que clasifique con el menor error posible a las poblaciones en 
dos grupos: buen nivel de bienestar y mal nivel de bienestar. Si se obtienenbuenos resultados en esta clasificación, en un paso posterior se utilizará está 
función construida para determinar si se concede el préstamo a las dos nuevas 
solicitantes. De esta forma, si a una población solicitante se le diagnostica 
como población en buen nivel de bienestar no se le concederá la ayuda 
solicitada. 
1.12.2 Grupos iniciales 
 
A partir de la mediana de la variable porcentaje de viviendas con piso de 
tierra, la población que tiene un porcentaje menor al 11% se asigna en el grupo 
1 y los que son igual o están arriba del 11% en el grupo 2. El cuadro 1.12.2.1 
nos muestra las características de los integrantes de cada uno de los grupos en 
cada variable. 
 
 
 
 
 32 
 
Grupo 1: Buen nivel de bienestar Grupo 2: Mal nivel de bienestar 
población 
%de viviendas 
con piso de 
tierra 
% de viviendas 
con servicio de 
drenaje población 
%de viviendas 
con piso de 
tierra 
% de viviendas 
con servicio de 
drenaje 
1 3.03 95.40 4 14.00 64.00 
2 4.23 82.40 6 11.40 93.70 
3 10.00 81.00 7 38.00 62.70 
5 4.43 83.70 10 12.20 74.10 
8 6.11 85.60 12 36.40 54.00 
9 1.19 98.60 13 17.90 66.00 
11 10.00 76.80 16 18.10 75.10 
14 6.65 92.30 17 13.30 85.70 
15 6.46 86.70 18 11.70 80.60 
19 3.34 91.10 20 39.40 45.80 
22 9.22 76.20 21 22.20 65.90 
23 9.98 84.20 24 21.60 62.40 
28 8.53 74.60 25 13.70 74.60 
29 8.76 82.80 26 12.30 79.50 
31 5.56 58.70 27 12.70 85.70 
32 8.57 70.80 30 26.20 68.10 
Total 106.06 1320.90 Total 321.10 1137.90 
Media 6.63 82.56 
 
 Media 20.07 71.12 
Cuadro 1.12.2.1, Muestra la información de las variables porcentaje de viviendas con piso de tierra y 
porcentaje de viviendas con servicio de drenaje para cada población dentro de cada unos de los dos grupos. 
 
1.12.3 Análisis Discriminante utilizando la variable porcentaje de 
viviendas con piso de tierra. 
 
Vamos a aplicar las ideas anteriores a los datos del cuadro 1.12.2.1, en donde 
se va a utilizar en este caso como variable clasificadora el porcentaje de 
viviendas con piso de tierra de las poblaciones, al que se denominará X1. El 
grupo de poblaciones en buen nivel de bienestar será el I mientras que el II 
corresponderá al grupo de mal nivel de bienestar. 
 
Las medias de los dos grupos son los siguientes: 
 
X1I = 6.63 X1II = 20.07 (1.12.3.1) 
 
Aplicando (1.3.1) se obtiene el siguiente valor para el punto de corte C: 
 
 
2
11
1
III XX
C
+
= 
2
07.2063.6 +
= = 13.35 (1.12.3.2) 
 33 
Por lo tanto, este punto de corte Ci se utilizará para clasificar a los estados a 
los que se les ha concedido la ayuda en el gobierno. Si el porcentaje de piso de 
tierra es menor que 13.35 se clasifica a la población como en buen nivel de 
bienestar (I), mientras que se clasifica como población con mal nivel de 
bienestar (II) si el porcentaje de piso de tierra es mayor que esa cifra. 
 
De un total de 32 poblaciones se han clasificado correctamente a 26, lo que 
equivale a un 81.3% del total. En concreto, se han clasificado incorrectamente 
como poblaciones con mala situación a las poblaciones 6, 10, 17, 18, 26 Y 27. 
En el caso del grupo de buen nivel de bienestar se habían clasificado 
correctamente todos los casos. 
 
En el cuadro 1.12.3.3 se ha reflejado el porcentaje de clasificaciones correctas 
e incorrectas de cada grupo. 
 
Clasificado como 
Situación inicial Buen nivel de 
bienestar 
Mal nivel de 
bienestar 
Total 
Buen nivel de bienestar 
Mal nivel de bienestar 
16 = 100% 
6 = 37.5% 
0 = 0 % 
10 = 62.5% 
16 = (100%) 
16 = (100%) 
Cuadro 1.12.3.3 porcentaje de clasificaciones correctas e incorrectas utilizando la variable porcentajes de 
viviendas con piso de tierra. 81.3% del total de los casos fueron clasificados correctamente, del 100% que 
estaban clasificados en el grupo con mal nivel de bienestar, el 37.5% al final fueron clasificados en el grupo 
con buen nivel de bienestar. 
1.12.4 Análisis Discriminante utilizando la variable porcentaje de 
viviendas con servicio de drenaje. 
 
Ahora vamos a utilizar la variable clasificadora porcentajes de viviendas con 
servicio de drenaje, la que designaremos por X2, para ver si se obtienen o no 
mejores resultados que con X1. los datos sobre el porcentaje de viviendas con 
servicio de drenaje también aparecen en el cuadro 1.12.2.1 
 
Las medias muestrales de las deudas pendientes de los dos grupos son: 
 
X2I = 82.56 Y X2II = 71.12 (1.12.4.1) 
 
 
 
 34 
Ahora el punto de corte es el siguiente: 
 
 
2
22
2
III XX
C
+
= 
2
12.7156.82 +
= = 76.84 (1.12.4.2) 
 
Si el porcentaje de viviendas con servicio de drenaje es mayor que 76.84% se 
clasifica a la población en buen nivel de bienestar (I), mientras que se clasifica 
a la población en mala situación (II) si el porcentaje de viviendas con drenaje 
son menores a esa cifra. 
 
En el cuadro 1.12.4.3 se ha reflejado el porcentaje de clasificaciones correctas 
e incorrectas tanto como para buen nivel de bienestar tanto como para mala 
situación. 
 
Clasificado como 
Situación inicial Buen nivel de 
bienestar 
Mal nivel de 
bienestar 
Total 
Buen nivel de bienestar 
Mal nivel de bienestar 
11 = 68.8% 
5= 31.2% 
5 = 31.2 % 
11 = 68.8 % 
16 = (100%) 
16 = (100%) 
Cuadro 1.12.4.3 porcentaje de clasificaciones correctas e incorrectas utilizando la variable porcentajes de 
viviendas con drenaje. 68.8% del total de los casos fueron clasificados correctamente, del 100% que estaban 
clasificados en el grupo de buen nivel de bienestar, el 31.2% paso al grupo de mal nivel de bienetar y del 
100% que estaba clasificado en el grupo de mal nivel de bienestar, el 31.2% al final fueron clasificados en el 
grupo con buen nivel de bienestar. 
 
los resultados con esta segunda variable clasificadora son peores, ya que de 
los 32 casos se clasifican correctamente solo 22 (68.8%). En concreto, se han 
clasificado incorrectamente como en buen nivel de bienestar a las poblaciones 
11, 22, 28, 31 y 32, por el contrario, se han clasificado erróneamente como en 
mala situación a las poblaciones 6, 17, 18, 26 y 27. 
 
En lo que hemos visto se han utilizado dos variables clasificadoras, pero de 
forma separada. ¿se puede mejorar el porcentaje de clientes clasificados 
correctamente si se utilizan las dos variables de forma conjunta?. esta cuestión 
será abordada en el siguiente punto, pero en principio, cabe esperar que la 
clasificación mejore, ya que de las 11 poblaciones que se clasifican 
incorrectamente 6 son distintos para ambas variables, y 5 son los mismos. 
 
 
 35 
1.12.5 Análisis Discriminante utilizando dos variables (porcentaje de 
viviendas con piso de tierra y porcentaje viviendas con servicio de 
drenaje). 
 
Hemos utilizado en los ejemplos pasados como variables explicativas el 
porcentaje de viviendas con piso de tierra y porcentaje de viviendas con 
servicio de drenaje, los centros de gravedad o centroides de los grupos son los 
siguientes: 
 
X I = 





I
I
X
X
2
1
 = 





56.82
63.6
 X II = 





II
II
X
X
2
1
 = 





12.71
07.20
 (1.12.5.1) 
 
La función de clasificación lineal que se obtiene aplicando el método de 
FISHER es la siguiente: 
 
D = 0.31X1 + 0,05X2 (1.12.5.2) 
 
Las variables X1 y X2 tienen el mismo signo. Sustituyendo en la función 
anterior X1 y X2 por las medias X 1,I y X 2,I del grupo I, se obtiene que 
 
D I = 0,31 X 1,I + 0,05 X 2,I = 0,31(6.63) + 0,05(82.56) = 6.23 (1.12.5.3) 
 
procediendo de forma análoga en el grupo II, se obtiene: 
 
D II = 0,31 X 1,II + 0,05 X 2,II = 0,31(20.07)+0,05(71.12) = 9.83 (1.12.5.4) 
 
Aplicando (1.4.13) a este caso concreto, se obtiene el siguiente resultado: 
 
2
III DD
C
+
= = 
2
83.923.6 +
=C = 8.03 (1.12.5.5) 
 
para este caso la función discriminante dada en (1.4.14) es la siguiente: 
 
D - C = 0,31X1 + 0,05X2 - 8.03. (1.12.5.6) 
 
 
 
 36 
El programa SPSS no ofrece la función discriminante de Fisher pero si ofrece 
las funciones a las que se les denominan “función discriminante lineal deFisher”, el cuadro siguiente recoge la salida del programa SPSS para este caso. 
 
Coeficientes de función de clasificación 
Función discriminante lineal de Fisher 
Grupo 1 2 
Viviendas con piso de tierra 1.66093393 1.97163861 
Viviendas con servicio de drenaje 1.40664909 1.45721849 
Constante -64.2619422 -72.2950869 
Cuadro 1.12.5.7 salida del SPSS de la función discriminante de Fisher aplicado a los 
niveles de bienestar de las 32 poblaciones. 
 
Puede comprobarse que si restamos, de acuerdo con (1.4.17), los coeficientes 
de la segunda columna (grupo II) de los coeficientes de la primera columna 
(grupo I), se obtiene los coeficientes de la función DI, DII y D – C. 
 
En el cuadro 1.12.5.8 se ha aplicado la función discriminante anterior a cada 
una de las poblaciones. La puntuación discriminante obtenida por cada 
población aparece en la penúltima columna. Todas las poblaciones que 
obtengan puntuación negativa son asignadas al grupo I, mientras que los que 
tienen puntuación positiva se asignan al grupo II. 
 
Contemplando el grupo real de pertenencia y el grupo asignado se observa que 
5 poblaciones fueron mal clasificadas. 
 
 
 
 
 
 
 
 
 
 
 
 
 37 
Población 
Grupo 
inicial 
Porcentaje de 
viviendas con 
piso de tierra 
Porcentaje de 
viviendas con 
servicio de drenaje 
Puntuación 
discriminante 
Grupo 
final 
1 I 3.03 95.4 -2.27 I 
2 I 4.23 82.4 -2.55 I 
3 I 10 81 -0.83 I 
5 I 4.43 83.7 -2.42 I 
8 I 6.11 85.6 -1.81 I 
9 I 1.19 98.6 -2.68 I 
11 I 10 76.8 -1.04 I 
14 I 6.65 92.3 -1.30 I 
15 I 6.46 86.7 -1.64 I 
19 I 3.34 91.1 -2.39 I 
22 I 9.22 76.2 -1.32 I 
23 I 9.98 84.2 -0.67 I 
28 I 8.53 74.6 -1.61 I 
29 I 8.76 82.8 -1.12 I 
31 I 5.56 58.7 -3.34 I 
32 I 8.57 70.8 -1.79 I 
4 II 14 64 -0.45 I 
6 II 11.4 93.7 0.25 II 
7 II 38 62.7 6.94 II 
10 II 12.2 74.1 -0.50 I 
12 II 36.4 54 6.01 II 
13 II 17.9 66 0.87 II 
16 II 18.1 75.1 1.39 II 
17 II 13.3 85.7 0.43 II 
18 II 11.7 80.6 -0.32 I 
20 II 39.4 45.8 6.52 II 
21 II 22.2 65.9 2.20 II 
24 II 21.6 62.4 1.83 II 
25 II 13.7 74.6 0.00 I 
26 II 12.3 79.5 -0.19 I 
27 II 12.7 85.7 0.25 II 
30 II 26.2 68.1 3.55 II 
Cuadro 1.12.5.8 clasificación inicial y final de los grupos en buen nivel de bienestar (grupo 
I) y mal nivel de bienestar (grupo II) utilizando la función discriminante de Fisher. 
 
En el cuadro 1.12.5.8 se ha reflejado el resúmen de la clasificación del cuadro 
1.12.2.1. a veces se utiliza en el análisis discriminante la expresión de matriz 
de confusión para referirse a los cuadros del tipo 1.12.5.9 
 
 Clasificado como 
Situación inicial Buen nivel de 
bienestar 
Mal nivel de 
bienestar 
Total 
Buen nivel de 
bienestar 
Mal nivel de 
bienestar 
16 = 62.5% 
 
5 = 31.2% 
0 = 0 % 
 
11 = 68.8 % 
16 = (100%) 
 
16 = (100%) 
Cuadro 1.12.5.9 porcentaje de clasificaciones correctas e incorrectas utilizando la función 
discriminante. Total de casos clasificados correctamente: 27 (84.4%) 
 
 38 
Como puede verse ha mejorado ligeramente el porcentaje de casos 
clasificados correctamente, respecto a la utilización de variables explicativas 
por separado. 
 
1.12.6 Solución a la petición de ayuda a las dos poblaciones solicitantes 
 
Veamos ahora como se clasifican las dos solicitudes de ayuda que tiene el 
secretario de gobierno de ese país. 
 
Sustituyendo los valores de porcentaje de viviendas con piso de tierra y 
porcentaje de viviendas con servicio de drenaje en la ecuación (1.12.6.1) se 
obtienen los siguientes resultados: 
 
Ecuación D - C = 0,0537X2 - 0,0017X1 - 5,077. (1.12.6.1) 
 
D - C = 0,31X1 + 0,05X2 - 8.03. (1.12.6.2) 
 
Solicitante 1: D – C = 0,31 (34) + 0,05 (90) – 8.03 = 7.01 
Solicitante 2: D – C = 0,31 (10) + 0,05(95) – 8.03 = -0.18 (1.12.6.3) 
 
Como la puntuación es positiva en el caso del primer solicitante se clasifica 
como población con mal nivel de bienestar. Y en buen nivel de bienestar el 
segundo solicitante. Y es de suponerse ya que la función discriminante de la 
primer población es muy elevada por el alto porcentaje de viviendas con piso 
de tierra que tiene. Así que el gobierno asignará apoyos a la primer población 
y a la segunda no le asignará. 
 
En el siguiente capítulo se verá inicialmente un contexto de la definición de 
bienestar que se aplicará en el desarrollo de esta tesis, la definición y la 
descripción de las variables, la aplicación del análisis discriminante a los 
niveles de bienestar en México, el resultado de la salida del SPSS a la base de 
los 32 estados de la república con 32 variables clasificadoras y 7 niveles de 
bienestar, la función discriminante estadísticamente más significativa, 
comparación gráfica entre pares de funciones discriminantes. 
 
 39 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Capítulo 2. Análisis Discriminante Aplicado a 
los niveles de Bienestar en México 
 40 
2.1 ¿Qué se entiende por Bienestar? 
 
Se entendería por bienestar como una abundancia en bienes y servicios, 
aunque en realidad definir bienestar es complejo, ya que, ésta es una palabra 
que se puede manejar en distintos ámbitos de la vida, por ejemplo una persona 
puede sentir un bienestar en cuestión espiritual mientras que en el sentido 
material carece de los bienes y servicios que le darían buen nivel de bienestar 
o viceversa; otro ejemplo podría citarse en cuestión de salud, donde una 
persona tendría un nivel de bienestar alto por tener una buena salud y el que 
carece de ella tendría un nivel de bienestar bajo. Para está tesis vamos a 
manejar el nivel de bienestar en el sentido de las variables demográficas que 
se manejarán, por ejemplo en el caso de que solo fuera la variable “porcentaje 
de viviendas con piso de tierra”, una población tendrá un nivel de bienestar 
elevado si su porcentaje es bajo, y caso contrario una población tendrá nivel 
de bienestar bajo si su porcentaje es alto, otro ejemplo sería que se midiera el 
bienestar con la variable “porcentaje de personas de 12 años o más que asisten 
a la escuela” si una población tiene este porcentaje elevado podría decirse que 
su nivel de bienestar es elevado y caso contrario que es bajo. Dado que el 
nivel de bienestar en general depende de muchas variables, se puede decir que 
una población tendría un nivel de bienestar alto si en la mayoría de las 
variables esta en situación privilegiada y caso contrario la población tendría 
un nivel de bienestar bajo. No quiere decir con esto, que una población que 
tenga estadísticamente un nivel de bienestar bajo, todos los habitantes lo 
tengan, ya que dentro de cada población puede haber gente pobre como no 
pobre, lo que sí se puede decir es que encontraremos con mayor probabilidad a 
gente pobre en las poblaciones donde su nivel de bienestar sea bajo. 
 
2.2 Variables utilizadas 
 
Las variables que se van a utilizar se seleccionaron en base a su tipo, facilidad 
de obtención, indicador, además que son 32 variables potencialmente 
discriminantes. Y al aplicar el método nos permite seleccionar variables con 
más capacidad discriminantes entre este conjunto más amplio. 
Las datos para este trabajo se obtuvieron de la base del XII Censo de 
Población y Vivienda 2000, consultada en Internet del INEGI (Instituto 
 41 
Nacional de Estadística Geografía e Informática); Para obtener las variables 
indicadoras de características y servicios con que cuentan las viviendas, se 
saca un promedio o el porcentaje en dado caso por cada estado y por variable. 
Se muestran y se describen a continuación las variables utilizadas: 
MEN15 Porcentaje de población menor de 15 años. 
NACOEDO Porcentaje de población residente nacida en otro estado. 
LEE6_15 Porcentaje de población de 6 a 14 años alfabeto. 
ALFAMAY15 Porcentaje de población de 15 años y más alfabeta. 
ESC6_11 Porcentaje de población de 6 a 11 años que asiste a la escuela. 
ESC12_14 Porcentaje de población de 12 a 14 años que asiste a la escuela. 
ESC15_19 Porcentaje de población de 15 a 19 años que asiste a la escuela. 
NVIVM12 Promedio de hijos nacidos vivos de mujeresde 12 años y mas. 
NVI12_19 Promedio de hijos nacidos vivos de mujeres de 12 a 19 años. 
PEA Porcentaje de población económicamente activa. 
ACTGOB Porcentaje de población que son trabajadores en servicios 
públicos. 
COMER Porcentaje de población que son comerciantes o dependientes. 
TRAME24 Porcentaje de población que trabaja menos de 24 horas a la 
semana. 
PITIERRA Porcentaje de viviendas con piso de tierra. 
VIDREN Porcentaje de viviendas con drenaje. 
VIAGUA Porcentaje de viviendas con agua entubada. 
VIELEC Porcentaje de viviendas con electricidad. 
NVI12_29 Número promedio de hijos nacidos vivos de mujeres de 12 a 29 
años. 
RURAL Porcentaje de población rural. 
URBANA Porcentaje de población urbana. 
POSPRIM Porcentaje de población posprimaria. 
SEPRIM Porcentaje de población ocupada en el sector primario. 
SECTERC Porcentaje de población ocupada en el sector terciario. 
TRAME33 Porcentaje de población que trabaja menos de 33 horas a la 
semana. 
UNCUARTO Porcentaje de viviendas con un cuarto. 
LENA Porcentaje de viviendas que usan leña o carbón para cocinar. 
NODERECH Porcentaje de población no derechohabiente. 
SINPAGO Porcentaje de población ocupada que son trabajadores familiares 
sin pago. 
FAL20_29 Promedio de hijos fallecidos de mujeres de 20 a 29 años. 
SINSANEX Porcentaje de viviendas sin baño exclusivo. 
SINREFRI Porcentaje de viviendas sin refrigerador. 
SINTELE Porcentaje de viviendas sin televisión. 
 
 42 
 
• Porcentaje de población menor de 15 años. 
Esta variable es un indicador de la población en promedio menor de 16 años 
de cada Estado de la republica. En general se trata de un número que contiene 
decimales; esta circunstancia no debe mal interpretarse: Ya que este 
porcentaje es obtenido de una población cerrada y nos arroja cantidades 
enteras. 
• Porcentaje de población residente nacida en otro estado. 
Esta variable nos indica movimiento migratorio. 
• Porcentaje de población de 6 a 14 años alfabeta. 
• Porcentaje de población de 15 años y más alfabeta. 
• Porcentaje de población de 6 a 11 años que asiste a la escuela. 
• Porcentaje de población de 12 a 14 años que asiste a la escuela. 
• Porcentaje de población de 15 a 19 años que asiste a la escuela. 
Estas cinco variables nos indican el nivel de desarrollo cultural y educativo 
dentro de cada uno de los estados. 
• Número promedio de hijos nacidos vivos de mujeres de 12 a 19 años. 
• Número promedio de hijos nacidos vivos de mujeres de 12 a 29 años. 
• Número promedio de hijos nacidos vivos de mujeres de 12 años y más. 
• Número promedio de hijos fallecidos de mujeres de 20 a 29 años. 
Las tres primeras variables son indicadores de la fecundidad de grupos de 
mujeres jóvenes (entre 12 y 19 años), de un grupo más grande mujeres jóvenes 
(entre 12 y 29 años) y del total de mujeres en edad fértil (mayores de 12 años); 
y un cuarto grupo indica la mortalidad infantil del segundo grupo (mujeres 
jóvenes entre 20 y 29 años). En general se tratará de un número decimal; esta 
circunstancia no debe mal interpretarse: Si bien es cierto que una madre no 
puede tener, por ejemplo, 0,34 hijos o 1,28 hijos, sí es posible que al hacer la 
media de todas las mujeres (madres o no) se obtenga un número decimal. Se 
debe insistir en que al interpretar esta media debe pensarse que es una medida 
de la fecundidad de las mujeres y de mortalidad infantil. 
 43 
• Porcentaje de población que trabaja menos de 24 horas a la semana. 
• Porcentaje de población que trabaja menos de 33 horas a la semana. 
• Porcentaje de población que son comerciantes o dependientes. 
• Porcentaje de población que son trabajadores en servicios públicos. 
• Porcentaje de población posprimaria. 
• Porcentaje de población ocupada en el sector primario. 
• Porcentaje de población ocupada en el sector terciario. 
• Porcentaje de población ocupada que son trabajadores familiares sin 
pago. 
Estas variables son indicadoras de la población económicamente activa en 
general, en segunda instancia se menciona las horas trabajadas en la semana, 
tipo de ocupación y sector donde se desarrolla su actividad. 
• Porcentaje de viviendas con piso de tierra. 
• Porcentaje de viviendas con drenaje. 
• Porcentaje de viviendas con agua entubada. 
• Porcentaje de viviendas con electricidad. 
• Porcentaje de viviendas con un cuarto. 
• Porcentaje de viviendas que usan leña o carbón para cocinar. 
• Porcentaje de viviendas sin baño exclusivo. 
• Porcentaje de viviendas sin refrigerador. 
• Porcentaje de viviendas sin televisión. 
Estas variables son indicadoras de las características de las viviendas y de 
servicios con los que cuentan. 
• Porcentaje de población rural. 
• Porcentaje de población urbana. 
• Porcentaje de población no derechohabiente. 
Estas variables son indicadoras de características sociodemográficas y de 
salud de la población. 
 
 
 
 44 
2.3 Planteamiento del problema. 
Se quiere saber si las 32 variables descritas en la tabla 2.2.1 pueden 
discriminar los niveles de bienestar propuestos en la tabla 2.3.1 o si se 
requieren menos variables para poder dar una discriminación de estos grupos, 
además de saber que porcentaje de poblaciones fueron clasificados 
correctamente y como objetivo último del análisis discriminante es encontrar 
la combinación lineal de las variables independientes que mejor permiten 
diferenciar (discriminar) a los grupos para futuras clasificaciones. 
 
Empecemos primero viendo el grupo al que pertenece cada población (ver 
tabla 2.3.1), esta tabla nos muestra los grupos y sus integrantes en cada uno de 
los niveles de bienestar que nos dio el INEGI, como podemos ver en el nivel 
de bienestar alto (nivel 7) está conformado solo con el Distrito Federal, y el 
nivel más bajo (nivel 1) está conformado por los estados de Chiapas, Guerrero 
y Oaxaca, los cuales están dentro del nivel de bienestar más bajo, y el grupo 
que contiene más estados es el grupo 6 (contiene de 9 estados). 
 
Estado 
Estrato 
(Grupo) 
 
Estado 
Estrato 
(grupo) 
Distrito Federal 7 Querétaro 4 
Aguascalientes 6 Sinaloa 4 
Baja California 6 Tlaxcala 4 
Baja California Sur 6 Yucatán 4 
Coahuila 6 Guanajuato 3 
Chihuahua 6 Michoacán 3 
México 6 Zacatecas 3 
Nuevo León 6 Campeche 2 
Sonora 6 Hidalgo 2 
Tamaulipas 6 Puebla 2 
Quintana Roo 5 San Luís Potosí 2 
Colima 4 Tabasco 2 
Durango 4 Veracruz 2 
Jalisco 4 Chiapas 1 
Morelos 4 Guerrero 1 
Nayarit 4 Oaxaca 1 
Tabla 2.3.1, la tabla muestra la pertenencia de los estados de la república en cada nivel de 
bienestar. 
 
 45 
2.4 Clasificación del análisis discriminante utilizando una sola variable a 
la vez 
 
Veamos primeramente el porcentaje de casos correctamente clasificados al 
aplicar cada variable por separado. En la tabla 4.1.2 se muestran el porcentaje 
de casos clasificados correctamente cuando se aplica el análisis discriminante 
utilizando el paquete estadístico SPSS y utilizando una sola variable a la vez. 
 
No. 
Variable 
% de casos 
originales 
clasificados 
correctamente 
1 Porcentaje de población menor a 15 años 65.6 
2 Población nacida en otro estado 40.6 
3 Población entre 6 y 15 años que sabe leer y escribir 59.4 
4 Porcentaje de población mayor a 15 años alfabeto 53.1 
5 Porcentaje de personas entre 6 y 11 años que asiste a la escuela 50 
6 Porcentaje de personas entre 12 y 14 años que asiste a la escuela 28.1 
7 Porcentaje de personas entre 15 y 19 años que asiste a la escuela 37.5 
8 Promedio de hijos nacidos vivos de mujeres mayor a 12 años 56.3 
9 Promedio de niños nacidos vivos de mujeres entre 12 y 19 años 28.1 
10 población económicamente activa 31.3 
11 Porcentaje de personas que trabajan en actividades del gobierno 18.8 
12 Población ocupada en el comercio 40.6 
13 Población que trabaja menos de 24 horas a la semana 25 
14 Porcentaje de viviendas con piso de tierra 40.6 
15 Porcentaje de viviendas con servicio de drenaje 46.9 
16 Porcentaje de viviendas con servicio de agua entubada 56.3 
17 Porcentaje de viviendas con servicio

Otros materiales