Logo Studenta

Muestra-censal-2010--estimacion-de-varianzas

¡Este material tiene más páginas!

Vista previa del material en texto

UNIVERSIDAD NACIONAL
AUTÓNOMA
DE MÉXICO
FACULTAD DE CIENCIAS
Muestra Censal 2010:
Estimación de Varianzas
T E S I S
QUE PARA OBTENER EL TÍTULO DE:
Actuario
PRESENTA:
Sonny Alberto Medina Jiménez
TUTORA
Dra. Guillermina Eslava Gómez
2016
Ciudad Universitaria, CDMX
 
UNAM – Dirección General de Bibliotecas 
Tesis Digitales 
Restricciones de uso 
 
DERECHOS RESERVADOS © 
PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL 
 
Todo el material contenido en esta tesis esta protegido por la Ley Federal 
del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). 
El uso de imágenes, fragmentos de videos, y demás material que sea 
objeto de protección de los derechos de autor, será exclusivamente para 
fines educativos e informativos y deberá citar la fuente donde la obtuvo 
mencionando el autor o autores. Cualquier uso distinto como el lucro, 
reproducción, edición o modificación, será perseguido y sancionado por el 
respectivo titular de los Derechos de Autor. 
 
 
 
1.Datos del alumno
Medina
Jiménez
Sonny Alberto
55 2180 4102
Universidad Nacional Autónoma de México
Facultad de Ciencias
Actuaŕıa
309219934
2.Datos del tutor
Dra.
Guillermina
Eslava
Gómez
3.Datos del sinodal 1
Act.
Francisco
Sánchez
Villarreal
4.Datos del sinodal 2
Dr.
Carlos
Dı́az
Ávalos
5.Datos del sinodal 3
Act.
David Chaffrey
Moreno
Fernández
6.Datos del sinodal 4
Act.
Cristina
Ortuño
Mojica
7.Datos del trabajo escrito
Muestra Censal 2010: Estimación de Varianzas
155 p
2016
A la Universidad Nacional Autónoma de México
Agradecimientos
A mis padres Silvia y Alberto, todo su apoyo y el cariño que nunca me ha faltado.
A mis amigos Angélica, Agust́ın, Armando, Diego, Dulce, Eduardo, Ernesto, Mariana,
Rafa y Sebastián, todas las mañanas y tardes en la facultad, la brisca, las comidas y las
fiestas. A Dana, por escucharme, entenderme y aconsejarme. A todos los amigos que no
nombré y que han llenado mi camino de buenas experiencias.
A mis sinodales, su atención, tiempo y valiosas correcciones, especialmente a Cristina
Ortuño, cuyos comentarios y sugerencias me han instruido en lo personal y lo profesional.
A todos mis profesores, tanto de Ciencias como de la FES Acatlán, el empeño y el gusto
contagioso por impartir sus clases, por haber contribuido positivamente en mi formación
académica y humana. A la doctora Guillermina, su valioso ejemplo, su sinceridad, su
tiempo y por enseñarme en cada curso el compromiso con la Universidad.
Índice general
Agradecimientos
Resumen I
Introducción III
1. Estimación de varianzas en la Muestra Censal 1
1.0.1. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1. Introducción a la estimación de varianza . . . . . . . . . . . . . . . . . . . 4
1.1.1. Estimador de Horvitz-Thompson . . . . . . . . . . . . . . . . . . . 4
1.2. Diseño de la Muestra Censal 2010 . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.1. Muestreo Estratificado Simple por Conglomerados . . . . . . . . . . 8
1.3. Estructura del diseño muestral . . . . . . . . . . . . . . . . . . . . . . . . . 10
Distrito Federal - Estructura del diseño muestral . . . . . . . . . . . . . . . 12
1.4. Alternativas de cálculo de varianza estimada implementadas en el software 13
1.4.1. The Ultimate Cluster Method . . . . . . . . . . . . . . . . . . . . . 15
1.5. Tabulados Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2. Metodoloǵıa de estimación de varianzas 19
2.1. Método de los Grupos Aleatorios . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.1. Grupos Aleatorios Independientes . . . . . . . . . . . . . . . . . . . 20
2.2. Estimador de Estratos Colapsados . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.1. Sesgo del Estimador de Estratos Colapsados . . . . . . . . . . . . . 23
2.2.2. Generalización del Estimador de Estratos Colapsados . . . . . . . . 24
2.2.3. Estimador de varianza de estimadores de razón . . . . . . . . . . . 25
ÍNDICE GENERAL
3. Resultados 29
3.1. Total poblacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.1.1. Chiapas, población estimada por municipio y tipo de estrato . . . . 31
3.1.2. Chiapas, comparación de varianzas estimadas . . . . . . . . . . . . 35
3.1.3. Distrito Federal, población estimada por municipio y tipo de estrato 38
3.1.4. Distrito Federal, comparacion de varianzas estimadas . . . . . . . . 39
3.1.5. Jalisco, población estimada por municipio y tipo de estrato . . . . . 41
3.1.6. Jalisco, comparacion de varianzas estimadas . . . . . . . . . . . . . 43
3.2. Bienes y tecnoloǵıas de la información y la comunicación (Internet) . . . . 45
3.2.1. Chiapas, Viviendas estimadas por disponibilidad de internet . . . . 45
3.2.2. Distrito Federal, Viviendas estimadas por disponibilidad de internet 47
3.2.3. Jalisco, Viviendas estimadas por disponibilidad de internet . . . . . 48
3.3. Autoadscripción étnica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.3.1. Chiapas, proporción estimada de personas autoconsideradas ind́ıgenas 51
3.3.2. Distrito Federal, proporción estimada de personas autoconsideradas
ind́ıgenas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.3.3. Jalisco, proporción estimada de personas autoconsideradas ind́ıgenas 56
4. Conclusiones 59
A. Estructura del diseño de la muestra censal 61
Chiapas - Estructura del diseño muestral . . . . . . . . . . . . . . . . . . . 61
Jalisco - Estructura del diseño muestral . . . . . . . . . . . . . . . . . . . . 66
B. Resultados municipales 71
B.1. Total poblacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
B.1.1. Chiapas, población estimada por municipio y tipo de estrato . . . . 71
B.1.2. Chiapas, comparación de varianzas estimadas . . . . . . . . . . . . 76
B.1.3. Jalisco, población estimada por municipio y tipo de estrato . . . . . 81
B.1.4. Jalisco, comparacion de varianzas estimadas . . . . . . . . . . . . . 86
B.2. Bienes y tecnoloǵıas de la información y la comunicación (Internet) . . . . 91
B.2.1. Chiapas, Viviendas estimadas por disponibilidad de internet . . . . 91
B.2.2. Jalisco, Viviendas estimadas por disponibilidad de internet . . . . . 96
B.3. Autoadscripción étnica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
B.3.1. Chiapas, proporción estimada de personas autoconsideradas ind́ıgenas101
B.3.2. Jalisco, proporción estimada de personas autoconsideradas ind́ıgenas106
ÍNDICE GENERAL
C. Encuesta Intercensal 2015 111
D. Programación en R 123
D.1. Estructura del diseño muestral por entidad . . . . . . . . . . . . . . . . . . 123
D.2. Estimación de Varianzas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
E. Cuestionarios 133
E.1. Cuestionario Básico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
E.2. Cuestionario Ampliado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
Catálogo de municipios 156
Bibliograf́ıa 159
ÍNDICE GENERAL
Índice de cuadros
1.1. Estructura del diseño muestral, Distrito Federal. . . . . . . . . . . . . . . . 12
1.2. Resumen de la estructura del diseño muestral. . . . . . . . . . . . . . . . . 13
3.1. Chiapas. Población estimada y desviación estándar estimada por tipo de
estrato en municipios afectados por estratos problemáticos. . . . . . . . . . 33
3.2. Chiapas. Comparación de varianzas estimadas en municipios con estratos
problemáticos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3. Distrito Federal. Población estimada y desviación estándar estimada por
tipo de estrato en delegaciones afectadas por estratos problemáticos . . . . 38
3.4. Distrito Federal. Comparación de varianzas estimadas en delegaciones con
estratos problemáticos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5. Jalisco. Población estimada y desviación estándar estimada por tipo de
estratoen municipios afectados por estratos problemáticos. . . . . . . . . . 41
3.6. Jalisco. Comparación de varianzas estimadas en municipios con estratos
problemáticos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.7. Chiapas. Número estimado de viviendas por condición de disponibilidad
de Internet en municipios con estratos problemáticos. . . . . . . . . . . . . 45
3.8. Distrito Federal. Número estimado de viviendas por condición de disponi-
bilidad de Internet en delegaciones con estratos problemáticos. . . . . . . . 47
3.9. Jalisco. Número estimado de viviendas por condición de disponibilidad de
Internet en municipios con estratos problemáticos. . . . . . . . . . . . . . . 48
3.10. Viviendas estimadas por disponibilidad de internet en Guadalajara. . . . . 49
3.11. Chiapas. Proporción estimada de personas que se autoconsideran ind́ıgenas
en municipios con estratos problemáticos. . . . . . . . . . . . . . . . . . . . 51
3.12. Distrito Federal. Proporción estimada de personas que se autoconsideran
ind́ıgenas en delegaciones con estratos problemáticos. . . . . . . . . . . . . 54
3.13. Jalisco. Proporción estimada de personas que se autoconsideran ind́ıgenas
en municipios con estratos problemáticos. . . . . . . . . . . . . . . . . . . . 56
A.1. Estructura del diseño muestral, Chiapas. . . . . . . . . . . . . . . . . . . . 61
ÍNDICE DE CUADROS
A.2. Estructura del diseño muestral, Jalisco. . . . . . . . . . . . . . . . . . . . . 66
B.1. Chiapas. Población estimada y desviación estándar estimada por municipio
y tipo de estrato. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
B.2. Chiapas. Comparación de varianzas estimadas mediante el método de
estratos colapsados, la opción adjust y lo reportado en los tabulados básicos. 76
B.3. Jalisco. Población estimada y desviación estándar estimada por municipio
y tipo de estrato. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
B.4. Jalisco. Comparación de varianzas estimadas mediante el método de
estratos colapsados, la opción adjust y lo reportado en los tabulados básicos. 86
B.5. Chiapas. Número estimado de viviendas por condición de disponibilidad
de Internet. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
B.6. Jalisco. Número estimado de viviendas por condición de disponibilidad de
Internet. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
B.7. Chiapas. Proporción estimada de personas que se autoconsideran ind́ıgenas. 101
B.8. Jalisco. Proporción estimada de personas que se autoconsideran ind́ıgenas. 106
C.1. Estructura de la Muestra de la Encuesta Intercensal 2015, Distrito Federal. 112
C.2. Estructura del diseño muestral de la Encuesta Intercensal 2015, Chiapas. . 113
C.3. Estructura del diseño muestral de la Encuesta Intercensal 2015, Jalisco. . . 117
E.1. Catálogo de municipios de Chiapas . . . . . . . . . . . . . . . . . . . . . . 152
E.2. Catálogo de municipios de Jalisco . . . . . . . . . . . . . . . . . . . . . . . 154
Resumen
En la presente tesis se realiza la estimación de varianzas de estimadores de parámetros
poblacionales sobre la Muestra Censal 2010 (MC2010). Se seleccionaron tres entidades:
Chiapas, Distrito Federal y Jalisco, y los parámetros poblacionales: población total, dispo-
sición de internet en las viviendas y proporción de personas autoconsideradas ind́ıgenas.
Los resultados son presentados a nivel municipal y estatal.
Sobre las bases de datos correspondientes a Personas y Viviendas (unidades de análisis
de la MC2010) se hace un manejo cuidadoso de las variables asociadas al diseño muestral
(estratificado y por conglomerados). Su estructura, conformada por estratos; unidades
primarias de muestreo y unidades de análisis en cada municipio, se presenta en forma de
tablas.
Se emplea el Método de los Estratos Colapsados, debido a la existencia de estratos con
solo una unidad primaria de muestreo. Se presentan los estimadores de Horvitz-Thompson,
reportados por el INEGI en el documento Diseño de la Muestra Censal 2010 [4], y las
dificultades en la estimación de varianzas mediante el uso de estos.
Se introduce el Método de los Grupos Aleatorios, antecedente directo del Estimador de
Estratos Colapsados, seguido de los resultados teóricos que exhiben su sesgo y demuestran
que el estimador sosbreestima la varianza poblacional.
La estimación de parámetros poblacionales a partir de la MC2010 es una tarea que realiza
el INEGI y cuyos resultados son conocidos como Tabulados Básicos. Los valores estimados
puntuales e intervalares en esta tesis se presentan mediante tablas, gráficas de intervalos de
confianza y comparaciones. Estas últimas con lo calculado mediante una de las alternativas
provista en el paquete survey del software R, la opción adjust y lo presentado en los
Tabulados Básicos.
De la comparación antes mencionada se observa que el Método de Estratos Colapsados
provee estimaciones útiles, que no subestiman la varianza poblacional de los estimadores
y son menores que las obtenidas con la opción adjust.
I
II RESUMEN
Introducción
La Muestra Censal 2010 (MC2010) levantada durante los meses de mayo y junio de 2010,
provee la información recabada en alrededor de 2.9 millones de viviendas mediante el
cuestionario ampliado1. Su objetivo, al igual que el de toda muestra probabiĺıstica, es la
estimación de parámetros poblacionales. En esta estimación de caracteŕısticas la varianza
de los estimadores es un tema crucial. La estimación de varianzas se realiza en
En el primer caṕıtulo se presenta el problema de estimación de varianzas dentro de la
Muestra Censal 2010, en el mismo caṕıtulo se detallan sus caracteŕısticas y se presentan
las estructuras del diseño muestral en el Distrito Federal, las estructuras de Chiapas y
Jalisco se encuentran en el apéndice A. También se presentan las alternativas de cálculo
de varianza implementaddas en R y Stata.
En el segundo caṕıtulo se detalla la metodoloǵıa de estimación de varianza, se presenta
el estimador de grupos aleatorios, dos teoremas sobre el insesgamiento del mismo y la
distribución asintótica de este, y el estimador de estratos colapsados, para el estimador
de un total poblacional y el estimador de razón. Al final de este caṕıtulo se muestra el
método Logit de construcción de intervalos de confianza para proporciones.
Los resultados de la estimación de varianzas para las siguientes caracteŕısticas poblaciona-
les: Población, Disposición de Internet en viviendas y Autoadscripción étnica, se muestran
en el tercer caṕıtulo, en el cual también se realiza la comparación respecto a los tabulados
básicos y la opción adjust.
Se incluyen también cinco apéndices, en el Apéndice A, Estructura del Diseño Muestral, se
presenta la estructura del diseño de la muestra censal en Chiapas y Jalisco, mientras que la
del Distrito Federal se encuentra en la sección 1.3. El Apéndice B, Resultados Municipales,
contiene las tablas de resultados de valores estimados en cada uno de los municipios de
las entidades seleccionadas. En el Apendice C Encuesta Intercensal 2015 se presenta la
estructura del diseño muestral en la encuesta intercensal para las entidades seleccionadas y
se hacen comparaciones breves entre la magnitud de tal muestra y la MC2010, aśı como de
la existencia de estratos problemáticos para la estimación de varianza. En el Apéndice D
de Programación, se encuentra el código de R utilizado para la estimación de parámetros y
sus varianzas. Por último el Apéndice E Cuestionarios contiene los cuestionarios censales,
básico y ampliado de la MC2010.
1El cuestionario ampliado comparte 29 preguntas con el cuestionario básico y profundiza en temas
de salud, pertenencia étnica, educación y religión. Véase apéndice de cuestionarios.
III
IV INTRODUCCIÓN
En el libro de Wolter[13], el problema de estimación de varianza se aborda para una
gran variedad de situaciones y mediante diferentes técnicas, los resultados y teoremas del
Caṕıtulo 2 se remiten a [13] y [2], donde pueden consultarse las demostraciones y detalles
adicionales.
Caṕıtulo 1
Estimación de varianzas en la
Muestra Censal
La estimación de parámetros poblacionales es el objetivo del levantamiento de cual-
quier muestra probabiĺıstica. Cuando una muestra es aleatoria, la estimación de un paráme-
tro poblacional se realiza a partir de funciones de la muestra llamadas estimadores. Los
estimadores son variables aleatorias con esperanza y varianza, que dependen, tanto de
la forma del estimador como de la probabilidad con la que se selecciona una muestra
espećıfica..
Al estimar caracteŕısticas de toda una población a partir de sólo la información provenien-
te de una muestra, reportar la precisión de las estimaciones es imprescindible. La pregunta
inmediata es ¿cómo se mide la precisión de una estimación derivada de una muestra?
La medida más común de precisión es la varianza del estimador1, la cual en general no es
conocida, pues si bien el estimador es una variable aleatoria cuya distribución es motivada
por el diseño de la muestra, su esperanza y varianza dependen del conocimiento de todos
los valores que puede tomar el estimador sobre cada una de las muestras posibles. Al no
ser viable el cálculo exacto de la varianza del estimador, se requiere su estimación a partir
de la información conocida, la información provista por la muestra.
A continuación se introduce la notación que se usa a lo largo del presente trabajo.
1.0.1. Notación
(1) Denotaremos por U = {u1, u2, ..., uN} una población finita de unidades identifica-
bles, con N elementos o unidades poblacionales, a menudo U también será denotado
únicamente como el conjunto de sub́ındices de los elementos poblacionales que con-
tiene, U = {1, 2, ..., N}.
1Cuando un estimador es insesgado, se reporta la varianza, de ser sesgado, se reporta el error
estándar.
1
2 CAPÍTULO 1. ESTIMACIÓN DE VARIANZAS EN LA MUESTRA CENSAL
(2) Una muestra s = {u1, u2, ..., uns} es un subconjunto no vaćıo de U , con ns el tamaño
de la muestra s.
(3) Un dominio Ud = {u1, u2, ..., uNd} es un subconjunto de U que comúnmente denota
a una subpoblación espećıfica, por ejemplo, en una población de personas U , la
subpoblación conformada por únicamente mujeres es un dominio Ud.
(4) Sea L el conjunto de todas las muestras posibles de la población U , una función
p() : L → [0, 1] es un diseño muestral si satisface las siguientes propiedades:
(i) p(s) ≥ 0 ∀s ∈ L
(ii)
∑
s∈L
p(s) = 1.
La función p(s) denota la probabilidad de selección de la muestra s ⊆ U .
(5) Dado un diseño muestral definimos la probabilidad de inclusión de primer orden πk
como la probabilidad de que la unidad k sea seleccionada en la muestra
πk =
∑
s∋k
p(s)
para k = 1, ..., N . El factor de expansión de la unidad poblacional k es wk =
1
πk
.
Decimos que la unidad uk es autorepresentada si wk = 1.
De manera similar es definida la probabilidad de inclusión de segundo orden,
πkl =
∑
k,l∋s
p(s)
para k, l = 1, ..., N .
(6) Asociado a cada unidad k en la población están un conjunto de p variables de interés
yk1, yk2, ..., ykp.
(6) Denotamos con t =
∑
k∈U
yk; el total poblacional de la variable y.
t̄ = 1/N
∑
k∈U
yk la media poblacional de la variable y.
R =
∑
k∈U
yk/
∑
k∈U
zk; un cociente de totales poblacionales.
(7) Para referirnos a un estimador de varianza (i.e. un estimador de V (θ̂)) usaremos
la expresión V̂ (θ̂), que dependiendo del estimador utilizado será acompañada de
sub́ındices, por ejemplo: el estimador de varianza del estimador del parámetro θ
bajo un muestreo simple es V̂SI(θ̂).
3
(8) Dado un diseño muestral p() y t̂ un estimador del total poblacional definimos el
DEFF (p, t̂) como
DEFF (p, t̂) =
Vp(t̂)
VSI(t̂)
Los siguientes ejemplos ilustran el uso de la notación
Ejemplo 1 Sea la población U = {u1, u2, u3, u4, u5}, N = 5. Consideremos la siguiente
función diseño
p(s) =



1/2, si s = {u1, u2}
1/4, si s = {u1, u3}
1/4, si s = {u1, u2, u3, u4, u5}.
Las probabilidades de inclusión son π1 = 1, π2 = 3/4, π3 = 1/2, π4 = π5 = 1/4. Los
factores de expansión son w1 = 1, w2 = 4/3, w3 = 2, w4 = w5 = 4. Las probabilidades de
inclusión de segundo orden son
π11 = 1 π12 = 3/4 π13 = 1/2 π14 = 1/4 π15 = 1/4
π22 = 3/4 π23 = 1/4 π24 = 1/4 π25 = 1/4
π33 = 1/2 π34 = 1/4 π35 = 1/4
π44 = 1/4 π45 = 1/4
π55 = 1/4
La unidad u1 es autorepresentada, pues w1 = 1. El tamaño de la muestra ns es una
variable aleatoria con la siguiente función de masa de probabilidad
P (ns = k) =
{
3/4 si k = 2
1/4 si k = 4.
Observe también que E(ns) = 10/4 y que V (ns) = 3/4.
Ejemplo 2 (muestreo SI) Sea U = {u1, u2, ..., uN} una población finita de tamaño N .
La función diseño en el muestreo aleatorio simple (SI ) asigna probabilidades iguales
a todos los conjuntos de tamaño n ≤ N que pueden formarse en U , es decir
p(s) =



1/
(
N
n
)
si |s| = n
0 e.o.c
En el muestreo (SI ) ns = n, es decir, el tamaño de muestra es fijo. Dada esta función
diseño, las probabilidades de inclusión de primer orden son πk = n/N para k = 1, ..., N .
Las probabilidades de inclusión de segundo orden están dadas por πkl = n(n−1)/N(N−1)
para k, l = 1, ..., N y k 6= l.
4 CAPÍTULO 1. ESTIMACIÓN DE VARIANZAS EN LA MUESTRA CENSAL
1.1. Introducción a la estimación de varianza
Sea θ̂ un estimador de un parámetro poblacional, obtenido a partir de una muestra
probabiĺıstica. Es decir θ̂ = f(s), donde s denota una muestra con probabilidad positiva
de ser seleccionada. Entonces
P[θ̂ = θ0] =
∑
s|θ̂(s)=θ0
p(s)
Donde p(s) denota la probabilidad de selección de una muestra s. Entonces θ̂ es una
variable aleatoria, cuya realización es llamada valor estimado o estimación del parámetro
poblacional.
La esperanza y varianza del estimador de un parámetro poblacional se obtienen mediante
las siguientes fórmulas
E(θ̂) =
∑
s
θ̂(s)p(s)
V (θ̂) =
∑
s
p(s)[θ(s)− E(θ̂)]2
Es importante notar que tanto la esperanza como la varianza de un estimador deben ser
calculadas sobre cada uno de los valores posibles del estimador, es decir sobre la realiza-
ción de la variable aleatoria en cada muestra posible.
El conjunto de todas las muestras posibles depende del diseño muestral. De forma parti-
cular, para el muestreo aleatorio simple, con un tamaño de muestra fijo n, el conjunto de
todas las muestras posibles tiene cardinalidad
(
N
n
)
, lo que implica que calcular la esperan-
za o la varianza del estimador requiere el conocimiento de cada una de estas muestras. Si
bien esto no es imposible, en la práctica las muestras son usadas porque tienen un costo
mucho menor al de los censos, por lo que obtener tantas muestras como combinaciones
de N en n es inviable.
Para reportar la esperanza y varianza de un estimador, se recurre a su estimación.
Existen en la literatura muchas referencias a la estimación de varianzas, y muchos métodos
de estimación de varianzas, en [13] el tema es abordado a profundidad.
1.1.1. Estimador de Horvitz-Thompson
Resultado 2.8.1, C. E. Särndal et al. (1992) Caṕıtulo 2, p. 43
El estimador π
t̂π =
∑
s
yk
πk
1.2. DISEÑO DE LA MUESTRA CENSAL 2010 5
es insesgado para t =
∑
U yk, con varianza
V (t̂π) =
∑∑
U
(πkl − πkπl)
yk
πk
yl
πl
.
Si πkl > 0 para cualesquiera k, l ∈ U , un estimador insesgado de V (t̂π) está dado por
V̂ (t̂π) =
∑∑
s
(πkl − πkπl)
πkl
yk
πk
yl
πl
.
Estimador de Varianza de Yates-Grundy
Resultado 2.8.2, C. E. Särndal et al. (1992) Caṕıtulo 2, p. 45
Bajo un diseño con tamaño de muestra fijo, la varianza del estimador π puede escribirse
alternativamente como
V (t̂π) = −
1
2
∑∑
U
(πkl − πkπl)(
yk
πk
−
yl
πl
)2.
Si πkl > 0 para todo k 6= l ∈ U , un estimador insesgado de V (t̂π) está dado por
V̂ (t̂π) = −
1
2
∑∑
U
(πkl− πkπl)
πkl
(
yk
πk
−
yl
πl
)2.
Debe observarse que el estimador π únicamente hace uso de las probabilidades de inclu-
sión de primer orden. Es importante debido a su sencilla implementación en el software
especializado, en particular en las libreŕıas survey de R y svy de Stata. Las probabilidades
de inclusión de segundo orden generalmente no son provistas en las bases de datos de la
muestra, para estimar la varianza de t̂π se recurre a otros métodos como The Ultimate
Cluster Method, véase subsección 1.4.1.
En la siguiente sección se hace referencia a los estimadores anteriores espećıficamente
para muestreo estratificado y por conglomerados.
1.2. Diseño de la Muestra Censal 2010
La Muestra Censal 2010 (MC2010) levantada durante los meses de mayo y junio de
2010, simultáneamente al Censo de Población y Vivienda, provee la información recaba-
da mediante el cuestionario ampliado, un instrumento de captación que contiene las 29
preguntas del cuestionario básico y profundiza en el conocimiento de las caracteŕısticas
de las viviendas encuestadas y sus integrantes.
El objetivo general de la MC2010 es proporcionar información a nivel municipal con
precisión y confianza medibles para tasas, promedios y proporciones sobre caracteŕısticas
poblacionales espećıficas.
6 CAPÍTULO 1. ESTIMACIÓN DE VARIANZAS EN LA MUESTRA CENSAL
El diseño de la muestra censal 2010 es estratificado por conglomerados y se realizó
en una sola etapa de selección, es decir, dada una estratificación se seleccionan en cada
estrato, mediante un diseño muestral espećıfico, áreas completas, ya sean manzanas o
localidades. Dentro de estas áreas se aplica el cuestionario ampliado a todas las viviendas
particulares habitadas. A las manzanas o localidades, según el estrato, se les llama uni-
dades primarias de muestreo (UPM), mientras que a las viviendas y a las personas, de
acuerdo a las variables que fueron medidas (a nivel vivienda o de manera personal), se les
llama elementos o unidades de análisis. [11, p.13].
Cabe destacar que la MC2010 no es una muestra autoponderada, es decir, las viviendas
en la muestra no tienen la misma probabilidad de inclusión.
El marco muestral estuvo conformado por cada una de las viviendas particulares en Méxi-
co y sus residentes habituales, y fue construido con información del Censo de Población
y Vivienda del año 2000 y diversas encuestas y conteos llevados a cabo de 2005 a 2009.
1.2. DISEÑO DE LA MUESTRA CENSAL 2010 7
Estratificación y selección de la muestra
“Para llevar a cabo la estratificación de los 2456 municipios en el páıs se establecieron los
siguientes grupos:
1. Menos de 1,100 viviendas habitadas,
2. De 1,100 a 4,000 viviendas habitadas,
3. Más de 4,000 viviendas habitadas.
El interior de los municipios que no se incluyeron con certeza en la muestra, fue posterior-
mente estratificado de acuerdo a las localidades conformadas y según siguientes grupos:
1. Localidades con menos de 250 viviendas habitadas;
2. Localidades con más de 250 viviendas habitas y menos de 50,000 habitantes:
Menos de 50 habitantes,
De 50 a 499 habitantes,
De 500 a 999 habitantes,
De 1,000 a 1,499 habitantes,
De 1,500 a 1,999 habitantes,
De 2,000 a 2,499 habitantes,
De 2,500 a 4,999 habitantes,
De 5,000 a 14,999 habitantes,
De 15,000 a 49,999 habitantes,
3. Localidades con más de 50,000 habitantes.
Los 125 municipios con el menor Índice de Desarrollo Humano (IDH) y aquellos con menos
de 1100 viviendas habitadas, se incluyeron con certeza en la muestra, es decir, se censó
con el cuestionario ampliado a cada una de las viviendas en tales municipios.
Al interior de cada municipio, la afijación de la muestra para cada estrato fue proporcional
al número de viviendas habitadas por estrato. Para los municipios en el que todas sus
viviendas entraron con certeza a la muestra, no fue necesario hacer la afijación.
En todos los casos la selección se realizó mediante muestreo aleatorio simple.”[4, p.5]
8 CAPÍTULO 1. ESTIMACIÓN DE VARIANZAS EN LA MUESTRA CENSAL
1.2.1. Muestreo Estratificado Simple por Conglomerados
En el muestreo estratificado por conglomerados (STSIC) se realiza un muestreo simple
por conglomerados dentro de cada uno de los estratos en que se divide la población.
Consideremos que la población está dividida en H estratos, entonces t =
∑H
h=1 th donde
th =
∑
h yk, th representa el total en el estrato h, con h = 1, 2, ..., H.
Suponga que cada estrato ha sido dividido en NIh conglomerados (UPMs), cada una de
ellas con un número determinado de elementos, y que en cada uno de los H estratos se
realiza un muestreo simple de nIh conglomerados.
Las expresiones del estimador del total poblacional, su varianza y un estimador de la
varianza son las siguientes
t̂ =
H∑
h=1
NIh
nIh
nIh∑
k=1
thk; thk =
∑
h,k
yj (1.1)
V (t̂) =
H∑
h=1
V (t̂h) =
H∑
h=1
N2Ih(1− fIh)S
2
Iht/nIh (1.2)
V̂ (t̂) =
H∑
h=1
V̂ (t̂h) =
H∑
h=1
N2Ih(1− fIh)s
2
Iht/nIh (1.3)
Con
S2Iht =
NIh∑
k=1
(thk − (
∑NIh
k=1 thk/NIh))
2
NIh − 1
s2Iht =
nIh∑
k=1
(thk − (
∑nIh
k=1 thk/nIh))
2
nIh − 1
fIh =
nIh
NIh
.
Donde thk representa el total de la variable de interés sobre el conglomerado k-ésimo del
estrato h.
Este resultado es obtenido de conjuntar el Resultado 3.7.2 del libro de Särndal et al.
[11, p.103], sobre el estimador de Horvitz-Thompson en el muestreo estratificado simple
(STSI), y la Sección 4.2.2[11, p.129], sobre el muestreo simple por conglomerados.
Para el uso del estimador de varianza 1.3, es importante remarcar la necesidad de que
nIh ≥ 2. En otras palabras, esto es, que el número de conglomerados seleccionados en la
muestra por cada estrato sea al menos dos.
1.2. DISEÑO DE LA MUESTRA CENSAL 2010 9
Bajo el muestreo STSIC, si t̂x y t̂y representan a los estimadores del total poblacional
para las variables de interés x y y respectivamente, la covarianza y la covarianza estimada
entre ambos está dada por
Cov(t̂x, t̂y) =
H∑
h=1
N2Ih(1− fIh)SxyIh/nIh (1.4)
Ĉov(t̂x, t̂y) =
H∑
h=1
N2Ih(1− fIh)sxyIh/nIh (1.5)
Donde
SxyIh =
NIh∑
k=1
(txhk − t̄Uxh)(tyhk − t̄Uyh)
NIh − 1
sxyIh =
nIh∑
k=1
(txhk − t̄sxh)(tyhk − t̄syh)
nIh − 1
t̄Uxh =
NIh∑
k=1
txhk/NIh
t̄syh =
nIh∑
k=1
tyhk/nIh
En el documento [4, pp.6-8] Diseño de la muestra censal.pdf proporcionado por el
INEGI, se dice lo siguiente sobre los estimadores.
El estimador del total para un dominio de estudio dado (por ejemplo, un municipio)
es:
Ŷm =
H∑
h=1
Ŷh =
H∑
h=1
nh∑
j=1
Fhj
Mj∑
k=1
yhjk (1.6)
donde:
Ŷm Es el total estimado de la caracteŕıstica de interés para el dominio m
Ŷh Es el total estimado de la caracteŕıstica de interés en el estrato h del dominio m
Fhj Es el factor de expansión de la j-ésima UPM en el h-ésimo estrato
yhjk Es el valor de la caracteŕıstica de interés en la k-ésima vivienda, del j-ésimo conglo-
merado en el h-ésimo estrato
H Es el número de estratos en el dominio m
Mj El número de viviendas en muestra dentro de la j-ésima UPM en el h-ésimo estrato.
El estimador de la media es
Ȳm =
Ŷ
Mm
=
Ŷm∑H
h=1
∑nh
j=1 Fhj
(1.7)
10 CAPÍTULO 1. ESTIMACIÓN DE VARIANZAS EN LA MUESTRA CENSAL
Donde Mm es el estimador del total de viviendas en el dominio m.
Para la estimación de un total, el estimador de la varianza del estimador, para un
dominio dado, es:
V̂ (Ŷm) =
H∑
h=1
V̂ (Ŷh) =
H∑
h=1
N2h(1−
nh
Nh
)
Ŝ2h
nh
(1.8)
donde
Ŝ2h =
nh∑
j=1
(yhj − ȳh)
2
nh − 1
Por ende el error estándar asociado está dado por:
E.EŶm =
√
V̂ (Ŷm).
Observaciones sobre los estimadores mencionados en el Diseño de la Muestra
Censal por INEGI
Los estimadores 1.1 y 1.6 son dos expresiones algebráicas del mismo estimador, en
vista de
Fhj =
Nh
nh
,
nh
Nh
Ŷh = tk =
nh∑
j=1
Mj∑
k=1
yhjk
De la misma forma, lo son 1.3 y 1.8, es decir, INEGI utiliza los estimadores de
Horvitz-Thompson.
Es importante mencionar que el estimador de la media 1.7 es un estimadorde razón,
del tipo R̂ = t̂y/t̂x, y la fórmula para estimar su varianza es la siguiente
V̂ (R̂) =
1
t̂2x
[V̂ (t̂y) +R
2V̂ (t̂x)− 2RĈov(t̂x, t̂y)] (1.9)
Donde Ĉov(t̂x, t̂y), para el muestreo STSIC está definida como en la ecuación 1.5.
1.3. Estructura del diseño muestral
La muestra censal 2010 es una muestra unietápica, estratificada y por conglomerados,
por lo que su estructura está conformada por estratos de diseño, unidades primarias
de muestreo (conglomerados) y unidades de análisis (UA), que pueden ser personas o
viviendas.
1.3. ESTRUCTURA DEL DISEÑO MUESTRAL 11
Selección de las entidades para la estimación de varianza
Para la estimación de varianzas fueron seleccionadas las entidades Chiapas, Distrito
Federal y Jalisco. El criterio de elección de estas entidades está basado en el conoci-
miento de la estructura del diseño de la muestra nacional. Se seleccionaron entidades
cuya problemática en el cálculo de varianza fuera evidente; el Distrito Federal posee más
del 90% de estratos con sólo una UPM; Chiapas cuenta con municipios completamente
censados y en Jalisco, el municipio de Guadalajara posee únicamente estratos con una
UPM.
A continuación se resume en tablas la estructura del diseño de la muestra en el Distrito
Federal, las columnas reflejan para toda la entidad y cada una de sus delegaciones:
El nombre de la delegación,
La suma del factor de expasión asociado a cada unidad muestral (personas y vivien-
das),
El número de unidades de análisis,
El número de estratos totales por municipio,
El número de unidades primarias de muestreo,
El número de estratos con solo una UPM
El número de estratos autorepresentados, estratos cuyas unidades primarias de
muestreto tienen factor de expansión igual a 1, es decir, aquellos que fueron censa-
dos.
Las dos últimas columnas son de gran importancia para la estimación de varianzas,
puesto que los estratos censados no contribuyen a la varianza del estimador y sobre los
estratos con sólo una UPM donde no pueden usarse las expresiones 1.3 o 1.8.
La estructura del diseño muestral para las entidades Chiapas y Jalisco, y cada uno
de sus municipios se encuentran en el Apéndice A, Estructura del diseño de la muestra
censal.
12 CAPÍTULO 1. ESTIMACIÓN DE VARIANZAS EN LA MUESTRA CENSAL
Distrito Federal - Estructura del diseño muestral.
Cuadro 1.1: Estructura del diseño muestral en el Distrito Federal, suma del factor de expan-
sión, número de unidades de análisis, número de estratos, UPM, estratos con una UPM y
autorepresentados.
Delegación Personas Viviendas Número de Número de
Suma del Núm. de Suma del Núm. de EST. UPM Estratos
Factor de unidades Factor de unidades Con una Autorepre-
expansión de análisis expansión de análisis UPM sentados
Distrito Federal 8 783 909 353 030 2 450 563 97 838 2 215 2 396 2 186 28
Álvaro Obregón 725 401 28 284 195 820 7 589 195 197 194 2
Azcapotzalco 414 082 11 983 119 236 3 411 96 96 96 0
Benito Juárez 383 214 15 067 139 529 5 586 101 101 101 1
Coyoacán 619 263 19 934 182 214 5 684 143 143 143 0
Cuajimalpa 186 343 12 372 47 700 3 094 30 53 20 0
Cuauhtémoc 526 483 29 804 176 716 10 101 131 132 130 1
Gustavo A. Madero 1 171 127 38 822 320 668 10 678 287 287 287 1
Iztacalco 383 356 15 493 101 529 4 047 105 106 104 0
Iztapalapa 1 793 578 61 533 460 324 15 471 446 446 446 1
La Magdalena
Contreras
238 394 7 676 62 911 2 041 51 59 49 1
Miguel Hidalgo 371 534 16 450 120 424 5 372 107 107 107 3
Milpa Alta 129 384 5 382 30 810 1 279 3 46 0 0
Tláhuac 359 750 15 600 89 740 3 820 89 118 86 3
Tlalpan 644 988 30 258 177 602 8 123 178 218 173 9
Venustiano Carranza 429 462 21 200 123 638 5 771 141 141 141 2
Xochimilco 407 550 23 172 101 702 5 771 112 146 109 4
1.3. ESTIMACIÓN DE VARIANZAS EN LA MUESTRA CENSAL 13
Resumen de la estructura del diseño muestral en las
tres entidades
La siguiente tabla refleja, para cada una de las entidades selccionadas, el
número total de estratos, el número de estratos con sólo una UPM y el
número de estratos autorepresentados, aśı como el número de municipios
con al menos un estrato problemático y el porcentaje que representan, del
total de municipios en cada entidad.
Entidad Núm. de Estratos con Estratos Auto- Municipios con estratos Población estimada en
Estratos 1 UPM (%) repres. (%) con 1UPM (%) autorep. (%) Est. con 1UPM (%)
Chiapas 803 336 (41.8) 44 (5.4) 17 (14.4) 36 (30.5) 661,254 (13.8)
Distrito Federal 2 215 2 186 (98.6) 28 (1.2) 15 (93.7) 11 (68.7) 8,395,418 (95.5)
Jalisco 1 769 1 262 (71.3) 106 (5.9) 25 (20.0) 31 (24.8) 3,784,582 (51.6)
Cuadro 1.2: Resumen de la estructura del diseño muestral.
Como se ha mencionado anteriormente, el diseño de la Muestra Censal 2010
es un STSIC, por lo que la existencia de estratos con sólo una UPM impide
la aplicación de las fórmulas en la sección 1.2.1. Debe hecerse un manejo
cuidadoso de cada estrato, clasificándolo según sus caracteŕısticas para el
cálculo de su varianza.
Los estratos autorepresentados, es decir, aquellos que fueron completa-
mente censados, tienen varianza cero, por lo que su varianza estimada2
debe ser cero.
Los estratos con una sola UPM deben ser sometidos a un tratamiento
distinto, una opción es recurrir al Estimador de Estratos Colapsados.
1.4. Alternativas de cálculo de varianza esti-
mada implementadas en el software
En la sección anterior se hizo del conocimiento del lector la existencia de
estratos autorepresentados y con una UPM en la muestra censal de tres
2En Survey (R), aunque las unidades muestrales sean espećıficadas como unidades
autorepresentadas, si no son separadas del resto de las unidades, el método de estima-
ción de varianza (The Ultimate Cluster Method) considerará una contribución positiva
a la varianza estimada.
14CAPÍTULO 1. ESTIMACIÓN DE VARIANZAS EN LA MUESTRA CENSAL
entidades, tales estratos requieren de un manejo computacional separado,
cuando se realizan las estimaciones de varianza, inclusive en software es-
pecializado. A continuación se ilustran algunas opciones existentes en las
libreŕıas survey y svy de los programas R y Stata, respectivamente, para el
manejo de estratos con sólo una UPM. Existen gran variedad de programas
informáticos estad́ısticos, muchos de ellos con libreŕıas de análisis de datos
de encuestas, sin embargo, se presentan únicamente R y Stata debido a la
familiaridad y la disponibilidad del autor con éstos. Debe mencionarse que
R es un software libre, y uno de los lenguajes más utilizados en investigación
por la comunidad estad́ıstica[1]. Stata es un software estad́ıstico que requiere
la adquisición de una licencia para su uso.
Opciones de comandos en R
library(survey)
options(survey.lonely.psu="fail")
options(survey.lonely.psu="remove")
options(survey.lonely.psu="certainty")
options(survey.lonely.psu="average")
options(survey.lonely.psu="adjust")
La opción fail es seleccionada por defecto, y env́ıa un mensaje de error cuan-
do identifica estratos con una UPM, remove y certainty ignoran la aporta-
ción de las UPM a la varianza, en otras palabras asignan varianza cero a los
estratos con una UPM. La diferencia entre ambas radica en el env́ıo de un
mensaje de advertencia cuando se usa la opción remove, que no es enviado
cuando se usa la opción certainty.
La opción average reemplaza la contribución a la varianza de los estratos con
una UPM por la varianza promedio de los estratos con más de una UPM.
La opción adjust asigna a los estratos con una UPM el cuadrado de la resta
del valor estimado y la media del total estimado en los estratos con más de
una UPM [9, p.53].
Opciones disponibles en Stata
svy > svyset >
singleunit(missing)
1.4. ALTERNATIVAS DE CÁLCULO DE VARIANZA ESTIMADA 15
singleunit(certainty)
singleunit(scaled)
singleunit(centered)
Las opciones missing y certainty al igual que en R, ignoran la aportación a
la varianza en los estratos con una UPM.Mientras que las opciones scaled
y centered funcionan respectivamente como average y adjust.
Claramente las opciones anteriores únicamente representan alternativas al
cálculo de la varianza estimada, mas no representan la implementación de
un estimador de varianza, por lo que se carece de información teórica sobre
el sesgo de la estimación.
La opción remove no es una opción adecuada, pues suponer que los estratos
con una UPM no contribuyen a la varianza total, conduce a una subestima-
ción de la misma.
El uso de la opción average sólo es útil cuando al menos un estrato tiene
más de una UPM, la muestra en el municipio de Guadalajara tiene todos sus
estratos con sólo una UPM, por lo que la opción average no podŕıa usarse.
Debe observarse que el uso de alguna opción particular de estimación de
varianza, no modifica de ninguna manera el estimador puntual, por lo que
las estimaciones puntuales obtenidas en este trabajo escrito coinciden en su
totalidad con los valores reportados por el INEGI.
En el caṕıtulo destinado a los resultados de este trabajo se incluye la com-
paración de los resultados de varianza estimada contra los provistos por la
opción adjust de R.
1.4.1. The Ultimate Cluster Method
La estimación de varianzas automatizada en R, en espećıfico en la li-
breŕıa survey, utiliza el método conocido como The Ultimate Cluster, un
caso particular del Método de los Grupos Aleatorios, asumiendo un estima-
dor lineal θ̂ de la forma N/n
∑
s yk de un total poblacional t. Este método
proporciona un estimador de varianza que a diferencia de los estimadores de
Horvitz-Thompson o de Yates-Grundy, no requiere especificar las probabili-
dades de inclusión de segundo orden, y es de un cómputo sencillo. Con base
en el libro de Hansen et al. (1953) [2, Sec. 1, Cap. 6, p. 242] y asumiendo
16CAPÍTULO 1. ESTIMACIÓN DE VARIANZAS EN LA MUESTRA CENSAL
un muestreo estratificado y por conglomerados, la fórmula del estimador de
varianza bajo el método Ultimate Cluster es la siguiente
V̂ (t̂) =
H∑
h=1
nIh
nIh − 1
nIh∑
k=1
(thk − t̂h)
2 (1.10)
Donde H es el número de estratos y nIh es el número de conglomerados
en el estrato h.
Observe que para el uso de este método de estimación de varianza, existe
la necesidad de que nIh ≥ 2. En la documentación de la muestra censal del
año 2000 [3, p.52] se menciona el uso del estimador anterior.
1.5. Tabulados Básicos
Los tabulados básicos del cuestionario ampliado son una compilación de
resultados obtenidos de la estimación de parámetros poblacionales usando
la muestra censal y se encuentran disponibles al público en la página del
INEGI3.
Para ilustrar la importancia de la implementación de un método de estima-
ción de varianzas en la MC2010 basta con remitirse a la tabla A.2, ubicar el
municipio de Guadalajara y percatarse que todos sus estratos (405) poseen
sólo una UPM. Claramente es imposible utlizar las fórmulas de la Sección
1.2.1 o el método Ultimate Cluster, y es necesario recurrir a algún manejo
sobre la varianza en los estratos con UPM, que no subestime la varianza
poblacional..
De utilizar R para realizar la estimación de varianza sin especificar alguna
de las opciones vistas en la sección anterior obtendŕıamos un mensaje de
error, resulta una inquietud inmediata el ¿cómo está reportado esto en los
tabulados básicos?
Se trata de la tabla 01 02A MUNICIPAL 14.xls, la población estimada
es 1, 491, 217, el error estándar reportado es 0 y por tanto, el intervalo de
confianza para la población total de Guadalajara es sólo un punto, esto sig-
nifica que fue despreciada la contribución a la varianza de estratos con sólo
3En el apartado de referencias se proveen las ligas para su acceso.
1.5. TABULADOS BÁSICOS 17
una UPM. El mismo resultado obtendŕıamos en R con la opcion remove.
Una consecuencia de reportar un error estándar 0 es que la estimación inter-
valar no contiene el valor censal del parámetro poblacional, el cual según los
tabulados del cuestionario básico 01 02B MUNICIPAL 14 es 1, 495, 189. Es
decir, hay una diferencia de 3,917 entre la población estimada y la población
censada.
18CAPÍTULO 1. ESTIMACIÓN DE VARIANZAS EN LA MUESTRA CENSAL
Figura 1.1: Tabulados Básicos 01 02A MUNICIPAL 14, Población total en
viviendas particulares habitadas por municipio. Guadalajara Jalisco.
En el siguiente caṕıtulo se aborda la teoŕıa del método de estimación de
varianzas conocido como The Collapsed Stratum Method, comenzando por
un antecedente inmediato, el método de los grupos aleatorios. Al final del
caṕıtulo se exhibe el sesgo del estimador de varianza, con la finalidad de
mostrar que se trata de un estimador conservador.
Caṕıtulo 2
Metodoloǵıa de estimación de
varianzas
La estimación de varianzas es un tema ampliamente tratado en la li-
teratura, debido al gran campo de aplicación de las encuestas basadas en
modelos, cuando las caracteŕısticas del diseño muestral obstaculizan la im-
plementación automatizada de fórmulas o la existencia de una fórmula exac-
ta. Existen diversos métodos de estimación de varianzas, basados en técnicas
de grupos aleatorios, jacknife, bootstrap, etc. En el libro [13], Wolter ofrece
un panorama introductorio a dichos métodos.
Para fines de este trabajo y a consecuencia de la estructura del diseño
muestral en las entidades seleccionadas, el método utilizado es el de los
Estratos Colapsados.
2.1. Método de los Grupos Aleatorios
El método de los grupos aleatorios para la estimación de varianza con-
siste en seleccionar dos o más muestras, llamadas grupos aleatorios, de la
población usando el mismo diseño en cada una de estas, construir para cada
una un estimador del parámetro poblacional a estudiar y calcular la varianza
de estos valores estimados.
Históricamente la técnica se remonta a 1939, cuando fue nombrado por Pra-
santa Mahalanobis como the interpenetrating samples method. Fue retomado
en 1953 por Hansen, et al.[13, p.21].
19
20CAPÍTULO 2. METODOLOGÍA DE ESTIMACIÓN DE VARIANZAS
Se distinguen dos casos fundamentales dentro del método de los grupos
aleatorios:
1. Los grupos aleatorios son mutuamente independientes.
2. Los grupos aleatorios tienen cierto grado de dependencia.
Estamos interesados únicamente en el primer caso, pues de este deriva
el Estimador de Estratos Colapsados.
2.1.1. Grupos Aleatorios Independientes
En este caso la independencia mutua entre los grupos aleatorios radica
en el reemplazo de cada muestra después de haber sido seleccionada. Sea θ
un parámetro lineal; como la media y el total o no lineal como un cociente
de totales o coeficiente de regresión. La creación de los grupos aleatorios se
hace como sigue:
(i) Una muestra s1 es seleccionada de la población de acuerdo a un diseño
muestral espećıfico.
(ii) La muestra s1 es reemplazada en U y una muestra s2 es tomada de
acuerdo al mismo diseño.
(iii) Se repite este proceso hasta que k ≥ 2 muestras sean obtenidas, ha-
biendo reemplazado la muestra i-ésima luego de haberla seleccionado,
estas k muestras son los grupos aleatorios.
A la estimación del parámetro θ dentro de cada grupo aleatorio se le
llama proceso de medición [13, p.22] y denotamos a los k estimadores de
θ por θ̂α con α = 1, 2, ..., k. El siguiente teorema establece la creación del
estimador de varianza por el método de los grupos aleatorios.
Teorema 2.2.1. Wolter (2007), Caṕıtulo 2, p.23 Sean {θ̂1, ..., θ̂k} va-
riables aleatorias no correlacionadas con media común µ y sea ̂̄θ =
k∑
α=1
θ̂α/k.
Entonces:
2.2. ESTIMADOR DE ESTRATOS COLAPSADOS 21
(i) E(̂̄θ) = µ
(ii) V̂ (̂̄θ) = [
k∑
α=1
(θ̂α −
̂̄θ)2]/k(k − 1) es un estimador insesgado de V (̂̄θ).
El estad́ıstico ̂̄θ puede ser usado como un estimador de θ y V̂ (̂̄θ) es nom-
brado el estimador de grupos aleatorios de su varianza.
Si la esperanza de θ̂α es el parámetro de interés θ, para cualquier α =
1, 2, ..., k, entoncesel estad́ıstico ̂̄θ es un estimador insesgado de θ.
Teorema 2.2.2. Wolter (2007), Caṕıtulo 2, p.24
Sean {θ̂1, ..., θ̂k} variables aleatorias independientes e idénticamente dis-
tribúıdas con distribución normal (θ, σ2). Entonces
(i) El estad́ıstico
z = (̂̄θ − θ)/
√
σ2/k
Tiene distribución N(0, 1) y
(ii) El estad́ıstico
t = (̂̄θ − θ)/
√
V̂ (̂̄θ)
Se distribuye t de Student con k − 1 grados de libertad.
La importancia de estos resultados radica en la construcción de intervalos de
confianza. Las demostraciones de los teoremas anteriores pueden encontrarse
en [13, pp. 22-25]. Cuando se trabaja con una variable binaria o categórica
los parámetros de interés suelen ser proporciones respecto a un total. Al esti-
mar una proporción, la normalidad asintótica se puede suponer únicamente
con tamaños de muestra grandes, de otra forma, al construir intervalos de
confianza se pueden obtener extremos que rebasen el 0 o el 1.
2.2. Estimador de Estratos Colapsados
En un muestreo estratificado, algunas consideraciones especiales, como el
control sobre la dispersión de las unidades muestrales conducen en ocasiones
a la selección de sólo una unidad primaria de muestreo por estrato [13, p.50].
22CAPÍTULO 2. METODOLOGÍA DE ESTIMACIÓN DE VARIANZAS
El problema con esta estrategia de muestreo es que no se dispone de un
estimador insesgado de la varianza, ni siquiera para estad́ısticos lineales.
En estos casos el Estimador de Estratos Colapsados (CSE) sobreestima la
varianza del estimador de un parámetro lineal, si se tratase de un parámetro
no lineal es factible usar un método de linealizacion.
El estimador de los estratos colapsados está basado en el estimador de los
grupos aleatorios.
Suponga que se desea estimar un total poblacional t usando un estimador de
la forma
∑H
h=1 t̂h, donde H denota el número de estratos y t̂h un estimador
del total en el h-ésimo estrato. En particular podemos hablar del estimador
de Horvitz-Thompson
t̂h =
nh∑
k=1
yk
πk
.
Véase [11, p.42].
Asumiremos que las UPM son elegidas de manera independiente para cada
uno de los H estratos.
Para estimar la varianza de t̂ sobre los estratos con una sola UPM consi-
deremos H1 ≤ H el número de estratos no autorepresentados, con sólo una
UPM. Se combinan los H1 estratos en G grupos
1 ajenos de al menos 2 es-
tratos cada uno.
Considere que H1 = 2G, es decir, el número de estratos no autorepresen-
tados con una UPM es par. Entonces el estimador del total de t̂ puede ser
visto como
t̂ =
H∑
h=1
t̂h =
∑
H−H1
t̂h +
∑
H1
t̂h =
∑
H−H1
t̂h +
G∑
g=1
(t̂g1 + t̂g2)
Donde t̂gh con h = 1, 2 y g = 1, 2, ...G denota a la estimación en el compo-
nente h del grupo g.
El estimador de la varianza sobre cada grupo g es2
V̂ (t̂g) = V̂ (t̂g1 + t̂g2) = (t̂g1 − t̂g2)
2
De aqúı que el estimador de la varianza de t̂ sea
1La formación de los G grupos está basada en el valor estimado en cada estrato,
véase 2.2.
2Observe que se trata del estimador de varianza obtenido por el método de los gru-
pos aleatorios (Teorema 2.2.1) con grupos independientes.
2.2. ESTIMADOR DE ESTRATOS COLAPSADOS 23
Ecuación 2.5.2 Wolter (2007), Caṕıtulo 2, p.51
V̂ (t̂) =
∑
H−H1
V̂ (t̂h) +
G∑
g=1
V̂ (t̂g1 + t̂g2) =
∑
H−H1
V̂ (t̂h) +
G∑
g=1
(t̂g1 − t̂g2)
2 (2.1)
La primer suma de la última igualdad deberá calcularse según los métodos
conocidos, mediante las fórmulas en el caṕıtulo 1, por otro lado, el segundo
sumando es de una implementación sencilla computacionalmente.
2.2.1. Sesgo del Estimador de Estratos Colapsados
Cuando se estiman varianzas, un enfoque conservador es aquel que su-
giere encontrar un estimador que sobreestime la varianza poblacional del
estimador, en otras palabras se busca que el sesgo del estimador, la dife-
rencia entre el valor esperado del estimador y el valor real del parámetro
(en este caso, la varianza del estimador) sea un número mayor que cero. A
continuación se demuestra que el sesgo del estimador de estratos colapsados
en efecto lo es.
Considere el estimador 2.1 con H = H1, es decir, que todos los estratos
tuvieran sólo una UPM.
24CAPÍTULO 2. METODOLOGÍA DE ESTIMACIÓN DE VARIANZAS
E(V̂ (t̂)) = E(
G∑
g=1
(t̂g1 − t̂g1)
2)
=
G∑
g=1
E((t̂g1 − t̂g1)
2)
=
G∑
g=1
{E(t̂2g1)− 2E(t̂g1t̂g2) + E(t̂
2
g2)}
=
G∑
g=1
{V (t̂g1) + E(t̂g1)
2 + V (t̂g2) + E(t̂g2)
2 − 2E(t̂g1)E(t̂g2)}
=
G∑
g=1
(V (t̂g1) + V (t̂g2)) +
G∑
g=1
(E(t̂g1)− E(t̂g2))
2
= V (t̂) +
G∑
g=1
(µg1 − µg2)
2 con E(t̂g1) = µg1, E(t̂g2) = µg2 (2.2)
La igualdad 2.2 no sólo muestra que el estimador de estratos colapsados
sobreestima la varianza del estimador t̂, sino que también sugiere una estra-
tegia para acercarse el insesgamiento del mismo mediante la selección de los
estratos en cada grupo g, colapsar estratos cuyo valor esperado del paráme-
tro poblacional sea lo más parecido posible. Si los estimadores t̂g1 y t̂g2 son
insesgados, la estrategia consiste en colapsar estratos con los parámetros
poblacionales más parecidos.
2.2.2. Generalización del Estimador de Estratos Co-
lapsados
Suponga que se desea colapsar los estratos en G grupos ajenos con Lg
estratos en cada uno de ellos. Si se dispone de una variable auxiliar Agh
para cada estrato y tal variable está bien correlacionada3 con el total del
estrato tgh, (como el número de elementos en la población) se puede obtener
el siguiente estimador dado por Hansen et al. (1953),
3En el sentido de una dependencia lineal directa.
2.2. ESTIMADOR DE ESTRATOS COLAPSADOS 25
Ecuación 2.5.7 Wolter (2007), Caṕıtulo 2, p.52
V̂ (t̂) =
G∑
g=1
[Lg/(Lg − 1)]
Lg∑
h
(t̂gh − (Agh/Ag)t̂g)
2 (2.3)
Con
t̂g =
Lg∑
h
t̂gh, Ag =
Lg∑
h
Agh
Si Agh/Ag = 1/Lg con g = 1, ..., G el estimador se reduce a
V̂ (t̂) =
G∑
g=1
[Lg/(Lg − 1)]
Lg∑
h
(t̂gh − t̂g/Lg)
2 (2.4)
Este estimador es conocido como la generalización del estimador de estratos
colapsados en su versión simple.
De esta manera, si el número de estratos con una sola UPM es un número
impar H1 mayor o igual que 3, podemos agrupar los primeros H1−3 estratos
en un número par de grupos y con los últimos 3 usar el estimador 2.4 con
Lg = 3.
Si sólo hay un estrato con una UPM, éste deberá ser colapsado con el estrato
más parecido con más de una UPM, en términos de t̂.
2.2.3. Estimador de varianza de estimadores de razón
Resultado 5. Hansen et al. (1953) Vol. II, Caṕıtulo 9. p. 218
Considere a R̂ = X̂/Ŷ un estimador de razón, con X̂ y Ŷ estimadores del
total poblacional de las variables xk y yk, k ∈ U .
Bajo el supuesto de Agh/Ag = 1/Lg, con Agh una variable auxiliar para cada
estrato y Lg el número de estratos en el grupo g, la varianza estimada de R̂
está dada por la siguiente fórmula
V̂ (R̂) = (
E(X̂)
E(Ŷ )
)2[
V̂CS(X̂)
E(X̂)2
+
V̂CS(Ŷ )
E(Ŷ )2
−
2ĈovCS(X̂, Ŷ )
E(X̂)E(Ŷ )
]
=
1
E(Ŷ )2
[V̂CS(X̂) + R̂
2V̂CS(Ŷ )− 2R̂ĈovCS(X̂, Ŷ )] (2.5)
26CAPÍTULO 2. METODOLOGÍA DE ESTIMACIÓN DE VARIANZAS
Donde
V̂CS(X̂) =
G∑
g=1
[Lg/(Lg − 1)]
Lg∑
h
(X̂gh − X̂g/Lg)
2;
V̂CS(Ŷ ) =
G∑
g=1
[Lg/(Lg − 1)]
Lg∑
h
(Ŷgh − Ŷg/Lg)
2;
ĈovCS(X̂, Ŷ ) =
G∑
g=1
[Lg/(Lg − 1)]
Lg∑
h
(X̂gh − X̂g/Lg)(Ŷgh − Ŷg/Lg).
Intervalos de confianza para proporciones, método Logit
En el siguiente caṕıtulo se presentan tanto tablas como gráficas de in-
tervalos de confianza para totales poblacionales estimados y proporción es-
timada de personas autoconsideradas ind́ıgenas. En la estimación de pro-
porciones, los intervalos de confianza son por lo general calculados bajo un
supuesto de normalidad (véanse los resultados en la sección de grupos alea-
torios) y sucede que cuando la estimación de la proporción es cercana a 0 o
a 1, los intervalos de confianza generados bajo este supuesto, pueden reba-
sar tales ĺımites, llegando aśı a reportar intervalos de confianza negativos o
por encima de 1. Para solucionar este problema existen diferentes métodos,
como el enfoque binomial, el enfoque de Poisson, métodosde Wilson y el
método Logit [7, p.3]. Este último fue utilizado para calcular intervalos de
confianza para la proporción personas autoconsideradas ind́ıgenas.
Los ĺımites inferior y superior del intervalo de confianza se obtienen usan-
do la transformación “logit”, y = log(
p̂
1− p̂
). De tal manera que
y ± td(1− α/2)[V (y)]
1/2
Que mediante el uso del Teorema de Taylor implica lo siguiente:
V (y) ≈ V (p̂)[
∂y
∂p̂
]2 =
V (p̂)
[p̂(1− p̂)]2
Invirtiendo la transformación logit, tenemos que p̂ = exp(y)
1+exp(y)
y obtenemos
el intervalo confianza:
(
1
1 + exp(−LLOGIT )
,
1
1 + exp(−ULOGIT )
)
2.2. ESTIMADOR DE ESTRATOS COLAPSADOS 27
Donde
LLOGIT = log
p̂
1− p̂
− td(1− α/2)
1√
np̂(1− p̂)
,
ULOGIT = log
p̂
1− p̂
+ td(1− α/2)
1√
np̂(1− p̂)
En el siguiente caṕıtulo se presentan los resultados de la estimación de
parámetros poblacionales de interés y sus respectivas varianzas estimadas,
mediante el método de los estratos colapsados.
Las fórmulas de estimación de varianzas, vistas en el Caṕıtulo 2 para es-
timadores de totales y el estimador de razón fueron programadas en R, la
sintaxis de las mismas puede consultarse en la Sección 2 del Apéndice D.
28CAPÍTULO 2. METODOLOGÍA DE ESTIMACIÓN DE VARIANZAS
Caṕıtulo 3
Resultados
Este caṕıtulo está dedicado a la presentación de resultados y compara-
ciones, mismos que han sido obtenidos para las siguientes entidades:
Chiapas
Distrito Federal
Jalisco
La selección de estas entidades se hizo con base en la estructura del diseño
muestral, se escogieron entidades problemáticas por el número de estratos
autorepresentados o el número de estratos con sólo una UPM. Podemos ha-
cer las siguientes observaciones, el 98.6% de estratos en Distrito Federal
poseen sólo una UPM, mientras que en Jalisco es el 71.3% y en Chiapas el
41.8%.
La población estimada en los estratos con sólo una UPM es 8,395,418 en
el Distrito Federal, que representa al 95.5% de su población estimada,
3,784,582 en Jalisco, que representa al 51.6% de su población estimada y
661,254 en Chiapas, donde representa al 13.8%.
Los cálculos de varianzas estimadas para cada una de las entidades selec-
ciondas se realizaron sobre los siguientes estimadores de los parámetros po-
blacionales
Población total
Número de viviendas según posesión de internet
29
30 CAPÍTULO 3. RESULTADOS
Proporción de población según su condición de autoadsccripción étni-
ca.
Las estimaciones fueron realizadas a nivel municipal y para cada entidad,
a fin de compararlos con los tabulados básicos, censales o del cuestionario
ampliado, según corresponda.
En este caṕıtulo se presentan resultados únicamente para los municipios
afectados por estratos problemáticos, las tablas completas se encuentran
en el Apéndice B, Tablas de resultados a nivel municipal. Los parámetros
seleccionados son los siguientes:
1. Población, parámetro de interés: Población total en viviendas parti-
culares habitadas por municipio o delegación.
2. Vivienda, parámetro de interés: Viviendas particulares habitadas por
municipio o delegación, bienes y tecnoloǵıas de la información y la
comunicación (Internet)
tSI =
N∑
i=1
yi, con yi =
{
1, si en la vivienda i poseen internet.
0, otro caso.
Análogamente se definen tNO el total de viviendas sin disponibilidad
de internet y tNE el total de viviendas que no especificó.
3. Lengua Ind́ıgena, parámetro de interés: Población de 3 años o más y
su distribución porcentual según condición de autoadscripción étnica
para cada municipio o delegación.
pSI = (1/N≥3)
N≥3∑
i=1
zi con zi =
{
1, si la persona i se considera ind́ıgena.
0, otro caso.
y N≥3 La población mayor de 3 años.
1 Análogamente se definen pNO
la proporción de personas que no se consideran ind́ıgenas y pNE la
proporción de personas que no especificó.
Las comparaciones se hicieron respecto a valores reportados en los si-
guientes tabulados básicos [5]:
1En el estimador p̂ se utilizó N̂≥3 el total poblacional estimado, es decir, se utilizó
un estimador de razón como el de la ecuación 2.5.
3.1. TOTAL POBLACIONAL 31
1 01 02A MUNICIPAL 07 Estimadores de la población total en vivien-
das particulares habitadas por municipio y grupos quinquenales de
edad según sexo
2 01 02A MUNICIPAL 09 Estimadores de la población total en vivien-
das particulares habitadas por delegación y grupos quinquenales de
edad según sexo
3 01 02A MUNICIPAL 14 Estimadores de la población total en vivien-
das particulares habitadas por municipio y grupos quinquenales de
edad según sexo
3.1. Total poblacional
3.1.1. Chiapas, población estimada por municipio y
tipo de estrato
En la siguiente tabla se presenta la población estimada (o en su caso la
población censal) y su desviación estándar por municipio y tipo de estrato,
estos últimos son: no problemáticos para la estimación tradicional de va-
rianza, aquellos que no son autorepresentados y tienen más de una UPM;
con una UPM y estratos autorepresentados, que al ser censados no
contribuyen a la varianza del estimador2.
t̂NP representa el total poblacional estimado en los estratos no pro-
blemáticos.
V̂ (t̂NP ) representa la varianza estimada de t̂NP .
t̂1upm representa el total poblacional estimado en los estratos con sólo
una UPM.
V̂CS(t̂1upm) representa la varianza estimada, mediante el método de los
estratos colapsados, de t̂1upm.
tSR representa el total poblacional en los estratos autorepresentados.
2Los municipios marcados con un asterisco fueron censados con el cuestionario am-
pliado.
32 CAPÍTULO 3. RESULTADOS
El total poblacional estimado para todo el municipio está representado
por t̂, es decir
t̂ = t̂NP + t̂1upm + tSR.
Si el municipio no cuenta con estratos no problemáticos ni con sólo
una UPM, el total poblacional es censal, no estimado.
La desviación estándar estimada para todo el municipio está represen-
tada por
√∑
V̂ , es decir
√∑
V̂ = [V̂ (t̂NP ) + V̂CS(t̂1upm)]
1/2
.
3.1. TOTAL POBLACIONAL 33
Cuadro 3.1: Chiapas. Población estimada y desviación estándar estimada por tipo de estrato
en municipios afectados por estratos problemáticos.
Nombre del No problemáticos3 Con una UPM Autorep. Total D. E.
municipio (nI > 1, w > 1) (nI = 1, w > 1) w = 1
t̂NP
√
V̂ (t̂NP ) t̂1upm
√
V̂CS(t̂1upm) tSR t̂
√∑
V̂
Estatal - Chiapas 3,638,461 88,945.28 646,211 22,660.00 503,490 4,788,162 91,786.38
Amatenango del Valle* - - - - 8,360 8,360 -
Comitán de Domı́nguez 132,380 8,062.86 7,805 1,440.64 185 140,370 8,190.55
Chalchihuitán* - - - - 13,975 13,975 -
Chamula* - - - - 76,510 76,510 -
Chanal - - - - 10,755 10,755 -
Chilón* - - - - 109,282 109,282 -
Francisco León* - - - - 7,000 7,000 -
Huixtán* - - - - 21,261 21,261 -
Ixtapangajoya* - - - - 5,475 5,475 -
Larráinzar* - - - - 19,241 19,241 -
Mitontic* - - - - 11,151 11,151 -
Nicolás Rúız* - - - - 4,200 4,200 -
Ocosingo 195,407 36,516.38 1,666 934.00 - 197,073 36,528.32
Ocotepec* - - - - 11,865 11,865 -
Osumacinta* - - - - 3,778 3,778 -
Oxchuc 40,442 8,179.54 - - 1,594 42,036 8,179.54
Pantelhó* - - - - 20,144 20,144 -
Pantepec* - - - - 10,830 10,830 -
San Cristóbal de las
Casas
157,170 12,736.43 29,148 5,531.58 40 186,358 13,885.79
Sitalá* - - - - 11,972 11,972 -
Sunuapa* - - - - 2,217 2,217 -
Tapachula 220,518 28,384.78 98,748 7,089.05 301 319,567 29,256.63
Continúa...
3nI representa el número de UPM en el estrato, w representa el factor de expansión de las UPM en el
estrato.
34 CAPÍTULO 3. RESULTADOS
Nombre del No problemáticos Con una UPM Autorep. Total D. E.
municipio (nI > 1, w > 1) (nI = 1, w > 1) w = 1
t̂NP
√
V̂ (t̂NP ) t̂1upm
√
V̂CS(t̂1upm) tSR t̂
√∑
V̂
Tapalapa* - - - - 4,096 4,096 -
Totolapa 1,851 754.99 - - 3,061 4,912 754.99
Tumbalá* - - - - 31,189 31,189 -
Tuxtla Gutiérrez 43,008 11,802.16 508,844 20,728.60 173 552,025 23,853.01
Zinacantán* - - - - 35,511 35,511 -
San Juan Cancuc* - - -- 28,706 28,706 -
Aldama* - - - - 4,748 4,748 -
San Andrés Duraznal* - - - - 4,535 4,535 -
Santiago el Pinar* - - - - 3,110 3,110 -
3.1. TOTAL POBLACIONAL 35
3.1.2. Chiapas, comparación de varianzas estimadas
En la siguiente tabla se comparan los resultados de estimación de varianzas (presentados
como error estándar) para cada municipio4, los tres métodos son: Método de los estratos
colapsados (CSE),Opción “adjust” de la paqueteŕıa Survey de R y los Tabulados Básicos
del cuestionario ampliado.
Las últimas dos columnas muestran el error relativo5 entre las estimaciones de varianza del es-
timador de estratos colapsados contra la opción adjust y lo reportado en los tabulados básicos.
Error Rel. (ADJ) =
√
V̂ADJ(t̂)−
√
V̂CS(t̂)√
V̂CS(t̂)
; Error Rel. (TAB) =
√
V̂TAB(t̂)−
√
V̂CS(t̂)√
V̂CS(t̂)
Donde V̂ADJ representa la varianza obtenida mediante la opción adjust y V̂TAB la varianza
reportada en los tabulados básicos. De esta forma, el error relativo al usar la opción adjust
en la primera fila debe leerse como “el error estándar estimado mediante la opción adjust
es 9.72% mayor que el obtenido mediante el método de los estratos colapsados” de manera
similar, debe leerse “el error estándar reportado en los tabulados básicos es 2.8% menor que el
obtenido mediante el método de los estratos colapsados”. Un error relativo de 0, significa que
las estimaciones son iguales. Si se lee un guión, esto significa que el municipio fue censado y que
la varianza poblacional es 0. Posterior a la presentación de la tabla se incluye una gráfica de los
intervalos de confianza obtenidos con las diferentes estimaciones de varianza.6
Cuadro 3.2: Chiapas. Comparación de varianzas estimadas en municipios con estratos pro-
blemáticos.
Nombre del Población Desviación estándar estimada Error Rel. (%)
municipio Estimada C.S.E O. adjust Tabulados ADJ TAB
Estatal - Chiapas 4,788,162 91,786 100,773 89,209 9.79 -2.80
Amatenango del Valle* 8,360 0 494 0 - -
Comitán de Domı́nguez 140,370 8,191 8,323 8,063 1.61 -1.56
Chalchihuitán* 13,975 0 2,075 0 - -
Chamula* 76,510 0 5,123 0 - -
Chanal* 10,755 0 1,029 0 - -
Chilón* 109,282 0 3,936 0 - -
Francisco León* 7,000 0 775 0 - -
Continúa...
5El uso del término “error relativo” no refiere a la definición usual de éste, pues se conserva el signo de la
diferencia entre las estimaciones, con el fin de mejorar la interpretabilidad de las columnas.
6Los municipios marcados con asterisco fueron censados con el cuestionario ampliado.
36 CAPÍTULO 3. RESULTADOS
Nombre del Población Desviación estándar estimada Error Rel. (%)
municipio Estimada C.S.E O. adjust Tabulados ADJ TAB
Huixtán* 21,261 0 2,309 0 - -
Ixtapangajoya* 5,475 0 1,058 0 - -
Larráinzar* 19,241 0 1,720 0 - -
Mitontic* 11,151 0 2,171 0 - -
Nicolás Rúız* 4,200 0 322 0 - -
Ocosingo 197,073 36,528 36,541 36,516 0.03 -0.03
Ocotepec* 11,865 0 815 0 - -
Osumacinta* 3,778 0 441 0 - -
Oxchuc 42,036 8,180 8,380 8,032 2.44 -1.80
Pantelhó* 20,144 0 1,621 0 - -
Pantepec* 10,830 0 1,284 0 - -
San Cristóbal 186,358 13,886 15,265 12,736 9.93 -8.28
Sitalá* 11,972 0 1,340 0 - -
Sunuapa* 2,217 0 411 0 - -
Tapachula 319,567 29,257 31,507 28,385 7.69 -3.18
Tapalapa* 4,096 0 459 0 - -
Totolapa 4,912 755 921 921 21.98 21.98
Tumbalá* 31,189 0 2,089 0 - -
Tuxtla Gutiérrez 552,025 23,853 45,319 11,802 89.99 -50.52
Zinacantán* 35,511 0 2,508 0 - -
San Juan Cancuc* 28,706 0 3,507 0 - -
Aldama* 4,748 0 705 0 - -
San Andrés Duraznal* 4,535 0 780 780 - -
Santiago el Pinar* 3,110 0 618 618 - -
3.1. TOTAL POBLACIONAL 37
Figura 3.1: Chiapas. Intervalos de confianza al 90% por método de estimación de varianzas,
la linea punteada representa la población censal, y el punto en los intervalos representa la es-
timación puntual.
Debe observarse en la tabla anterior que el método de los estratos colapsados, programado para
este trabajo no es siempre mayor que el reportado en los tabulados básicos, sino que también
asigna apropiadamente 0 cuando se trata de estratos censados.
Figura 3.2: Chiapas, Tuxtla Gutierrez. Tabulados básicos.
38 CAPÍTULO 3. RESULTADOS
3.1.3. Distrito Federal, población estimada por municipio y tipo de
estrato
Cuadro 3.3: Distrito Federal. Población estimada y desviación estándar estimada por tipo de
estrato en delegaciones afectadas por estratos problemáticos
Nombre de la No problemáticos Con una UPM Autorep. Total D. E.
delegación (nI > 1, w > 1) (nI = 1, w > 1) w = 1
t̂NP
√
V̂ (t̂NP ) t̂1upm
√
V̂CS(t̂1upm) tSR t̂
√∑
V̂
Distrito Federal 387,602 32,013.42 8,389,628 94,062.39 6,679 8,783,909 99,360.92
Azcapotzalco - - 414,082 18,011.65 - 414,082 18,011.65
Coyoacán - - 619,263 31,314.58 - 619,263 31,314.58
Cuajimalpa 88,887 12,824.05 97,456 8,993.29 - 186,343 15,663.20
Gustavo A. Madero - - 1,171,118 28,797.46 9 1,171,127 28,797.46
Iztacalco 2,192 1,872.00 381,164 14,910.76 - 383,356 15,027.82
Iztapalapa - - 1,793,527 40,830.77 51 1,793,578 40,830.77
La Magdalena
Contreras
8,073 2,369.00 229,796 18,195.66 525 238,394 18,349.23
Milpa Alta 129,384 18,686.68 - - - 129,384 18,686.68
Álvaro Obregón - - 724,976 28,004.77 425 725,401 28,004.77
Tláhuac 56,031 9,438.98 303,223 16,900.11 496 359,750 19,357.38
Tlalpan 76,037 16,859.30 565,817 24,446.60 3,134 644,988 29,696.34
Xochimilco 16,680 4,955.85 390,316 31,416.78 554 407,550 31,805.26
Benito Juárez - - 383,017 15,976.05 197 383,214 15,976.05
Cuauhtémoc 10,318 10,208.00 515,473 27,019.32 692 526,483 28,883.33
Miguel Hidalgo - - 371,133 21,161.94 401 371,534 21,161.94
Venustiano
Carranza
- - 429,267 18,009.34 195 429,462 18,009.34
En la estructura del diseño muestral del Distrito Federal, reportada en el caṕıtulo anterior, se
mostró que la delegación Milpa Alta no poséıa estratos con una UPM ni autorepresentados, en
esta tabla puede observarse que la aportación de la varianza calculada en dichos estratos es
cero, siendo aśı Milpa Alta la única delegación que no requiere del estimador de estratos
colapsados, en este caso, el estimador de estratos colapsados coincide con el resultado dado
por el software.
3.1. TOTAL POBLACIONAL 39
3.1.4. Distrito Federal, comparacion de varianzas estimadas
Cuadro 3.4: Distrito Federal. Comparación de varianzas estimadas en delegaciones con estra-
tos problemáticos.
Nombre de la Población Desviación estándar estimada Error Rel. (%)
Delegación Estimada C.S.E O. adjust Tabulados ADJ TAB
Distrito Federal 8,783,909 99,361 209,905 32,016 111.25 -67.77
Azcapotzalco 414,082 18,012 46,095 0 155.91 -100.00
Coyoacán 619,263 31,315 62,916 0 100.91 -100.00
Cuajimalpa 186,343 15,663 26,541 12,824 69.45 -18.12
Gustavo A. Madero 1,171,127 28,797 76,194 0 164.59 -100.00
Iztacalco 383,356 15,028 40,824 1,872 171.65 -87.54
Iztapalapa 1,793,578 40,831 95,324 0 133.45 -100.00
La Magdalena
Contreras
238,394 18,349 36,926 2,387 101.24 -86.99
Milpa Alta 129,384 18,687 18,687 18,687 0.00 0.00
Álvaro Obregón 725,401 28,005 61,023 298 117.90 -98.93
Tláhuac 359,750 19,357 39,493 9,439 104.02 -51.23
Tlalpan 644,988 29,696 53,837 16,859 81.29 -43.22
Xochimilco 407,550 31,805 47,280 4,956 48.65 -84.41
Benito Juárez 383,214 15,976 41,379 0 159.00 -100.00
Cuauhtémoc 526,483 28,883 55,306 10,208 91.48 -64.65
Miguel Hidalgo 371,534 21,162 45,588 0 115.42 -100.00
Venustiano Carranza 429,462 18,009 41,645 0 131.24 -100.00
El estimador de estratos colapsados proporciona estimaciones adecuadas que no exist́ıan para
las delegaciones Azcapotzalco, Coyoacán, Gustavo A. Madero, Benito Juárez, Miguel Hidalgo
y Venustiano Carranza, delegaciones que se encuentran particionadas en estratos de los cuáles
sólo fue seleccionada una UPM. La opción adjust, por otro lado, aunque también provee una
estimación razonable, siempre rebasa la estimación de varianza lograda mediante el estimador
de estratos colapsados.
En la figura 3.3 puede observarse lo reportado en los Tabulados Básicos parala delegación
Azacpotzalco. El método de los estratos colapsados provee una desviación estándar de 18,012.
40 CAPÍTULO 3. RESULTADOS
Figura 3.3: Distrito Federal, Azcapotzalco. Tabulados básicos.
Figura 3.4: Distrito Federal. Intervalos de confianza al 90% por método de estimación de va-
rianzas, la ĺınea punteada representa la población censal y el punto en los intervalos represen-
ta la estimación puntual.
En la gráfica 3.4 debe observarse una de las consecuencias más graves de la subestimación de
varianza, ocasionada por omitir la aportación a la varianza de los estratos con sólo una unidad
primaria de muestreo. El intervalo de confianza reportado en los tabulados básicos no comprende
el total poblacional censal (marcado con la ĺınea punteada) mientras que el intervalo generado
por el C.S.E. śı lo contiene.
3.1. TOTAL POBLACIONAL 41
3.1.5. Jalisco, población estimada por municipio y tipo de estrato
Cuadro 3.5: Jalisco. Población estimada y desviación estándar estimada por tipo de estrato en
municipios afectados por estratos problemáticos.
Nombre del No problemáticos Con una UPM Autorep. Total D. E.
municipio (nI > 1, w > 1) (nI = 1, w > 1) w = 1
t̂NP
√
V̂ (t̂NP ) t̂1upm
√
V̂CS(t̂1upm) tSR t̂
√∑
V̂
Estatal - Jalisco 3,487,537 72,176.85 3,769,615 75,744.33 66,024 7,323,176 104,626.48
El Arenal 16,426 1,926.36 - - 766 17,192 1,926.36
Bolaños* - - - - 6,783 6,783 -
Zapotlán el Grande 82,376 6,875.73 14,023 2,176.23 1,726 98,125 7,211.91
Cuautla* - - - - 2,154 2,154 -
Chimaltitán* - - - - 3,763 3,763 -
Chiquilistlán* - - - - 5,806 5,806 -
Ejutla* - - - - 2,032 2,032 -
Guachinango* - - - - 2,893 2,893 -
Guadalajara* - - 1,491,190 32,543.53 27 1,491,217 32,543.53
Lagos de Moreno 138,297 24,704.25 13,543 3,163.49 398 152,238 24,905.97
Santa Maŕıa del
Oro*
- - - - 2,517 2,517 -
La Manzanilla* - - - - 3,747 3,747 -
Mazamitla 13,496 1,979.99 - - - 13,496 1,979.99
Mixtlán* - - - - 3,574 3,574 -
Ocotlán 88,076 5,275.58 5,036 967.85 133 93,245 5,363.63
Puerto Vallarta 99,639 7,556.66 153,044 9,059.70 964 253,647 11,797.51
San Cristóbal* - - - - 3,164 3,164 -
San Marcos* - - - - 3,736 3,736 -
San Mart́ın de B* - - - - 3,356 3,356 -
Santa Maŕıa* - - - - 3,720 3,720 -
Tala 58,223 5,295.84 10,396 4,636.00 - 68,619 7,038.35
Techaluta de M* - - - - 3,511 3,511 -
Tepatitlán 125,878 8,416.31 9,483 1,911.36 297 135,658 8,630.62
Continúa...
42 CAPÍTULO 3. RESULTADOS
Nombre del No problemáticos Con una UPM Autorep. Total D. E.
municipio (nI > 1, w > 1) (nI = 1, w > 1) w = 1
t̂NP
√
V̂ (t̂NP ) t̂1upm
√
V̂CS(t̂1upm) tSR t̂
√∑
V̂
Tlajomulco 357,485 27,395.73 59,720 48,584.00 - 417,205 55,775.72
Tlaquepaque 31,035 4,539.24 576,320 23,535.70 730 608,085 23,969.44
Tonalá 69,491 8,707.30 394,354 18,521.84 224 464,069 20,466.45
Tuxcacuesco* - - - - 4,210 4,210 -
Villa Guerrero 5,621 647.18 - - 7 5,628 647.18
Cañadas de O. 1,479 501.98 - - 1,838 3,317 501.98
Zapopan 192,682 44,271.51 1,042,506 36,025.33 3,311 1,238,499 57,077.07
Guadalajara es un municipio especialmente ilustrativo en la aplicación del método de estratos
colapsados, debe observarse que sólo posee estratos con una UPM y autorepresentados, estos
últimos (3 de 405) representan únicamente a 27 personas.
Figura 3.5: Guadalajara Jalisco. Intervalos de confianza al 90% por método de estimación de
varianzas, la ĺınea punteada representa la población censal y el punto en los intervalos repre-
senta la estimación puntual.
En la figura 3.5 puede apreciarse que únicamente los intervalos de confianza generados me-
diante el método de estratos colapsados y la opción adjust, contienen el valor censal. Esto no
sólo ocurre en las estimaciones de población sino en todas aquellas cuya estimación puntual no
sea exactamente el valor censal.
3.1. TOTAL POBLACIONAL 43
3.1.6. Jalisco, comparacion de varianzas estimadas
Cuadro 3.6: Jalisco. Comparación de varianzas estimadas en municipios con estratos pro-
blemáticos.
Nombre del Población Desviación estándar estimada Error Rel. (%)
municipio Estimada C.S.E O. adjust Tabulados ADJ TAB
Estatal - Jalisco 7,323,176 104,626 158,990 72,100 51.96 -31.08
El Arenal 17,192 1,926 1,988 1,988 3.21 3.21
Bolaños* 6,783 0 449 0 - -
Zapotlán el Grande 98,125 7,212 8,345 6,938 15.70 -3.79
Cuautla* 2,154 0 171 0 - -
Chimaltitán* 3,763 0 235 0 - -
Chiquilistlán* 5,806 0 477 0 - -
Ejutla* 2,032 0 187 0 - -
Guachinango* 2,893 0 482 482 - -
Guadalajara 1,491,217 32,544 83,555 0 156.74 -100.00
Lagos de Moreno 152,238 24,906 25,169 24,704 1.01 -0.81
Santa Maŕıa del Oro* 2,517 0 217 0 - -
La Manzanilla de la P.* 3,747 0 307 0 - -
Mixtlán* 3,574 0 256 0 - -
Ocotlán 93,245 5,364 5,512 5,276 2.75 -1.64
Puerto Vallarta 253,647 11,798 19,501 7,557 65.29 -35.94
San Cristóbal de la B* 3,164 0 280 0 - -
San Marcos* 3,736 0 325 0 - -
San Mart́ın de B* 3,356 0 284 0 - -
Santa Maŕıa* 3,720 0 248 0 - -
Tala 68,619 7,038 9,635 5,296 36.89 -24.75
Techaluta de M* 3,511 0 281 0 - -
Tepatitlán de Morelos 135,658 8,631 8,929 8,416 3.45 -2.49
Tlajomulco 417,205 55,776 60,942 27,396 9.26 -50.88
Tlaquepaque 608,085 23,969 52,342 4,539 118.37 -81.06
Continúa...
44 CAPÍTULO 3. RESULTADOS
Nombre del Población Desviación estándar estimada Error Rel. (%)
municipio Estimada C.S.E O. adjust Tabulados ADJ TAB
Tonalá 464,069 20,466 43,196 8,707 110.62 -57.45
Tuxcacuesco* 4,210 0 295 0 - -
Villa Guerrero 5,628 647 647 647 0.00 0.00
Cañadas de O. 3,317 502 549 544 9.36 8.36
Zapopan 1,238,499 57,077 84,448 44,272 47.95 -22.43
Figura 3.6: Jalisco. Intervalos de confianza al 90% por método de estimación de varianzas, la
ĺınea punteada representa la población censal y el punto en los intervalos representa la estima-
ción puntual.
Los 5 municipios con el mayor error relativo7 son Guadalajara, Tlaquepaque, Tonalá, Juana-
catlán y Tlajomulco de Zúñiga. Los tabulados básicos en este último municipio reportan una
desviación estándar 50% menor que la obtenida con el método de los estratos colapsados, este
municipio únicamente posee dos estratos con sólo una UPM.
7Descartando aquellos cuya varianza real es 0 y no fueron reportados aśı.
3.1. BIENES Y TECNOLOGÍAS DE LA INFORMACIÓN 45
3.2. Bienes y tecnoloǵıas de la información y la
comunicación (Internet)
3.2.1. Chiapas, Viviendas estimadas por disponibilidad de
internet
En la siguiente tabla se presentan las estimaciones del número de viviendas por
disponibilidad de internet a nivel municipal y su desviación estándar, de acuerdo al
método de los estratos colapsados.8
Cuadro 3.7: Chiapas. Número estimado de viviendas por condición de disponibili-
dad de Internet en municipios con estratos problemáticos.
Nombre del MUN Śı disponen No disponen No especificado
municipio t̂SI
√
V̂ (t̂SI) t̂NO
√
V̂ (t̂NO) t̂NE
√
V̂ (t̂NE)
Estatal - Chiapas 80,051 3,751 996,190 19,151 7,259 446
Amatenango del Valle* 007 5 0 1,799 0 18 0
Comitán de Domı́nguez 019 3,675 343 30,799 1,961 139 43
Chalchihuitán* 022 4 0 2,839 0 51 0
Chamula* 023 45 0 15,904 0 107 0
Chanal* 024 4 0 1,744 0 18 0
Chenalhó* 026 17 0 6,709 0 78 0
Chilón* 031 122 0 18,796 0 263 0
Francisco León* 033 3 0 1,303 0 8 0
Huixtán* 038 11 0 3,861 0 62 0
Ixtapangajoya* 045 3 0 1,167 0 10 0
Larráinzar* 049 11 0 3,514 0 22 0
Mitontic* 056 6 0 2,032 0 23 0
Nicolás Rúız* 058 1 0 879 0 7 0
Ocosingo 059 555 210 36,904 6,440 253 103
Ocotepec* 060 4 0 2,263 0 16 0
Osumacinta* 063 32 0 876 0 7 0
Oxchuc 064 24 12 8,142 1,682 135 60
Continúa...
8Los municipios marcados con asterisco fueron censados con el cuestionario ampliado.
46 CAPÍTULO 3. RESULTADOS
Nombre del MUN Śı disponen No disponen No especificado
municipio t̂SI
√
V̂ (t̂SI) t̂NO
√
V̂ (t̂NO) t̂NE
√
V̂ (t̂NE)
Pantelhó* 066 7 0 3,629 0 43 0
Pantepec* 067 7 0 2,324 0 26 0
San Cristóbal de las Casas 078 5,591 793 36,078 2,564 429 149
Sitalá* 082 5 0 2,244 0 46 0
Sunuapa* 088

Continuar navegando

Otros materiales