Muestra-censal-2010--estimacion-de-varianzas

•
Exatas

Aprendiendo Matemáticas y Fisica
26/7/2022
¡Este material tiene más páginas!
Vista previa del material en texto
UNIVERSIDAD NACIONAL
AUTÓNOMA
DE MÉXICO
FACULTAD DE CIENCIAS
Muestra Censal 2010:
Estimación de Varianzas
T E S I S
QUE PARA OBTENER EL TÍTULO DE:
Actuario
PRESENTA:
Sonny Alberto Medina Jiménez
TUTORA
Dra. Guillermina Eslava Gómez
2016
Ciudad Universitaria, CDMX
 
UNAM – Dirección General de Bibliotecas 
Tesis Digitales 
Restricciones de uso 
 
DERECHOS RESERVADOS © 
PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL 
 
Todo el material contenido en esta tesis esta protegido por la Ley Federal 
del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). 
El uso de imágenes, fragmentos de videos, y demás material que sea 
objeto de protección de los derechos de autor, será exclusivamente para 
fines educativos e informativos y deberá citar la fuente donde la obtuvo 
mencionando el autor o autores. Cualquier uso distinto como el lucro, 
reproducción, edición o modificación, será perseguido y sancionado por el 
respectivo titular de los Derechos de Autor. 
 
 
 
1.Datos del alumno
Medina
Jiménez
Sonny Alberto
55 2180 4102
Universidad Nacional Autónoma de México
Facultad de Ciencias
Actuaŕıa
309219934
2.Datos del tutor
Dra.
Guillermina
Eslava
Gómez
3.Datos del sinodal 1
Act.
Francisco
Sánchez
Villarreal
4.Datos del sinodal 2
Dr.
Carlos
Dı́az
Ávalos
5.Datos del sinodal 3
Act.
David Chaffrey
Moreno
Fernández
6.Datos del sinodal 4
Act.
Cristina
Ortuño
Mojica
7.Datos del trabajo escrito
Muestra Censal 2010: Estimación de Varianzas
155 p
2016
A la Universidad Nacional Autónoma de México
Agradecimientos
A mis padres Silvia y Alberto, todo su apoyo y el cariño que nunca me ha faltado.
A mis amigos Angélica, Agust́ın, Armando, Diego, Dulce, Eduardo, Ernesto, Mariana,
Rafa y Sebastián, todas las mañanas y tardes en la facultad, la brisca, las comidas y las
fiestas. A Dana, por escucharme, entenderme y aconsejarme. A todos los amigos que no
nombré y que han llenado mi camino de buenas experiencias.
A mis sinodales, su atención, tiempo y valiosas correcciones, especialmente a Cristina
Ortuño, cuyos comentarios y sugerencias me han instruido en lo personal y lo profesional.
A todos mis profesores, tanto de Ciencias como de la FES Acatlán, el empeño y el gusto
contagioso por impartir sus clases, por haber contribuido positivamente en mi formación
académica y humana. A la doctora Guillermina, su valioso ejemplo, su sinceridad, su
tiempo y por enseñarme en cada curso el compromiso con la Universidad.
Índice general
Agradecimientos
Resumen I
Introducción III
1. Estimación de varianzas en la Muestra Censal 1
1.0.1. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1. Introducción a la estimación de varianza . . . . . . . . . . . . . . . . . . . 4
1.1.1. Estimador de Horvitz-Thompson . . . . . . . . . . . . . . . . . . . 4
1.2. Diseño de la Muestra Censal 2010 . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.1. Muestreo Estratificado Simple por Conglomerados . . . . . . . . . . 8
1.3. Estructura del diseño muestral . . . . . . . . . . . . . . . . . . . . . . . . . 10
Distrito Federal - Estructura del diseño muestral . . . . . . . . . . . . . . . 12
1.4. Alternativas de cálculo de varianza estimada implementadas en el software 13
1.4.1. The Ultimate Cluster Method . . . . . . . . . . . . . . . . . . . . . 15
1.5. Tabulados Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2. Metodoloǵıa de estimación de varianzas 19
2.1. Método de los Grupos Aleatorios . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.1. Grupos Aleatorios Independientes . . . . . . . . . . . . . . . . . . . 20
2.2. Estimador de Estratos Colapsados . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.1. Sesgo del Estimador de Estratos Colapsados . . . . . . . . . . . . . 23
2.2.2. Generalización del Estimador de Estratos Colapsados . . . . . . . . 24
2.2.3. Estimador de varianza de estimadores de razón . . . . . . . . . . . 25
ÍNDICE GENERAL
3. Resultados 29
3.1. Total poblacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.1.1. Chiapas, población estimada por municipio y tipo de estrato . . . . 31
3.1.2. Chiapas, comparación de varianzas estimadas . . . . . . . . . . . . 35
3.1.3. Distrito Federal, población estimada por municipio y tipo de estrato 38
3.1.4. Distrito Federal, comparacion de varianzas estimadas . . . . . . . . 39
3.1.5. Jalisco, población estimada por municipio y tipo de estrato . . . . . 41
3.1.6. Jalisco, comparacion de varianzas estimadas . . . . . . . . . . . . . 43
3.2. Bienes y tecnoloǵıas de la información y la comunicación (Internet) . . . . 45
3.2.1. Chiapas, Viviendas estimadas por disponibilidad de internet . . . . 45
3.2.2. Distrito Federal, Viviendas estimadas por disponibilidad de internet 47
3.2.3. Jalisco, Viviendas estimadas por disponibilidad de internet . . . . . 48
3.3. Autoadscripción étnica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.3.1. Chiapas, proporción estimada de personas autoconsideradas ind́ıgenas 51
3.3.2. Distrito Federal, proporción estimada de personas autoconsideradas
ind́ıgenas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.3.3. Jalisco, proporción estimada de personas autoconsideradas ind́ıgenas 56
4. Conclusiones 59
A. Estructura del diseño de la muestra censal 61
Chiapas - Estructura del diseño muestral . . . . . . . . . . . . . . . . . . . 61
Jalisco - Estructura del diseño muestral . . . . . . . . . . . . . . . . . . . . 66
B. Resultados municipales 71
B.1. Total poblacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
B.1.1. Chiapas, población estimada por municipio y tipo de estrato . . . . 71
B.1.2. Chiapas, comparación de varianzas estimadas . . . . . . . . . . . . 76
B.1.3. Jalisco, población estimada por municipio y tipo de estrato . . . . . 81
B.1.4. Jalisco, comparacion de varianzas estimadas . . . . . . . . . . . . . 86
B.2. Bienes y tecnoloǵıas de la información y la comunicación (Internet) . . . . 91
B.2.1. Chiapas, Viviendas estimadas por disponibilidad de internet . . . . 91
B.2.2. Jalisco, Viviendas estimadas por disponibilidad de internet . . . . . 96
B.3. Autoadscripción étnica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
B.3.1. Chiapas, proporción estimada de personas autoconsideradas ind́ıgenas101
B.3.2. Jalisco, proporción estimada de personas autoconsideradas ind́ıgenas106
ÍNDICE GENERAL
C. Encuesta Intercensal 2015 111
D. Programación en R 123
D.1. Estructura del diseño muestral por entidad . . . . . . . . . . . . . . . . . . 123
D.2. Estimación de Varianzas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
E. Cuestionarios 133
E.1. Cuestionario Básico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
E.2. Cuestionario Ampliado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
Catálogo de municipios 156
Bibliograf́ıa 159
ÍNDICE GENERAL
Índice de cuadros
1.1. Estructura del diseño muestral, Distrito Federal. . . . . . . . . . . . . . . . 12
1.2. Resumen de la estructura del diseño muestral. . . . . . . . . . . . . . . . . 13
3.1. Chiapas. Población estimada y desviación estándar estimada por tipo de
estrato en municipios afectados por estratos problemáticos. . . . . . . . . . 33
3.2. Chiapas. Comparación de varianzas estimadas en municipios con estratos
problemáticos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3. Distrito Federal. Población estimada y desviación estándar estimada por
tipo de estrato en delegaciones afectadas por estratos problemáticos . . . . 38
3.4. Distrito Federal. Comparación de varianzas estimadas en delegaciones con
estratos problemáticos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5. Jalisco. Población estimada y desviación estándar estimada por tipo de
estratoen municipios afectados por estratos problemáticos. . . . . . . . . . 41
3.6. Jalisco. Comparación de varianzas estimadas en municipios con estratos
problemáticos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.7. Chiapas. Número estimado de viviendas por condición de disponibilidad
de Internet en municipios con estratos problemáticos. . . . . . . . . . . . . 45
3.8. Distrito Federal. Número estimado de viviendas por condición de disponi-
bilidad de Internet en delegaciones con estratos problemáticos. . . . . . . . 47
3.9. Jalisco. Número estimado de viviendas por condición de disponibilidad de
Internet en municipios con estratos problemáticos. . . . . . . . . . . . . . . 48
3.10. Viviendas estimadas por disponibilidad de internet en Guadalajara. . . . . 49
3.11. Chiapas. Proporción estimada de personas que se autoconsideran ind́ıgenas
en municipios con estratos problemáticos. . . . . . . . . . . . . . . . . . . . 51
3.12. Distrito Federal. Proporción estimada de personas que se autoconsideran
ind́ıgenas en delegaciones con estratos problemáticos. . . . . . . . . . . . . 54
3.13. Jalisco. Proporción estimada de personas que se autoconsideran ind́ıgenas
en municipios con estratos problemáticos. . . . . . . . . . . . . . . . . . . . 56
A.1. Estructura del diseño muestral, Chiapas. . . . . . . . . . . . . . . . . . . . 61
ÍNDICE DE CUADROS
A.2. Estructura del diseño muestral, Jalisco. . . . . . . . . . . . . . . . . . . . . 66
B.1. Chiapas. Población estimada y desviación estándar estimada por municipio
y tipo de estrato. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
B.2. Chiapas. Comparación de varianzas estimadas mediante el método de
estratos colapsados, la opción adjust y lo reportado en los tabulados básicos. 76
B.3. Jalisco. Población estimada y desviación estándar estimada por municipio
y tipo de estrato. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
B.4. Jalisco. Comparación de varianzas estimadas mediante el método de
estratos colapsados, la opción adjust y lo reportado en los tabulados básicos. 86
B.5. Chiapas. Número estimado de viviendas por condición de disponibilidad
de Internet. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
B.6. Jalisco. Número estimado de viviendas por condición de disponibilidad de
Internet. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
B.7. Chiapas. Proporción estimada de personas que se autoconsideran ind́ıgenas. 101
B.8. Jalisco. Proporción estimada de personas que se autoconsideran ind́ıgenas. 106
C.1. Estructura de la Muestra de la Encuesta Intercensal 2015, Distrito Federal. 112
C.2. Estructura del diseño muestral de la Encuesta Intercensal 2015, Chiapas. . 113
C.3. Estructura del diseño muestral de la Encuesta Intercensal 2015, Jalisco. . . 117
E.1. Catálogo de municipios de Chiapas . . . . . . . . . . . . . . . . . . . . . . 152
E.2. Catálogo de municipios de Jalisco . . . . . . . . . . . . . . . . . . . . . . . 154
Resumen
En la presente tesis se realiza la estimación de varianzas de estimadores de parámetros
poblacionales sobre la Muestra Censal 2010 (MC2010). Se seleccionaron tres entidades:
Chiapas, Distrito Federal y Jalisco, y los parámetros poblacionales: población total, dispo-
sición de internet en las viviendas y proporción de personas autoconsideradas ind́ıgenas.
Los resultados son presentados a nivel municipal y estatal.
Sobre las bases de datos correspondientes a Personas y Viviendas (unidades de análisis
de la MC2010) se hace un manejo cuidadoso de las variables asociadas al diseño muestral
(estratificado y por conglomerados). Su estructura, conformada por estratos; unidades
primarias de muestreo y unidades de análisis en cada municipio, se presenta en forma de
tablas.
Se emplea el Método de los Estratos Colapsados, debido a la existencia de estratos con
solo una unidad primaria de muestreo. Se presentan los estimadores de Horvitz-Thompson,
reportados por el INEGI en el documento Diseño de la Muestra Censal 2010 [4], y las
dificultades en la estimación de varianzas mediante el uso de estos.
Se introduce el Método de los Grupos Aleatorios, antecedente directo del Estimador de
Estratos Colapsados, seguido de los resultados teóricos que exhiben su sesgo y demuestran
que el estimador sosbreestima la varianza poblacional.
La estimación de parámetros poblacionales a partir de la MC2010 es una tarea que realiza
el INEGI y cuyos resultados son conocidos como Tabulados Básicos. Los valores estimados
puntuales e intervalares en esta tesis se presentan mediante tablas, gráficas de intervalos de
confianza y comparaciones. Estas últimas con lo calculado mediante una de las alternativas
provista en el paquete survey del software R, la opción adjust y lo presentado en los
Tabulados Básicos.
De la comparación antes mencionada se observa que el Método de Estratos Colapsados
provee estimaciones útiles, que no subestiman la varianza poblacional de los estimadores
y son menores que las obtenidas con la opción adjust.
I
II RESUMEN
Introducción
La Muestra Censal 2010 (MC2010) levantada durante los meses de mayo y junio de 2010,
provee la información recabada en alrededor de 2.9 millones de viviendas mediante el
cuestionario ampliado1. Su objetivo, al igual que el de toda muestra probabiĺıstica, es la
estimación de parámetros poblacionales. En esta estimación de caracteŕısticas la varianza
de los estimadores es un tema crucial. La estimación de varianzas se realiza en
En el primer caṕıtulo se presenta el problema de estimación de varianzas dentro de la
Muestra Censal 2010, en el mismo caṕıtulo se detallan sus caracteŕısticas y se presentan
las estructuras del diseño muestral en el Distrito Federal, las estructuras de Chiapas y
Jalisco se encuentran en el apéndice A. También se presentan las alternativas de cálculo
de varianza implementaddas en R y Stata.
En el segundo caṕıtulo se detalla la metodoloǵıa de estimación de varianza, se presenta
el estimador de grupos aleatorios, dos teoremas sobre el insesgamiento del mismo y la
distribución asintótica de este, y el estimador de estratos colapsados, para el estimador
de un total poblacional y el estimador de razón. Al final de este caṕıtulo se muestra el
método Logit de construcción de intervalos de confianza para proporciones.
Los resultados de la estimación de varianzas para las siguientes caracteŕısticas poblaciona-
les: Población, Disposición de Internet en viviendas y Autoadscripción étnica, se muestran
en el tercer caṕıtulo, en el cual también se realiza la comparación respecto a los tabulados
básicos y la opción adjust.
Se incluyen también cinco apéndices, en el Apéndice A, Estructura del Diseño Muestral, se
presenta la estructura del diseño de la muestra censal en Chiapas y Jalisco, mientras que la
del Distrito Federal se encuentra en la sección 1.3. El Apéndice B, Resultados Municipales,
contiene las tablas de resultados de valores estimados en cada uno de los municipios de
las entidades seleccionadas. En el Apendice C Encuesta Intercensal 2015 se presenta la
estructura del diseño muestral en la encuesta intercensal para las entidades seleccionadas y
se hacen comparaciones breves entre la magnitud de tal muestra y la MC2010, aśı como de
la existencia de estratos problemáticos para la estimación de varianza. En el Apéndice D
de Programación, se encuentra el código de R utilizado para la estimación de parámetros y
sus varianzas. Por último el Apéndice E Cuestionarios contiene los cuestionarios censales,
básico y ampliado de la MC2010.
1El cuestionario ampliado comparte 29 preguntas con el cuestionario básico y profundiza en temas
de salud, pertenencia étnica, educación y religión. Véase apéndice de cuestionarios.
III
IV INTRODUCCIÓN
En el libro de Wolter[13], el problema de estimación de varianza se aborda para una
gran variedad de situaciones y mediante diferentes técnicas, los resultados y teoremas del
Caṕıtulo 2 se remiten a [13] y [2], donde pueden consultarse las demostraciones y detalles
adicionales.
Caṕıtulo 1
Estimación de varianzas en la
Muestra Censal
La estimación de parámetros poblacionales es el objetivo del levantamiento de cual-
quier muestra probabiĺıstica. Cuando una muestra es aleatoria, la estimación de un paráme-
tro poblacional se realiza a partir de funciones de la muestra llamadas estimadores. Los
estimadores son variables aleatorias con esperanza y varianza, que dependen, tanto de
la forma del estimador como de la probabilidad con la que se selecciona una muestra
espećıfica..
Al estimar caracteŕısticas de toda una población a partir de sólo la información provenien-
te de una muestra, reportar la precisión de las estimaciones es imprescindible. La pregunta
inmediata es ¿cómo se mide la precisión de una estimación derivada de una muestra?
La medida más común de precisión es la varianza del estimador1, la cual en general no es
conocida, pues si bien el estimador es una variable aleatoria cuya distribución es motivada
por el diseño de la muestra, su esperanza y varianza dependen del conocimiento de todos
los valores que puede tomar el estimador sobre cada una de las muestras posibles. Al no
ser viable el cálculo exacto de la varianza del estimador, se requiere su estimación a partir
de la información conocida, la información provista por la muestra.
A continuación se introduce la notación que se usa a lo largo del presente trabajo.
1.0.1. Notación
(1) Denotaremos por U = {u1, u2, ..., uN} una población finita de unidades identifica-
bles, con N elementos o unidades poblacionales, a menudo U también será denotado
únicamente como el conjunto de sub́ındices de los elementos poblacionales que con-
tiene, U = {1, 2, ..., N}.
1Cuando un estimador es insesgado, se reporta la varianza, de ser sesgado, se reporta el error
estándar.
1
2 CAPÍTULO 1. ESTIMACIÓN DE VARIANZAS EN LA MUESTRA CENSAL
(2) Una muestra s = {u1, u2, ..., uns} es un subconjunto no vaćıo de U , con ns el tamaño
de la muestra s.
(3) Un dominio Ud = {u1, u2, ..., uNd} es un subconjunto de U que comúnmente denota
a una subpoblación espećıfica, por ejemplo, en una población de personas U , la
subpoblación conformada por únicamente mujeres es un dominio Ud.
(4) Sea L el conjunto de todas las muestras posibles de la población U , una función
p() : L → [0, 1] es un diseño muestral si satisface las siguientes propiedades:
(i) p(s) ≥ 0 ∀s ∈ L
(ii)
∑
s∈L
p(s) = 1.
La función p(s) denota la probabilidad de selección de la muestra s ⊆ U .
(5) Dado un diseño muestral definimos la probabilidad de inclusión de primer orden πk
como la probabilidad de que la unidad k sea seleccionada en la muestra
πk =
∑
s∋k
p(s)
para k = 1, ..., N . El factor de expansión de la unidad poblacional k es wk =
1
πk
.
Decimos que la unidad uk es autorepresentada si wk = 1.
De manera similar es definida la probabilidad de inclusión de segundo orden,
πkl =
∑
k,l∋s
p(s)
para k, l = 1, ..., N .
(6) Asociado a cada unidad k en la población están un conjunto de p variables de interés
yk1, yk2, ..., ykp.
(6) Denotamos con t =
∑
k∈U
yk; el total poblacional de la variable y.
t̄ = 1/N
∑
k∈U
yk la media poblacional de la variable y.
R =
∑
k∈U
yk/
∑
k∈U
zk; un cociente de totales poblacionales.
(7) Para referirnos a un estimador de varianza (i.e. un estimador de V (θ̂)) usaremos
la expresión V̂ (θ̂), que dependiendo del estimador utilizado será acompañada de
sub́ındices, por ejemplo: el estimador de varianza del estimador del parámetro θ
bajo un muestreo simple es V̂SI(θ̂).
3
(8) Dado un diseño muestral p() y t̂ un estimador del total poblacional definimos el
DEFF (p, t̂) como
DEFF (p, t̂) =
Vp(t̂)
VSI(t̂)
Los siguientes ejemplos ilustran el uso de la notación
Ejemplo 1 Sea la población U = {u1, u2, u3, u4, u5}, N = 5. Consideremos la siguiente
función diseño
p(s) =



1/2, si s = {u1, u2}
1/4, si s = {u1, u3}
1/4, si s = {u1, u2, u3, u4, u5}.
Las probabilidades de inclusión son π1 = 1, π2 = 3/4, π3 = 1/2, π4 = π5 = 1/4. Los
factores de expansión son w1 = 1, w2 = 4/3, w3 = 2, w4 = w5 = 4. Las probabilidades de
inclusión de segundo orden son
π11 = 1 π12 = 3/4 π13 = 1/2 π14 = 1/4 π15 = 1/4
π22 = 3/4 π23 = 1/4 π24 = 1/4 π25 = 1/4
π33 = 1/2 π34 = 1/4 π35 = 1/4
π44 = 1/4 π45 = 1/4
π55 = 1/4
La unidad u1 es autorepresentada, pues w1 = 1. El tamaño de la muestra ns es una
variable aleatoria con la siguiente función de masa de probabilidad
P (ns = k) =
{
3/4 si k = 2
1/4 si k = 4.
Observe también que E(ns) = 10/4 y que V (ns) = 3/4.
Ejemplo 2 (muestreo SI) Sea U = {u1, u2, ..., uN} una población finita de tamaño N .
La función diseño en el muestreo aleatorio simple (SI ) asigna probabilidades iguales
a todos los conjuntos de tamaño n ≤ N que pueden formarse en U , es decir
p(s) =



1/
(
N
n
)
si |s| = n
0 e.o.c
En el muestreo (SI ) ns = n, es decir, el tamaño de muestra es fijo. Dada esta función
diseño, las probabilidades de inclusión de primer orden son πk = n/N para k = 1, ..., N .
Las probabilidades de inclusión de segundo orden están dadas por πkl = n(n−1)/N(N−1)
para k, l = 1, ..., N y k 6= l.
4 CAPÍTULO 1. ESTIMACIÓN DE VARIANZAS EN LA MUESTRA CENSAL
1.1. Introducción a la estimación de varianza
Sea θ̂ un estimador de un parámetro poblacional, obtenido a partir de una muestra
probabiĺıstica. Es decir θ̂ = f(s), donde s denota una muestra con probabilidad positiva
de ser seleccionada. Entonces
P[θ̂ = θ0] =
∑
s|θ̂(s)=θ0
p(s)
Donde p(s) denota la probabilidad de selección de una muestra s. Entonces θ̂ es una
variable aleatoria, cuya realización es llamada valor estimado o estimación del parámetro
poblacional.
La esperanza y varianza del estimador de un parámetro poblacional se obtienen mediante
las siguientes fórmulas
E(θ̂) =
∑
s
θ̂(s)p(s)
V (θ̂) =
∑
s
p(s)[θ(s)− E(θ̂)]2
Es importante notar que tanto la esperanza como la varianza de un estimador deben ser
calculadas sobre cada uno de los valores posibles del estimador, es decir sobre la realiza-
ción de la variable aleatoria en cada muestra posible.
El conjunto de todas las muestras posibles depende del diseño muestral. De forma parti-
cular, para el muestreo aleatorio simple, con un tamaño de muestra fijo n, el conjunto de
todas las muestras posibles tiene cardinalidad
(
N
n
)
, lo que implica que calcular la esperan-
za o la varianza del estimador requiere el conocimiento de cada una de estas muestras. Si
bien esto no es imposible, en la práctica las muestras son usadas porque tienen un costo
mucho menor al de los censos, por lo que obtener tantas muestras como combinaciones
de N en n es inviable.
Para reportar la esperanza y varianza de un estimador, se recurre a su estimación.
Existen en la literatura muchas referencias a la estimación de varianzas, y muchos métodos
de estimación de varianzas, en [13] el tema es abordado a profundidad.
1.1.1. Estimador de Horvitz-Thompson
Resultado 2.8.1, C. E. Särndal et al. (1992) Caṕıtulo 2, p. 43
El estimador π
t̂π =
∑
s
yk
πk
1.2. DISEÑO DE LA MUESTRA CENSAL 2010 5
es insesgado para t =
∑
U yk, con varianza
V (t̂π) =
∑∑
U
(πkl − πkπl)
yk
πk
yl
πl
.
Si πkl > 0 para cualesquiera k, l ∈ U , un estimador insesgado de V (t̂π) está dado por
V̂ (t̂π) =
∑∑
s
(πkl − πkπl)
πkl
yk
πk
yl
πl
.
Estimador de Varianza de Yates-Grundy
Resultado 2.8.2, C. E. Särndal et al. (1992) Caṕıtulo 2, p. 45
Bajo un diseño con tamaño de muestra fijo, la varianza del estimador π puede escribirse
alternativamente como
V (t̂π) = −
1
2
∑∑
U
(πkl − πkπl)(
yk
πk
−
yl
πl
)2.
Si πkl > 0 para todo k 6= l ∈ U , un estimador insesgado de V (t̂π) está dado por
V̂ (t̂π) = −
1
2
∑∑
U
(πkl− πkπl)
πkl
(
yk
πk
−
yl
πl
)2.
Debe observarse que el estimador π únicamente hace uso de las probabilidades de inclu-
sión de primer orden. Es importante debido a su sencilla implementación en el software
especializado, en particular en las libreŕıas survey de R y svy de Stata. Las probabilidades
de inclusión de segundo orden generalmente no son provistas en las bases de datos de la
muestra, para estimar la varianza de t̂π se recurre a otros métodos como The Ultimate
Cluster Method, véase subsección 1.4.1.
En la siguiente sección se hace referencia a los estimadores anteriores espećıficamente
para muestreo estratificado y por conglomerados.
1.2. Diseño de la Muestra Censal 2010
La Muestra Censal 2010 (MC2010) levantada durante los meses de mayo y junio de
2010, simultáneamente al Censo de Población y Vivienda, provee la información recaba-
da mediante el cuestionario ampliado, un instrumento de captación que contiene las 29
preguntas del cuestionario básico y profundiza en el conocimiento de las caracteŕısticas
de las viviendas encuestadas y sus integrantes.
El objetivo general de la MC2010 es proporcionar información a nivel municipal con
precisión y confianza medibles para tasas, promedios y proporciones sobre caracteŕısticas
poblacionales espećıficas.
6 CAPÍTULO 1. ESTIMACIÓN DE VARIANZAS EN LA MUESTRA CENSAL
El diseño de la muestra censal 2010 es estratificado por conglomerados y se realizó
en una sola etapa de selección, es decir, dada una estratificación se seleccionan en cada
estrato, mediante un diseño muestral espećıfico, áreas completas, ya sean manzanas o
localidades. Dentro de estas áreas se aplica el cuestionario ampliado a todas las viviendas
particulares habitadas. A las manzanas o localidades, según el estrato, se les llama uni-
dades primarias de muestreo (UPM), mientras que a las viviendas y a las personas, de
acuerdo a las variables que fueron medidas (a nivel vivienda o de manera personal), se les
llama elementos o unidades de análisis. [11, p.13].
Cabe destacar que la MC2010 no es una muestra autoponderada, es decir, las viviendas
en la muestra no tienen la misma probabilidad de inclusión.
El marco muestral estuvo conformado por cada una de las viviendas particulares en Méxi-
co y sus residentes habituales, y fue construido con información del Censo de Población
y Vivienda del año 2000 y diversas encuestas y conteos llevados a cabo de 2005 a 2009.
1.2. DISEÑO DE LA MUESTRA CENSAL 2010 7
Estratificación y selección de la muestra
“Para llevar a cabo la estratificación de los 2456 municipios en el páıs se establecieron los
siguientes grupos:
1. Menos de 1,100 viviendas habitadas,
2. De 1,100 a 4,000 viviendas habitadas,
3. Más de 4,000 viviendas habitadas.
El interior de los municipios que no se incluyeron con certeza en la muestra, fue posterior-
mente estratificado de acuerdo a las localidades conformadas y según siguientes grupos:
1. Localidades con menos de 250 viviendas habitadas;
2. Localidades con más de 250 viviendas habitas y menos de 50,000 habitantes:
Menos de 50 habitantes,
De 50 a 499 habitantes,
De 500 a 999 habitantes,
De 1,000 a 1,499 habitantes,
De 1,500 a 1,999 habitantes,
De 2,000 a 2,499 habitantes,
De 2,500 a 4,999 habitantes,
De 5,000 a 14,999 habitantes,
De 15,000 a 49,999 habitantes,
3. Localidades con más de 50,000 habitantes.
Los 125 municipios con el menor Índice de Desarrollo Humano (IDH) y aquellos con menos
de 1100 viviendas habitadas, se incluyeron con certeza en la muestra, es decir, se censó
con el cuestionario ampliado a cada una de las viviendas en tales municipios.
Al interior de cada municipio, la afijación de la muestra para cada estrato fue proporcional
al número de viviendas habitadas por estrato. Para los municipios en el que todas sus
viviendas entraron con certeza a la muestra, no fue necesario hacer la afijación.
En todos los casos la selección se realizó mediante muestreo aleatorio simple.”[4, p.5]
8 CAPÍTULO 1. ESTIMACIÓN DE VARIANZAS EN LA MUESTRA CENSAL
1.2.1. Muestreo Estratificado Simple por Conglomerados
En el muestreo estratificado por conglomerados (STSIC) se realiza un muestreo simple
por conglomerados dentro de cada uno de los estratos en que se divide la población.
Consideremos que la población está dividida en H estratos, entonces t =
∑H
h=1 th donde
th =
∑
h yk, th representa el total en el estrato h, con h = 1, 2, ..., H.
Suponga que cada estrato ha sido dividido en NIh conglomerados (UPMs), cada una de
ellas con un número determinado de elementos, y que en cada uno de los H estratos se
realiza un muestreo simple de nIh conglomerados.
Las expresiones del estimador del total poblacional, su varianza y un estimador de la
varianza son las siguientes
t̂ =
H∑
h=1
NIh
nIh
nIh∑
k=1
thk; thk =
∑
h,k
yj (1.1)
V (t̂) =
H∑
h=1
V (t̂h) =
H∑
h=1
N2Ih(1− fIh)S
2
Iht/nIh (1.2)
V̂ (t̂) =
H∑
h=1
V̂ (t̂h) =
H∑
h=1
N2Ih(1− fIh)s
2
Iht/nIh (1.3)
Con
S2Iht =
NIh∑
k=1
(thk − (
∑NIh
k=1 thk/NIh))
2
NIh − 1
s2Iht =
nIh∑
k=1
(thk − (
∑nIh
k=1 thk/nIh))
2
nIh − 1
fIh =
nIh
NIh
.
Donde thk representa el total de la variable de interés sobre el conglomerado k-ésimo del
estrato h.
Este resultado es obtenido de conjuntar el Resultado 3.7.2 del libro de Särndal et al.
[11, p.103], sobre el estimador de Horvitz-Thompson en el muestreo estratificado simple
(STSI), y la Sección 4.2.2[11, p.129], sobre el muestreo simple por conglomerados.
Para el uso del estimador de varianza 1.3, es importante remarcar la necesidad de que
nIh ≥ 2. En otras palabras, esto es, que el número de conglomerados seleccionados en la
muestra por cada estrato sea al menos dos.
1.2. DISEÑO DE LA MUESTRA CENSAL 2010 9
Bajo el muestreo STSIC, si t̂x y t̂y representan a los estimadores del total poblacional
para las variables de interés x y y respectivamente, la covarianza y la covarianza estimada
entre ambos está dada por
Cov(t̂x, t̂y) =
H∑
h=1
N2Ih(1− fIh)SxyIh/nIh (1.4)
Ĉov(t̂x, t̂y) =
H∑
h=1
N2Ih(1− fIh)sxyIh/nIh (1.5)
Donde
SxyIh =
NIh∑
k=1
(txhk − t̄Uxh)(tyhk − t̄Uyh)
NIh − 1
sxyIh =
nIh∑
k=1
(txhk − t̄sxh)(tyhk − t̄syh)
nIh − 1
t̄Uxh =
NIh∑
k=1
txhk/NIh
t̄syh =
nIh∑
k=1
tyhk/nIh
En el documento [4, pp.6-8] Diseño de la muestra censal.pdf proporcionado por el
INEGI, se dice lo siguiente sobre los estimadores.
El estimador del total para un dominio de estudio dado (por ejemplo, un municipio)
es:
Ŷm =
H∑
h=1
Ŷh =
H∑
h=1
nh∑
j=1
Fhj
Mj∑
k=1
yhjk (1.6)
donde:
Ŷm Es el total estimado de la caracteŕıstica de interés para el dominio m
Ŷh Es el total estimado de la caracteŕıstica de interés en el estrato h del dominio m
Fhj Es el factor de expansión de la j-ésima UPM en el h-ésimo estrato
yhjk Es el valor de la caracteŕıstica de interés en la k-ésima vivienda, del j-ésimo conglo-
merado en el h-ésimo estrato
H Es el número de estratos en el dominio m
Mj El número de viviendas en muestra dentro de la j-ésima UPM en el h-ésimo estrato.
El estimador de la media es
Ȳm =
Ŷ
Mm
=
Ŷm∑H
h=1
∑nh
j=1 Fhj
(1.7)
10 CAPÍTULO 1. ESTIMACIÓN DE VARIANZAS EN LA MUESTRA CENSAL
Donde Mm es el estimador del total de viviendas en el dominio m.
Para la estimación de un total, el estimador de la varianza del estimador, para un
dominio dado, es:
V̂ (Ŷm) =
H∑
h=1
V̂ (Ŷh) =
H∑
h=1
N2h(1−
nh
Nh
)
Ŝ2h
nh
(1.8)
donde
Ŝ2h =
nh∑
j=1
(yhj − ȳh)
2
nh − 1
Por ende el error estándar asociado está dado por:
E.EŶm =
√
V̂ (Ŷm).
Observaciones sobre los estimadores mencionados en el Diseño de la Muestra
Censal por INEGI
Los estimadores 1.1 y 1.6 son dos expresiones algebráicas del mismo estimador, en
vista de
Fhj =
Nh
nh
,
nh
Nh
Ŷh = tk =
nh∑
j=1
Mj∑
k=1
yhjk
De la misma forma, lo son 1.3 y 1.8, es decir, INEGI utiliza los estimadores de
Horvitz-Thompson.
Es importante mencionar que el estimador de la media 1.7 es un estimadorde razón,
del tipo R̂ = t̂y/t̂x, y la fórmula para estimar su varianza es la siguiente
V̂ (R̂) =
1
t̂2x
[V̂ (t̂y) +R
2V̂ (t̂x)− 2RĈov(t̂x, t̂y)] (1.9)
Donde Ĉov(t̂x, t̂y), para el muestreo STSIC está definida como en la ecuación 1.5.
1.3. Estructura del diseño muestral
La muestra censal 2010 es una muestra unietápica, estratificada y por conglomerados,
por lo que su estructura está conformada por estratos de diseño, unidades primarias
de muestreo (conglomerados) y unidades de análisis (UA), que pueden ser personas o
viviendas.
1.3. ESTRUCTURA DEL DISEÑO MUESTRAL 11
Selección de las entidades para la estimación de varianza
Para la estimación de varianzas fueron seleccionadas las entidades Chiapas, Distrito
Federal y Jalisco. El criterio de elección de estas entidades está basado en el conoci-
miento de la estructura del diseño de la muestra nacional. Se seleccionaron entidades
cuya problemática en el cálculo de varianza fuera evidente; el Distrito Federal posee más
del 90% de estratos con sólo una UPM; Chiapas cuenta con municipios completamente
censados y en Jalisco, el municipio de Guadalajara posee únicamente estratos con una
UPM.
A continuación se resume en tablas la estructura del diseño de la muestra en el Distrito
Federal, las columnas reflejan para toda la entidad y cada una de sus delegaciones:
El nombre de la delegación,
La suma del factor de expasión asociado a cada unidad muestral (personas y vivien-
das),
El número de unidades de análisis,
El número de estratos totales por municipio,
El número de unidades primarias de muestreo,
El número de estratos con solo una UPM
El número de estratos autorepresentados, estratos cuyas unidades primarias de
muestreto tienen factor de expansión igual a 1, es decir, aquellos que fueron censa-
dos.
Las dos últimas columnas son de gran importancia para la estimación de varianzas,
puesto que los estratos censados no contribuyen a la varianza del estimador y sobre los
estratos con sólo una UPM donde no pueden usarse las expresiones 1.3 o 1.8.
La estructura del diseño muestral para las entidades Chiapas y Jalisco, y cada uno
de sus municipios se encuentran en el Apéndice A, Estructura del diseño de la muestra
censal.
12 CAPÍTULO 1. ESTIMACIÓN DE VARIANZAS EN LA MUESTRA CENSAL
Distrito Federal - Estructura del diseño muestral.
Cuadro 1.1: Estructura del diseño muestral en el Distrito Federal, suma del factor de expan-
sión, número de unidades de análisis, número de estratos, UPM, estratos con una UPM y
autorepresentados.
Delegación Personas Viviendas Número de Número de
Suma del Núm. de Suma del Núm. de EST. UPM Estratos
Factor de unidades Factor de unidades Con una Autorepre-
expansión de análisis expansión de análisis UPM sentados
Distrito Federal 8 783 909 353 030 2 450 563 97 838 2 215 2 396 2 186 28
Álvaro Obregón 725 401 28 284 195 820 7 589 195 197 194 2
Azcapotzalco 414 082 11 983 119 236 3 411 96 96 96 0
Benito Juárez 383 214 15 067 139 529 5 586 101 101 101 1
Coyoacán 619 263 19 934 182 214 5 684 143 143 143 0
Cuajimalpa 186 343 12 372 47 700 3 094 30 53 20 0
Cuauhtémoc 526 483 29 804 176 716 10 101 131 132 130 1
Gustavo A. Madero 1 171 127 38 822 320 668 10 678 287 287 287 1
Iztacalco 383 356 15 493 101 529 4 047 105 106 104 0
Iztapalapa 1 793 578 61 533 460 324 15 471 446 446 446 1
La Magdalena
Contreras
238 394 7 676 62 911 2 041 51 59 49 1
Miguel Hidalgo 371 534 16 450 120 424 5 372 107 107 107 3
Milpa Alta 129 384 5 382 30 810 1 279 3 46 0 0
Tláhuac 359 750 15 600 89 740 3 820 89 118 86 3
Tlalpan 644 988 30 258 177 602 8 123 178 218 173 9
Venustiano Carranza 429 462 21 200 123 638 5 771 141 141 141 2
Xochimilco 407 550 23 172 101 702 5 771 112 146 109 4
1.3. ESTIMACIÓN DE VARIANZAS EN LA MUESTRA CENSAL 13
Resumen de la estructura del diseño muestral en las
tres entidades
La siguiente tabla refleja, para cada una de las entidades selccionadas, el
número total de estratos, el número de estratos con sólo una UPM y el
número de estratos autorepresentados, aśı como el número de municipios
con al menos un estrato problemático y el porcentaje que representan, del
total de municipios en cada entidad.
Entidad Núm. de Estratos con Estratos Auto- Municipios con estratos Población estimada en
Estratos 1 UPM (%) repres. (%) con 1UPM (%) autorep. (%) Est. con 1UPM (%)
Chiapas 803 336 (41.8) 44 (5.4) 17 (14.4) 36 (30.5) 661,254 (13.8)
Distrito Federal 2 215 2 186 (98.6) 28 (1.2) 15 (93.7) 11 (68.7) 8,395,418 (95.5)
Jalisco 1 769 1 262 (71.3) 106 (5.9) 25 (20.0) 31 (24.8) 3,784,582 (51.6)
Cuadro 1.2: Resumen de la estructura del diseño muestral.
Como se ha mencionado anteriormente, el diseño de la Muestra Censal 2010
es un STSIC, por lo que la existencia de estratos con sólo una UPM impide
la aplicación de las fórmulas en la sección 1.2.1. Debe hecerse un manejo
cuidadoso de cada estrato, clasificándolo según sus caracteŕısticas para el
cálculo de su varianza.
Los estratos autorepresentados, es decir, aquellos que fueron completa-
mente censados, tienen varianza cero, por lo que su varianza estimada2
debe ser cero.
Los estratos con una sola UPM deben ser sometidos a un tratamiento
distinto, una opción es recurrir al Estimador de Estratos Colapsados.
1.4. Alternativas de cálculo de varianza esti-
mada implementadas en el software
En la sección anterior se hizo del conocimiento del lector la existencia de
estratos autorepresentados y con una UPM en la muestra censal de tres
2En Survey (R), aunque las unidades muestrales sean espećıficadas como unidades
autorepresentadas, si no son separadas del resto de las unidades, el método de estima-
ción de varianza (The Ultimate Cluster Method) considerará una contribución positiva
a la varianza estimada.
14CAPÍTULO 1. ESTIMACIÓN DE VARIANZAS EN LA MUESTRA CENSAL
entidades, tales estratos requieren de un manejo computacional separado,
cuando se realizan las estimaciones de varianza, inclusive en software es-
pecializado. A continuación se ilustran algunas opciones existentes en las
libreŕıas survey y svy de los programas R y Stata, respectivamente, para el
manejo de estratos con sólo una UPM. Existen gran variedad de programas
informáticos estad́ısticos, muchos de ellos con libreŕıas de análisis de datos
de encuestas, sin embargo, se presentan únicamente R y Stata debido a la
familiaridad y la disponibilidad del autor con éstos. Debe mencionarse que
R es un software libre, y uno de los lenguajes más utilizados en investigación
por la comunidad estad́ıstica[1]. Stata es un software estad́ıstico que requiere
la adquisición de una licencia para su uso.
Opciones de comandos en R
library(survey)
options(survey.lonely.psu="fail")
options(survey.lonely.psu="remove")
options(survey.lonely.psu="certainty")
options(survey.lonely.psu="average")
options(survey.lonely.psu="adjust")
La opción fail es seleccionada por defecto, y env́ıa un mensaje de error cuan-
do identifica estratos con una UPM, remove y certainty ignoran la aporta-
ción de las UPM a la varianza, en otras palabras asignan varianza cero a los
estratos con una UPM. La diferencia entre ambas radica en el env́ıo de un
mensaje de advertencia cuando se usa la opción remove, que no es enviado
cuando se usa la opción certainty.
La opción average reemplaza la contribución a la varianza de los estratos con
una UPM por la varianza promedio de los estratos con más de una UPM.
La opción adjust asigna a los estratos con una UPM el cuadrado de la resta
del valor estimado y la media del total estimado en los estratos con más de
una UPM [9, p.53].
Opciones disponibles en Stata
svy > svyset >
singleunit(missing)
1.4. ALTERNATIVAS DE CÁLCULO DE VARIANZA ESTIMADA 15
singleunit(certainty)
singleunit(scaled)
singleunit(centered)
Las opciones missing y certainty al igual que en R, ignoran la aportación a
la varianza en los estratos con una UPM.Mientras que las opciones scaled
y centered funcionan respectivamente como average y adjust.
Claramente las opciones anteriores únicamente representan alternativas al
cálculo de la varianza estimada, mas no representan la implementación de
un estimador de varianza, por lo que se carece de información teórica sobre
el sesgo de la estimación.
La opción remove no es una opción adecuada, pues suponer que los estratos
con una UPM no contribuyen a la varianza total, conduce a una subestima-
ción de la misma.
El uso de la opción average sólo es útil cuando al menos un estrato tiene
más de una UPM, la muestra en el municipio de Guadalajara tiene todos sus
estratos con sólo una UPM, por lo que la opción average no podŕıa usarse.
Debe observarse que el uso de alguna opción particular de estimación de
varianza, no modifica de ninguna manera el estimador puntual, por lo que
las estimaciones puntuales obtenidas en este trabajo escrito coinciden en su
totalidad con los valores reportados por el INEGI.
En el caṕıtulo destinado a los resultados de este trabajo se incluye la com-
paración de los resultados de varianza estimada contra los provistos por la
opción adjust de R.
1.4.1. The Ultimate Cluster Method
La estimación de varianzas automatizada en R, en espećıfico en la li-
breŕıa survey, utiliza el método conocido como The Ultimate Cluster, un
caso particular del Método de los Grupos Aleatorios, asumiendo un estima-
dor lineal θ̂ de la forma N/n
∑
s yk de un total poblacional t. Este método
proporciona un estimador de varianza que a diferencia de los estimadores de
Horvitz-Thompson o de Yates-Grundy, no requiere especificar las probabili-
dades de inclusión de segundo orden, y es de un cómputo sencillo. Con base
en el libro de Hansen et al. (1953) [2, Sec. 1, Cap. 6, p. 242] y asumiendo
16CAPÍTULO 1. ESTIMACIÓN DE VARIANZAS EN LA MUESTRA CENSAL
un muestreo estratificado y por conglomerados, la fórmula del estimador de
varianza bajo el método Ultimate Cluster es la siguiente
V̂ (t̂) =
H∑
h=1
nIh
nIh − 1
nIh∑
k=1
(thk − t̂h)
2 (1.10)
Donde H es el número de estratos y nIh es el número de conglomerados
en el estrato h.
Observe que para el uso de este método de estimación de varianza, existe
la necesidad de que nIh ≥ 2. En la documentación de la muestra censal del
año 2000 [3, p.52] se menciona el uso del estimador anterior.
1.5. Tabulados Básicos
Los tabulados básicos del cuestionario ampliado son una compilación de
resultados obtenidos de la estimación de parámetros poblacionales usando
la muestra censal y se encuentran disponibles al público en la página del
INEGI3.
Para ilustrar la importancia de la implementación de un método de estima-
ción de varianzas en la MC2010 basta con remitirse a la tabla A.2, ubicar el
municipio de Guadalajara y percatarse que todos sus estratos (405) poseen
sólo una UPM. Claramente es imposible utlizar las fórmulas de la Sección
1.2.1 o el método Ultimate Cluster, y es necesario recurrir a algún manejo
sobre la varianza en los estratos con UPM, que no subestime la varianza
poblacional..
De utilizar R para realizar la estimación de varianza sin especificar alguna
de las opciones vistas en la sección anterior obtendŕıamos un mensaje de
error, resulta una inquietud inmediata el ¿cómo está reportado esto en los
tabulados básicos?
Se trata de la tabla 01 02A MUNICIPAL 14.xls, la población estimada
es 1, 491, 217, el error estándar reportado es 0 y por tanto, el intervalo de
confianza para la población total de Guadalajara es sólo un punto, esto sig-
nifica que fue despreciada la contribución a la varianza de estratos con sólo
3En el apartado de referencias se proveen las ligas para su acceso.
1.5. TABULADOS BÁSICOS 17
una UPM. El mismo resultado obtendŕıamos en R con la opcion remove.
Una consecuencia de reportar un error estándar 0 es que la estimación inter-
valar no contiene el valor censal del parámetro poblacional, el cual según los
tabulados del cuestionario básico 01 02B MUNICIPAL 14 es 1, 495, 189. Es
decir, hay una diferencia de 3,917 entre la población estimada y la población
censada.
18CAPÍTULO 1. ESTIMACIÓN DE VARIANZAS EN LA MUESTRA CENSAL
Figura 1.1: Tabulados Básicos 01 02A MUNICIPAL 14, Población total en
viviendas particulares habitadas por municipio. Guadalajara Jalisco.
En el siguiente caṕıtulo se aborda la teoŕıa del método de estimación de
varianzas conocido como The Collapsed Stratum Method, comenzando por
un antecedente inmediato, el método de los grupos aleatorios. Al final del
caṕıtulo se exhibe el sesgo del estimador de varianza, con la finalidad de
mostrar que se trata de un estimador conservador.
Caṕıtulo 2
Metodoloǵıa de estimación de
varianzas
La estimación de varianzas es un tema ampliamente tratado en la li-
teratura, debido al gran campo de aplicación de las encuestas basadas en
modelos, cuando las caracteŕısticas del diseño muestral obstaculizan la im-
plementación automatizada de fórmulas o la existencia de una fórmula exac-
ta. Existen diversos métodos de estimación de varianzas, basados en técnicas
de grupos aleatorios, jacknife, bootstrap, etc. En el libro [13], Wolter ofrece
un panorama introductorio a dichos métodos.
Para fines de este trabajo y a consecuencia de la estructura del diseño
muestral en las entidades seleccionadas, el método utilizado es el de los
Estratos Colapsados.
2.1. Método de los Grupos Aleatorios
El método de los grupos aleatorios para la estimación de varianza con-
siste en seleccionar dos o más muestras, llamadas grupos aleatorios, de la
población usando el mismo diseño en cada una de estas, construir para cada
una un estimador del parámetro poblacional a estudiar y calcular la varianza
de estos valores estimados.
Históricamente la técnica se remonta a 1939, cuando fue nombrado por Pra-
santa Mahalanobis como the interpenetrating samples method. Fue retomado
en 1953 por Hansen, et al.[13, p.21].
19
20CAPÍTULO 2. METODOLOGÍA DE ESTIMACIÓN DE VARIANZAS
Se distinguen dos casos fundamentales dentro del método de los grupos
aleatorios:
1. Los grupos aleatorios son mutuamente independientes.
2. Los grupos aleatorios tienen cierto grado de dependencia.
Estamos interesados únicamente en el primer caso, pues de este deriva
el Estimador de Estratos Colapsados.
2.1.1. Grupos Aleatorios Independientes
En este caso la independencia mutua entre los grupos aleatorios radica
en el reemplazo de cada muestra después de haber sido seleccionada. Sea θ
un parámetro lineal; como la media y el total o no lineal como un cociente
de totales o coeficiente de regresión. La creación de los grupos aleatorios se
hace como sigue:
(i) Una muestra s1 es seleccionada de la población de acuerdo a un diseño
muestral espećıfico.
(ii) La muestra s1 es reemplazada en U y una muestra s2 es tomada de
acuerdo al mismo diseño.
(iii) Se repite este proceso hasta que k ≥ 2 muestras sean obtenidas, ha-
biendo reemplazado la muestra i-ésima luego de haberla seleccionado,
estas k muestras son los grupos aleatorios.
A la estimación del parámetro θ dentro de cada grupo aleatorio se le
llama proceso de medición [13, p.22] y denotamos a los k estimadores de
θ por θ̂α con α = 1, 2, ..., k. El siguiente teorema establece la creación del
estimador de varianza por el método de los grupos aleatorios.
Teorema 2.2.1. Wolter (2007), Caṕıtulo 2, p.23 Sean {θ̂1, ..., θ̂k} va-
riables aleatorias no correlacionadas con media común µ y sea ̂̄θ =
k∑
α=1
θ̂α/k.
Entonces:
2.2. ESTIMADOR DE ESTRATOS COLAPSADOS 21
(i) E(̂̄θ) = µ
(ii) V̂ (̂̄θ) = [
k∑
α=1
(θ̂α −
̂̄θ)2]/k(k − 1) es un estimador insesgado de V (̂̄θ).
El estad́ıstico ̂̄θ puede ser usado como un estimador de θ y V̂ (̂̄θ) es nom-
brado el estimador de grupos aleatorios de su varianza.
Si la esperanza de θ̂α es el parámetro de interés θ, para cualquier α =
1, 2, ..., k, entoncesel estad́ıstico ̂̄θ es un estimador insesgado de θ.
Teorema 2.2.2. Wolter (2007), Caṕıtulo 2, p.24
Sean {θ̂1, ..., θ̂k} variables aleatorias independientes e idénticamente dis-
tribúıdas con distribución normal (θ, σ2). Entonces
(i) El estad́ıstico
z = (̂̄θ − θ)/
√
σ2/k
Tiene distribución N(0, 1) y
(ii) El estad́ıstico
t = (̂̄θ − θ)/
√
V̂ (̂̄θ)
Se distribuye t de Student con k − 1 grados de libertad.
La importancia de estos resultados radica en la construcción de intervalos de
confianza. Las demostraciones de los teoremas anteriores pueden encontrarse
en [13, pp. 22-25]. Cuando se trabaja con una variable binaria o categórica
los parámetros de interés suelen ser proporciones respecto a un total. Al esti-
mar una proporción, la normalidad asintótica se puede suponer únicamente
con tamaños de muestra grandes, de otra forma, al construir intervalos de
confianza se pueden obtener extremos que rebasen el 0 o el 1.
2.2. Estimador de Estratos Colapsados
En un muestreo estratificado, algunas consideraciones especiales, como el
control sobre la dispersión de las unidades muestrales conducen en ocasiones
a la selección de sólo una unidad primaria de muestreo por estrato [13, p.50].
22CAPÍTULO 2. METODOLOGÍA DE ESTIMACIÓN DE VARIANZAS
El problema con esta estrategia de muestreo es que no se dispone de un
estimador insesgado de la varianza, ni siquiera para estad́ısticos lineales.
En estos casos el Estimador de Estratos Colapsados (CSE) sobreestima la
varianza del estimador de un parámetro lineal, si se tratase de un parámetro
no lineal es factible usar un método de linealizacion.
El estimador de los estratos colapsados está basado en el estimador de los
grupos aleatorios.
Suponga que se desea estimar un total poblacional t usando un estimador de
la forma
∑H
h=1 t̂h, donde H denota el número de estratos y t̂h un estimador
del total en el h-ésimo estrato. En particular podemos hablar del estimador
de Horvitz-Thompson
t̂h =
nh∑
k=1
yk
πk
.
Véase [11, p.42].
Asumiremos que las UPM son elegidas de manera independiente para cada
uno de los H estratos.
Para estimar la varianza de t̂ sobre los estratos con una sola UPM consi-
deremos H1 ≤ H el número de estratos no autorepresentados, con sólo una
UPM. Se combinan los H1 estratos en G grupos
1 ajenos de al menos 2 es-
tratos cada uno.
Considere que H1 = 2G, es decir, el número de estratos no autorepresen-
tados con una UPM es par. Entonces el estimador del total de t̂ puede ser
visto como
t̂ =
H∑
h=1
t̂h =
∑
H−H1
t̂h +
∑
H1
t̂h =
∑
H−H1
t̂h +
G∑
g=1
(t̂g1 + t̂g2)
Donde t̂gh con h = 1, 2 y g = 1, 2, ...G denota a la estimación en el compo-
nente h del grupo g.
El estimador de la varianza sobre cada grupo g es2
V̂ (t̂g) = V̂ (t̂g1 + t̂g2) = (t̂g1 − t̂g2)
2
De aqúı que el estimador de la varianza de t̂ sea
1La formación de los G grupos está basada en el valor estimado en cada estrato,
véase 2.2.
2Observe que se trata del estimador de varianza obtenido por el método de los gru-
pos aleatorios (Teorema 2.2.1) con grupos independientes.
2.2. ESTIMADOR DE ESTRATOS COLAPSADOS 23
Ecuación 2.5.2 Wolter (2007), Caṕıtulo 2, p.51
V̂ (t̂) =
∑
H−H1
V̂ (t̂h) +
G∑
g=1
V̂ (t̂g1 + t̂g2) =
∑
H−H1
V̂ (t̂h) +
G∑
g=1
(t̂g1 − t̂g2)
2 (2.1)
La primer suma de la última igualdad deberá calcularse según los métodos
conocidos, mediante las fórmulas en el caṕıtulo 1, por otro lado, el segundo
sumando es de una implementación sencilla computacionalmente.
2.2.1. Sesgo del Estimador de Estratos Colapsados
Cuando se estiman varianzas, un enfoque conservador es aquel que su-
giere encontrar un estimador que sobreestime la varianza poblacional del
estimador, en otras palabras se busca que el sesgo del estimador, la dife-
rencia entre el valor esperado del estimador y el valor real del parámetro
(en este caso, la varianza del estimador) sea un número mayor que cero. A
continuación se demuestra que el sesgo del estimador de estratos colapsados
en efecto lo es.
Considere el estimador 2.1 con H = H1, es decir, que todos los estratos
tuvieran sólo una UPM.
24CAPÍTULO 2. METODOLOGÍA DE ESTIMACIÓN DE VARIANZAS
E(V̂ (t̂)) = E(
G∑
g=1
(t̂g1 − t̂g1)
2)
=
G∑
g=1
E((t̂g1 − t̂g1)
2)
=
G∑
g=1
{E(t̂2g1)− 2E(t̂g1t̂g2) + E(t̂
2
g2)}
=
G∑
g=1
{V (t̂g1) + E(t̂g1)
2 + V (t̂g2) + E(t̂g2)
2 − 2E(t̂g1)E(t̂g2)}
=
G∑
g=1
(V (t̂g1) + V (t̂g2)) +
G∑
g=1
(E(t̂g1)− E(t̂g2))
2
= V (t̂) +
G∑
g=1
(µg1 − µg2)
2 con E(t̂g1) = µg1, E(t̂g2) = µg2 (2.2)
La igualdad 2.2 no sólo muestra que el estimador de estratos colapsados
sobreestima la varianza del estimador t̂, sino que también sugiere una estra-
tegia para acercarse el insesgamiento del mismo mediante la selección de los
estratos en cada grupo g, colapsar estratos cuyo valor esperado del paráme-
tro poblacional sea lo más parecido posible. Si los estimadores t̂g1 y t̂g2 son
insesgados, la estrategia consiste en colapsar estratos con los parámetros
poblacionales más parecidos.
2.2.2. Generalización del Estimador de Estratos Co-
lapsados
Suponga que se desea colapsar los estratos en G grupos ajenos con Lg
estratos en cada uno de ellos. Si se dispone de una variable auxiliar Agh
para cada estrato y tal variable está bien correlacionada3 con el total del
estrato tgh, (como el número de elementos en la población) se puede obtener
el siguiente estimador dado por Hansen et al. (1953),
3En el sentido de una dependencia lineal directa.
2.2. ESTIMADOR DE ESTRATOS COLAPSADOS 25
Ecuación 2.5.7 Wolter (2007), Caṕıtulo 2, p.52
V̂ (t̂) =
G∑
g=1
[Lg/(Lg − 1)]
Lg∑
h
(t̂gh − (Agh/Ag)t̂g)
2 (2.3)
Con
t̂g =
Lg∑
h
t̂gh, Ag =
Lg∑
h
Agh
Si Agh/Ag = 1/Lg con g = 1, ..., G el estimador se reduce a
V̂ (t̂) =
G∑
g=1
[Lg/(Lg − 1)]
Lg∑
h
(t̂gh − t̂g/Lg)
2 (2.4)
Este estimador es conocido como la generalización del estimador de estratos
colapsados en su versión simple.
De esta manera, si el número de estratos con una sola UPM es un número
impar H1 mayor o igual que 3, podemos agrupar los primeros H1−3 estratos
en un número par de grupos y con los últimos 3 usar el estimador 2.4 con
Lg = 3.
Si sólo hay un estrato con una UPM, éste deberá ser colapsado con el estrato
más parecido con más de una UPM, en términos de t̂.
2.2.3. Estimador de varianza de estimadores de razón
Resultado 5. Hansen et al. (1953) Vol. II, Caṕıtulo 9. p. 218
Considere a R̂ = X̂/Ŷ un estimador de razón, con X̂ y Ŷ estimadores del
total poblacional de las variables xk y yk, k ∈ U .
Bajo el supuesto de Agh/Ag = 1/Lg, con Agh una variable auxiliar para cada
estrato y Lg el número de estratos en el grupo g, la varianza estimada de R̂
está dada por la siguiente fórmula
V̂ (R̂) = (
E(X̂)
E(Ŷ )
)2[
V̂CS(X̂)
E(X̂)2
+
V̂CS(Ŷ )
E(Ŷ )2
−
2ĈovCS(X̂, Ŷ )
E(X̂)E(Ŷ )
]
=
1
E(Ŷ )2
[V̂CS(X̂) + R̂
2V̂CS(Ŷ )− 2R̂ĈovCS(X̂, Ŷ )] (2.5)
26CAPÍTULO 2. METODOLOGÍA DE ESTIMACIÓN DE VARIANZAS
Donde
V̂CS(X̂) =
G∑
g=1
[Lg/(Lg − 1)]
Lg∑
h
(X̂gh − X̂g/Lg)
2;
V̂CS(Ŷ ) =
G∑
g=1
[Lg/(Lg − 1)]
Lg∑
h
(Ŷgh − Ŷg/Lg)
2;
ĈovCS(X̂, Ŷ ) =
G∑
g=1
[Lg/(Lg − 1)]
Lg∑
h
(X̂gh − X̂g/Lg)(Ŷgh − Ŷg/Lg).
Intervalos de confianza para proporciones, método Logit
En el siguiente caṕıtulo se presentan tanto tablas como gráficas de in-
tervalos de confianza para totales poblacionales estimados y proporción es-
timada de personas autoconsideradas ind́ıgenas. En la estimación de pro-
porciones, los intervalos de confianza son por lo general calculados bajo un
supuesto de normalidad (véanse los resultados en la sección de grupos alea-
torios) y sucede que cuando la estimación de la proporción es cercana a 0 o
a 1, los intervalos de confianza generados bajo este supuesto, pueden reba-
sar tales ĺımites, llegando aśı a reportar intervalos de confianza negativos o
por encima de 1. Para solucionar este problema existen diferentes métodos,
como el enfoque binomial, el enfoque de Poisson, métodosde Wilson y el
método Logit [7, p.3]. Este último fue utilizado para calcular intervalos de
confianza para la proporción personas autoconsideradas ind́ıgenas.
Los ĺımites inferior y superior del intervalo de confianza se obtienen usan-
do la transformación “logit”, y = log(
p̂
1− p̂
). De tal manera que
y ± td(1− α/2)[V (y)]
1/2
Que mediante el uso del Teorema de Taylor implica lo siguiente:
V (y) ≈ V (p̂)[
∂y
∂p̂
]2 =
V (p̂)
[p̂(1− p̂)]2
Invirtiendo la transformación logit, tenemos que p̂ = exp(y)
1+exp(y)
y obtenemos
el intervalo confianza:
(
1
1 + exp(−LLOGIT )
,
1
1 + exp(−ULOGIT )
)
2.2. ESTIMADOR DE ESTRATOS COLAPSADOS 27
Donde
LLOGIT = log
p̂
1− p̂
− td(1− α/2)
1√
np̂(1− p̂)
,
ULOGIT = log
p̂
1− p̂
+ td(1− α/2)
1√
np̂(1− p̂)
En el siguiente caṕıtulo se presentan los resultados de la estimación de
parámetros poblacionales de interés y sus respectivas varianzas estimadas,
mediante el método de los estratos colapsados.
Las fórmulas de estimación de varianzas, vistas en el Caṕıtulo 2 para es-
timadores de totales y el estimador de razón fueron programadas en R, la
sintaxis de las mismas puede consultarse en la Sección 2 del Apéndice D.
28CAPÍTULO 2. METODOLOGÍA DE ESTIMACIÓN DE VARIANZAS
Caṕıtulo 3
Resultados
Este caṕıtulo está dedicado a la presentación de resultados y compara-
ciones, mismos que han sido obtenidos para las siguientes entidades:
Chiapas
Distrito Federal
Jalisco
La selección de estas entidades se hizo con base en la estructura del diseño
muestral, se escogieron entidades problemáticas por el número de estratos
autorepresentados o el número de estratos con sólo una UPM. Podemos ha-
cer las siguientes observaciones, el 98.6% de estratos en Distrito Federal
poseen sólo una UPM, mientras que en Jalisco es el 71.3% y en Chiapas el
41.8%.
La población estimada en los estratos con sólo una UPM es 8,395,418 en
el Distrito Federal, que representa al 95.5% de su población estimada,
3,784,582 en Jalisco, que representa al 51.6% de su población estimada y
661,254 en Chiapas, donde representa al 13.8%.
Los cálculos de varianzas estimadas para cada una de las entidades selec-
ciondas se realizaron sobre los siguientes estimadores de los parámetros po-
blacionales
Población total
Número de viviendas según posesión de internet
29
30 CAPÍTULO 3. RESULTADOS
Proporción de población según su condición de autoadsccripción étni-
ca.
Las estimaciones fueron realizadas a nivel municipal y para cada entidad,
a fin de compararlos con los tabulados básicos, censales o del cuestionario
ampliado, según corresponda.
En este caṕıtulo se presentan resultados únicamente para los municipios
afectados por estratos problemáticos, las tablas completas se encuentran
en el Apéndice B, Tablas de resultados a nivel municipal. Los parámetros
seleccionados son los siguientes:
1. Población, parámetro de interés: Población total en viviendas parti-
culares habitadas por municipio o delegación.
2. Vivienda, parámetro de interés: Viviendas particulares habitadas por
municipio o delegación, bienes y tecnoloǵıas de la información y la
comunicación (Internet)
tSI =
N∑
i=1
yi, con yi =
{
1, si en la vivienda i poseen internet.
0, otro caso.
Análogamente se definen tNO el total de viviendas sin disponibilidad
de internet y tNE el total de viviendas que no especificó.
3. Lengua Ind́ıgena, parámetro de interés: Población de 3 años o más y
su distribución porcentual según condición de autoadscripción étnica
para cada municipio o delegación.
pSI = (1/N≥3)
N≥3∑
i=1
zi con zi =
{
1, si la persona i se considera ind́ıgena.
0, otro caso.
y N≥3 La población mayor de 3 años.
1 Análogamente se definen pNO
la proporción de personas que no se consideran ind́ıgenas y pNE la
proporción de personas que no especificó.
Las comparaciones se hicieron respecto a valores reportados en los si-
guientes tabulados básicos [5]:
1En el estimador p̂ se utilizó N̂≥3 el total poblacional estimado, es decir, se utilizó
un estimador de razón como el de la ecuación 2.5.
3.1. TOTAL POBLACIONAL 31
1 01 02A MUNICIPAL 07 Estimadores de la población total en vivien-
das particulares habitadas por municipio y grupos quinquenales de
edad según sexo
2 01 02A MUNICIPAL 09 Estimadores de la población total en vivien-
das particulares habitadas por delegación y grupos quinquenales de
edad según sexo
3 01 02A MUNICIPAL 14 Estimadores de la población total en vivien-
das particulares habitadas por municipio y grupos quinquenales de
edad según sexo
3.1. Total poblacional
3.1.1. Chiapas, población estimada por municipio y
tipo de estrato
En la siguiente tabla se presenta la población estimada (o en su caso la
población censal) y su desviación estándar por municipio y tipo de estrato,
estos últimos son: no problemáticos para la estimación tradicional de va-
rianza, aquellos que no son autorepresentados y tienen más de una UPM;
con una UPM y estratos autorepresentados, que al ser censados no
contribuyen a la varianza del estimador2.
t̂NP representa el total poblacional estimado en los estratos no pro-
blemáticos.
V̂ (t̂NP ) representa la varianza estimada de t̂NP .
t̂1upm representa el total poblacional estimado en los estratos con sólo
una UPM.
V̂CS(t̂1upm) representa la varianza estimada, mediante el método de los
estratos colapsados, de t̂1upm.
tSR representa el total poblacional en los estratos autorepresentados.
2Los municipios marcados con un asterisco fueron censados con el cuestionario am-
pliado.
32 CAPÍTULO 3. RESULTADOS
El total poblacional estimado para todo el municipio está representado
por t̂, es decir
t̂ = t̂NP + t̂1upm + tSR.
Si el municipio no cuenta con estratos no problemáticos ni con sólo
una UPM, el total poblacional es censal, no estimado.
La desviación estándar estimada para todo el municipio está represen-
tada por
√∑
V̂ , es decir
√∑
V̂ = [V̂ (t̂NP ) + V̂CS(t̂1upm)]
1/2
.
3.1. TOTAL POBLACIONAL 33
Cuadro 3.1: Chiapas. Población estimada y desviación estándar estimada por tipo de estrato
en municipios afectados por estratos problemáticos.
Nombre del No problemáticos3 Con una UPM Autorep. Total D. E.
municipio (nI > 1, w > 1) (nI = 1, w > 1) w = 1
t̂NP
√
V̂ (t̂NP ) t̂1upm
√
V̂CS(t̂1upm) tSR t̂
√∑
V̂
Estatal - Chiapas 3,638,461 88,945.28 646,211 22,660.00 503,490 4,788,162 91,786.38
Amatenango del Valle* - - - - 8,360 8,360 -
Comitán de Domı́nguez 132,380 8,062.86 7,805 1,440.64 185 140,370 8,190.55
Chalchihuitán* - - - - 13,975 13,975 -
Chamula* - - - - 76,510 76,510 -
Chanal - - - - 10,755 10,755 -
Chilón* - - - - 109,282 109,282 -
Francisco León* - - - - 7,000 7,000 -
Huixtán* - - - - 21,261 21,261 -
Ixtapangajoya* - - - - 5,475 5,475 -
Larráinzar* - - - - 19,241 19,241 -
Mitontic* - - - - 11,151 11,151 -
Nicolás Rúız* - - - - 4,200 4,200 -
Ocosingo 195,407 36,516.38 1,666 934.00 - 197,073 36,528.32
Ocotepec* - - - - 11,865 11,865 -
Osumacinta* - - - - 3,778 3,778 -
Oxchuc 40,442 8,179.54 - - 1,594 42,036 8,179.54
Pantelhó* - - - - 20,144 20,144 -
Pantepec* - - - - 10,830 10,830 -
San Cristóbal de las
Casas
157,170 12,736.43 29,148 5,531.58 40 186,358 13,885.79
Sitalá* - - - - 11,972 11,972 -
Sunuapa* - - - - 2,217 2,217 -
Tapachula 220,518 28,384.78 98,748 7,089.05 301 319,567 29,256.63
Continúa...
3nI representa el número de UPM en el estrato, w representa el factor de expansión de las UPM en el
estrato.
34 CAPÍTULO 3. RESULTADOS
Nombre del No problemáticos Con una UPM Autorep. Total D. E.
municipio (nI > 1, w > 1) (nI = 1, w > 1) w = 1
t̂NP
√
V̂ (t̂NP ) t̂1upm
√
V̂CS(t̂1upm) tSR t̂
√∑
V̂
Tapalapa* - - - - 4,096 4,096 -
Totolapa 1,851 754.99 - - 3,061 4,912 754.99
Tumbalá* - - - - 31,189 31,189 -
Tuxtla Gutiérrez 43,008 11,802.16 508,844 20,728.60 173 552,025 23,853.01
Zinacantán* - - - - 35,511 35,511 -
San Juan Cancuc* - - -- 28,706 28,706 -
Aldama* - - - - 4,748 4,748 -
San Andrés Duraznal* - - - - 4,535 4,535 -
Santiago el Pinar* - - - - 3,110 3,110 -
3.1. TOTAL POBLACIONAL 35
3.1.2. Chiapas, comparación de varianzas estimadas
En la siguiente tabla se comparan los resultados de estimación de varianzas (presentados
como error estándar) para cada municipio4, los tres métodos son: Método de los estratos
colapsados (CSE),Opción “adjust” de la paqueteŕıa Survey de R y los Tabulados Básicos
del cuestionario ampliado.
Las últimas dos columnas muestran el error relativo5 entre las estimaciones de varianza del es-
timador de estratos colapsados contra la opción adjust y lo reportado en los tabulados básicos.
Error Rel. (ADJ) =
√
V̂ADJ(t̂)−
√
V̂CS(t̂)√
V̂CS(t̂)
; Error Rel. (TAB) =
√
V̂TAB(t̂)−
√
V̂CS(t̂)√
V̂CS(t̂)
Donde V̂ADJ representa la varianza obtenida mediante la opción adjust y V̂TAB la varianza
reportada en los tabulados básicos. De esta forma, el error relativo al usar la opción adjust
en la primera fila debe leerse como “el error estándar estimado mediante la opción adjust
es 9.72% mayor que el obtenido mediante el método de los estratos colapsados” de manera
similar, debe leerse “el error estándar reportado en los tabulados básicos es 2.8% menor que el
obtenido mediante el método de los estratos colapsados”. Un error relativo de 0, significa que
las estimaciones son iguales. Si se lee un guión, esto significa que el municipio fue censado y que
la varianza poblacional es 0. Posterior a la presentación de la tabla se incluye una gráfica de los
intervalos de confianza obtenidos con las diferentes estimaciones de varianza.6
Cuadro 3.2: Chiapas. Comparación de varianzas estimadas en municipios con estratos pro-
blemáticos.
Nombre del Población Desviación estándar estimada Error Rel. (%)
municipio Estimada C.S.E O. adjust Tabulados ADJ TAB
Estatal - Chiapas 4,788,162 91,786 100,773 89,209 9.79 -2.80
Amatenango del Valle* 8,360 0 494 0 - -
Comitán de Domı́nguez 140,370 8,191 8,323 8,063 1.61 -1.56
Chalchihuitán* 13,975 0 2,075 0 - -
Chamula* 76,510 0 5,123 0 - -
Chanal* 10,755 0 1,029 0 - -
Chilón* 109,282 0 3,936 0 - -
Francisco León* 7,000 0 775 0 - -
Continúa...
5El uso del término “error relativo” no refiere a la definición usual de éste, pues se conserva el signo de la
diferencia entre las estimaciones, con el fin de mejorar la interpretabilidad de las columnas.
6Los municipios marcados con asterisco fueron censados con el cuestionario ampliado.
36 CAPÍTULO 3. RESULTADOS
Nombre del Población Desviación estándar estimada Error Rel. (%)
municipio Estimada C.S.E O. adjust Tabulados ADJ TAB
Huixtán* 21,261 0 2,309 0 - -
Ixtapangajoya* 5,475 0 1,058 0 - -
Larráinzar* 19,241 0 1,720 0 - -
Mitontic* 11,151 0 2,171 0 - -
Nicolás Rúız* 4,200 0 322 0 - -
Ocosingo 197,073 36,528 36,541 36,516 0.03 -0.03
Ocotepec* 11,865 0 815 0 - -
Osumacinta* 3,778 0 441 0 - -
Oxchuc 42,036 8,180 8,380 8,032 2.44 -1.80
Pantelhó* 20,144 0 1,621 0 - -
Pantepec* 10,830 0 1,284 0 - -
San Cristóbal 186,358 13,886 15,265 12,736 9.93 -8.28
Sitalá* 11,972 0 1,340 0 - -
Sunuapa* 2,217 0 411 0 - -
Tapachula 319,567 29,257 31,507 28,385 7.69 -3.18
Tapalapa* 4,096 0 459 0 - -
Totolapa 4,912 755 921 921 21.98 21.98
Tumbalá* 31,189 0 2,089 0 - -
Tuxtla Gutiérrez 552,025 23,853 45,319 11,802 89.99 -50.52
Zinacantán* 35,511 0 2,508 0 - -
San Juan Cancuc* 28,706 0 3,507 0 - -
Aldama* 4,748 0 705 0 - -
San Andrés Duraznal* 4,535 0 780 780 - -
Santiago el Pinar* 3,110 0 618 618 - -
3.1. TOTAL POBLACIONAL 37
Figura 3.1: Chiapas. Intervalos de confianza al 90% por método de estimación de varianzas,
la linea punteada representa la población censal, y el punto en los intervalos representa la es-
timación puntual.
Debe observarse en la tabla anterior que el método de los estratos colapsados, programado para
este trabajo no es siempre mayor que el reportado en los tabulados básicos, sino que también
asigna apropiadamente 0 cuando se trata de estratos censados.
Figura 3.2: Chiapas, Tuxtla Gutierrez. Tabulados básicos.
38 CAPÍTULO 3. RESULTADOS
3.1.3. Distrito Federal, población estimada por municipio y tipo de
estrato
Cuadro 3.3: Distrito Federal. Población estimada y desviación estándar estimada por tipo de
estrato en delegaciones afectadas por estratos problemáticos
Nombre de la No problemáticos Con una UPM Autorep. Total D. E.
delegación (nI > 1, w > 1) (nI = 1, w > 1) w = 1
t̂NP
√
V̂ (t̂NP ) t̂1upm
√
V̂CS(t̂1upm) tSR t̂
√∑
V̂
Distrito Federal 387,602 32,013.42 8,389,628 94,062.39 6,679 8,783,909 99,360.92
Azcapotzalco - - 414,082 18,011.65 - 414,082 18,011.65
Coyoacán - - 619,263 31,314.58 - 619,263 31,314.58
Cuajimalpa 88,887 12,824.05 97,456 8,993.29 - 186,343 15,663.20
Gustavo A. Madero - - 1,171,118 28,797.46 9 1,171,127 28,797.46
Iztacalco 2,192 1,872.00 381,164 14,910.76 - 383,356 15,027.82
Iztapalapa - - 1,793,527 40,830.77 51 1,793,578 40,830.77
La Magdalena
Contreras
8,073 2,369.00 229,796 18,195.66 525 238,394 18,349.23
Milpa Alta 129,384 18,686.68 - - - 129,384 18,686.68
Álvaro Obregón - - 724,976 28,004.77 425 725,401 28,004.77
Tláhuac 56,031 9,438.98 303,223 16,900.11 496 359,750 19,357.38
Tlalpan 76,037 16,859.30 565,817 24,446.60 3,134 644,988 29,696.34
Xochimilco 16,680 4,955.85 390,316 31,416.78 554 407,550 31,805.26
Benito Juárez - - 383,017 15,976.05 197 383,214 15,976.05
Cuauhtémoc 10,318 10,208.00 515,473 27,019.32 692 526,483 28,883.33
Miguel Hidalgo - - 371,133 21,161.94 401 371,534 21,161.94
Venustiano
Carranza
- - 429,267 18,009.34 195 429,462 18,009.34
En la estructura del diseño muestral del Distrito Federal, reportada en el caṕıtulo anterior, se
mostró que la delegación Milpa Alta no poséıa estratos con una UPM ni autorepresentados, en
esta tabla puede observarse que la aportación de la varianza calculada en dichos estratos es
cero, siendo aśı Milpa Alta la única delegación que no requiere del estimador de estratos
colapsados, en este caso, el estimador de estratos colapsados coincide con el resultado dado
por el software.
3.1. TOTAL POBLACIONAL 39
3.1.4. Distrito Federal, comparacion de varianzas estimadas
Cuadro 3.4: Distrito Federal. Comparación de varianzas estimadas en delegaciones con estra-
tos problemáticos.
Nombre de la Población Desviación estándar estimada Error Rel. (%)
Delegación Estimada C.S.E O. adjust Tabulados ADJ TAB
Distrito Federal 8,783,909 99,361 209,905 32,016 111.25 -67.77
Azcapotzalco 414,082 18,012 46,095 0 155.91 -100.00
Coyoacán 619,263 31,315 62,916 0 100.91 -100.00
Cuajimalpa 186,343 15,663 26,541 12,824 69.45 -18.12
Gustavo A. Madero 1,171,127 28,797 76,194 0 164.59 -100.00
Iztacalco 383,356 15,028 40,824 1,872 171.65 -87.54
Iztapalapa 1,793,578 40,831 95,324 0 133.45 -100.00
La Magdalena
Contreras
238,394 18,349 36,926 2,387 101.24 -86.99
Milpa Alta 129,384 18,687 18,687 18,687 0.00 0.00
Álvaro Obregón 725,401 28,005 61,023 298 117.90 -98.93
Tláhuac 359,750 19,357 39,493 9,439 104.02 -51.23
Tlalpan 644,988 29,696 53,837 16,859 81.29 -43.22
Xochimilco 407,550 31,805 47,280 4,956 48.65 -84.41
Benito Juárez 383,214 15,976 41,379 0 159.00 -100.00
Cuauhtémoc 526,483 28,883 55,306 10,208 91.48 -64.65
Miguel Hidalgo 371,534 21,162 45,588 0 115.42 -100.00
Venustiano Carranza 429,462 18,009 41,645 0 131.24 -100.00
El estimador de estratos colapsados proporciona estimaciones adecuadas que no exist́ıan para
las delegaciones Azcapotzalco, Coyoacán, Gustavo A. Madero, Benito Juárez, Miguel Hidalgo
y Venustiano Carranza, delegaciones que se encuentran particionadas en estratos de los cuáles
sólo fue seleccionada una UPM. La opción adjust, por otro lado, aunque también provee una
estimación razonable, siempre rebasa la estimación de varianza lograda mediante el estimador
de estratos colapsados.
En la figura 3.3 puede observarse lo reportado en los Tabulados Básicos parala delegación
Azacpotzalco. El método de los estratos colapsados provee una desviación estándar de 18,012.
40 CAPÍTULO 3. RESULTADOS
Figura 3.3: Distrito Federal, Azcapotzalco. Tabulados básicos.
Figura 3.4: Distrito Federal. Intervalos de confianza al 90% por método de estimación de va-
rianzas, la ĺınea punteada representa la población censal y el punto en los intervalos represen-
ta la estimación puntual.
En la gráfica 3.4 debe observarse una de las consecuencias más graves de la subestimación de
varianza, ocasionada por omitir la aportación a la varianza de los estratos con sólo una unidad
primaria de muestreo. El intervalo de confianza reportado en los tabulados básicos no comprende
el total poblacional censal (marcado con la ĺınea punteada) mientras que el intervalo generado
por el C.S.E. śı lo contiene.
3.1. TOTAL POBLACIONAL 41
3.1.5. Jalisco, población estimada por municipio y tipo de estrato
Cuadro 3.5: Jalisco. Población estimada y desviación estándar estimada por tipo de estrato en
municipios afectados por estratos problemáticos.
Nombre del No problemáticos Con una UPM Autorep. Total D. E.
municipio (nI > 1, w > 1) (nI = 1, w > 1) w = 1
t̂NP
√
V̂ (t̂NP ) t̂1upm
√
V̂CS(t̂1upm) tSR t̂
√∑
V̂
Estatal - Jalisco 3,487,537 72,176.85 3,769,615 75,744.33 66,024 7,323,176 104,626.48
El Arenal 16,426 1,926.36 - - 766 17,192 1,926.36
Bolaños* - - - - 6,783 6,783 -
Zapotlán el Grande 82,376 6,875.73 14,023 2,176.23 1,726 98,125 7,211.91
Cuautla* - - - - 2,154 2,154 -
Chimaltitán* - - - - 3,763 3,763 -
Chiquilistlán* - - - - 5,806 5,806 -
Ejutla* - - - - 2,032 2,032 -
Guachinango* - - - - 2,893 2,893 -
Guadalajara* - - 1,491,190 32,543.53 27 1,491,217 32,543.53
Lagos de Moreno 138,297 24,704.25 13,543 3,163.49 398 152,238 24,905.97
Santa Maŕıa del
Oro*
- - - - 2,517 2,517 -
La Manzanilla* - - - - 3,747 3,747 -
Mazamitla 13,496 1,979.99 - - - 13,496 1,979.99
Mixtlán* - - - - 3,574 3,574 -
Ocotlán 88,076 5,275.58 5,036 967.85 133 93,245 5,363.63
Puerto Vallarta 99,639 7,556.66 153,044 9,059.70 964 253,647 11,797.51
San Cristóbal* - - - - 3,164 3,164 -
San Marcos* - - - - 3,736 3,736 -
San Mart́ın de B* - - - - 3,356 3,356 -
Santa Maŕıa* - - - - 3,720 3,720 -
Tala 58,223 5,295.84 10,396 4,636.00 - 68,619 7,038.35
Techaluta de M* - - - - 3,511 3,511 -
Tepatitlán 125,878 8,416.31 9,483 1,911.36 297 135,658 8,630.62
Continúa...
42 CAPÍTULO 3. RESULTADOS
Nombre del No problemáticos Con una UPM Autorep. Total D. E.
municipio (nI > 1, w > 1) (nI = 1, w > 1) w = 1
t̂NP
√
V̂ (t̂NP ) t̂1upm
√
V̂CS(t̂1upm) tSR t̂
√∑
V̂
Tlajomulco 357,485 27,395.73 59,720 48,584.00 - 417,205 55,775.72
Tlaquepaque 31,035 4,539.24 576,320 23,535.70 730 608,085 23,969.44
Tonalá 69,491 8,707.30 394,354 18,521.84 224 464,069 20,466.45
Tuxcacuesco* - - - - 4,210 4,210 -
Villa Guerrero 5,621 647.18 - - 7 5,628 647.18
Cañadas de O. 1,479 501.98 - - 1,838 3,317 501.98
Zapopan 192,682 44,271.51 1,042,506 36,025.33 3,311 1,238,499 57,077.07
Guadalajara es un municipio especialmente ilustrativo en la aplicación del método de estratos
colapsados, debe observarse que sólo posee estratos con una UPM y autorepresentados, estos
últimos (3 de 405) representan únicamente a 27 personas.
Figura 3.5: Guadalajara Jalisco. Intervalos de confianza al 90% por método de estimación de
varianzas, la ĺınea punteada representa la población censal y el punto en los intervalos repre-
senta la estimación puntual.
En la figura 3.5 puede apreciarse que únicamente los intervalos de confianza generados me-
diante el método de estratos colapsados y la opción adjust, contienen el valor censal. Esto no
sólo ocurre en las estimaciones de población sino en todas aquellas cuya estimación puntual no
sea exactamente el valor censal.
3.1. TOTAL POBLACIONAL 43
3.1.6. Jalisco, comparacion de varianzas estimadas
Cuadro 3.6: Jalisco. Comparación de varianzas estimadas en municipios con estratos pro-
blemáticos.
Nombre del Población Desviación estándar estimada Error Rel. (%)
municipio Estimada C.S.E O. adjust Tabulados ADJ TAB
Estatal - Jalisco 7,323,176 104,626 158,990 72,100 51.96 -31.08
El Arenal 17,192 1,926 1,988 1,988 3.21 3.21
Bolaños* 6,783 0 449 0 - -
Zapotlán el Grande 98,125 7,212 8,345 6,938 15.70 -3.79
Cuautla* 2,154 0 171 0 - -
Chimaltitán* 3,763 0 235 0 - -
Chiquilistlán* 5,806 0 477 0 - -
Ejutla* 2,032 0 187 0 - -
Guachinango* 2,893 0 482 482 - -
Guadalajara 1,491,217 32,544 83,555 0 156.74 -100.00
Lagos de Moreno 152,238 24,906 25,169 24,704 1.01 -0.81
Santa Maŕıa del Oro* 2,517 0 217 0 - -
La Manzanilla de la P.* 3,747 0 307 0 - -
Mixtlán* 3,574 0 256 0 - -
Ocotlán 93,245 5,364 5,512 5,276 2.75 -1.64
Puerto Vallarta 253,647 11,798 19,501 7,557 65.29 -35.94
San Cristóbal de la B* 3,164 0 280 0 - -
San Marcos* 3,736 0 325 0 - -
San Mart́ın de B* 3,356 0 284 0 - -
Santa Maŕıa* 3,720 0 248 0 - -
Tala 68,619 7,038 9,635 5,296 36.89 -24.75
Techaluta de M* 3,511 0 281 0 - -
Tepatitlán de Morelos 135,658 8,631 8,929 8,416 3.45 -2.49
Tlajomulco 417,205 55,776 60,942 27,396 9.26 -50.88
Tlaquepaque 608,085 23,969 52,342 4,539 118.37 -81.06
Continúa...
44 CAPÍTULO 3. RESULTADOS
Nombre del Población Desviación estándar estimada Error Rel. (%)
municipio Estimada C.S.E O. adjust Tabulados ADJ TAB
Tonalá 464,069 20,466 43,196 8,707 110.62 -57.45
Tuxcacuesco* 4,210 0 295 0 - -
Villa Guerrero 5,628 647 647 647 0.00 0.00
Cañadas de O. 3,317 502 549 544 9.36 8.36
Zapopan 1,238,499 57,077 84,448 44,272 47.95 -22.43
Figura 3.6: Jalisco. Intervalos de confianza al 90% por método de estimación de varianzas, la
ĺınea punteada representa la población censal y el punto en los intervalos representa la estima-
ción puntual.
Los 5 municipios con el mayor error relativo7 son Guadalajara, Tlaquepaque, Tonalá, Juana-
catlán y Tlajomulco de Zúñiga. Los tabulados básicos en este último municipio reportan una
desviación estándar 50% menor que la obtenida con el método de los estratos colapsados, este
municipio únicamente posee dos estratos con sólo una UPM.
7Descartando aquellos cuya varianza real es 0 y no fueron reportados aśı.
3.1. BIENES Y TECNOLOGÍAS DE LA INFORMACIÓN 45
3.2. Bienes y tecnoloǵıas de la información y la
comunicación (Internet)
3.2.1. Chiapas, Viviendas estimadas por disponibilidad de
internet
En la siguiente tabla se presentan las estimaciones del número de viviendas por
disponibilidad de internet a nivel municipal y su desviación estándar, de acuerdo al
método de los estratos colapsados.8
Cuadro 3.7: Chiapas. Número estimado de viviendas por condición de disponibili-
dad de Internet en municipios con estratos problemáticos.
Nombre del MUN Śı disponen No disponen No especificado
municipio t̂SI
√
V̂ (t̂SI) t̂NO
√
V̂ (t̂NO) t̂NE
√
V̂ (t̂NE)
Estatal - Chiapas 80,051 3,751 996,190 19,151 7,259 446
Amatenango del Valle* 007 5 0 1,799 0 18 0
Comitán de Domı́nguez 019 3,675 343 30,799 1,961 139 43
Chalchihuitán* 022 4 0 2,839 0 51 0
Chamula* 023 45 0 15,904 0 107 0
Chanal* 024 4 0 1,744 0 18 0
Chenalhó* 026 17 0 6,709 0 78 0
Chilón* 031 122 0 18,796 0 263 0
Francisco León* 033 3 0 1,303 0 8 0
Huixtán* 038 11 0 3,861 0 62 0
Ixtapangajoya* 045 3 0 1,167 0 10 0
Larráinzar* 049 11 0 3,514 0 22 0
Mitontic* 056 6 0 2,032 0 23 0
Nicolás Rúız* 058 1 0 879 0 7 0
Ocosingo 059 555 210 36,904 6,440 253 103
Ocotepec* 060 4 0 2,263 0 16 0
Osumacinta* 063 32 0 876 0 7 0
Oxchuc 064 24 12 8,142 1,682 135 60
Continúa...
8Los municipios marcados con asterisco fueron censados con el cuestionario ampliado.
46 CAPÍTULO 3. RESULTADOS
Nombre del MUN Śı disponen No disponen No especificado
municipio t̂SI
√
V̂ (t̂SI) t̂NO
√
V̂ (t̂NO) t̂NE
√
V̂ (t̂NE)
Pantelhó* 066 7 0 3,629 0 43 0
Pantepec* 067 7 0 2,324 0 26 0
San Cristóbal de las Casas 078 5,591 793 36,078 2,564 429 149
Sitalá* 082 5 0 2,244 0 46 0
Sunuapa* 088
Contenido elegido para ti

159 pag.
Evaluacion-de-la-vulnerabilidad-social-a-nivel-colonia-para-la-Delegacion-Iztapalapa-en-2010

91 pag.
Determinacion-de-contrastes-de-rezago-social-en-la-Zona-Metropolitana-del-Valle-de-Mexico-mediante-el-ndice-de-Moran

85 pag.
Analisis-regional-de-precipitaciones-para-la-obtencion-de-lluvias-de-diseno-en-el-estado-de-Oaxaca

167 pag.
Evaluacion-del-metodo-multi-criterio-para-la-zonificacion-de-deslizamientos--Huehuetla-Puebla-y-Metztitlan-Hidalgo

176 pag.
Elaboracion-de-una-SIGMA-Sistema-de-Informacion-Geografica-Medio-Ambiental-como-base-para-el-Ordenamiento-Ecologico-y-Territorial-de-Temascalapa-Estado-de-Mexico-y-su-aplicacion-con-modelos

Muestra-censal-2010--estimacion-de-varianzas

Exatas

Más contenidos de este tema

Contenido elegido para ti

Evaluacion-de-la-vulnerabilidad-social-a-nivel-colonia-para-la-Delegacion-Iztapalapa-en-2010

Determinacion-de-contrastes-de-rezago-social-en-la-Zona-Metropolitana-del-Valle-de-Mexico-mediante-el-ndice-de-Moran

Analisis-regional-de-precipitaciones-para-la-obtencion-de-lluvias-de-diseno-en-el-estado-de-Oaxaca

Evaluacion-del-metodo-multi-criterio-para-la-zonificacion-de-deslizamientos--Huehuetla-Puebla-y-Metztitlan-Hidalgo

Elaboracion-de-una-SIGMA-Sistema-de-Informacion-Geografica-Medio-Ambiental-como-base-para-el-Ordenamiento-Ecologico-y-Territorial-de-Temascalapa-Estado-de-Mexico-y-su-aplicacion-con-modelos

Preguntas de este disciplina

3.2.2. Muestra La muestra considerada para la presente investigación es no probabilística de tipo censal; es decir, está conformada por el total de...

¿Cuál es la situación poblacional de la raza de conejo Antiguo Pardo Español? a) Se ha visto desplazado en las últimas décadas por conejos de tipo...