Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE CIENCIAS Muestra Censal 2010: Estimación de Varianzas T E S I S QUE PARA OBTENER EL TÍTULO DE: Actuario PRESENTA: Sonny Alberto Medina Jiménez TUTORA Dra. Guillermina Eslava Gómez 2016 Ciudad Universitaria, CDMX UNAM – Dirección General de Bibliotecas Tesis Digitales Restricciones de uso DERECHOS RESERVADOS © PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL Todo el material contenido en esta tesis esta protegido por la Ley Federal del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). El uso de imágenes, fragmentos de videos, y demás material que sea objeto de protección de los derechos de autor, será exclusivamente para fines educativos e informativos y deberá citar la fuente donde la obtuvo mencionando el autor o autores. Cualquier uso distinto como el lucro, reproducción, edición o modificación, será perseguido y sancionado por el respectivo titular de los Derechos de Autor. 1.Datos del alumno Medina Jiménez Sonny Alberto 55 2180 4102 Universidad Nacional Autónoma de México Facultad de Ciencias Actuaŕıa 309219934 2.Datos del tutor Dra. Guillermina Eslava Gómez 3.Datos del sinodal 1 Act. Francisco Sánchez Villarreal 4.Datos del sinodal 2 Dr. Carlos Dı́az Ávalos 5.Datos del sinodal 3 Act. David Chaffrey Moreno Fernández 6.Datos del sinodal 4 Act. Cristina Ortuño Mojica 7.Datos del trabajo escrito Muestra Censal 2010: Estimación de Varianzas 155 p 2016 A la Universidad Nacional Autónoma de México Agradecimientos A mis padres Silvia y Alberto, todo su apoyo y el cariño que nunca me ha faltado. A mis amigos Angélica, Agust́ın, Armando, Diego, Dulce, Eduardo, Ernesto, Mariana, Rafa y Sebastián, todas las mañanas y tardes en la facultad, la brisca, las comidas y las fiestas. A Dana, por escucharme, entenderme y aconsejarme. A todos los amigos que no nombré y que han llenado mi camino de buenas experiencias. A mis sinodales, su atención, tiempo y valiosas correcciones, especialmente a Cristina Ortuño, cuyos comentarios y sugerencias me han instruido en lo personal y lo profesional. A todos mis profesores, tanto de Ciencias como de la FES Acatlán, el empeño y el gusto contagioso por impartir sus clases, por haber contribuido positivamente en mi formación académica y humana. A la doctora Guillermina, su valioso ejemplo, su sinceridad, su tiempo y por enseñarme en cada curso el compromiso con la Universidad. Índice general Agradecimientos Resumen I Introducción III 1. Estimación de varianzas en la Muestra Censal 1 1.0.1. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1. Introducción a la estimación de varianza . . . . . . . . . . . . . . . . . . . 4 1.1.1. Estimador de Horvitz-Thompson . . . . . . . . . . . . . . . . . . . 4 1.2. Diseño de la Muestra Censal 2010 . . . . . . . . . . . . . . . . . . . . . . . 5 1.2.1. Muestreo Estratificado Simple por Conglomerados . . . . . . . . . . 8 1.3. Estructura del diseño muestral . . . . . . . . . . . . . . . . . . . . . . . . . 10 Distrito Federal - Estructura del diseño muestral . . . . . . . . . . . . . . . 12 1.4. Alternativas de cálculo de varianza estimada implementadas en el software 13 1.4.1. The Ultimate Cluster Method . . . . . . . . . . . . . . . . . . . . . 15 1.5. Tabulados Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2. Metodoloǵıa de estimación de varianzas 19 2.1. Método de los Grupos Aleatorios . . . . . . . . . . . . . . . . . . . . . . . 19 2.1.1. Grupos Aleatorios Independientes . . . . . . . . . . . . . . . . . . . 20 2.2. Estimador de Estratos Colapsados . . . . . . . . . . . . . . . . . . . . . . . 21 2.2.1. Sesgo del Estimador de Estratos Colapsados . . . . . . . . . . . . . 23 2.2.2. Generalización del Estimador de Estratos Colapsados . . . . . . . . 24 2.2.3. Estimador de varianza de estimadores de razón . . . . . . . . . . . 25 ÍNDICE GENERAL 3. Resultados 29 3.1. Total poblacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.1.1. Chiapas, población estimada por municipio y tipo de estrato . . . . 31 3.1.2. Chiapas, comparación de varianzas estimadas . . . . . . . . . . . . 35 3.1.3. Distrito Federal, población estimada por municipio y tipo de estrato 38 3.1.4. Distrito Federal, comparacion de varianzas estimadas . . . . . . . . 39 3.1.5. Jalisco, población estimada por municipio y tipo de estrato . . . . . 41 3.1.6. Jalisco, comparacion de varianzas estimadas . . . . . . . . . . . . . 43 3.2. Bienes y tecnoloǵıas de la información y la comunicación (Internet) . . . . 45 3.2.1. Chiapas, Viviendas estimadas por disponibilidad de internet . . . . 45 3.2.2. Distrito Federal, Viviendas estimadas por disponibilidad de internet 47 3.2.3. Jalisco, Viviendas estimadas por disponibilidad de internet . . . . . 48 3.3. Autoadscripción étnica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 3.3.1. Chiapas, proporción estimada de personas autoconsideradas ind́ıgenas 51 3.3.2. Distrito Federal, proporción estimada de personas autoconsideradas ind́ıgenas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 3.3.3. Jalisco, proporción estimada de personas autoconsideradas ind́ıgenas 56 4. Conclusiones 59 A. Estructura del diseño de la muestra censal 61 Chiapas - Estructura del diseño muestral . . . . . . . . . . . . . . . . . . . 61 Jalisco - Estructura del diseño muestral . . . . . . . . . . . . . . . . . . . . 66 B. Resultados municipales 71 B.1. Total poblacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 B.1.1. Chiapas, población estimada por municipio y tipo de estrato . . . . 71 B.1.2. Chiapas, comparación de varianzas estimadas . . . . . . . . . . . . 76 B.1.3. Jalisco, población estimada por municipio y tipo de estrato . . . . . 81 B.1.4. Jalisco, comparacion de varianzas estimadas . . . . . . . . . . . . . 86 B.2. Bienes y tecnoloǵıas de la información y la comunicación (Internet) . . . . 91 B.2.1. Chiapas, Viviendas estimadas por disponibilidad de internet . . . . 91 B.2.2. Jalisco, Viviendas estimadas por disponibilidad de internet . . . . . 96 B.3. Autoadscripción étnica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 B.3.1. Chiapas, proporción estimada de personas autoconsideradas ind́ıgenas101 B.3.2. Jalisco, proporción estimada de personas autoconsideradas ind́ıgenas106 ÍNDICE GENERAL C. Encuesta Intercensal 2015 111 D. Programación en R 123 D.1. Estructura del diseño muestral por entidad . . . . . . . . . . . . . . . . . . 123 D.2. Estimación de Varianzas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 E. Cuestionarios 133 E.1. Cuestionario Básico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 E.2. Cuestionario Ampliado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 Catálogo de municipios 156 Bibliograf́ıa 159 ÍNDICE GENERAL Índice de cuadros 1.1. Estructura del diseño muestral, Distrito Federal. . . . . . . . . . . . . . . . 12 1.2. Resumen de la estructura del diseño muestral. . . . . . . . . . . . . . . . . 13 3.1. Chiapas. Población estimada y desviación estándar estimada por tipo de estrato en municipios afectados por estratos problemáticos. . . . . . . . . . 33 3.2. Chiapas. Comparación de varianzas estimadas en municipios con estratos problemáticos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.3. Distrito Federal. Población estimada y desviación estándar estimada por tipo de estrato en delegaciones afectadas por estratos problemáticos . . . . 38 3.4. Distrito Federal. Comparación de varianzas estimadas en delegaciones con estratos problemáticos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.5. Jalisco. Población estimada y desviación estándar estimada por tipo de estratoen municipios afectados por estratos problemáticos. . . . . . . . . . 41 3.6. Jalisco. Comparación de varianzas estimadas en municipios con estratos problemáticos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.7. Chiapas. Número estimado de viviendas por condición de disponibilidad de Internet en municipios con estratos problemáticos. . . . . . . . . . . . . 45 3.8. Distrito Federal. Número estimado de viviendas por condición de disponi- bilidad de Internet en delegaciones con estratos problemáticos. . . . . . . . 47 3.9. Jalisco. Número estimado de viviendas por condición de disponibilidad de Internet en municipios con estratos problemáticos. . . . . . . . . . . . . . . 48 3.10. Viviendas estimadas por disponibilidad de internet en Guadalajara. . . . . 49 3.11. Chiapas. Proporción estimada de personas que se autoconsideran ind́ıgenas en municipios con estratos problemáticos. . . . . . . . . . . . . . . . . . . . 51 3.12. Distrito Federal. Proporción estimada de personas que se autoconsideran ind́ıgenas en delegaciones con estratos problemáticos. . . . . . . . . . . . . 54 3.13. Jalisco. Proporción estimada de personas que se autoconsideran ind́ıgenas en municipios con estratos problemáticos. . . . . . . . . . . . . . . . . . . . 56 A.1. Estructura del diseño muestral, Chiapas. . . . . . . . . . . . . . . . . . . . 61 ÍNDICE DE CUADROS A.2. Estructura del diseño muestral, Jalisco. . . . . . . . . . . . . . . . . . . . . 66 B.1. Chiapas. Población estimada y desviación estándar estimada por municipio y tipo de estrato. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 B.2. Chiapas. Comparación de varianzas estimadas mediante el método de estratos colapsados, la opción adjust y lo reportado en los tabulados básicos. 76 B.3. Jalisco. Población estimada y desviación estándar estimada por municipio y tipo de estrato. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 B.4. Jalisco. Comparación de varianzas estimadas mediante el método de estratos colapsados, la opción adjust y lo reportado en los tabulados básicos. 86 B.5. Chiapas. Número estimado de viviendas por condición de disponibilidad de Internet. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 B.6. Jalisco. Número estimado de viviendas por condición de disponibilidad de Internet. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 B.7. Chiapas. Proporción estimada de personas que se autoconsideran ind́ıgenas. 101 B.8. Jalisco. Proporción estimada de personas que se autoconsideran ind́ıgenas. 106 C.1. Estructura de la Muestra de la Encuesta Intercensal 2015, Distrito Federal. 112 C.2. Estructura del diseño muestral de la Encuesta Intercensal 2015, Chiapas. . 113 C.3. Estructura del diseño muestral de la Encuesta Intercensal 2015, Jalisco. . . 117 E.1. Catálogo de municipios de Chiapas . . . . . . . . . . . . . . . . . . . . . . 152 E.2. Catálogo de municipios de Jalisco . . . . . . . . . . . . . . . . . . . . . . . 154 Resumen En la presente tesis se realiza la estimación de varianzas de estimadores de parámetros poblacionales sobre la Muestra Censal 2010 (MC2010). Se seleccionaron tres entidades: Chiapas, Distrito Federal y Jalisco, y los parámetros poblacionales: población total, dispo- sición de internet en las viviendas y proporción de personas autoconsideradas ind́ıgenas. Los resultados son presentados a nivel municipal y estatal. Sobre las bases de datos correspondientes a Personas y Viviendas (unidades de análisis de la MC2010) se hace un manejo cuidadoso de las variables asociadas al diseño muestral (estratificado y por conglomerados). Su estructura, conformada por estratos; unidades primarias de muestreo y unidades de análisis en cada municipio, se presenta en forma de tablas. Se emplea el Método de los Estratos Colapsados, debido a la existencia de estratos con solo una unidad primaria de muestreo. Se presentan los estimadores de Horvitz-Thompson, reportados por el INEGI en el documento Diseño de la Muestra Censal 2010 [4], y las dificultades en la estimación de varianzas mediante el uso de estos. Se introduce el Método de los Grupos Aleatorios, antecedente directo del Estimador de Estratos Colapsados, seguido de los resultados teóricos que exhiben su sesgo y demuestran que el estimador sosbreestima la varianza poblacional. La estimación de parámetros poblacionales a partir de la MC2010 es una tarea que realiza el INEGI y cuyos resultados son conocidos como Tabulados Básicos. Los valores estimados puntuales e intervalares en esta tesis se presentan mediante tablas, gráficas de intervalos de confianza y comparaciones. Estas últimas con lo calculado mediante una de las alternativas provista en el paquete survey del software R, la opción adjust y lo presentado en los Tabulados Básicos. De la comparación antes mencionada se observa que el Método de Estratos Colapsados provee estimaciones útiles, que no subestiman la varianza poblacional de los estimadores y son menores que las obtenidas con la opción adjust. I II RESUMEN Introducción La Muestra Censal 2010 (MC2010) levantada durante los meses de mayo y junio de 2010, provee la información recabada en alrededor de 2.9 millones de viviendas mediante el cuestionario ampliado1. Su objetivo, al igual que el de toda muestra probabiĺıstica, es la estimación de parámetros poblacionales. En esta estimación de caracteŕısticas la varianza de los estimadores es un tema crucial. La estimación de varianzas se realiza en En el primer caṕıtulo se presenta el problema de estimación de varianzas dentro de la Muestra Censal 2010, en el mismo caṕıtulo se detallan sus caracteŕısticas y se presentan las estructuras del diseño muestral en el Distrito Federal, las estructuras de Chiapas y Jalisco se encuentran en el apéndice A. También se presentan las alternativas de cálculo de varianza implementaddas en R y Stata. En el segundo caṕıtulo se detalla la metodoloǵıa de estimación de varianza, se presenta el estimador de grupos aleatorios, dos teoremas sobre el insesgamiento del mismo y la distribución asintótica de este, y el estimador de estratos colapsados, para el estimador de un total poblacional y el estimador de razón. Al final de este caṕıtulo se muestra el método Logit de construcción de intervalos de confianza para proporciones. Los resultados de la estimación de varianzas para las siguientes caracteŕısticas poblaciona- les: Población, Disposición de Internet en viviendas y Autoadscripción étnica, se muestran en el tercer caṕıtulo, en el cual también se realiza la comparación respecto a los tabulados básicos y la opción adjust. Se incluyen también cinco apéndices, en el Apéndice A, Estructura del Diseño Muestral, se presenta la estructura del diseño de la muestra censal en Chiapas y Jalisco, mientras que la del Distrito Federal se encuentra en la sección 1.3. El Apéndice B, Resultados Municipales, contiene las tablas de resultados de valores estimados en cada uno de los municipios de las entidades seleccionadas. En el Apendice C Encuesta Intercensal 2015 se presenta la estructura del diseño muestral en la encuesta intercensal para las entidades seleccionadas y se hacen comparaciones breves entre la magnitud de tal muestra y la MC2010, aśı como de la existencia de estratos problemáticos para la estimación de varianza. En el Apéndice D de Programación, se encuentra el código de R utilizado para la estimación de parámetros y sus varianzas. Por último el Apéndice E Cuestionarios contiene los cuestionarios censales, básico y ampliado de la MC2010. 1El cuestionario ampliado comparte 29 preguntas con el cuestionario básico y profundiza en temas de salud, pertenencia étnica, educación y religión. Véase apéndice de cuestionarios. III IV INTRODUCCIÓN En el libro de Wolter[13], el problema de estimación de varianza se aborda para una gran variedad de situaciones y mediante diferentes técnicas, los resultados y teoremas del Caṕıtulo 2 se remiten a [13] y [2], donde pueden consultarse las demostraciones y detalles adicionales. Caṕıtulo 1 Estimación de varianzas en la Muestra Censal La estimación de parámetros poblacionales es el objetivo del levantamiento de cual- quier muestra probabiĺıstica. Cuando una muestra es aleatoria, la estimación de un paráme- tro poblacional se realiza a partir de funciones de la muestra llamadas estimadores. Los estimadores son variables aleatorias con esperanza y varianza, que dependen, tanto de la forma del estimador como de la probabilidad con la que se selecciona una muestra espećıfica.. Al estimar caracteŕısticas de toda una población a partir de sólo la información provenien- te de una muestra, reportar la precisión de las estimaciones es imprescindible. La pregunta inmediata es ¿cómo se mide la precisión de una estimación derivada de una muestra? La medida más común de precisión es la varianza del estimador1, la cual en general no es conocida, pues si bien el estimador es una variable aleatoria cuya distribución es motivada por el diseño de la muestra, su esperanza y varianza dependen del conocimiento de todos los valores que puede tomar el estimador sobre cada una de las muestras posibles. Al no ser viable el cálculo exacto de la varianza del estimador, se requiere su estimación a partir de la información conocida, la información provista por la muestra. A continuación se introduce la notación que se usa a lo largo del presente trabajo. 1.0.1. Notación (1) Denotaremos por U = {u1, u2, ..., uN} una población finita de unidades identifica- bles, con N elementos o unidades poblacionales, a menudo U también será denotado únicamente como el conjunto de sub́ındices de los elementos poblacionales que con- tiene, U = {1, 2, ..., N}. 1Cuando un estimador es insesgado, se reporta la varianza, de ser sesgado, se reporta el error estándar. 1 2 CAPÍTULO 1. ESTIMACIÓN DE VARIANZAS EN LA MUESTRA CENSAL (2) Una muestra s = {u1, u2, ..., uns} es un subconjunto no vaćıo de U , con ns el tamaño de la muestra s. (3) Un dominio Ud = {u1, u2, ..., uNd} es un subconjunto de U que comúnmente denota a una subpoblación espećıfica, por ejemplo, en una población de personas U , la subpoblación conformada por únicamente mujeres es un dominio Ud. (4) Sea L el conjunto de todas las muestras posibles de la población U , una función p() : L → [0, 1] es un diseño muestral si satisface las siguientes propiedades: (i) p(s) ≥ 0 ∀s ∈ L (ii) ∑ s∈L p(s) = 1. La función p(s) denota la probabilidad de selección de la muestra s ⊆ U . (5) Dado un diseño muestral definimos la probabilidad de inclusión de primer orden πk como la probabilidad de que la unidad k sea seleccionada en la muestra πk = ∑ s∋k p(s) para k = 1, ..., N . El factor de expansión de la unidad poblacional k es wk = 1 πk . Decimos que la unidad uk es autorepresentada si wk = 1. De manera similar es definida la probabilidad de inclusión de segundo orden, πkl = ∑ k,l∋s p(s) para k, l = 1, ..., N . (6) Asociado a cada unidad k en la población están un conjunto de p variables de interés yk1, yk2, ..., ykp. (6) Denotamos con t = ∑ k∈U yk; el total poblacional de la variable y. t̄ = 1/N ∑ k∈U yk la media poblacional de la variable y. R = ∑ k∈U yk/ ∑ k∈U zk; un cociente de totales poblacionales. (7) Para referirnos a un estimador de varianza (i.e. un estimador de V (θ̂)) usaremos la expresión V̂ (θ̂), que dependiendo del estimador utilizado será acompañada de sub́ındices, por ejemplo: el estimador de varianza del estimador del parámetro θ bajo un muestreo simple es V̂SI(θ̂). 3 (8) Dado un diseño muestral p() y t̂ un estimador del total poblacional definimos el DEFF (p, t̂) como DEFF (p, t̂) = Vp(t̂) VSI(t̂) Los siguientes ejemplos ilustran el uso de la notación Ejemplo 1 Sea la población U = {u1, u2, u3, u4, u5}, N = 5. Consideremos la siguiente función diseño p(s) = 1/2, si s = {u1, u2} 1/4, si s = {u1, u3} 1/4, si s = {u1, u2, u3, u4, u5}. Las probabilidades de inclusión son π1 = 1, π2 = 3/4, π3 = 1/2, π4 = π5 = 1/4. Los factores de expansión son w1 = 1, w2 = 4/3, w3 = 2, w4 = w5 = 4. Las probabilidades de inclusión de segundo orden son π11 = 1 π12 = 3/4 π13 = 1/2 π14 = 1/4 π15 = 1/4 π22 = 3/4 π23 = 1/4 π24 = 1/4 π25 = 1/4 π33 = 1/2 π34 = 1/4 π35 = 1/4 π44 = 1/4 π45 = 1/4 π55 = 1/4 La unidad u1 es autorepresentada, pues w1 = 1. El tamaño de la muestra ns es una variable aleatoria con la siguiente función de masa de probabilidad P (ns = k) = { 3/4 si k = 2 1/4 si k = 4. Observe también que E(ns) = 10/4 y que V (ns) = 3/4. Ejemplo 2 (muestreo SI) Sea U = {u1, u2, ..., uN} una población finita de tamaño N . La función diseño en el muestreo aleatorio simple (SI ) asigna probabilidades iguales a todos los conjuntos de tamaño n ≤ N que pueden formarse en U , es decir p(s) = 1/ ( N n ) si |s| = n 0 e.o.c En el muestreo (SI ) ns = n, es decir, el tamaño de muestra es fijo. Dada esta función diseño, las probabilidades de inclusión de primer orden son πk = n/N para k = 1, ..., N . Las probabilidades de inclusión de segundo orden están dadas por πkl = n(n−1)/N(N−1) para k, l = 1, ..., N y k 6= l. 4 CAPÍTULO 1. ESTIMACIÓN DE VARIANZAS EN LA MUESTRA CENSAL 1.1. Introducción a la estimación de varianza Sea θ̂ un estimador de un parámetro poblacional, obtenido a partir de una muestra probabiĺıstica. Es decir θ̂ = f(s), donde s denota una muestra con probabilidad positiva de ser seleccionada. Entonces P[θ̂ = θ0] = ∑ s|θ̂(s)=θ0 p(s) Donde p(s) denota la probabilidad de selección de una muestra s. Entonces θ̂ es una variable aleatoria, cuya realización es llamada valor estimado o estimación del parámetro poblacional. La esperanza y varianza del estimador de un parámetro poblacional se obtienen mediante las siguientes fórmulas E(θ̂) = ∑ s θ̂(s)p(s) V (θ̂) = ∑ s p(s)[θ(s)− E(θ̂)]2 Es importante notar que tanto la esperanza como la varianza de un estimador deben ser calculadas sobre cada uno de los valores posibles del estimador, es decir sobre la realiza- ción de la variable aleatoria en cada muestra posible. El conjunto de todas las muestras posibles depende del diseño muestral. De forma parti- cular, para el muestreo aleatorio simple, con un tamaño de muestra fijo n, el conjunto de todas las muestras posibles tiene cardinalidad ( N n ) , lo que implica que calcular la esperan- za o la varianza del estimador requiere el conocimiento de cada una de estas muestras. Si bien esto no es imposible, en la práctica las muestras son usadas porque tienen un costo mucho menor al de los censos, por lo que obtener tantas muestras como combinaciones de N en n es inviable. Para reportar la esperanza y varianza de un estimador, se recurre a su estimación. Existen en la literatura muchas referencias a la estimación de varianzas, y muchos métodos de estimación de varianzas, en [13] el tema es abordado a profundidad. 1.1.1. Estimador de Horvitz-Thompson Resultado 2.8.1, C. E. Särndal et al. (1992) Caṕıtulo 2, p. 43 El estimador π t̂π = ∑ s yk πk 1.2. DISEÑO DE LA MUESTRA CENSAL 2010 5 es insesgado para t = ∑ U yk, con varianza V (t̂π) = ∑∑ U (πkl − πkπl) yk πk yl πl . Si πkl > 0 para cualesquiera k, l ∈ U , un estimador insesgado de V (t̂π) está dado por V̂ (t̂π) = ∑∑ s (πkl − πkπl) πkl yk πk yl πl . Estimador de Varianza de Yates-Grundy Resultado 2.8.2, C. E. Särndal et al. (1992) Caṕıtulo 2, p. 45 Bajo un diseño con tamaño de muestra fijo, la varianza del estimador π puede escribirse alternativamente como V (t̂π) = − 1 2 ∑∑ U (πkl − πkπl)( yk πk − yl πl )2. Si πkl > 0 para todo k 6= l ∈ U , un estimador insesgado de V (t̂π) está dado por V̂ (t̂π) = − 1 2 ∑∑ U (πkl− πkπl) πkl ( yk πk − yl πl )2. Debe observarse que el estimador π únicamente hace uso de las probabilidades de inclu- sión de primer orden. Es importante debido a su sencilla implementación en el software especializado, en particular en las libreŕıas survey de R y svy de Stata. Las probabilidades de inclusión de segundo orden generalmente no son provistas en las bases de datos de la muestra, para estimar la varianza de t̂π se recurre a otros métodos como The Ultimate Cluster Method, véase subsección 1.4.1. En la siguiente sección se hace referencia a los estimadores anteriores espećıficamente para muestreo estratificado y por conglomerados. 1.2. Diseño de la Muestra Censal 2010 La Muestra Censal 2010 (MC2010) levantada durante los meses de mayo y junio de 2010, simultáneamente al Censo de Población y Vivienda, provee la información recaba- da mediante el cuestionario ampliado, un instrumento de captación que contiene las 29 preguntas del cuestionario básico y profundiza en el conocimiento de las caracteŕısticas de las viviendas encuestadas y sus integrantes. El objetivo general de la MC2010 es proporcionar información a nivel municipal con precisión y confianza medibles para tasas, promedios y proporciones sobre caracteŕısticas poblacionales espećıficas. 6 CAPÍTULO 1. ESTIMACIÓN DE VARIANZAS EN LA MUESTRA CENSAL El diseño de la muestra censal 2010 es estratificado por conglomerados y se realizó en una sola etapa de selección, es decir, dada una estratificación se seleccionan en cada estrato, mediante un diseño muestral espećıfico, áreas completas, ya sean manzanas o localidades. Dentro de estas áreas se aplica el cuestionario ampliado a todas las viviendas particulares habitadas. A las manzanas o localidades, según el estrato, se les llama uni- dades primarias de muestreo (UPM), mientras que a las viviendas y a las personas, de acuerdo a las variables que fueron medidas (a nivel vivienda o de manera personal), se les llama elementos o unidades de análisis. [11, p.13]. Cabe destacar que la MC2010 no es una muestra autoponderada, es decir, las viviendas en la muestra no tienen la misma probabilidad de inclusión. El marco muestral estuvo conformado por cada una de las viviendas particulares en Méxi- co y sus residentes habituales, y fue construido con información del Censo de Población y Vivienda del año 2000 y diversas encuestas y conteos llevados a cabo de 2005 a 2009. 1.2. DISEÑO DE LA MUESTRA CENSAL 2010 7 Estratificación y selección de la muestra “Para llevar a cabo la estratificación de los 2456 municipios en el páıs se establecieron los siguientes grupos: 1. Menos de 1,100 viviendas habitadas, 2. De 1,100 a 4,000 viviendas habitadas, 3. Más de 4,000 viviendas habitadas. El interior de los municipios que no se incluyeron con certeza en la muestra, fue posterior- mente estratificado de acuerdo a las localidades conformadas y según siguientes grupos: 1. Localidades con menos de 250 viviendas habitadas; 2. Localidades con más de 250 viviendas habitas y menos de 50,000 habitantes: Menos de 50 habitantes, De 50 a 499 habitantes, De 500 a 999 habitantes, De 1,000 a 1,499 habitantes, De 1,500 a 1,999 habitantes, De 2,000 a 2,499 habitantes, De 2,500 a 4,999 habitantes, De 5,000 a 14,999 habitantes, De 15,000 a 49,999 habitantes, 3. Localidades con más de 50,000 habitantes. Los 125 municipios con el menor Índice de Desarrollo Humano (IDH) y aquellos con menos de 1100 viviendas habitadas, se incluyeron con certeza en la muestra, es decir, se censó con el cuestionario ampliado a cada una de las viviendas en tales municipios. Al interior de cada municipio, la afijación de la muestra para cada estrato fue proporcional al número de viviendas habitadas por estrato. Para los municipios en el que todas sus viviendas entraron con certeza a la muestra, no fue necesario hacer la afijación. En todos los casos la selección se realizó mediante muestreo aleatorio simple.”[4, p.5] 8 CAPÍTULO 1. ESTIMACIÓN DE VARIANZAS EN LA MUESTRA CENSAL 1.2.1. Muestreo Estratificado Simple por Conglomerados En el muestreo estratificado por conglomerados (STSIC) se realiza un muestreo simple por conglomerados dentro de cada uno de los estratos en que se divide la población. Consideremos que la población está dividida en H estratos, entonces t = ∑H h=1 th donde th = ∑ h yk, th representa el total en el estrato h, con h = 1, 2, ..., H. Suponga que cada estrato ha sido dividido en NIh conglomerados (UPMs), cada una de ellas con un número determinado de elementos, y que en cada uno de los H estratos se realiza un muestreo simple de nIh conglomerados. Las expresiones del estimador del total poblacional, su varianza y un estimador de la varianza son las siguientes t̂ = H∑ h=1 NIh nIh nIh∑ k=1 thk; thk = ∑ h,k yj (1.1) V (t̂) = H∑ h=1 V (t̂h) = H∑ h=1 N2Ih(1− fIh)S 2 Iht/nIh (1.2) V̂ (t̂) = H∑ h=1 V̂ (t̂h) = H∑ h=1 N2Ih(1− fIh)s 2 Iht/nIh (1.3) Con S2Iht = NIh∑ k=1 (thk − ( ∑NIh k=1 thk/NIh)) 2 NIh − 1 s2Iht = nIh∑ k=1 (thk − ( ∑nIh k=1 thk/nIh)) 2 nIh − 1 fIh = nIh NIh . Donde thk representa el total de la variable de interés sobre el conglomerado k-ésimo del estrato h. Este resultado es obtenido de conjuntar el Resultado 3.7.2 del libro de Särndal et al. [11, p.103], sobre el estimador de Horvitz-Thompson en el muestreo estratificado simple (STSI), y la Sección 4.2.2[11, p.129], sobre el muestreo simple por conglomerados. Para el uso del estimador de varianza 1.3, es importante remarcar la necesidad de que nIh ≥ 2. En otras palabras, esto es, que el número de conglomerados seleccionados en la muestra por cada estrato sea al menos dos. 1.2. DISEÑO DE LA MUESTRA CENSAL 2010 9 Bajo el muestreo STSIC, si t̂x y t̂y representan a los estimadores del total poblacional para las variables de interés x y y respectivamente, la covarianza y la covarianza estimada entre ambos está dada por Cov(t̂x, t̂y) = H∑ h=1 N2Ih(1− fIh)SxyIh/nIh (1.4) Ĉov(t̂x, t̂y) = H∑ h=1 N2Ih(1− fIh)sxyIh/nIh (1.5) Donde SxyIh = NIh∑ k=1 (txhk − t̄Uxh)(tyhk − t̄Uyh) NIh − 1 sxyIh = nIh∑ k=1 (txhk − t̄sxh)(tyhk − t̄syh) nIh − 1 t̄Uxh = NIh∑ k=1 txhk/NIh t̄syh = nIh∑ k=1 tyhk/nIh En el documento [4, pp.6-8] Diseño de la muestra censal.pdf proporcionado por el INEGI, se dice lo siguiente sobre los estimadores. El estimador del total para un dominio de estudio dado (por ejemplo, un municipio) es: Ŷm = H∑ h=1 Ŷh = H∑ h=1 nh∑ j=1 Fhj Mj∑ k=1 yhjk (1.6) donde: Ŷm Es el total estimado de la caracteŕıstica de interés para el dominio m Ŷh Es el total estimado de la caracteŕıstica de interés en el estrato h del dominio m Fhj Es el factor de expansión de la j-ésima UPM en el h-ésimo estrato yhjk Es el valor de la caracteŕıstica de interés en la k-ésima vivienda, del j-ésimo conglo- merado en el h-ésimo estrato H Es el número de estratos en el dominio m Mj El número de viviendas en muestra dentro de la j-ésima UPM en el h-ésimo estrato. El estimador de la media es Ȳm = Ŷ Mm = Ŷm∑H h=1 ∑nh j=1 Fhj (1.7) 10 CAPÍTULO 1. ESTIMACIÓN DE VARIANZAS EN LA MUESTRA CENSAL Donde Mm es el estimador del total de viviendas en el dominio m. Para la estimación de un total, el estimador de la varianza del estimador, para un dominio dado, es: V̂ (Ŷm) = H∑ h=1 V̂ (Ŷh) = H∑ h=1 N2h(1− nh Nh ) Ŝ2h nh (1.8) donde Ŝ2h = nh∑ j=1 (yhj − ȳh) 2 nh − 1 Por ende el error estándar asociado está dado por: E.EŶm = √ V̂ (Ŷm). Observaciones sobre los estimadores mencionados en el Diseño de la Muestra Censal por INEGI Los estimadores 1.1 y 1.6 son dos expresiones algebráicas del mismo estimador, en vista de Fhj = Nh nh , nh Nh Ŷh = tk = nh∑ j=1 Mj∑ k=1 yhjk De la misma forma, lo son 1.3 y 1.8, es decir, INEGI utiliza los estimadores de Horvitz-Thompson. Es importante mencionar que el estimador de la media 1.7 es un estimadorde razón, del tipo R̂ = t̂y/t̂x, y la fórmula para estimar su varianza es la siguiente V̂ (R̂) = 1 t̂2x [V̂ (t̂y) +R 2V̂ (t̂x)− 2RĈov(t̂x, t̂y)] (1.9) Donde Ĉov(t̂x, t̂y), para el muestreo STSIC está definida como en la ecuación 1.5. 1.3. Estructura del diseño muestral La muestra censal 2010 es una muestra unietápica, estratificada y por conglomerados, por lo que su estructura está conformada por estratos de diseño, unidades primarias de muestreo (conglomerados) y unidades de análisis (UA), que pueden ser personas o viviendas. 1.3. ESTRUCTURA DEL DISEÑO MUESTRAL 11 Selección de las entidades para la estimación de varianza Para la estimación de varianzas fueron seleccionadas las entidades Chiapas, Distrito Federal y Jalisco. El criterio de elección de estas entidades está basado en el conoci- miento de la estructura del diseño de la muestra nacional. Se seleccionaron entidades cuya problemática en el cálculo de varianza fuera evidente; el Distrito Federal posee más del 90% de estratos con sólo una UPM; Chiapas cuenta con municipios completamente censados y en Jalisco, el municipio de Guadalajara posee únicamente estratos con una UPM. A continuación se resume en tablas la estructura del diseño de la muestra en el Distrito Federal, las columnas reflejan para toda la entidad y cada una de sus delegaciones: El nombre de la delegación, La suma del factor de expasión asociado a cada unidad muestral (personas y vivien- das), El número de unidades de análisis, El número de estratos totales por municipio, El número de unidades primarias de muestreo, El número de estratos con solo una UPM El número de estratos autorepresentados, estratos cuyas unidades primarias de muestreto tienen factor de expansión igual a 1, es decir, aquellos que fueron censa- dos. Las dos últimas columnas son de gran importancia para la estimación de varianzas, puesto que los estratos censados no contribuyen a la varianza del estimador y sobre los estratos con sólo una UPM donde no pueden usarse las expresiones 1.3 o 1.8. La estructura del diseño muestral para las entidades Chiapas y Jalisco, y cada uno de sus municipios se encuentran en el Apéndice A, Estructura del diseño de la muestra censal. 12 CAPÍTULO 1. ESTIMACIÓN DE VARIANZAS EN LA MUESTRA CENSAL Distrito Federal - Estructura del diseño muestral. Cuadro 1.1: Estructura del diseño muestral en el Distrito Federal, suma del factor de expan- sión, número de unidades de análisis, número de estratos, UPM, estratos con una UPM y autorepresentados. Delegación Personas Viviendas Número de Número de Suma del Núm. de Suma del Núm. de EST. UPM Estratos Factor de unidades Factor de unidades Con una Autorepre- expansión de análisis expansión de análisis UPM sentados Distrito Federal 8 783 909 353 030 2 450 563 97 838 2 215 2 396 2 186 28 Álvaro Obregón 725 401 28 284 195 820 7 589 195 197 194 2 Azcapotzalco 414 082 11 983 119 236 3 411 96 96 96 0 Benito Juárez 383 214 15 067 139 529 5 586 101 101 101 1 Coyoacán 619 263 19 934 182 214 5 684 143 143 143 0 Cuajimalpa 186 343 12 372 47 700 3 094 30 53 20 0 Cuauhtémoc 526 483 29 804 176 716 10 101 131 132 130 1 Gustavo A. Madero 1 171 127 38 822 320 668 10 678 287 287 287 1 Iztacalco 383 356 15 493 101 529 4 047 105 106 104 0 Iztapalapa 1 793 578 61 533 460 324 15 471 446 446 446 1 La Magdalena Contreras 238 394 7 676 62 911 2 041 51 59 49 1 Miguel Hidalgo 371 534 16 450 120 424 5 372 107 107 107 3 Milpa Alta 129 384 5 382 30 810 1 279 3 46 0 0 Tláhuac 359 750 15 600 89 740 3 820 89 118 86 3 Tlalpan 644 988 30 258 177 602 8 123 178 218 173 9 Venustiano Carranza 429 462 21 200 123 638 5 771 141 141 141 2 Xochimilco 407 550 23 172 101 702 5 771 112 146 109 4 1.3. ESTIMACIÓN DE VARIANZAS EN LA MUESTRA CENSAL 13 Resumen de la estructura del diseño muestral en las tres entidades La siguiente tabla refleja, para cada una de las entidades selccionadas, el número total de estratos, el número de estratos con sólo una UPM y el número de estratos autorepresentados, aśı como el número de municipios con al menos un estrato problemático y el porcentaje que representan, del total de municipios en cada entidad. Entidad Núm. de Estratos con Estratos Auto- Municipios con estratos Población estimada en Estratos 1 UPM (%) repres. (%) con 1UPM (%) autorep. (%) Est. con 1UPM (%) Chiapas 803 336 (41.8) 44 (5.4) 17 (14.4) 36 (30.5) 661,254 (13.8) Distrito Federal 2 215 2 186 (98.6) 28 (1.2) 15 (93.7) 11 (68.7) 8,395,418 (95.5) Jalisco 1 769 1 262 (71.3) 106 (5.9) 25 (20.0) 31 (24.8) 3,784,582 (51.6) Cuadro 1.2: Resumen de la estructura del diseño muestral. Como se ha mencionado anteriormente, el diseño de la Muestra Censal 2010 es un STSIC, por lo que la existencia de estratos con sólo una UPM impide la aplicación de las fórmulas en la sección 1.2.1. Debe hecerse un manejo cuidadoso de cada estrato, clasificándolo según sus caracteŕısticas para el cálculo de su varianza. Los estratos autorepresentados, es decir, aquellos que fueron completa- mente censados, tienen varianza cero, por lo que su varianza estimada2 debe ser cero. Los estratos con una sola UPM deben ser sometidos a un tratamiento distinto, una opción es recurrir al Estimador de Estratos Colapsados. 1.4. Alternativas de cálculo de varianza esti- mada implementadas en el software En la sección anterior se hizo del conocimiento del lector la existencia de estratos autorepresentados y con una UPM en la muestra censal de tres 2En Survey (R), aunque las unidades muestrales sean espećıficadas como unidades autorepresentadas, si no son separadas del resto de las unidades, el método de estima- ción de varianza (The Ultimate Cluster Method) considerará una contribución positiva a la varianza estimada. 14CAPÍTULO 1. ESTIMACIÓN DE VARIANZAS EN LA MUESTRA CENSAL entidades, tales estratos requieren de un manejo computacional separado, cuando se realizan las estimaciones de varianza, inclusive en software es- pecializado. A continuación se ilustran algunas opciones existentes en las libreŕıas survey y svy de los programas R y Stata, respectivamente, para el manejo de estratos con sólo una UPM. Existen gran variedad de programas informáticos estad́ısticos, muchos de ellos con libreŕıas de análisis de datos de encuestas, sin embargo, se presentan únicamente R y Stata debido a la familiaridad y la disponibilidad del autor con éstos. Debe mencionarse que R es un software libre, y uno de los lenguajes más utilizados en investigación por la comunidad estad́ıstica[1]. Stata es un software estad́ıstico que requiere la adquisición de una licencia para su uso. Opciones de comandos en R library(survey) options(survey.lonely.psu="fail") options(survey.lonely.psu="remove") options(survey.lonely.psu="certainty") options(survey.lonely.psu="average") options(survey.lonely.psu="adjust") La opción fail es seleccionada por defecto, y env́ıa un mensaje de error cuan- do identifica estratos con una UPM, remove y certainty ignoran la aporta- ción de las UPM a la varianza, en otras palabras asignan varianza cero a los estratos con una UPM. La diferencia entre ambas radica en el env́ıo de un mensaje de advertencia cuando se usa la opción remove, que no es enviado cuando se usa la opción certainty. La opción average reemplaza la contribución a la varianza de los estratos con una UPM por la varianza promedio de los estratos con más de una UPM. La opción adjust asigna a los estratos con una UPM el cuadrado de la resta del valor estimado y la media del total estimado en los estratos con más de una UPM [9, p.53]. Opciones disponibles en Stata svy > svyset > singleunit(missing) 1.4. ALTERNATIVAS DE CÁLCULO DE VARIANZA ESTIMADA 15 singleunit(certainty) singleunit(scaled) singleunit(centered) Las opciones missing y certainty al igual que en R, ignoran la aportación a la varianza en los estratos con una UPM.Mientras que las opciones scaled y centered funcionan respectivamente como average y adjust. Claramente las opciones anteriores únicamente representan alternativas al cálculo de la varianza estimada, mas no representan la implementación de un estimador de varianza, por lo que se carece de información teórica sobre el sesgo de la estimación. La opción remove no es una opción adecuada, pues suponer que los estratos con una UPM no contribuyen a la varianza total, conduce a una subestima- ción de la misma. El uso de la opción average sólo es útil cuando al menos un estrato tiene más de una UPM, la muestra en el municipio de Guadalajara tiene todos sus estratos con sólo una UPM, por lo que la opción average no podŕıa usarse. Debe observarse que el uso de alguna opción particular de estimación de varianza, no modifica de ninguna manera el estimador puntual, por lo que las estimaciones puntuales obtenidas en este trabajo escrito coinciden en su totalidad con los valores reportados por el INEGI. En el caṕıtulo destinado a los resultados de este trabajo se incluye la com- paración de los resultados de varianza estimada contra los provistos por la opción adjust de R. 1.4.1. The Ultimate Cluster Method La estimación de varianzas automatizada en R, en espećıfico en la li- breŕıa survey, utiliza el método conocido como The Ultimate Cluster, un caso particular del Método de los Grupos Aleatorios, asumiendo un estima- dor lineal θ̂ de la forma N/n ∑ s yk de un total poblacional t. Este método proporciona un estimador de varianza que a diferencia de los estimadores de Horvitz-Thompson o de Yates-Grundy, no requiere especificar las probabili- dades de inclusión de segundo orden, y es de un cómputo sencillo. Con base en el libro de Hansen et al. (1953) [2, Sec. 1, Cap. 6, p. 242] y asumiendo 16CAPÍTULO 1. ESTIMACIÓN DE VARIANZAS EN LA MUESTRA CENSAL un muestreo estratificado y por conglomerados, la fórmula del estimador de varianza bajo el método Ultimate Cluster es la siguiente V̂ (t̂) = H∑ h=1 nIh nIh − 1 nIh∑ k=1 (thk − t̂h) 2 (1.10) Donde H es el número de estratos y nIh es el número de conglomerados en el estrato h. Observe que para el uso de este método de estimación de varianza, existe la necesidad de que nIh ≥ 2. En la documentación de la muestra censal del año 2000 [3, p.52] se menciona el uso del estimador anterior. 1.5. Tabulados Básicos Los tabulados básicos del cuestionario ampliado son una compilación de resultados obtenidos de la estimación de parámetros poblacionales usando la muestra censal y se encuentran disponibles al público en la página del INEGI3. Para ilustrar la importancia de la implementación de un método de estima- ción de varianzas en la MC2010 basta con remitirse a la tabla A.2, ubicar el municipio de Guadalajara y percatarse que todos sus estratos (405) poseen sólo una UPM. Claramente es imposible utlizar las fórmulas de la Sección 1.2.1 o el método Ultimate Cluster, y es necesario recurrir a algún manejo sobre la varianza en los estratos con UPM, que no subestime la varianza poblacional.. De utilizar R para realizar la estimación de varianza sin especificar alguna de las opciones vistas en la sección anterior obtendŕıamos un mensaje de error, resulta una inquietud inmediata el ¿cómo está reportado esto en los tabulados básicos? Se trata de la tabla 01 02A MUNICIPAL 14.xls, la población estimada es 1, 491, 217, el error estándar reportado es 0 y por tanto, el intervalo de confianza para la población total de Guadalajara es sólo un punto, esto sig- nifica que fue despreciada la contribución a la varianza de estratos con sólo 3En el apartado de referencias se proveen las ligas para su acceso. 1.5. TABULADOS BÁSICOS 17 una UPM. El mismo resultado obtendŕıamos en R con la opcion remove. Una consecuencia de reportar un error estándar 0 es que la estimación inter- valar no contiene el valor censal del parámetro poblacional, el cual según los tabulados del cuestionario básico 01 02B MUNICIPAL 14 es 1, 495, 189. Es decir, hay una diferencia de 3,917 entre la población estimada y la población censada. 18CAPÍTULO 1. ESTIMACIÓN DE VARIANZAS EN LA MUESTRA CENSAL Figura 1.1: Tabulados Básicos 01 02A MUNICIPAL 14, Población total en viviendas particulares habitadas por municipio. Guadalajara Jalisco. En el siguiente caṕıtulo se aborda la teoŕıa del método de estimación de varianzas conocido como The Collapsed Stratum Method, comenzando por un antecedente inmediato, el método de los grupos aleatorios. Al final del caṕıtulo se exhibe el sesgo del estimador de varianza, con la finalidad de mostrar que se trata de un estimador conservador. Caṕıtulo 2 Metodoloǵıa de estimación de varianzas La estimación de varianzas es un tema ampliamente tratado en la li- teratura, debido al gran campo de aplicación de las encuestas basadas en modelos, cuando las caracteŕısticas del diseño muestral obstaculizan la im- plementación automatizada de fórmulas o la existencia de una fórmula exac- ta. Existen diversos métodos de estimación de varianzas, basados en técnicas de grupos aleatorios, jacknife, bootstrap, etc. En el libro [13], Wolter ofrece un panorama introductorio a dichos métodos. Para fines de este trabajo y a consecuencia de la estructura del diseño muestral en las entidades seleccionadas, el método utilizado es el de los Estratos Colapsados. 2.1. Método de los Grupos Aleatorios El método de los grupos aleatorios para la estimación de varianza con- siste en seleccionar dos o más muestras, llamadas grupos aleatorios, de la población usando el mismo diseño en cada una de estas, construir para cada una un estimador del parámetro poblacional a estudiar y calcular la varianza de estos valores estimados. Históricamente la técnica se remonta a 1939, cuando fue nombrado por Pra- santa Mahalanobis como the interpenetrating samples method. Fue retomado en 1953 por Hansen, et al.[13, p.21]. 19 20CAPÍTULO 2. METODOLOGÍA DE ESTIMACIÓN DE VARIANZAS Se distinguen dos casos fundamentales dentro del método de los grupos aleatorios: 1. Los grupos aleatorios son mutuamente independientes. 2. Los grupos aleatorios tienen cierto grado de dependencia. Estamos interesados únicamente en el primer caso, pues de este deriva el Estimador de Estratos Colapsados. 2.1.1. Grupos Aleatorios Independientes En este caso la independencia mutua entre los grupos aleatorios radica en el reemplazo de cada muestra después de haber sido seleccionada. Sea θ un parámetro lineal; como la media y el total o no lineal como un cociente de totales o coeficiente de regresión. La creación de los grupos aleatorios se hace como sigue: (i) Una muestra s1 es seleccionada de la población de acuerdo a un diseño muestral espećıfico. (ii) La muestra s1 es reemplazada en U y una muestra s2 es tomada de acuerdo al mismo diseño. (iii) Se repite este proceso hasta que k ≥ 2 muestras sean obtenidas, ha- biendo reemplazado la muestra i-ésima luego de haberla seleccionado, estas k muestras son los grupos aleatorios. A la estimación del parámetro θ dentro de cada grupo aleatorio se le llama proceso de medición [13, p.22] y denotamos a los k estimadores de θ por θ̂α con α = 1, 2, ..., k. El siguiente teorema establece la creación del estimador de varianza por el método de los grupos aleatorios. Teorema 2.2.1. Wolter (2007), Caṕıtulo 2, p.23 Sean {θ̂1, ..., θ̂k} va- riables aleatorias no correlacionadas con media común µ y sea ̂̄θ = k∑ α=1 θ̂α/k. Entonces: 2.2. ESTIMADOR DE ESTRATOS COLAPSADOS 21 (i) E(̂̄θ) = µ (ii) V̂ (̂̄θ) = [ k∑ α=1 (θ̂α − ̂̄θ)2]/k(k − 1) es un estimador insesgado de V (̂̄θ). El estad́ıstico ̂̄θ puede ser usado como un estimador de θ y V̂ (̂̄θ) es nom- brado el estimador de grupos aleatorios de su varianza. Si la esperanza de θ̂α es el parámetro de interés θ, para cualquier α = 1, 2, ..., k, entoncesel estad́ıstico ̂̄θ es un estimador insesgado de θ. Teorema 2.2.2. Wolter (2007), Caṕıtulo 2, p.24 Sean {θ̂1, ..., θ̂k} variables aleatorias independientes e idénticamente dis- tribúıdas con distribución normal (θ, σ2). Entonces (i) El estad́ıstico z = (̂̄θ − θ)/ √ σ2/k Tiene distribución N(0, 1) y (ii) El estad́ıstico t = (̂̄θ − θ)/ √ V̂ (̂̄θ) Se distribuye t de Student con k − 1 grados de libertad. La importancia de estos resultados radica en la construcción de intervalos de confianza. Las demostraciones de los teoremas anteriores pueden encontrarse en [13, pp. 22-25]. Cuando se trabaja con una variable binaria o categórica los parámetros de interés suelen ser proporciones respecto a un total. Al esti- mar una proporción, la normalidad asintótica se puede suponer únicamente con tamaños de muestra grandes, de otra forma, al construir intervalos de confianza se pueden obtener extremos que rebasen el 0 o el 1. 2.2. Estimador de Estratos Colapsados En un muestreo estratificado, algunas consideraciones especiales, como el control sobre la dispersión de las unidades muestrales conducen en ocasiones a la selección de sólo una unidad primaria de muestreo por estrato [13, p.50]. 22CAPÍTULO 2. METODOLOGÍA DE ESTIMACIÓN DE VARIANZAS El problema con esta estrategia de muestreo es que no se dispone de un estimador insesgado de la varianza, ni siquiera para estad́ısticos lineales. En estos casos el Estimador de Estratos Colapsados (CSE) sobreestima la varianza del estimador de un parámetro lineal, si se tratase de un parámetro no lineal es factible usar un método de linealizacion. El estimador de los estratos colapsados está basado en el estimador de los grupos aleatorios. Suponga que se desea estimar un total poblacional t usando un estimador de la forma ∑H h=1 t̂h, donde H denota el número de estratos y t̂h un estimador del total en el h-ésimo estrato. En particular podemos hablar del estimador de Horvitz-Thompson t̂h = nh∑ k=1 yk πk . Véase [11, p.42]. Asumiremos que las UPM son elegidas de manera independiente para cada uno de los H estratos. Para estimar la varianza de t̂ sobre los estratos con una sola UPM consi- deremos H1 ≤ H el número de estratos no autorepresentados, con sólo una UPM. Se combinan los H1 estratos en G grupos 1 ajenos de al menos 2 es- tratos cada uno. Considere que H1 = 2G, es decir, el número de estratos no autorepresen- tados con una UPM es par. Entonces el estimador del total de t̂ puede ser visto como t̂ = H∑ h=1 t̂h = ∑ H−H1 t̂h + ∑ H1 t̂h = ∑ H−H1 t̂h + G∑ g=1 (t̂g1 + t̂g2) Donde t̂gh con h = 1, 2 y g = 1, 2, ...G denota a la estimación en el compo- nente h del grupo g. El estimador de la varianza sobre cada grupo g es2 V̂ (t̂g) = V̂ (t̂g1 + t̂g2) = (t̂g1 − t̂g2) 2 De aqúı que el estimador de la varianza de t̂ sea 1La formación de los G grupos está basada en el valor estimado en cada estrato, véase 2.2. 2Observe que se trata del estimador de varianza obtenido por el método de los gru- pos aleatorios (Teorema 2.2.1) con grupos independientes. 2.2. ESTIMADOR DE ESTRATOS COLAPSADOS 23 Ecuación 2.5.2 Wolter (2007), Caṕıtulo 2, p.51 V̂ (t̂) = ∑ H−H1 V̂ (t̂h) + G∑ g=1 V̂ (t̂g1 + t̂g2) = ∑ H−H1 V̂ (t̂h) + G∑ g=1 (t̂g1 − t̂g2) 2 (2.1) La primer suma de la última igualdad deberá calcularse según los métodos conocidos, mediante las fórmulas en el caṕıtulo 1, por otro lado, el segundo sumando es de una implementación sencilla computacionalmente. 2.2.1. Sesgo del Estimador de Estratos Colapsados Cuando se estiman varianzas, un enfoque conservador es aquel que su- giere encontrar un estimador que sobreestime la varianza poblacional del estimador, en otras palabras se busca que el sesgo del estimador, la dife- rencia entre el valor esperado del estimador y el valor real del parámetro (en este caso, la varianza del estimador) sea un número mayor que cero. A continuación se demuestra que el sesgo del estimador de estratos colapsados en efecto lo es. Considere el estimador 2.1 con H = H1, es decir, que todos los estratos tuvieran sólo una UPM. 24CAPÍTULO 2. METODOLOGÍA DE ESTIMACIÓN DE VARIANZAS E(V̂ (t̂)) = E( G∑ g=1 (t̂g1 − t̂g1) 2) = G∑ g=1 E((t̂g1 − t̂g1) 2) = G∑ g=1 {E(t̂2g1)− 2E(t̂g1t̂g2) + E(t̂ 2 g2)} = G∑ g=1 {V (t̂g1) + E(t̂g1) 2 + V (t̂g2) + E(t̂g2) 2 − 2E(t̂g1)E(t̂g2)} = G∑ g=1 (V (t̂g1) + V (t̂g2)) + G∑ g=1 (E(t̂g1)− E(t̂g2)) 2 = V (t̂) + G∑ g=1 (µg1 − µg2) 2 con E(t̂g1) = µg1, E(t̂g2) = µg2 (2.2) La igualdad 2.2 no sólo muestra que el estimador de estratos colapsados sobreestima la varianza del estimador t̂, sino que también sugiere una estra- tegia para acercarse el insesgamiento del mismo mediante la selección de los estratos en cada grupo g, colapsar estratos cuyo valor esperado del paráme- tro poblacional sea lo más parecido posible. Si los estimadores t̂g1 y t̂g2 son insesgados, la estrategia consiste en colapsar estratos con los parámetros poblacionales más parecidos. 2.2.2. Generalización del Estimador de Estratos Co- lapsados Suponga que se desea colapsar los estratos en G grupos ajenos con Lg estratos en cada uno de ellos. Si se dispone de una variable auxiliar Agh para cada estrato y tal variable está bien correlacionada3 con el total del estrato tgh, (como el número de elementos en la población) se puede obtener el siguiente estimador dado por Hansen et al. (1953), 3En el sentido de una dependencia lineal directa. 2.2. ESTIMADOR DE ESTRATOS COLAPSADOS 25 Ecuación 2.5.7 Wolter (2007), Caṕıtulo 2, p.52 V̂ (t̂) = G∑ g=1 [Lg/(Lg − 1)] Lg∑ h (t̂gh − (Agh/Ag)t̂g) 2 (2.3) Con t̂g = Lg∑ h t̂gh, Ag = Lg∑ h Agh Si Agh/Ag = 1/Lg con g = 1, ..., G el estimador se reduce a V̂ (t̂) = G∑ g=1 [Lg/(Lg − 1)] Lg∑ h (t̂gh − t̂g/Lg) 2 (2.4) Este estimador es conocido como la generalización del estimador de estratos colapsados en su versión simple. De esta manera, si el número de estratos con una sola UPM es un número impar H1 mayor o igual que 3, podemos agrupar los primeros H1−3 estratos en un número par de grupos y con los últimos 3 usar el estimador 2.4 con Lg = 3. Si sólo hay un estrato con una UPM, éste deberá ser colapsado con el estrato más parecido con más de una UPM, en términos de t̂. 2.2.3. Estimador de varianza de estimadores de razón Resultado 5. Hansen et al. (1953) Vol. II, Caṕıtulo 9. p. 218 Considere a R̂ = X̂/Ŷ un estimador de razón, con X̂ y Ŷ estimadores del total poblacional de las variables xk y yk, k ∈ U . Bajo el supuesto de Agh/Ag = 1/Lg, con Agh una variable auxiliar para cada estrato y Lg el número de estratos en el grupo g, la varianza estimada de R̂ está dada por la siguiente fórmula V̂ (R̂) = ( E(X̂) E(Ŷ ) )2[ V̂CS(X̂) E(X̂)2 + V̂CS(Ŷ ) E(Ŷ )2 − 2ĈovCS(X̂, Ŷ ) E(X̂)E(Ŷ ) ] = 1 E(Ŷ )2 [V̂CS(X̂) + R̂ 2V̂CS(Ŷ )− 2R̂ĈovCS(X̂, Ŷ )] (2.5) 26CAPÍTULO 2. METODOLOGÍA DE ESTIMACIÓN DE VARIANZAS Donde V̂CS(X̂) = G∑ g=1 [Lg/(Lg − 1)] Lg∑ h (X̂gh − X̂g/Lg) 2; V̂CS(Ŷ ) = G∑ g=1 [Lg/(Lg − 1)] Lg∑ h (Ŷgh − Ŷg/Lg) 2; ĈovCS(X̂, Ŷ ) = G∑ g=1 [Lg/(Lg − 1)] Lg∑ h (X̂gh − X̂g/Lg)(Ŷgh − Ŷg/Lg). Intervalos de confianza para proporciones, método Logit En el siguiente caṕıtulo se presentan tanto tablas como gráficas de in- tervalos de confianza para totales poblacionales estimados y proporción es- timada de personas autoconsideradas ind́ıgenas. En la estimación de pro- porciones, los intervalos de confianza son por lo general calculados bajo un supuesto de normalidad (véanse los resultados en la sección de grupos alea- torios) y sucede que cuando la estimación de la proporción es cercana a 0 o a 1, los intervalos de confianza generados bajo este supuesto, pueden reba- sar tales ĺımites, llegando aśı a reportar intervalos de confianza negativos o por encima de 1. Para solucionar este problema existen diferentes métodos, como el enfoque binomial, el enfoque de Poisson, métodosde Wilson y el método Logit [7, p.3]. Este último fue utilizado para calcular intervalos de confianza para la proporción personas autoconsideradas ind́ıgenas. Los ĺımites inferior y superior del intervalo de confianza se obtienen usan- do la transformación “logit”, y = log( p̂ 1− p̂ ). De tal manera que y ± td(1− α/2)[V (y)] 1/2 Que mediante el uso del Teorema de Taylor implica lo siguiente: V (y) ≈ V (p̂)[ ∂y ∂p̂ ]2 = V (p̂) [p̂(1− p̂)]2 Invirtiendo la transformación logit, tenemos que p̂ = exp(y) 1+exp(y) y obtenemos el intervalo confianza: ( 1 1 + exp(−LLOGIT ) , 1 1 + exp(−ULOGIT ) ) 2.2. ESTIMADOR DE ESTRATOS COLAPSADOS 27 Donde LLOGIT = log p̂ 1− p̂ − td(1− α/2) 1√ np̂(1− p̂) , ULOGIT = log p̂ 1− p̂ + td(1− α/2) 1√ np̂(1− p̂) En el siguiente caṕıtulo se presentan los resultados de la estimación de parámetros poblacionales de interés y sus respectivas varianzas estimadas, mediante el método de los estratos colapsados. Las fórmulas de estimación de varianzas, vistas en el Caṕıtulo 2 para es- timadores de totales y el estimador de razón fueron programadas en R, la sintaxis de las mismas puede consultarse en la Sección 2 del Apéndice D. 28CAPÍTULO 2. METODOLOGÍA DE ESTIMACIÓN DE VARIANZAS Caṕıtulo 3 Resultados Este caṕıtulo está dedicado a la presentación de resultados y compara- ciones, mismos que han sido obtenidos para las siguientes entidades: Chiapas Distrito Federal Jalisco La selección de estas entidades se hizo con base en la estructura del diseño muestral, se escogieron entidades problemáticas por el número de estratos autorepresentados o el número de estratos con sólo una UPM. Podemos ha- cer las siguientes observaciones, el 98.6% de estratos en Distrito Federal poseen sólo una UPM, mientras que en Jalisco es el 71.3% y en Chiapas el 41.8%. La población estimada en los estratos con sólo una UPM es 8,395,418 en el Distrito Federal, que representa al 95.5% de su población estimada, 3,784,582 en Jalisco, que representa al 51.6% de su población estimada y 661,254 en Chiapas, donde representa al 13.8%. Los cálculos de varianzas estimadas para cada una de las entidades selec- ciondas se realizaron sobre los siguientes estimadores de los parámetros po- blacionales Población total Número de viviendas según posesión de internet 29 30 CAPÍTULO 3. RESULTADOS Proporción de población según su condición de autoadsccripción étni- ca. Las estimaciones fueron realizadas a nivel municipal y para cada entidad, a fin de compararlos con los tabulados básicos, censales o del cuestionario ampliado, según corresponda. En este caṕıtulo se presentan resultados únicamente para los municipios afectados por estratos problemáticos, las tablas completas se encuentran en el Apéndice B, Tablas de resultados a nivel municipal. Los parámetros seleccionados son los siguientes: 1. Población, parámetro de interés: Población total en viviendas parti- culares habitadas por municipio o delegación. 2. Vivienda, parámetro de interés: Viviendas particulares habitadas por municipio o delegación, bienes y tecnoloǵıas de la información y la comunicación (Internet) tSI = N∑ i=1 yi, con yi = { 1, si en la vivienda i poseen internet. 0, otro caso. Análogamente se definen tNO el total de viviendas sin disponibilidad de internet y tNE el total de viviendas que no especificó. 3. Lengua Ind́ıgena, parámetro de interés: Población de 3 años o más y su distribución porcentual según condición de autoadscripción étnica para cada municipio o delegación. pSI = (1/N≥3) N≥3∑ i=1 zi con zi = { 1, si la persona i se considera ind́ıgena. 0, otro caso. y N≥3 La población mayor de 3 años. 1 Análogamente se definen pNO la proporción de personas que no se consideran ind́ıgenas y pNE la proporción de personas que no especificó. Las comparaciones se hicieron respecto a valores reportados en los si- guientes tabulados básicos [5]: 1En el estimador p̂ se utilizó N̂≥3 el total poblacional estimado, es decir, se utilizó un estimador de razón como el de la ecuación 2.5. 3.1. TOTAL POBLACIONAL 31 1 01 02A MUNICIPAL 07 Estimadores de la población total en vivien- das particulares habitadas por municipio y grupos quinquenales de edad según sexo 2 01 02A MUNICIPAL 09 Estimadores de la población total en vivien- das particulares habitadas por delegación y grupos quinquenales de edad según sexo 3 01 02A MUNICIPAL 14 Estimadores de la población total en vivien- das particulares habitadas por municipio y grupos quinquenales de edad según sexo 3.1. Total poblacional 3.1.1. Chiapas, población estimada por municipio y tipo de estrato En la siguiente tabla se presenta la población estimada (o en su caso la población censal) y su desviación estándar por municipio y tipo de estrato, estos últimos son: no problemáticos para la estimación tradicional de va- rianza, aquellos que no son autorepresentados y tienen más de una UPM; con una UPM y estratos autorepresentados, que al ser censados no contribuyen a la varianza del estimador2. t̂NP representa el total poblacional estimado en los estratos no pro- blemáticos. V̂ (t̂NP ) representa la varianza estimada de t̂NP . t̂1upm representa el total poblacional estimado en los estratos con sólo una UPM. V̂CS(t̂1upm) representa la varianza estimada, mediante el método de los estratos colapsados, de t̂1upm. tSR representa el total poblacional en los estratos autorepresentados. 2Los municipios marcados con un asterisco fueron censados con el cuestionario am- pliado. 32 CAPÍTULO 3. RESULTADOS El total poblacional estimado para todo el municipio está representado por t̂, es decir t̂ = t̂NP + t̂1upm + tSR. Si el municipio no cuenta con estratos no problemáticos ni con sólo una UPM, el total poblacional es censal, no estimado. La desviación estándar estimada para todo el municipio está represen- tada por √∑ V̂ , es decir √∑ V̂ = [V̂ (t̂NP ) + V̂CS(t̂1upm)] 1/2 . 3.1. TOTAL POBLACIONAL 33 Cuadro 3.1: Chiapas. Población estimada y desviación estándar estimada por tipo de estrato en municipios afectados por estratos problemáticos. Nombre del No problemáticos3 Con una UPM Autorep. Total D. E. municipio (nI > 1, w > 1) (nI = 1, w > 1) w = 1 t̂NP √ V̂ (t̂NP ) t̂1upm √ V̂CS(t̂1upm) tSR t̂ √∑ V̂ Estatal - Chiapas 3,638,461 88,945.28 646,211 22,660.00 503,490 4,788,162 91,786.38 Amatenango del Valle* - - - - 8,360 8,360 - Comitán de Domı́nguez 132,380 8,062.86 7,805 1,440.64 185 140,370 8,190.55 Chalchihuitán* - - - - 13,975 13,975 - Chamula* - - - - 76,510 76,510 - Chanal - - - - 10,755 10,755 - Chilón* - - - - 109,282 109,282 - Francisco León* - - - - 7,000 7,000 - Huixtán* - - - - 21,261 21,261 - Ixtapangajoya* - - - - 5,475 5,475 - Larráinzar* - - - - 19,241 19,241 - Mitontic* - - - - 11,151 11,151 - Nicolás Rúız* - - - - 4,200 4,200 - Ocosingo 195,407 36,516.38 1,666 934.00 - 197,073 36,528.32 Ocotepec* - - - - 11,865 11,865 - Osumacinta* - - - - 3,778 3,778 - Oxchuc 40,442 8,179.54 - - 1,594 42,036 8,179.54 Pantelhó* - - - - 20,144 20,144 - Pantepec* - - - - 10,830 10,830 - San Cristóbal de las Casas 157,170 12,736.43 29,148 5,531.58 40 186,358 13,885.79 Sitalá* - - - - 11,972 11,972 - Sunuapa* - - - - 2,217 2,217 - Tapachula 220,518 28,384.78 98,748 7,089.05 301 319,567 29,256.63 Continúa... 3nI representa el número de UPM en el estrato, w representa el factor de expansión de las UPM en el estrato. 34 CAPÍTULO 3. RESULTADOS Nombre del No problemáticos Con una UPM Autorep. Total D. E. municipio (nI > 1, w > 1) (nI = 1, w > 1) w = 1 t̂NP √ V̂ (t̂NP ) t̂1upm √ V̂CS(t̂1upm) tSR t̂ √∑ V̂ Tapalapa* - - - - 4,096 4,096 - Totolapa 1,851 754.99 - - 3,061 4,912 754.99 Tumbalá* - - - - 31,189 31,189 - Tuxtla Gutiérrez 43,008 11,802.16 508,844 20,728.60 173 552,025 23,853.01 Zinacantán* - - - - 35,511 35,511 - San Juan Cancuc* - - -- 28,706 28,706 - Aldama* - - - - 4,748 4,748 - San Andrés Duraznal* - - - - 4,535 4,535 - Santiago el Pinar* - - - - 3,110 3,110 - 3.1. TOTAL POBLACIONAL 35 3.1.2. Chiapas, comparación de varianzas estimadas En la siguiente tabla se comparan los resultados de estimación de varianzas (presentados como error estándar) para cada municipio4, los tres métodos son: Método de los estratos colapsados (CSE),Opción “adjust” de la paqueteŕıa Survey de R y los Tabulados Básicos del cuestionario ampliado. Las últimas dos columnas muestran el error relativo5 entre las estimaciones de varianza del es- timador de estratos colapsados contra la opción adjust y lo reportado en los tabulados básicos. Error Rel. (ADJ) = √ V̂ADJ(t̂)− √ V̂CS(t̂)√ V̂CS(t̂) ; Error Rel. (TAB) = √ V̂TAB(t̂)− √ V̂CS(t̂)√ V̂CS(t̂) Donde V̂ADJ representa la varianza obtenida mediante la opción adjust y V̂TAB la varianza reportada en los tabulados básicos. De esta forma, el error relativo al usar la opción adjust en la primera fila debe leerse como “el error estándar estimado mediante la opción adjust es 9.72% mayor que el obtenido mediante el método de los estratos colapsados” de manera similar, debe leerse “el error estándar reportado en los tabulados básicos es 2.8% menor que el obtenido mediante el método de los estratos colapsados”. Un error relativo de 0, significa que las estimaciones son iguales. Si se lee un guión, esto significa que el municipio fue censado y que la varianza poblacional es 0. Posterior a la presentación de la tabla se incluye una gráfica de los intervalos de confianza obtenidos con las diferentes estimaciones de varianza.6 Cuadro 3.2: Chiapas. Comparación de varianzas estimadas en municipios con estratos pro- blemáticos. Nombre del Población Desviación estándar estimada Error Rel. (%) municipio Estimada C.S.E O. adjust Tabulados ADJ TAB Estatal - Chiapas 4,788,162 91,786 100,773 89,209 9.79 -2.80 Amatenango del Valle* 8,360 0 494 0 - - Comitán de Domı́nguez 140,370 8,191 8,323 8,063 1.61 -1.56 Chalchihuitán* 13,975 0 2,075 0 - - Chamula* 76,510 0 5,123 0 - - Chanal* 10,755 0 1,029 0 - - Chilón* 109,282 0 3,936 0 - - Francisco León* 7,000 0 775 0 - - Continúa... 5El uso del término “error relativo” no refiere a la definición usual de éste, pues se conserva el signo de la diferencia entre las estimaciones, con el fin de mejorar la interpretabilidad de las columnas. 6Los municipios marcados con asterisco fueron censados con el cuestionario ampliado. 36 CAPÍTULO 3. RESULTADOS Nombre del Población Desviación estándar estimada Error Rel. (%) municipio Estimada C.S.E O. adjust Tabulados ADJ TAB Huixtán* 21,261 0 2,309 0 - - Ixtapangajoya* 5,475 0 1,058 0 - - Larráinzar* 19,241 0 1,720 0 - - Mitontic* 11,151 0 2,171 0 - - Nicolás Rúız* 4,200 0 322 0 - - Ocosingo 197,073 36,528 36,541 36,516 0.03 -0.03 Ocotepec* 11,865 0 815 0 - - Osumacinta* 3,778 0 441 0 - - Oxchuc 42,036 8,180 8,380 8,032 2.44 -1.80 Pantelhó* 20,144 0 1,621 0 - - Pantepec* 10,830 0 1,284 0 - - San Cristóbal 186,358 13,886 15,265 12,736 9.93 -8.28 Sitalá* 11,972 0 1,340 0 - - Sunuapa* 2,217 0 411 0 - - Tapachula 319,567 29,257 31,507 28,385 7.69 -3.18 Tapalapa* 4,096 0 459 0 - - Totolapa 4,912 755 921 921 21.98 21.98 Tumbalá* 31,189 0 2,089 0 - - Tuxtla Gutiérrez 552,025 23,853 45,319 11,802 89.99 -50.52 Zinacantán* 35,511 0 2,508 0 - - San Juan Cancuc* 28,706 0 3,507 0 - - Aldama* 4,748 0 705 0 - - San Andrés Duraznal* 4,535 0 780 780 - - Santiago el Pinar* 3,110 0 618 618 - - 3.1. TOTAL POBLACIONAL 37 Figura 3.1: Chiapas. Intervalos de confianza al 90% por método de estimación de varianzas, la linea punteada representa la población censal, y el punto en los intervalos representa la es- timación puntual. Debe observarse en la tabla anterior que el método de los estratos colapsados, programado para este trabajo no es siempre mayor que el reportado en los tabulados básicos, sino que también asigna apropiadamente 0 cuando se trata de estratos censados. Figura 3.2: Chiapas, Tuxtla Gutierrez. Tabulados básicos. 38 CAPÍTULO 3. RESULTADOS 3.1.3. Distrito Federal, población estimada por municipio y tipo de estrato Cuadro 3.3: Distrito Federal. Población estimada y desviación estándar estimada por tipo de estrato en delegaciones afectadas por estratos problemáticos Nombre de la No problemáticos Con una UPM Autorep. Total D. E. delegación (nI > 1, w > 1) (nI = 1, w > 1) w = 1 t̂NP √ V̂ (t̂NP ) t̂1upm √ V̂CS(t̂1upm) tSR t̂ √∑ V̂ Distrito Federal 387,602 32,013.42 8,389,628 94,062.39 6,679 8,783,909 99,360.92 Azcapotzalco - - 414,082 18,011.65 - 414,082 18,011.65 Coyoacán - - 619,263 31,314.58 - 619,263 31,314.58 Cuajimalpa 88,887 12,824.05 97,456 8,993.29 - 186,343 15,663.20 Gustavo A. Madero - - 1,171,118 28,797.46 9 1,171,127 28,797.46 Iztacalco 2,192 1,872.00 381,164 14,910.76 - 383,356 15,027.82 Iztapalapa - - 1,793,527 40,830.77 51 1,793,578 40,830.77 La Magdalena Contreras 8,073 2,369.00 229,796 18,195.66 525 238,394 18,349.23 Milpa Alta 129,384 18,686.68 - - - 129,384 18,686.68 Álvaro Obregón - - 724,976 28,004.77 425 725,401 28,004.77 Tláhuac 56,031 9,438.98 303,223 16,900.11 496 359,750 19,357.38 Tlalpan 76,037 16,859.30 565,817 24,446.60 3,134 644,988 29,696.34 Xochimilco 16,680 4,955.85 390,316 31,416.78 554 407,550 31,805.26 Benito Juárez - - 383,017 15,976.05 197 383,214 15,976.05 Cuauhtémoc 10,318 10,208.00 515,473 27,019.32 692 526,483 28,883.33 Miguel Hidalgo - - 371,133 21,161.94 401 371,534 21,161.94 Venustiano Carranza - - 429,267 18,009.34 195 429,462 18,009.34 En la estructura del diseño muestral del Distrito Federal, reportada en el caṕıtulo anterior, se mostró que la delegación Milpa Alta no poséıa estratos con una UPM ni autorepresentados, en esta tabla puede observarse que la aportación de la varianza calculada en dichos estratos es cero, siendo aśı Milpa Alta la única delegación que no requiere del estimador de estratos colapsados, en este caso, el estimador de estratos colapsados coincide con el resultado dado por el software. 3.1. TOTAL POBLACIONAL 39 3.1.4. Distrito Federal, comparacion de varianzas estimadas Cuadro 3.4: Distrito Federal. Comparación de varianzas estimadas en delegaciones con estra- tos problemáticos. Nombre de la Población Desviación estándar estimada Error Rel. (%) Delegación Estimada C.S.E O. adjust Tabulados ADJ TAB Distrito Federal 8,783,909 99,361 209,905 32,016 111.25 -67.77 Azcapotzalco 414,082 18,012 46,095 0 155.91 -100.00 Coyoacán 619,263 31,315 62,916 0 100.91 -100.00 Cuajimalpa 186,343 15,663 26,541 12,824 69.45 -18.12 Gustavo A. Madero 1,171,127 28,797 76,194 0 164.59 -100.00 Iztacalco 383,356 15,028 40,824 1,872 171.65 -87.54 Iztapalapa 1,793,578 40,831 95,324 0 133.45 -100.00 La Magdalena Contreras 238,394 18,349 36,926 2,387 101.24 -86.99 Milpa Alta 129,384 18,687 18,687 18,687 0.00 0.00 Álvaro Obregón 725,401 28,005 61,023 298 117.90 -98.93 Tláhuac 359,750 19,357 39,493 9,439 104.02 -51.23 Tlalpan 644,988 29,696 53,837 16,859 81.29 -43.22 Xochimilco 407,550 31,805 47,280 4,956 48.65 -84.41 Benito Juárez 383,214 15,976 41,379 0 159.00 -100.00 Cuauhtémoc 526,483 28,883 55,306 10,208 91.48 -64.65 Miguel Hidalgo 371,534 21,162 45,588 0 115.42 -100.00 Venustiano Carranza 429,462 18,009 41,645 0 131.24 -100.00 El estimador de estratos colapsados proporciona estimaciones adecuadas que no exist́ıan para las delegaciones Azcapotzalco, Coyoacán, Gustavo A. Madero, Benito Juárez, Miguel Hidalgo y Venustiano Carranza, delegaciones que se encuentran particionadas en estratos de los cuáles sólo fue seleccionada una UPM. La opción adjust, por otro lado, aunque también provee una estimación razonable, siempre rebasa la estimación de varianza lograda mediante el estimador de estratos colapsados. En la figura 3.3 puede observarse lo reportado en los Tabulados Básicos parala delegación Azacpotzalco. El método de los estratos colapsados provee una desviación estándar de 18,012. 40 CAPÍTULO 3. RESULTADOS Figura 3.3: Distrito Federal, Azcapotzalco. Tabulados básicos. Figura 3.4: Distrito Federal. Intervalos de confianza al 90% por método de estimación de va- rianzas, la ĺınea punteada representa la población censal y el punto en los intervalos represen- ta la estimación puntual. En la gráfica 3.4 debe observarse una de las consecuencias más graves de la subestimación de varianza, ocasionada por omitir la aportación a la varianza de los estratos con sólo una unidad primaria de muestreo. El intervalo de confianza reportado en los tabulados básicos no comprende el total poblacional censal (marcado con la ĺınea punteada) mientras que el intervalo generado por el C.S.E. śı lo contiene. 3.1. TOTAL POBLACIONAL 41 3.1.5. Jalisco, población estimada por municipio y tipo de estrato Cuadro 3.5: Jalisco. Población estimada y desviación estándar estimada por tipo de estrato en municipios afectados por estratos problemáticos. Nombre del No problemáticos Con una UPM Autorep. Total D. E. municipio (nI > 1, w > 1) (nI = 1, w > 1) w = 1 t̂NP √ V̂ (t̂NP ) t̂1upm √ V̂CS(t̂1upm) tSR t̂ √∑ V̂ Estatal - Jalisco 3,487,537 72,176.85 3,769,615 75,744.33 66,024 7,323,176 104,626.48 El Arenal 16,426 1,926.36 - - 766 17,192 1,926.36 Bolaños* - - - - 6,783 6,783 - Zapotlán el Grande 82,376 6,875.73 14,023 2,176.23 1,726 98,125 7,211.91 Cuautla* - - - - 2,154 2,154 - Chimaltitán* - - - - 3,763 3,763 - Chiquilistlán* - - - - 5,806 5,806 - Ejutla* - - - - 2,032 2,032 - Guachinango* - - - - 2,893 2,893 - Guadalajara* - - 1,491,190 32,543.53 27 1,491,217 32,543.53 Lagos de Moreno 138,297 24,704.25 13,543 3,163.49 398 152,238 24,905.97 Santa Maŕıa del Oro* - - - - 2,517 2,517 - La Manzanilla* - - - - 3,747 3,747 - Mazamitla 13,496 1,979.99 - - - 13,496 1,979.99 Mixtlán* - - - - 3,574 3,574 - Ocotlán 88,076 5,275.58 5,036 967.85 133 93,245 5,363.63 Puerto Vallarta 99,639 7,556.66 153,044 9,059.70 964 253,647 11,797.51 San Cristóbal* - - - - 3,164 3,164 - San Marcos* - - - - 3,736 3,736 - San Mart́ın de B* - - - - 3,356 3,356 - Santa Maŕıa* - - - - 3,720 3,720 - Tala 58,223 5,295.84 10,396 4,636.00 - 68,619 7,038.35 Techaluta de M* - - - - 3,511 3,511 - Tepatitlán 125,878 8,416.31 9,483 1,911.36 297 135,658 8,630.62 Continúa... 42 CAPÍTULO 3. RESULTADOS Nombre del No problemáticos Con una UPM Autorep. Total D. E. municipio (nI > 1, w > 1) (nI = 1, w > 1) w = 1 t̂NP √ V̂ (t̂NP ) t̂1upm √ V̂CS(t̂1upm) tSR t̂ √∑ V̂ Tlajomulco 357,485 27,395.73 59,720 48,584.00 - 417,205 55,775.72 Tlaquepaque 31,035 4,539.24 576,320 23,535.70 730 608,085 23,969.44 Tonalá 69,491 8,707.30 394,354 18,521.84 224 464,069 20,466.45 Tuxcacuesco* - - - - 4,210 4,210 - Villa Guerrero 5,621 647.18 - - 7 5,628 647.18 Cañadas de O. 1,479 501.98 - - 1,838 3,317 501.98 Zapopan 192,682 44,271.51 1,042,506 36,025.33 3,311 1,238,499 57,077.07 Guadalajara es un municipio especialmente ilustrativo en la aplicación del método de estratos colapsados, debe observarse que sólo posee estratos con una UPM y autorepresentados, estos últimos (3 de 405) representan únicamente a 27 personas. Figura 3.5: Guadalajara Jalisco. Intervalos de confianza al 90% por método de estimación de varianzas, la ĺınea punteada representa la población censal y el punto en los intervalos repre- senta la estimación puntual. En la figura 3.5 puede apreciarse que únicamente los intervalos de confianza generados me- diante el método de estratos colapsados y la opción adjust, contienen el valor censal. Esto no sólo ocurre en las estimaciones de población sino en todas aquellas cuya estimación puntual no sea exactamente el valor censal. 3.1. TOTAL POBLACIONAL 43 3.1.6. Jalisco, comparacion de varianzas estimadas Cuadro 3.6: Jalisco. Comparación de varianzas estimadas en municipios con estratos pro- blemáticos. Nombre del Población Desviación estándar estimada Error Rel. (%) municipio Estimada C.S.E O. adjust Tabulados ADJ TAB Estatal - Jalisco 7,323,176 104,626 158,990 72,100 51.96 -31.08 El Arenal 17,192 1,926 1,988 1,988 3.21 3.21 Bolaños* 6,783 0 449 0 - - Zapotlán el Grande 98,125 7,212 8,345 6,938 15.70 -3.79 Cuautla* 2,154 0 171 0 - - Chimaltitán* 3,763 0 235 0 - - Chiquilistlán* 5,806 0 477 0 - - Ejutla* 2,032 0 187 0 - - Guachinango* 2,893 0 482 482 - - Guadalajara 1,491,217 32,544 83,555 0 156.74 -100.00 Lagos de Moreno 152,238 24,906 25,169 24,704 1.01 -0.81 Santa Maŕıa del Oro* 2,517 0 217 0 - - La Manzanilla de la P.* 3,747 0 307 0 - - Mixtlán* 3,574 0 256 0 - - Ocotlán 93,245 5,364 5,512 5,276 2.75 -1.64 Puerto Vallarta 253,647 11,798 19,501 7,557 65.29 -35.94 San Cristóbal de la B* 3,164 0 280 0 - - San Marcos* 3,736 0 325 0 - - San Mart́ın de B* 3,356 0 284 0 - - Santa Maŕıa* 3,720 0 248 0 - - Tala 68,619 7,038 9,635 5,296 36.89 -24.75 Techaluta de M* 3,511 0 281 0 - - Tepatitlán de Morelos 135,658 8,631 8,929 8,416 3.45 -2.49 Tlajomulco 417,205 55,776 60,942 27,396 9.26 -50.88 Tlaquepaque 608,085 23,969 52,342 4,539 118.37 -81.06 Continúa... 44 CAPÍTULO 3. RESULTADOS Nombre del Población Desviación estándar estimada Error Rel. (%) municipio Estimada C.S.E O. adjust Tabulados ADJ TAB Tonalá 464,069 20,466 43,196 8,707 110.62 -57.45 Tuxcacuesco* 4,210 0 295 0 - - Villa Guerrero 5,628 647 647 647 0.00 0.00 Cañadas de O. 3,317 502 549 544 9.36 8.36 Zapopan 1,238,499 57,077 84,448 44,272 47.95 -22.43 Figura 3.6: Jalisco. Intervalos de confianza al 90% por método de estimación de varianzas, la ĺınea punteada representa la población censal y el punto en los intervalos representa la estima- ción puntual. Los 5 municipios con el mayor error relativo7 son Guadalajara, Tlaquepaque, Tonalá, Juana- catlán y Tlajomulco de Zúñiga. Los tabulados básicos en este último municipio reportan una desviación estándar 50% menor que la obtenida con el método de los estratos colapsados, este municipio únicamente posee dos estratos con sólo una UPM. 7Descartando aquellos cuya varianza real es 0 y no fueron reportados aśı. 3.1. BIENES Y TECNOLOGÍAS DE LA INFORMACIÓN 45 3.2. Bienes y tecnoloǵıas de la información y la comunicación (Internet) 3.2.1. Chiapas, Viviendas estimadas por disponibilidad de internet En la siguiente tabla se presentan las estimaciones del número de viviendas por disponibilidad de internet a nivel municipal y su desviación estándar, de acuerdo al método de los estratos colapsados.8 Cuadro 3.7: Chiapas. Número estimado de viviendas por condición de disponibili- dad de Internet en municipios con estratos problemáticos. Nombre del MUN Śı disponen No disponen No especificado municipio t̂SI √ V̂ (t̂SI) t̂NO √ V̂ (t̂NO) t̂NE √ V̂ (t̂NE) Estatal - Chiapas 80,051 3,751 996,190 19,151 7,259 446 Amatenango del Valle* 007 5 0 1,799 0 18 0 Comitán de Domı́nguez 019 3,675 343 30,799 1,961 139 43 Chalchihuitán* 022 4 0 2,839 0 51 0 Chamula* 023 45 0 15,904 0 107 0 Chanal* 024 4 0 1,744 0 18 0 Chenalhó* 026 17 0 6,709 0 78 0 Chilón* 031 122 0 18,796 0 263 0 Francisco León* 033 3 0 1,303 0 8 0 Huixtán* 038 11 0 3,861 0 62 0 Ixtapangajoya* 045 3 0 1,167 0 10 0 Larráinzar* 049 11 0 3,514 0 22 0 Mitontic* 056 6 0 2,032 0 23 0 Nicolás Rúız* 058 1 0 879 0 7 0 Ocosingo 059 555 210 36,904 6,440 253 103 Ocotepec* 060 4 0 2,263 0 16 0 Osumacinta* 063 32 0 876 0 7 0 Oxchuc 064 24 12 8,142 1,682 135 60 Continúa... 8Los municipios marcados con asterisco fueron censados con el cuestionario ampliado. 46 CAPÍTULO 3. RESULTADOS Nombre del MUN Śı disponen No disponen No especificado municipio t̂SI √ V̂ (t̂SI) t̂NO √ V̂ (t̂NO) t̂NE √ V̂ (t̂NE) Pantelhó* 066 7 0 3,629 0 43 0 Pantepec* 067 7 0 2,324 0 26 0 San Cristóbal de las Casas 078 5,591 793 36,078 2,564 429 149 Sitalá* 082 5 0 2,244 0 46 0 Sunuapa* 088
Compartir