Vista previa del material en texto
17-03-2016 1 Métodos de Muestreo Pablo Marshall Escuela de Administración, P.U.C. Contenido 1. Introducción 2. Métodos de Muestreo No Probabilístico 3. Muestreo Probabilístico: Muestreo Aleatorio Simple 4. Error Estadístico y Tamaño de Muestra 5. Muestreo Estratificado 6. Muestreo en 2 Etapas Pablo Marshall Escuela de Administración, PUC 2 17-03-2016 2 1. Introducción ¿Por qué una muestra? Pablo Marshall Escuela de Administración, PUC 3 Etapas en Muestreo • Definir la Población • Definir el Marco Muestral • Definir el Tipo de Muestreo • Determinar el Tamaño de Muestra • Seleccionar la Muestra y Recolectar los Datos Pablo Marshall Escuela de Administración, PUC 4 17-03-2016 3 Pablo Marshall Escuela de Administración, PUC 5 Pregunta Población Marco Muestral La población y el marco muestral pueden diferir. ¿Qué situación es más grave? a) Sólo A b) Sólo B c) A y B d) Ninguna de las dos A B Tipos de Muestreo • Muestreo No Probabilístico: Probabilidades de selección desconocidas – No se pueden medir varianzas ni errores – No requiere procedimientos muy formales • Muestreo Probabilístico: Probabilidades de selección conocidas y mayores que 0 – Se pueden medir varianzas y errores – Requiere procedimientos formales Pablo Marshall Escuela de Administración, PUC 6 17-03-2016 4 2. Métodos de Muestreo No Probabilístico • Muestreo por Conveniencia : La muestra se forma con las unidades disponibles o accidentales • Muestreo de Juicio : Un experto identifica las unidades que con-forman la muestra • Muestreo por Cuotas : La muestra se selecciona por conveniencia en cada una de las sub-poblaciones formadas con variables relevantes. Pablo Marshall Escuela de Administración, PUC 7 Ejemplo : Muestreo por Cuotas Población de 15 Años y Más Provincia de Santiago (INE, Censo 2002, Miles) Sexo \ Edad 15 a 29 30 a 44 45 a 59 60 y más Total Hombre 578 533 341 226 1.678 Mujer 583 574 391 328 1.876 Total 1.161 1.107 732 554 3.554 GSE ABC1 C2 C3 D E Total % 10 20 25 35 10 100,0 Distribución de GSE Provincia de Santiago (AIM, 2008) Pablo Marshall Escuela de Administración, PUC 8 17-03-2016 5 3. Muestreo Probabilístico Muestreo Aleatorio Simple Se enumera la población de 1 a N a partir del marco muestral y se seleccionan n números aleatorios entre 1 y N. N n Pablo Marshall Escuela de Administración, PUC 9 Números Aleatorios 252473 339024 786672 391021 041657 930579 165146 261152 272643 308598 081936 245966 011180 703992 332646 201076 472102 325980 092595 767537 791782 830391 958677 896644 181052 027990 301518 691288 059191 019482 201521 678490 793633 009305 115600 650034 515939 387793 509869 189498 401150 690147 663515 468400 002807 209663 258980 266892 734528 867713 382615 964737 804683 410819 736461 564631 209227 002813 077128 162881 565976 475514 535261 300561 663273 458673 169460 859506 652382 343236 066477 124769 963310 533901 609681 644163 982526 439312 660678 535477 757204 782951 066387 595892 497671 311328 926088 571871 915141 702934 258289 016749 593069 921210 757071 875019 091956 787840 988397 952389 035426 562165 020286 578134 007629 Pablo Marshall Escuela de Administración, PUC 10 17-03-2016 6 4. Error Estadístico y Tamaño de Muestra Variable Cuantitativa : 𝐸 = 𝑦 − 𝜇 Variable Cualitativa : 𝐸 = 𝑝 − 𝜋 Variable Población Muestra Cuantitativa μ , σ2 , s2 Cualitativa 𝜋 𝑝 y Pablo Marshall Escuela de Administración, PUC 11 Concepto de Error Estadístico Medias en Distintas Muestras Media Población 2,5% de Muestras 2,5% de Muestras E Pablo Marshall Escuela de Administración, PUC 12 El error E depende del tamaño de muestra n A priori : Determinar n dado E A posteriori : Determinar E dado n 17-03-2016 7 Fórmulas Error Estadístico • Variables Cuantitativas • Variables Cualitativas Pablo Marshall Escuela de Administración, PUC 13 𝐸 = 𝑧 𝑠2 𝑛 1 − 𝑛 𝑁 𝑛∗ = 𝑧2 𝐸2 𝜎2 𝑛 = 𝑛∗ 𝑁 𝑁 + 𝑛∗ 𝐸 = 𝑧 𝑝(1 − 𝑝) 𝑛 1 − 𝑛 𝑁 𝑛∗ = 𝑧2 𝐸2 𝜋(1 − 𝜋) 𝑛 = 𝑛∗ 𝑁 𝑁 + 𝑛∗ En el cálculo del tamaño de muestra se debe estimar 𝜎2 o 𝜋 Ejemplo Encuesta sobre hábitos de compra de 2.000 clientes. La variable de interés es el gasto semanal de un producto. La varianza de la población es igual a 20. Se quiere un nivel de confianza del 95% • Si el error deseado es 1, ¿cuánto debe ser n? • Si el error deseado es 2, ¿cuánto debe ser n? • Si finalmente n = 100, ¿cuál es el error? Pablo Marshall Escuela de Administración, PUC 14 17-03-2016 8 Ejemplo El estudio de audiencia People Meter hace mediciones cada 1 minuto y tiene una muestra de 440 hogares. Supongamos muestreo aleatorio simple • Para una confianza del 95%, ¿cuál es el error en el rating de 1 minuto? ¿y si el rating es 25%? • ¿Cuál debiera ser el tamaño de muestra si se quiere un error del 3% con un 95% de confianza? • Con una confianza del 95%, ¿cuál es el error en el rating correspondiente a un GSE de 110 hogares? Pablo Marshall Escuela de Administración, PUC 15 Tamaños de Muestra y Errores Típicos Hogares o Personas Instituciones Subgrupos Nacional Regional Nacional Regional Pocos 1.000 400 400 100 Promedio 2.000 800 800 300 Muchos 4.000 1.000 1.000 600 Pablo Marshall Escuela de Administración, PUC 16 El tamaño de muestra mínimo para hacer análisis es n = 100 17-03-2016 9 5. Muestreo Estratificado Se divide la población en Estratos o Sub – Poblaciones y se selecciona una muestra aleatoria de cada estrato. N1 N2 N3 N4 n3 n1 n2 n4 Pablo Marshall Escuela de Administración, PUC 17 Fórmulas Muestreo Estratificado • Se llama Deff (efecto diseño) al cuociente entre la varianza del diseño y la varianza que se habría obtenido con muestreo aleatorio simple* • El error estadístico y el tamaño de muestra cumplen 𝐸 = 𝐸𝑚𝑎𝑠 × 𝐷𝑒𝑓𝑓 𝑛 = 𝑛𝑚𝑎𝑠 × 𝐷𝑒𝑓𝑓 2 2 1 R n n N N Deff hh h Pablo Marshall Escuela de Administración, PUC 18 (*) Supone la misma variabilidad o heterogeneidad a través de los estratos 17-03-2016 10 Ejemplo : Lectoría de Diarios Abril – Junio 1999 Total ABC1 C2 C3 D Universo / 1.000 3.239,8 335,4 726,3 908,3 1.269,8 Muestra 1.743 180 391 489 683 El Mercurio 11,8% 44,3% 17,1% 7,6% 3,2% El Diario 0,4% 2,7% 0,5% 0,1% – Estrategia 0,6% 1,3% 1,4% 0,4% – La Cuarta 12,5% – 6,0% 15,4% 17,4% La Hora 1,3% 6,4% 2,1% 0,3% 0,3% La Nación 1,2% – 1,8% 2,1% 0,5% La Segunda 3,5% 10,1% 4,1% 3,1% 1,7% La Tercera 16,9% 17,5% 29,5% 15,4% 10,6% Las Ultimas Noticias 10,1% 8,4% 10,9% 11,9% 8,9% Lectores 43,4% 65,4% 53,0% 42,4% 32,7% Diarios Por Lector 1,3 1,4 1,4 1,3 1,3 Pablo Marshall Escuela de Administración, PUC 19 Calcule el Deff si la correlación al cuadrado entre GSE y lectoría de El Mercurio es 0.228. ¿Cómo cambia Deff si la distribución de la muestra es uniforme? ¿Será mayor o menor el Deff para la lectoría de LUN? Ejemplo : Encuesta Casen La siguiente tabla muestra el ingreso autónomo de los hogares, en UF, en comunas del sector oriente de Santiago según Encuesta Casen 2006. Suponga que la correlación al cuadrado entre ingreso y comuna es 0.881 a) ¿Es el muestreo proporcional? b) Calcule el error estadístico en Las Condes si la desviación estándar es 90 c) Calcule el error de mas si la varianza es 1600 d) ¿Cuál es la ganancia de estratificar en este caso? Comuna N Nh/N n Media Las Condes 270.789 0.334 78 98.1 La Reina 96.116 0.118 65 61.2 Lo Barnechea 94.897 0.117 78 78.3 Ñuñoa 151.145 0.186 78 68.6 Providencia 118.563 0.146 65 78.0 Vitacura 80.371 0.099 65 149.7 Total 811.881 1.000 429 88.1 Pablo Marshall Escuela de Administración, PUC 20 17-03-2016 11 6. Muestreo en 2 Etapas (por Conglomerados) Las unidades se agrupan naturalmente en conglomerados. Se seleccionan aleatoriamente a conglomerados y luego se seleccionan aleatoriamente b unidades. b b b b b b b b b b bb Pablo Marshall Escuela de Administración, PUC 21 Ejemplo : Alumnos en ColegiosColegio Alumnos Selección Muestra 1 340 2 850 X 12 , 136 , 430 , 21 , 701 3 230 4 430 X 54 , 248 , 422 , 418 , 29 5 1.280 6 320 X 298 , 11 , 45 , 67 , 167 7 180 8 3.280 9 553 X 123 , 45 , 342 , 333 , 412 10 340 11 129 12 987 Pablo Marshall Escuela de Administración, PUC 22 17-03-2016 12 Selección con Probabilidad Proporcional al Tamaño Ejemplo Colegios y Alumnos Colegio Alumnos Acumulado Rango 1 340 340 1 – 340 2 850 1.190 341 – 1.190 3 230 1.420 1.191 – 1.420 4 430 1.850 1.421 – 1.850 5 1.280 3.130 1.851 – 3.130 6 320 3.450 3.131 – 3.450 7 180 3.630 3.451 – 3.630 8 3.280 6.910 3.631 – 6.910 9 553 7.463 6.911 – 7.463 10 340 7.803 7.464 – 7.803 11 129 7.932 7.804 – 7.932 12 987 8.919 7.933 – 8.919 Pablo Marshall Escuela de Administración, PUC 23 Fórmulas Muestreo en 2 Etapas • Se llama Deff (efecto diseño) al cuociente entre la varianza del diseño y la varianza que se habría obtenido con muestreo aleatorio simple • El error estadístico y el tamaño de muestra cumplen 𝐸 = 𝐸𝑚𝑎𝑠 × 𝐷𝑒𝑓𝑓 𝑛 = 𝑛𝑚𝑎𝑠 × 𝐷𝑒𝑓𝑓 Pablo Marshall Escuela de Administración, PUC 24 [ ]rbDeff )1(+1= - 17-03-2016 13 Ejemplo: Muestreo en 2 Etapas En una ciudad de 300 manzanas con 400 hogares (promedio) en cada una se hace una encuesta (1 persona del hogar) para medir el apoyo a un candidato a Diputado. Se seleccionan 20 manzanas y 10 hogares en cada una con igual probabilidad. Los resultados son: 5 1 2 7 3 6 3 0 2 10 6 7 9 4 1 2 3 4 1 1 a) ¿A cuántos hogares en la población representa cada elemento en la muestra? b) ¿Qué proporción apoya al candidato? c) Estime el error estadístico que tendría la estimación con m.a.s. d) Si el error estadístico en muestreo en 2 etapas es 0.0782, calcule r y Deff. e) Estime el error E esperado para una muestra con 40 manzanas y 5 hogares en cada manzana. ¿Es mejor? Pablo Marshall Escuela de Administración, PUC 25 Ejemplo: Muestreo en 2 Etapas Una encuesta a una población de N = 1.800.000 elementos considera los siguientes diseños: • Muestreo aleatorio simple, n = 3600, 𝑦 =513 y E = 6.6 • Muestreo en 2 etapas, A = 90000, a = 180, B = b =20, 𝑦 =524 y E = 20.2 • Muestreo en 2 etapas, a = 900, b = 4, 𝑦 =509 y E = 10.3 a) Calcule la correlación al interior de los conglomerados b) Si la muestra del primer diseño se reduce a 1200, tendría aproximadamente el mismo error del segundo diseño. Comente c) Toda muestra seleccionada con el primer diseño estará más cerca del promedio de la población que una muestra seleccionada con el segundo diseño. Comente d) ¿Qué error estadístico esperaría usted en los diseños 2 y 3 si la correlación al interior de los conglomerados fuese 0.1? ¿Y si todos los elementos fuesen iguales al interior de los conglomerados? Pablo Marshall Escuela de Administración, PUC 26