Logo Studenta

1 Clases Estadística (1 (13)

¡Estudia con miles de materiales!

Vista previa del material en texto

Bolilla 4.4: técnicas de muestreo. 
12. Cea D´Ancona, María Angeles: Op. Cit. “Capítulo 5: La Selección de las Unidades de Observación: 
El Diseño de la Muestra”. 
Marco muestral es una representación simbólica de las unidades de análisis de la población o universo de interés. Un 
listado, planilla Excel donde aparecen mis unidades de análisis, si tengo el marco muestral es todo más fácil. Ningún 
marco muestral es perfecto, es decir, que no tenga un error o falta de actualización. Así el muestreo es bastante 
fácil, a través de dos técnicas teniendo un marco muestral: muestreo aleatorio simple y muestreo aleatorio 
sistemático. 
- Muestreo aleatorio simple: sacar algo al azar, mezclar y sacar aleatoriamente. Como hicimos con el 
ejercicio de polity (comando Bootstrap de STATA). 
- Muestreo aleatorio sistemático: la idea es que voy a elegir una unidad de análisis cada tantas, como 
salteando, eligiendo el primero al azar y cada un intervalo determinado la próxima. El azar está en 
cual va a ser el primer seleccionado que se elige dentro del intervalo (N/n, siendo n el tamaño de la 
muestra que queremos sacar de nuestro universo dado de N), cualquiera. La ventaja de esto era 
grande cuando uno tenía listados físicos. Uno tiene que asumir que el marco no tiene ningún orden 
sistemático, sino habría que desordenarlo en casos que estuvieran ordenados por edad o 
intercalados por sexo. 
Cualquiera de las dos técnicas son equivalentes si tengo un marco muestral. 
El tercer tipo de muestreo tiene algo que ver con la ficha técnica del ICG: muestreo polietápico y por conglomerado. 
Es un muestreo en varias etapas y el que es según conglomerados es por un conjunto de casos/individuos/unidades 
de análisis-. El muestreo implica muestrear con probabilidad al tamaño y cuando llego al lugar seleccionar alguien al 
azar. 
Un muestreo por conglomerado, quiere decir que una vez que yo llegué a la zona en vez de hacer una encuesta 
vamos a hacer cinco, un paquetito/un conglomerado (cluster) de encuestas por una cuestión de costos cuando es 
domiciliario por teléfono este costo no existe. 
Clase 10/10 y 12/10. 
Muestreo polietápico por conglomerado, típicamente para universos, encuestas cara a cara como modo de 
recolección de datos. Por muchos motivos por ejemplo por su extensión. Es cara y lleva más tiempo. Esta 
técnica se puede adaptar a lo que nos toque. 
En términos técnicos lo ideal es una muestra estrictamente aleatoria y lo segundo ideal son clusters 
chiquitos. El azar tiene que funcionar bien en cada etapa que voy seleccionando. 
En los métodos de recolección de datos hay sistemas de “suplentes” en caso de no poder cumplir todos los 
casos deseados sin perder la aleatoriedad y no aumentar costos. 
Muestreos aleatorios: muestreo simple, muestreo sistemático, muestreo polietápico por conglomerado. Y 
aparece la noción de muestro estratificado, que no es un muestreo en sí mismo, sino que es una técnica 
de muestreo que se combina con las demás formas de recolección, es una dimensión que atraviesa a las 
tres formas de recién (los muestreos pueden ser aleatorios simple estratificados o no, aleatorio sistemático 
estratificado o no, o, aleatorios polietápicos por conglomerado estratificado o no. 
La decisión que se tomó en un estudio de argentina: una muestra que tenía el mismo número de casos en 
cada provincia, mil casos por provincia. La muestra total era de 24 mil casos, se asignó al interior de cada 
provincia mil casos de forma aleatoria. Los estratos en este ejemplo son las provincias. 
Un estrato es un segmento de la población, en este contexto es la unidad de análisis de interés, o universo 
de tamaño conocido -yo sé que porcentaje de la población está en cada estrato-. Si no son conocidos no se 
puede estratificar. Dividir a la población en estratos y hacer muestras aleatorias al interior de cada estrato. 
Se puede ver como una especie de dividir esta tarea en partes. 
Esto se puede hacer de forma proporcional o no, si es proporcional implica que el número asignado a cada 
estrato es proporcional al tamaño relativo del estrato. El muestreo estratificado controla la variabilidad de 
mi muestra. 
El muestreo estratificado no proporcional es darle a cada provincia casos no proporcional a su población. El 
sentido de hacer esto es asegurarse tener bien representada en la muestra alguna subpoblación o 
segmento de interés. Casi siempre ocurre en países federales de que la población está distribuida muy 
desigualmente. Podemos querer sobrerepresentar algún segmento de la población por algún motivo. En 
principio me soluciona el asunto, pero me introduce un problema: me desbalancea la muestra total. La 
muestra es aleatoria al interior de cada estrato y paradójicamente no los es a nivel total. 
Hay varios criterios para la selección del número de casos: si tenés interés en subpoblaciones, cuanto error 
muestral estas dispuesto a tolerar y despejando de la formula del error estándar el n, etc. 
Si tengo una muestra estratificada no proporcional, lo cual me hace unas muestras bárbaras en cada 
provincia, pero me sesga la muestra nacional o total. Acá vamos a tener que ponderar (weight o 
weighting): asignarle a cada estrato sobre o subrepresentado un peso que restablezca su proporción real 
del universo. Darles a algunos casos más o menos pesos. 
Un factor de ponderación es ½: es la población sobre la muestra, el factor de ponderación dice que yo 
debería multiplicar por el n para llegar al peso real de la población, obtengo el número de casos que 
debería obtener cada segmento si fuese proporcional. Estos dos números dan un factor de ponderación 
que va a ser una variable en la base de datos, y todo software estadístico me va a permitir calcular 
estadísticas ponderadas. Conceptualmente quiere decir que cada caso de la provincia a va a pesar 1,8 y 
cada caso de la provincia b va a pesar 0,2. 
Pon_loc es la variable de ponderación para el ICG. Lo cargas vos antes a la base. 
Las ciudades en el ICG funcionan como conglomerado, dado que solo toman cuarenta ciudades del país 
habiendo algunas que se autorepresentan como GBA y otras que representan a ciudades similares como 
Mar del Plata. 
Con STATA una vez cargada la variable de ponderación podés ponderar los resultados con un comando que 
se llama [aweight=lavariabledeponderación] en este caso es: [aweight=pon_loc]. 
Con el muestreo estratificado no proporcional pero ponderado tenemos el mejor de los mundos: buenas 
muestras para cada segmento y para el total de la población. 
El muestreo aleatorio es el mejor porque me garantiza representatividad. Sin embargo, hay un área de 
muestreos no aleatorios. Hay veces en las ciencias sociales que es muy difícil o costoso hacer muestras 
aleatorias, y se recurre a muestras no aleatorias que son peores, pero es un mundo de hacer lo mejor que 
se puede en la situación que se está. Encontramos cuatro técnicas de muestreo no aleatorio: 
- Muestreo coincidental: es una práctica que más bien primero se hizo y luego se codifico. Es lo que 
podemos ver cuando alguien nos para a hacernos una encuesta en la calle, es buscar gente según 
donde estén que no sea sus hogares. En vez de hacer la muestra aleatoria vamos a lugares donde 
va mucha gente. No es aleatorio porque no todas las personas tienen la misma probabilidad de caer 
en la muestra. Dado que el marco muestral no existe. El criterio fundamental acá es buscar 
diversidad en todas las dimensiones que se nos ocurran para evitar sesgos obvios. 
- Muestreo de criterio: es cuando el investigador decide qué casos van a ser seleccionados para la 
muestra (es casi lo opuesto a un muestreo aleatorio). Es a criterio del investigador. Por ejemplo, de 
cada segmento elegir los más representativos, y se pusieron reemplazos. El muestreo acá no es

Otros materiales