1 Clases Estadística (1 (13)

Estadística

•

SIN SIGLA

0

aidensz27

8/7/2023

¡Estudia con miles de materiales!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Estadística

5354 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Bolilla 4.4: técnicas de muestreo.
12. Cea D´Ancona, María Angeles: Op. Cit. “Capítulo 5: La Selección de las Unidades de Observación:
El Diseño de la Muestra”.
Marco muestral es una representación simbólica de las unidades de análisis de la población o universo de interés. Un
listado, planilla Excel donde aparecen mis unidades de análisis, si tengo el marco muestral es todo más fácil. Ningún
marco muestral es perfecto, es decir, que no tenga un error o falta de actualización. Así el muestreo es bastante
fácil, a través de dos técnicas teniendo un marco muestral: muestreo aleatorio simple y muestreo aleatorio
sistemático.
- Muestreo aleatorio simple: sacar algo al azar, mezclar y sacar aleatoriamente. Como hicimos con el
ejercicio de polity (comando Bootstrap de STATA).
- Muestreo aleatorio sistemático: la idea es que voy a elegir una unidad de análisis cada tantas, como
salteando, eligiendo el primero al azar y cada un intervalo determinado la próxima. El azar está en
cual va a ser el primer seleccionado que se elige dentro del intervalo (N/n, siendo n el tamaño de la
muestra que queremos sacar de nuestro universo dado de N), cualquiera. La ventaja de esto era
grande cuando uno tenía listados físicos. Uno tiene que asumir que el marco no tiene ningún orden
sistemático, sino habría que desordenarlo en casos que estuvieran ordenados por edad o
intercalados por sexo.
Cualquiera de las dos técnicas son equivalentes si tengo un marco muestral.
El tercer tipo de muestreo tiene algo que ver con la ficha técnica del ICG: muestreo polietápico y por conglomerado.
Es un muestreo en varias etapas y el que es según conglomerados es por un conjunto de casos/individuos/unidades
de análisis-. El muestreo implica muestrear con probabilidad al tamaño y cuando llego al lugar seleccionar alguien al
azar.
Un muestreo por conglomerado, quiere decir que una vez que yo llegué a la zona en vez de hacer una encuesta
vamos a hacer cinco, un paquetito/un conglomerado (cluster) de encuestas por una cuestión de costos cuando es
domiciliario por teléfono este costo no existe.
Clase 10/10 y 12/10.
Muestreo polietápico por conglomerado, típicamente para universos, encuestas cara a cara como modo de
recolección de datos. Por muchos motivos por ejemplo por su extensión. Es cara y lleva más tiempo. Esta
técnica se puede adaptar a lo que nos toque.
En términos técnicos lo ideal es una muestra estrictamente aleatoria y lo segundo ideal son clusters
chiquitos. El azar tiene que funcionar bien en cada etapa que voy seleccionando.
En los métodos de recolección de datos hay sistemas de “suplentes” en caso de no poder cumplir todos los
casos deseados sin perder la aleatoriedad y no aumentar costos.
Muestreos aleatorios: muestreo simple, muestreo sistemático, muestreo polietápico por conglomerado. Y
aparece la noción de muestro estratificado, que no es un muestreo en sí mismo, sino que es una técnica
de muestreo que se combina con las demás formas de recolección, es una dimensión que atraviesa a las
tres formas de recién (los muestreos pueden ser aleatorios simple estratificados o no, aleatorio sistemático
estratificado o no, o, aleatorios polietápicos por conglomerado estratificado o no.
La decisión que se tomó en un estudio de argentina: una muestra que tenía el mismo número de casos en
cada provincia, mil casos por provincia. La muestra total era de 24 mil casos, se asignó al interior de cada
provincia mil casos de forma aleatoria. Los estratos en este ejemplo son las provincias.
Un estrato es un segmento de la población, en este contexto es la unidad de análisis de interés, o universo
de tamaño conocido -yo sé que porcentaje de la población está en cada estrato-. Si no son conocidos no se
puede estratificar. Dividir a la población en estratos y hacer muestras aleatorias al interior de cada estrato.
Se puede ver como una especie de dividir esta tarea en partes.
Esto se puede hacer de forma proporcional o no, si es proporcional implica que el número asignado a cada
estrato es proporcional al tamaño relativo del estrato. El muestreo estratificado controla la variabilidad de
mi muestra.
El muestreo estratificado no proporcional es darle a cada provincia casos no proporcional a su población. El
sentido de hacer esto es asegurarse tener bien representada en la muestra alguna subpoblación o
segmento de interés. Casi siempre ocurre en países federales de que la población está distribuida muy
desigualmente. Podemos querer sobrerepresentar algún segmento de la población por algún motivo. En
principio me soluciona el asunto, pero me introduce un problema: me desbalancea la muestra total. La
muestra es aleatoria al interior de cada estrato y paradójicamente no los es a nivel total.
Hay varios criterios para la selección del número de casos: si tenés interés en subpoblaciones, cuanto error
muestral estas dispuesto a tolerar y despejando de la formula del error estándar el n, etc.
Si tengo una muestra estratificada no proporcional, lo cual me hace unas muestras bárbaras en cada
provincia, pero me sesga la muestra nacional o total. Acá vamos a tener que ponderar (weight o
weighting): asignarle a cada estrato sobre o subrepresentado un peso que restablezca su proporción real
del universo. Darles a algunos casos más o menos pesos.
Un factor de ponderación es ½: es la población sobre la muestra, el factor de ponderación dice que yo
debería multiplicar por el n para llegar al peso real de la población, obtengo el número de casos que
debería obtener cada segmento si fuese proporcional. Estos dos números dan un factor de ponderación
que va a ser una variable en la base de datos, y todo software estadístico me va a permitir calcular
estadísticas ponderadas. Conceptualmente quiere decir que cada caso de la provincia a va a pesar 1,8 y
cada caso de la provincia b va a pesar 0,2.
Pon_loc es la variable de ponderación para el ICG. Lo cargas vos antes a la base.
Las ciudades en el ICG funcionan como conglomerado, dado que solo toman cuarenta ciudades del país
habiendo algunas que se autorepresentan como GBA y otras que representan a ciudades similares como
Mar del Plata.
Con STATA una vez cargada la variable de ponderación podés ponderar los resultados con un comando que
se llama [aweight=lavariabledeponderación] en este caso es: [aweight=pon_loc].
Con el muestreo estratificado no proporcional pero ponderado tenemos el mejor de los mundos: buenas
muestras para cada segmento y para el total de la población.
El muestreo aleatorio es el mejor porque me garantiza representatividad. Sin embargo, hay un área de
muestreos no aleatorios. Hay veces en las ciencias sociales que es muy difícil o costoso hacer muestras
aleatorias, y se recurre a muestras no aleatorias que son peores, pero es un mundo de hacer lo mejor que
se puede en la situación que se está. Encontramos cuatro técnicas de muestreo no aleatorio:
- Muestreo coincidental: es una práctica que más bien primero se hizo y luego se codifico. Es lo que
podemos ver cuando alguien nos para a hacernos una encuesta en la calle, es buscar gente según
donde estén que no sea sus hogares. En vez de hacer la muestra aleatoria vamos a lugares donde
va mucha gente. No es aleatorio porque no todas las personas tienen la misma probabilidad de caer
en la muestra. Dado que el marco muestral no existe. El criterio fundamental acá es buscar
diversidad en todas las dimensiones que se nos ocurran para evitar sesgos obvios.
- Muestreo de criterio: es cuando el investigador decide qué casos van a ser seleccionados para la
muestra (es casi lo opuesto a un muestreo aleatorio). Es a criterio del investigador. Por ejemplo, de
cada segmento elegir los más representativos, y se pusieron reemplazos. El muestreo acá no es