Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
llamar error muestral aleatorio o variabilidad muestral. Que tiene de aleatorio 🡪 hay estimaciones muestrales distribuidas en torno de 38, y unas por encima y otras por debajo – hay la misma cantidad por encima y por debajo de 38. Esto tiene una forma de campana de Gauss 🡪 curva normal. Este error hace que cada uno que hizo una muestra igual, pero algunos están más cerca de 38. Pero si lo vemos en perspectiva amplia, tal vez ese error mayor es 38,9 lo cual igualmente estima bastante bien el parámetro. Cuan alejado estás va a depender del trabajo de la muestra 🡪 cuanto más grande, más cerca del parámetro. No sabes cuán lejos estas del parámetro 🡪 error inevitable. Si podés minimizarlo por aumentar el número de casos o estimar el tamaño de la variabilidad muestral. Error 20mil va a tener menos error, más cerca de 38, pero nunca vas a llegar exacto. Teorema del límite central 🡪 te dice que te daría si hicieras todas las posibles muestras. - Hay otro tipo de error: error muestral sistemático o sesgo muestral. Nos mandan de vuelta a hacer muestra de 2mil casos y aleatorio, pero no es obligatorio que las personas participen en el estudio. Y ocurre que gente más joven tiende a estar menos en el hogar. Gente que no tiende a participar es gente de 20, 30, 40 años. Mientras que los más grandes que no estudian, trabajo, están más en el hogar tienden a contestar más encuestas. Los 2 mil no les da la misma probabilidad a todos. Los que tienden a participar tienden a ser grandes. Consecuencia sobre la estimación: sobre-representar a los más adultos 🡪 sesgar, estirar para arriba la edad promedio. Todas las muestras tienen error, pero para el mismo lado (para arriba de 38). Sobrerrepresentación de un grupo humano 🡪 no es estrictamente aleatorio 🡪 sesgo muestral. Posible solución: ponderación 🡪 darles más peso a los grandes y menos a jóvenes 🡪 pero necesito más grandes, tengo que saber la edad de la población 🡪 entonces para que hice la encuesta. pero en una muestra que intenta averiguar algo para lo que no tengo datos, no tengo de que agarrarme para ponderar. Hay un defecto en la aleatoriedad de la muestra 🡪 sesgo de que haya más personas grandes. - Error para los dos lados: asistemático o aleatorio. Para un lado: sistemático o sesgo. - Error de medición. Error de medición sistemático: Estimar edad de argentinos: que las personas te digan siempre que son más jóvenes. Voy a subestimar la edad. No por motivos muestrales sino por error de medición sistemático. Pero también puede haber error de medición aleatorio: si algunas personas redondean para arriba, y otros redondean para abajo 🡪 se compensan. - A los tipos de errores que nos enfrentamos en investigación científica, podemos hacer una clasificación de la fuente del error y tipo de error. ● Fuente la muestra o la medición. ● Tipo de error: aleatorio o sistemático. Tipo de error Aleatorio Sistemático Fuente de error Muestra Distribuidos arriba y debajo de 38. Distribuidos arriba de 38. Medición Redondeo de error típicamente hacia abajo (siempre hacia la misma dirección) Algunos redondean para abajo y otros para arriba 🡺 Fuentes de incertidumbre en nuestro conocimiento. - No solo depende de instrumentos de medición sino la complejidad de lo que estas midiendo. ej. ideología, poder de un estado 🡪 más complejo. Depende de que midas, cuan compleja sea, y cuan sofisticado sea tu aparato de medición. Bolilla 2 del programa: - Analizar datos a veces simplemente para describir variable Y (univariada), describir la relación entre X e Y (estadística bivariada), varias X y la relación que tienen todas juntas con Y (multivariada – veo la relación de cada X con Y manteniendo constante las otras variables – controlando por las otras). - ¿Pero de donde vienen los datos? Cuando analizamos datos, usamos datos que son imperfectos: error de medición sistemático y aleatorio. - Datos: 1. Hay una clasificación muy estándar que distingue entre datos primarios y secundarios. Tiene que ver con el punto de vista del investigador: ⮚ Primario si es el mismo investigador quien genera lo datos 🡪 datos que no existían y que en el proceso de investigación produce datos nuevos. Hiciste un experimento por primera vez, hiciste una investigación participante, entrevistas a personas. Encuestas APES 🡪 entrevistas personas antes y después de elecciones de 2015 🡪 son primarios porque los generaron esos 4 politólogos: generaron la encuesta, la muestra, e hicieron la entrevista. Típicas fuentes de datos primarios: la observación directa (lo que quiero estudiar ir y registrarlo: ej. registrar cuanto tiempo tardó en votar una persona, ir y tomar nota de lo que veo ej. congress and electoral election: ir a observar a congreso de EE. UU.), entrevistas, encuestas, experimentos, análisis de contenido, etc. ⮚ Secundarios: datos que ya están disponibles. Datos que ya construyo un investigador. Vienen de lugares como el indec, oficina de estadística de la ciudad, etc. Fuentes que se dedican a hacer datos y los cientistas los usan. Clase 8/8. Estadística inferencial y descriptiva. La materia prima de la estadística son los datos, que alguien tiene que producir. Como se hace es lo que vimos en metodología. Aspectos más prácticos de las fuentes típicas de datos. Cualquier proceso de investigación -más académica o más aplicada- cuando es cuantitativa (a veces cualitativo) tenemos una matriz de datos, como una planilla Excel/STATA donde las filas eran las unidades de análisis, los casos, los objetos que nos interesa estudiar. Las columnas tienen las características de esas unidades análisis, las variables. Cuando se llena la matriz de datos estamos listos para hacer estadística. E l proceso de investigación puro o aplicado, la investigación que se haga, consiste en llenar base de datos y de analizarlas. Metodología dice mucho del proceso de como llenar la matriz de datos, en Estadística asumimos que tenemos bases de datos y hacemos estadística en base de eso. Una parte de la investigación consiste en llenar la base de datos, y otra en hacer inferencias descriptivas y causales en base a esa matriz. Métodos típicos de como llenar matrices de datos: observación (puede ser participante, generalmente no), son potencialmente muy ricas, acá están las encuestas como forma de recolección de datos primaria basado en formular preguntas y registrar las respuestas de una muestra representativa de la población de interés. La encuesta tiene dos elementos metodológicamente importantes: el cuestionario y la muestra (una buena muestra de cualquier cosa es tema de esta materia). Experimentos, tema de metodología, es un método de generación de datos. Se toma una población de la cual se toman dos muestras al azar, grandes y aleatorias, de forma que las dos deberían ser iguales en todos, garantizando la igualdad de condiciones, igualdad de variables un acercamiento al ceteris paribus. Si bien las dos muestras, los dos grupos son iguales en todos, varía el tratamiento que se le asigna a un grupo (grupo de control) y al otro se le da un placebo (grupo de control), si hay una variación cuando se compara estos grupos se puede asignar al tratamiento de forma que ambos grupos son iguales en todo lo demás. El experimento te permite obtener datos y analizarlos, es una de las formas más poderosas que tienen las ciencias sociales para generar datos. Análisis de contenido, son técnicas de recolección de datos sobre textos, donde las unidades de análisis van a ser algún tipo de texto oral o escrito. Uno podría hacer análisis cuantitativo de textos, esto se ve en diarios, por ejemplo, los análisis sobre las palabras que más se reiteran en discursos. Ej. parte del texto de Tannenwald. Datos primarios, generados por uno mismo. Datos secundarios, que creo otro y usamos. Si usamos los datos de la EPH por ejemplo, son datos secundarios. La fuentepuede ser enteramente privada. Hay miles de fuentes de datos,
Compartir