Logo Studenta

1 Clases Estadística (1 (2)

¡Estudia con miles de materiales!

Vista previa del material en texto

llamar error muestral aleatorio o variabilidad muestral. Que tiene de aleatorio 🡪 hay estimaciones 
muestrales distribuidas en torno de 38, y unas por encima y otras por debajo – hay la misma cantidad por 
encima y por debajo de 38. Esto tiene una forma de campana de Gauss 🡪 curva normal. Este error hace 
que cada uno que hizo una muestra igual, pero algunos están más cerca de 38. Pero si lo vemos en 
perspectiva amplia, tal vez ese error mayor es 38,9 lo cual igualmente estima bastante bien el parámetro. 
Cuan alejado estás va a depender del trabajo de la muestra 🡪 cuanto más grande, más cerca del 
parámetro. No sabes cuán lejos estas del parámetro 🡪 error inevitable. Si podés minimizarlo por aumentar 
el número de casos o estimar el tamaño de la variabilidad muestral. Error 20mil va a tener menos error, 
más cerca de 38, pero nunca vas a llegar exacto. Teorema del límite central 🡪 te dice que te daría si hicieras 
todas las posibles muestras. 
- Hay otro tipo de error: error muestral sistemático o sesgo muestral. Nos mandan de vuelta a hacer 
muestra de 2mil casos y aleatorio, pero no es obligatorio que las personas participen en el estudio. Y ocurre 
que gente más joven tiende a estar menos en el hogar. Gente que no tiende a participar es gente de 20, 
30, 40 años. Mientras que los más grandes que no estudian, trabajo, están más en el hogar tienden a 
contestar más encuestas. Los 2 mil no les da la misma probabilidad a todos. Los que tienden a participar 
tienden a ser grandes. Consecuencia sobre la estimación: sobre-representar a los más adultos 🡪 sesgar, 
estirar para arriba la edad promedio. Todas las muestras tienen error, pero para el mismo lado (para 
arriba de 38). Sobrerrepresentación de un grupo humano 🡪 no es estrictamente aleatorio 🡪 sesgo muestral. 
Posible solución: ponderación 🡪 darles más peso a los grandes y menos a jóvenes 🡪 pero necesito más 
grandes, tengo que saber la edad de la población 🡪 entonces para que hice la encuesta. pero en una 
muestra que intenta averiguar algo para lo que no tengo datos, no tengo de que agarrarme para 
ponderar. Hay un defecto en la aleatoriedad de la muestra 🡪 sesgo de que haya más personas grandes. 
- Error para los dos lados: asistemático o aleatorio. Para un lado: sistemático o sesgo. 
- Error de medición. Error de medición sistemático: Estimar edad de argentinos: que las personas te digan 
siempre que son más jóvenes. Voy a subestimar la edad. No por motivos muestrales sino por error de 
medición sistemático. Pero también puede haber error de medición aleatorio: si algunas personas 
redondean para arriba, y otros redondean para abajo 🡪 se compensan. 
- A los tipos de errores que nos enfrentamos en investigación científica, podemos hacer una clasificación 
de la fuente del error y tipo de error. 
● Fuente la muestra o la medición. 
● Tipo de error: aleatorio o sistemático. 
 Tipo de error 
Aleatorio Sistemático 
Fuente de error Muestra Distribuidos arriba y 
debajo de 38. 
Distribuidos arriba de 38. 
Medición Redondeo de error 
típicamente hacia 
abajo (siempre 
hacia la misma 
dirección) 
Algunos redondean para 
abajo y otros para 
arriba 
🡺 Fuentes de incertidumbre en nuestro conocimiento. 
- No solo depende de instrumentos de medición sino la complejidad de lo que estas midiendo. ej. ideología, 
poder de un estado 🡪 más complejo. Depende de que midas, cuan compleja sea, y cuan sofisticado sea tu 
aparato de medición. 
Bolilla 2 del programa: 
- Analizar datos a veces simplemente para describir variable Y (univariada), describir la relación entre X e Y 
(estadística bivariada), varias X y la relación que tienen todas juntas con Y (multivariada – veo la relación 
de cada X con Y manteniendo constante las otras variables – controlando por las otras). 
- ¿Pero de donde vienen los datos? Cuando analizamos datos, usamos datos que son imperfectos: error de 
medición sistemático y aleatorio. 
- Datos: 
1. Hay una clasificación muy estándar que distingue entre datos primarios y secundarios. Tiene que ver 
con el punto de vista del investigador: 
⮚ Primario si es el mismo investigador quien genera lo datos 🡪 datos que no existían y que en el 
proceso de investigación produce datos nuevos. Hiciste un experimento por primera vez, hiciste 
una investigación participante, entrevistas a personas. Encuestas APES 🡪 entrevistas personas 
antes y después de elecciones de 2015 🡪 son primarios porque los generaron esos 4 politólogos: 
generaron la encuesta, la muestra, e hicieron la entrevista. Típicas fuentes de datos primarios: la 
observación directa (lo que quiero estudiar ir y registrarlo: ej. registrar cuanto tiempo tardó en 
votar una persona, ir y tomar nota de lo que veo ej. congress and electoral election: ir a observar 
a congreso de EE. UU.), entrevistas, encuestas, experimentos, análisis de contenido, etc. 
⮚ Secundarios: datos que ya están disponibles. Datos que ya construyo un investigador. Vienen de 
lugares como el indec, oficina de estadística de la ciudad, etc. Fuentes que se dedican a hacer 
datos y los cientistas los usan. 
Clase 8/8. 
Estadística inferencial y descriptiva. La materia prima de la estadística son los datos, que alguien tiene que producir. 
Como se hace es lo que vimos en metodología. Aspectos más prácticos de las fuentes típicas de datos. Cualquier 
proceso de investigación -más académica o más aplicada- cuando es cuantitativa (a veces cualitativo) tenemos una 
matriz de datos, como una planilla Excel/STATA donde las filas eran las unidades de análisis, los casos, los objetos 
que nos interesa estudiar. Las columnas tienen las características de esas unidades análisis, las variables. Cuando se 
llena la matriz de datos estamos listos para hacer estadística. E l proceso de investigación puro o aplicado, la 
investigación que se haga, consiste en llenar base de datos y de analizarlas. Metodología dice mucho del proceso de 
como llenar la matriz de datos, en Estadística asumimos que tenemos bases de datos y hacemos estadística en base 
de eso. Una parte de la investigación consiste en llenar la base de datos, y otra en hacer inferencias descriptivas y 
causales en base a esa matriz. 
Métodos típicos de como llenar matrices de datos: observación (puede ser participante, generalmente no), son 
potencialmente muy ricas, acá están las encuestas como forma de recolección de datos primaria basado en formular 
preguntas y registrar las respuestas de una muestra representativa de la población de interés. La encuesta tiene dos 
elementos metodológicamente importantes: el cuestionario y la muestra (una buena muestra de cualquier cosa es 
tema de esta materia). Experimentos, tema de metodología, es un método de generación de datos. Se toma una 
población de la cual se toman dos muestras al azar, grandes y aleatorias, de forma que las dos deberían ser iguales 
en todos, garantizando la igualdad de condiciones, igualdad de variables un acercamiento al ceteris paribus. Si bien 
las dos muestras, los dos grupos son iguales en todos, varía el tratamiento que se le asigna a un grupo (grupo de 
control) y al otro se le da un placebo (grupo de control), si hay una variación cuando se compara estos grupos se 
puede asignar al tratamiento de forma que ambos grupos son iguales en todo lo demás. El experimento te permite 
obtener datos y analizarlos, es una de las formas más poderosas que tienen las ciencias sociales para generar datos. 
Análisis de contenido, son técnicas de recolección de datos sobre textos, donde las unidades de análisis van a ser 
algún tipo de texto oral o escrito. Uno podría hacer análisis cuantitativo de textos, esto se ve en diarios, por ejemplo, 
los análisis sobre las palabras que más se reiteran en discursos. Ej. parte del texto de Tannenwald. 
Datos primarios, generados por uno mismo. Datos secundarios, que creo otro y usamos. Si usamos los datos de la 
EPH por ejemplo, son datos secundarios. La fuentepuede ser enteramente privada. Hay miles de fuentes de datos,

Otros materiales