1 Clases Estadística (1 (2)

Estadística

•

SIN SIGLA

0

aidensz27

8/7/2023

¡Estudia con miles de materiales!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Estadística

5354 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

llamar error muestral aleatorio o variabilidad muestral. Que tiene de aleatorio 🡪 hay estimaciones
muestrales distribuidas en torno de 38, y unas por encima y otras por debajo – hay la misma cantidad por
encima y por debajo de 38. Esto tiene una forma de campana de Gauss 🡪 curva normal. Este error hace
que cada uno que hizo una muestra igual, pero algunos están más cerca de 38. Pero si lo vemos en
perspectiva amplia, tal vez ese error mayor es 38,9 lo cual igualmente estima bastante bien el parámetro.
Cuan alejado estás va a depender del trabajo de la muestra 🡪 cuanto más grande, más cerca del
parámetro. No sabes cuán lejos estas del parámetro 🡪 error inevitable. Si podés minimizarlo por aumentar
el número de casos o estimar el tamaño de la variabilidad muestral. Error 20mil va a tener menos error,
más cerca de 38, pero nunca vas a llegar exacto. Teorema del límite central 🡪 te dice que te daría si hicieras
todas las posibles muestras.
- Hay otro tipo de error: error muestral sistemático o sesgo muestral. Nos mandan de vuelta a hacer
muestra de 2mil casos y aleatorio, pero no es obligatorio que las personas participen en el estudio. Y ocurre
que gente más joven tiende a estar menos en el hogar. Gente que no tiende a participar es gente de 20,
30, 40 años. Mientras que los más grandes que no estudian, trabajo, están más en el hogar tienden a
contestar más encuestas. Los 2 mil no les da la misma probabilidad a todos. Los que tienden a participar
tienden a ser grandes. Consecuencia sobre la estimación: sobre-representar a los más adultos 🡪 sesgar,
estirar para arriba la edad promedio. Todas las muestras tienen error, pero para el mismo lado (para
arriba de 38). Sobrerrepresentación de un grupo humano 🡪 no es estrictamente aleatorio 🡪 sesgo muestral.
Posible solución: ponderación 🡪 darles más peso a los grandes y menos a jóvenes 🡪 pero necesito más
grandes, tengo que saber la edad de la población 🡪 entonces para que hice la encuesta. pero en una
muestra que intenta averiguar algo para lo que no tengo datos, no tengo de que agarrarme para
ponderar. Hay un defecto en la aleatoriedad de la muestra 🡪 sesgo de que haya más personas grandes.
- Error para los dos lados: asistemático o aleatorio. Para un lado: sistemático o sesgo.
- Error de medición. Error de medición sistemático: Estimar edad de argentinos: que las personas te digan
siempre que son más jóvenes. Voy a subestimar la edad. No por motivos muestrales sino por error de
medición sistemático. Pero también puede haber error de medición aleatorio: si algunas personas
redondean para arriba, y otros redondean para abajo 🡪 se compensan.
- A los tipos de errores que nos enfrentamos en investigación científica, podemos hacer una clasificación
de la fuente del error y tipo de error.
● Fuente la muestra o la medición.
● Tipo de error: aleatorio o sistemático.
Tipo de error
Aleatorio Sistemático
Fuente de error Muestra Distribuidos arriba y
debajo de 38.
Distribuidos arriba de 38.
Medición Redondeo de error
típicamente hacia
abajo (siempre
hacia la misma
dirección)
Algunos redondean para
abajo y otros para
arriba
🡺 Fuentes de incertidumbre en nuestro conocimiento.
- No solo depende de instrumentos de medición sino la complejidad de lo que estas midiendo. ej. ideología,
poder de un estado 🡪 más complejo. Depende de que midas, cuan compleja sea, y cuan sofisticado sea tu
aparato de medición.
Bolilla 2 del programa:
- Analizar datos a veces simplemente para describir variable Y (univariada), describir la relación entre X e Y
(estadística bivariada), varias X y la relación que tienen todas juntas con Y (multivariada – veo la relación
de cada X con Y manteniendo constante las otras variables – controlando por las otras).
- ¿Pero de donde vienen los datos? Cuando analizamos datos, usamos datos que son imperfectos: error de
medición sistemático y aleatorio.
- Datos:
1. Hay una clasificación muy estándar que distingue entre datos primarios y secundarios. Tiene que ver
con el punto de vista del investigador:
⮚ Primario si es el mismo investigador quien genera lo datos 🡪 datos que no existían y que en el
proceso de investigación produce datos nuevos. Hiciste un experimento por primera vez, hiciste
una investigación participante, entrevistas a personas. Encuestas APES 🡪 entrevistas personas
antes y después de elecciones de 2015 🡪 son primarios porque los generaron esos 4 politólogos:
generaron la encuesta, la muestra, e hicieron la entrevista. Típicas fuentes de datos primarios: la
observación directa (lo que quiero estudiar ir y registrarlo: ej. registrar cuanto tiempo tardó en
votar una persona, ir y tomar nota de lo que veo ej. congress and electoral election: ir a observar
a congreso de EE. UU.), entrevistas, encuestas, experimentos, análisis de contenido, etc.
⮚ Secundarios: datos que ya están disponibles. Datos que ya construyo un investigador. Vienen de
lugares como el indec, oficina de estadística de la ciudad, etc. Fuentes que se dedican a hacer
datos y los cientistas los usan.
Clase 8/8.
Estadística inferencial y descriptiva. La materia prima de la estadística son los datos, que alguien tiene que producir.
Como se hace es lo que vimos en metodología. Aspectos más prácticos de las fuentes típicas de datos. Cualquier
proceso de investigación -más académica o más aplicada- cuando es cuantitativa (a veces cualitativo) tenemos una
matriz de datos, como una planilla Excel/STATA donde las filas eran las unidades de análisis, los casos, los objetos
que nos interesa estudiar. Las columnas tienen las características de esas unidades análisis, las variables. Cuando se
llena la matriz de datos estamos listos para hacer estadística. E l proceso de investigación puro o aplicado, la
investigación que se haga, consiste en llenar base de datos y de analizarlas. Metodología dice mucho del proceso de
como llenar la matriz de datos, en Estadística asumimos que tenemos bases de datos y hacemos estadística en base
de eso. Una parte de la investigación consiste en llenar la base de datos, y otra en hacer inferencias descriptivas y
causales en base a esa matriz.
Métodos típicos de como llenar matrices de datos: observación (puede ser participante, generalmente no), son
potencialmente muy ricas, acá están las encuestas como forma de recolección de datos primaria basado en formular
preguntas y registrar las respuestas de una muestra representativa de la población de interés. La encuesta tiene dos
elementos metodológicamente importantes: el cuestionario y la muestra (una buena muestra de cualquier cosa es
tema de esta materia). Experimentos, tema de metodología, es un método de generación de datos. Se toma una
población de la cual se toman dos muestras al azar, grandes y aleatorias, de forma que las dos deberían ser iguales
en todos, garantizando la igualdad de condiciones, igualdad de variables un acercamiento al ceteris paribus. Si bien
las dos muestras, los dos grupos son iguales en todos, varía el tratamiento que se le asigna a un grupo (grupo de
control) y al otro se le da un placebo (grupo de control), si hay una variación cuando se compara estos grupos se
puede asignar al tratamiento de forma que ambos grupos son iguales en todo lo demás. El experimento te permite
obtener datos y analizarlos, es una de las formas más poderosas que tienen las ciencias sociales para generar datos.
Análisis de contenido, son técnicas de recolección de datos sobre textos, donde las unidades de análisis van a ser
algún tipo de texto oral o escrito. Uno podría hacer análisis cuantitativo de textos, esto se ve en diarios, por ejemplo,
los análisis sobre las palabras que más se reiteran en discursos. Ej. parte del texto de Tannenwald.
Datos primarios, generados por uno mismo. Datos secundarios, que creo otro y usamos. Si usamos los datos de la
EPH por ejemplo, son datos secundarios. La fuentepuede ser enteramente privada. Hay miles de fuentes de datos,