Logo Studenta

1 Clases Estadística (1 (11)

¡Estudia con miles de materiales!

Vista previa del material en texto

- La desviación estándar de la variable distribución de medias muestrales es igual a la desviación 
estándar de la variable en este caso edad, sobre la raíz cuadrada del tamaño de la muestra (de 1600 
casos que se tomaran de mil formas, pero siempre se parte de muestras de 1600 casos). ESTA ES LA 
FORMULA DEL ERROR ESTANDAR. 
La desviación estándar de la variable distribución de medias muestrales marca el error. Agresti y Finlay: “el 
error estándar describe como la media de la muestra (la variable) varía de muestra a muestra” 
(pág. 90, cap. 4). La mayoría de las muestras tienen un error. La desviación estándar de las medias 
muestrales es por cuanto se desvían en promedio las medias muestrales del parámetro, eso el error 
muestral o estándar. Es una desviación estándar que muestra el error promedio de una muestra. 
Es error muestral y no de medición. El de medición responde a la calidad tus indicadores mientras que el 
muestral es un error por no poder tomar el total de la población. En la realidad siempre tenemos los 
cuatro tipos de error. Toda esta idea de hacer muchas muestras es puramente pedagógica. 
Esto se puede calcular porque nos revelaron los datos: 20/(1600)1/2 = 20/40 = 0,5. Esto es el error estándar, 
muestras de mil seiscientos años se desvían medio año. Muestras más grandes disminuyen el error 
estándar. Este error es un error promedio, es el error de la muestra estándar. Esta información es 
fundamental porque me dice cuanto más o menos me puedo estar equivocando. PERO, de las dos 
magnitudes implícitas en el cálculo de error muestral solo tenemos uno, sigma de la edad no la 
tenemos, en la realidad los parámetros poblacionales no los sabemos. Si no tengo la desviación 
estándar de la edad de la población puedo usar la desviación estándar de mi muestra, es decir es 
una estimación muestral S (no es sigma, σ, no es un parámetro poblacional). (NO LA DESVIACION 
ESTANDAR DE LA VARIABLE DISTRIBUCION MEDIAS MUESTRALES). Es una representación a través 
de mi muestra de la población. 
Hacer S de la edad sobre la raíz cuadrada del número de casos de mi muestra me devuelve una estimación 
del error muestral. NUNCA se estima el error muestral de MI muestra, se estima el error muestral 
de muestras como la mía, con el mismo número de casos. 
A tres errores estándar del parámetro está casi el 100% de los casos, en este caso son medias muestrales. 
No hay ninguna muestra que se equivoque más de un año y medio. 
Intervalo de confianza, es aquel intervalo en el cual tengo plena confianza de que dentro de él va a caer el parámetro. 
Ejercicio: universo países registrados para polity (165) 
Tomemos una muestra de 10 casos. Las muestras tendieron a agruparse en torno al parámetro, no de forma normal 
pero se empieza a ver que si hacemos muestras relativamente malas, ósea chicas, las cosas no dan tan mal. ¿Qué 
pasaría si tomamos muestras de más casos? El azar tiene esta propiedad de que si tomamos muestras 
auténticamente aleatorias nos acercamos al parámetro. Si aumento el tamaño muestral el error disminuye. 
Cuando la muestra es aleatoria se cumple el teorema del límite central, cuando es grande pegan más cerca del 
parámetro las estimaciones muestrales. Aun las más lejanas de parámetro (el error máximo) no es muy distinto. Acá 
se puede aplicar la regla empírica de la curva normal general a esta curva normal de la variable distribución medias 
muestrales. De forma que acá entran tambien en juego las probabilidades, dado que hay un 64% de probabilidades 
de que mi muestra caiga entre más y menos de un desvío estándar respecto de µ. 
Clase 14/9. 
El teorema del límite central nos dice que ocurriría usando una estimación muestral de la media. 
El teorema del límite central nos dice que si promediamos todas las estimaciones muestrales, la media de la 
distribución de medias muestrales va a dar el parámetro, en el largo plazo el promedio de todas las muestras da en 
el parámetro, es insesgado. Cada media muestral tiene error. 
Lo segundo que nos dice el teorema del límite central es que la distribución de medias muestrales se distribuye de 
forma normal y tendrá media en el parámetro. Una distribución normal se caracteriza por dos cosas: por su media 
(el parámetro en este caso, la media de la edad es igual a la media de la distribución de medias muestrales de la 
edad) y su desviación estándar de la distribución de medias muestrales que la achata o la hace más alta (esto es el 
error estándar, y si supiéramos sigma de la edad podemos calcularlo, caso contrario usamos una estimación 
muestral de la edad). 
Vamos a aplicar la regla empírica de la curva normal a esta curva de la variable distribución de medias muestrales. 
Lo que sumamos acá son desviaciones estándar de esta variable en particular que es el error estándar! Esta curva 
normal está describiendo como se describirían las infinitas medias muestrales posibles de 1600 casos. Es 
fundamental entender que de esas infinitas medias muestrales posibles nosotros vamos a sacar UNA. Algo 
fundamental es entender que la probabilidad de que me de menos de tres errores estándar o la probabilidad de que 
me dé más de tres errores estándar es muy baja. Siempre hay error, pero esto te da una idea de la precisión de la 
estimación. Si el error nos parece muy grande lo único que podemos hacer es aumentar el número de casos. 
El 68% de los casos de las medias muestrales tienen un error menor o igual a 0,5. El 32% de las muestras tienen más 
de 0,5 de error. 
Para interpretar el error estándar como magnitud estadística (describir en palabras) una posible forma es decir que 
el error estándar es el alejamiento promedio de una estimación muestral respecto del parámetro (de todas las 
posibles muestras, no necesariamente de la mía). Lo cual implica que posiblemente el error más grande que pueda 
tener una muestra de este tamaño sea de tres errores estándar. 
El teorema del límite central en la realidad funciona. 
¿Cómo podemos usar mi estimación muestral para ver dónde está el parámetro? más o menos por donde debería 
estar es el intervalo de confianza, es un rango en torno a la estimación muestral que obtuvimos dentro del cual hay 
cierta probabilidad o confianza de que este incluido el parámetro. Sería como sumarle el error estándar a mis 
resultados. 
¿Cómo hacemos un intervalo de confianza? El proceso consiste en tomar la estimación muestral que tenemos, 
sumarle y restarle una cantidad Z de errores estándar. Como estimamos el error estándar con una estimación 
muestral lo calculamos con cierto margen de error de forma que calculamos una estimación del error estándar. El 
68% de las muestras van a estar a menos de un error estándar a la izquierda o a la derecha del parámetro, cuando 
yo le sumo o le resto un error estándar a mi media muestral trazo un intervalo de confianza que tiene una 
probabilidad del 68% de contener al parámetro y un 32% de probabilidad no contenerlo. 
Vamos a calcular intervalos de confianza de mayor seguridad, no del 68% porque me dejan un 32% de probabilidad 
de no incluir al parámetro. Como sabemos que a dos errores estándar están el 95% de medias muestrales 
tendríamos en ese intervalo una mayor probabilidad de incluir al parámetro. De esta forma el intervalo de confianza 
esta ampliado al 95% de probabilidad de que el parámetro este incluido ahí, perdemos precisión pero ganamos 
cierta seguridad. Sé que hay mucha probabilidad de que el parámetro este incluido ahí, nunca sé el parámetro. 
Si aumento el número de casos el intervalo de confianza se achica bastante. 
Así mismo todo esto está condicionado por los errores de medición. Y a su vez, al trabajar con muestras y no con el 
universo pago el riesgo del error muestral. 
Aun en un intervalo de confianza del 99% tenés una probabilidad de un 1% de que no incluya al parámetro. 
La lógica real de la investigación, sacamos intervalos de confianza con alta probabilidad de que el parámetroeste 
incluido sin nunca saber el parámetro y sin la seguridad de que lo contenga. 
Clase 19/9. 
Teorema del límite central: curva normal con media en el parámetro. eso quiere decir que por regla empírica el 68% 
de las medias muestrales van a estar a más o menos una desviación estándar de la media (el parámetro). una 
confusión normal es que tomamos como desviación estándar, NO ES 20, NO ES LA EDAD DE LA GENTE, es una 
desviación estándar de las medias muestrales es pequeña porque no varían mucho. ¡¡¡¡La desviación de esta curva

Otros materiales