Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
- La desviación estándar de la variable distribución de medias muestrales es igual a la desviación estándar de la variable en este caso edad, sobre la raíz cuadrada del tamaño de la muestra (de 1600 casos que se tomaran de mil formas, pero siempre se parte de muestras de 1600 casos). ESTA ES LA FORMULA DEL ERROR ESTANDAR. La desviación estándar de la variable distribución de medias muestrales marca el error. Agresti y Finlay: “el error estándar describe como la media de la muestra (la variable) varía de muestra a muestra” (pág. 90, cap. 4). La mayoría de las muestras tienen un error. La desviación estándar de las medias muestrales es por cuanto se desvían en promedio las medias muestrales del parámetro, eso el error muestral o estándar. Es una desviación estándar que muestra el error promedio de una muestra. Es error muestral y no de medición. El de medición responde a la calidad tus indicadores mientras que el muestral es un error por no poder tomar el total de la población. En la realidad siempre tenemos los cuatro tipos de error. Toda esta idea de hacer muchas muestras es puramente pedagógica. Esto se puede calcular porque nos revelaron los datos: 20/(1600)1/2 = 20/40 = 0,5. Esto es el error estándar, muestras de mil seiscientos años se desvían medio año. Muestras más grandes disminuyen el error estándar. Este error es un error promedio, es el error de la muestra estándar. Esta información es fundamental porque me dice cuanto más o menos me puedo estar equivocando. PERO, de las dos magnitudes implícitas en el cálculo de error muestral solo tenemos uno, sigma de la edad no la tenemos, en la realidad los parámetros poblacionales no los sabemos. Si no tengo la desviación estándar de la edad de la población puedo usar la desviación estándar de mi muestra, es decir es una estimación muestral S (no es sigma, σ, no es un parámetro poblacional). (NO LA DESVIACION ESTANDAR DE LA VARIABLE DISTRIBUCION MEDIAS MUESTRALES). Es una representación a través de mi muestra de la población. Hacer S de la edad sobre la raíz cuadrada del número de casos de mi muestra me devuelve una estimación del error muestral. NUNCA se estima el error muestral de MI muestra, se estima el error muestral de muestras como la mía, con el mismo número de casos. A tres errores estándar del parámetro está casi el 100% de los casos, en este caso son medias muestrales. No hay ninguna muestra que se equivoque más de un año y medio. Intervalo de confianza, es aquel intervalo en el cual tengo plena confianza de que dentro de él va a caer el parámetro. Ejercicio: universo países registrados para polity (165) Tomemos una muestra de 10 casos. Las muestras tendieron a agruparse en torno al parámetro, no de forma normal pero se empieza a ver que si hacemos muestras relativamente malas, ósea chicas, las cosas no dan tan mal. ¿Qué pasaría si tomamos muestras de más casos? El azar tiene esta propiedad de que si tomamos muestras auténticamente aleatorias nos acercamos al parámetro. Si aumento el tamaño muestral el error disminuye. Cuando la muestra es aleatoria se cumple el teorema del límite central, cuando es grande pegan más cerca del parámetro las estimaciones muestrales. Aun las más lejanas de parámetro (el error máximo) no es muy distinto. Acá se puede aplicar la regla empírica de la curva normal general a esta curva normal de la variable distribución medias muestrales. De forma que acá entran tambien en juego las probabilidades, dado que hay un 64% de probabilidades de que mi muestra caiga entre más y menos de un desvío estándar respecto de µ. Clase 14/9. El teorema del límite central nos dice que ocurriría usando una estimación muestral de la media. El teorema del límite central nos dice que si promediamos todas las estimaciones muestrales, la media de la distribución de medias muestrales va a dar el parámetro, en el largo plazo el promedio de todas las muestras da en el parámetro, es insesgado. Cada media muestral tiene error. Lo segundo que nos dice el teorema del límite central es que la distribución de medias muestrales se distribuye de forma normal y tendrá media en el parámetro. Una distribución normal se caracteriza por dos cosas: por su media (el parámetro en este caso, la media de la edad es igual a la media de la distribución de medias muestrales de la edad) y su desviación estándar de la distribución de medias muestrales que la achata o la hace más alta (esto es el error estándar, y si supiéramos sigma de la edad podemos calcularlo, caso contrario usamos una estimación muestral de la edad). Vamos a aplicar la regla empírica de la curva normal a esta curva de la variable distribución de medias muestrales. Lo que sumamos acá son desviaciones estándar de esta variable en particular que es el error estándar! Esta curva normal está describiendo como se describirían las infinitas medias muestrales posibles de 1600 casos. Es fundamental entender que de esas infinitas medias muestrales posibles nosotros vamos a sacar UNA. Algo fundamental es entender que la probabilidad de que me de menos de tres errores estándar o la probabilidad de que me dé más de tres errores estándar es muy baja. Siempre hay error, pero esto te da una idea de la precisión de la estimación. Si el error nos parece muy grande lo único que podemos hacer es aumentar el número de casos. El 68% de los casos de las medias muestrales tienen un error menor o igual a 0,5. El 32% de las muestras tienen más de 0,5 de error. Para interpretar el error estándar como magnitud estadística (describir en palabras) una posible forma es decir que el error estándar es el alejamiento promedio de una estimación muestral respecto del parámetro (de todas las posibles muestras, no necesariamente de la mía). Lo cual implica que posiblemente el error más grande que pueda tener una muestra de este tamaño sea de tres errores estándar. El teorema del límite central en la realidad funciona. ¿Cómo podemos usar mi estimación muestral para ver dónde está el parámetro? más o menos por donde debería estar es el intervalo de confianza, es un rango en torno a la estimación muestral que obtuvimos dentro del cual hay cierta probabilidad o confianza de que este incluido el parámetro. Sería como sumarle el error estándar a mis resultados. ¿Cómo hacemos un intervalo de confianza? El proceso consiste en tomar la estimación muestral que tenemos, sumarle y restarle una cantidad Z de errores estándar. Como estimamos el error estándar con una estimación muestral lo calculamos con cierto margen de error de forma que calculamos una estimación del error estándar. El 68% de las muestras van a estar a menos de un error estándar a la izquierda o a la derecha del parámetro, cuando yo le sumo o le resto un error estándar a mi media muestral trazo un intervalo de confianza que tiene una probabilidad del 68% de contener al parámetro y un 32% de probabilidad no contenerlo. Vamos a calcular intervalos de confianza de mayor seguridad, no del 68% porque me dejan un 32% de probabilidad de no incluir al parámetro. Como sabemos que a dos errores estándar están el 95% de medias muestrales tendríamos en ese intervalo una mayor probabilidad de incluir al parámetro. De esta forma el intervalo de confianza esta ampliado al 95% de probabilidad de que el parámetro este incluido ahí, perdemos precisión pero ganamos cierta seguridad. Sé que hay mucha probabilidad de que el parámetro este incluido ahí, nunca sé el parámetro. Si aumento el número de casos el intervalo de confianza se achica bastante. Así mismo todo esto está condicionado por los errores de medición. Y a su vez, al trabajar con muestras y no con el universo pago el riesgo del error muestral. Aun en un intervalo de confianza del 99% tenés una probabilidad de un 1% de que no incluya al parámetro. La lógica real de la investigación, sacamos intervalos de confianza con alta probabilidad de que el parámetroeste incluido sin nunca saber el parámetro y sin la seguridad de que lo contenga. Clase 19/9. Teorema del límite central: curva normal con media en el parámetro. eso quiere decir que por regla empírica el 68% de las medias muestrales van a estar a más o menos una desviación estándar de la media (el parámetro). una confusión normal es que tomamos como desviación estándar, NO ES 20, NO ES LA EDAD DE LA GENTE, es una desviación estándar de las medias muestrales es pequeña porque no varían mucho. ¡¡¡¡La desviación de esta curva
Compartir