1 Clases Estadística (1 (11)

Estadística

•

SIN SIGLA

0

aidensz27

8/7/2023

¡Estudia con miles de materiales!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Estadística

5386 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

- La desviación estándar de la variable distribución de medias muestrales es igual a la desviación
estándar de la variable en este caso edad, sobre la raíz cuadrada del tamaño de la muestra (de 1600
casos que se tomaran de mil formas, pero siempre se parte de muestras de 1600 casos). ESTA ES LA
FORMULA DEL ERROR ESTANDAR.
La desviación estándar de la variable distribución de medias muestrales marca el error. Agresti y Finlay: “el
error estándar describe como la media de la muestra (la variable) varía de muestra a muestra”
(pág. 90, cap. 4). La mayoría de las muestras tienen un error. La desviación estándar de las medias
muestrales es por cuanto se desvían en promedio las medias muestrales del parámetro, eso el error
muestral o estándar. Es una desviación estándar que muestra el error promedio de una muestra.
Es error muestral y no de medición. El de medición responde a la calidad tus indicadores mientras que el
muestral es un error por no poder tomar el total de la población. En la realidad siempre tenemos los
cuatro tipos de error. Toda esta idea de hacer muchas muestras es puramente pedagógica.
Esto se puede calcular porque nos revelaron los datos: 20/(1600)1/2 = 20/40 = 0,5. Esto es el error estándar,
muestras de mil seiscientos años se desvían medio año. Muestras más grandes disminuyen el error
estándar. Este error es un error promedio, es el error de la muestra estándar. Esta información es
fundamental porque me dice cuanto más o menos me puedo estar equivocando. PERO, de las dos
magnitudes implícitas en el cálculo de error muestral solo tenemos uno, sigma de la edad no la
tenemos, en la realidad los parámetros poblacionales no los sabemos. Si no tengo la desviación
estándar de la edad de la población puedo usar la desviación estándar de mi muestra, es decir es
una estimación muestral S (no es sigma, σ, no es un parámetro poblacional). (NO LA DESVIACION
ESTANDAR DE LA VARIABLE DISTRIBUCION MEDIAS MUESTRALES). Es una representación a través
de mi muestra de la población.
Hacer S de la edad sobre la raíz cuadrada del número de casos de mi muestra me devuelve una estimación
del error muestral. NUNCA se estima el error muestral de MI muestra, se estima el error muestral
de muestras como la mía, con el mismo número de casos.
A tres errores estándar del parámetro está casi el 100% de los casos, en este caso son medias muestrales.
No hay ninguna muestra que se equivoque más de un año y medio.
Intervalo de confianza, es aquel intervalo en el cual tengo plena confianza de que dentro de él va a caer el parámetro.
Ejercicio: universo países registrados para polity (165)
Tomemos una muestra de 10 casos. Las muestras tendieron a agruparse en torno al parámetro, no de forma normal
pero se empieza a ver que si hacemos muestras relativamente malas, ósea chicas, las cosas no dan tan mal. ¿Qué
pasaría si tomamos muestras de más casos? El azar tiene esta propiedad de que si tomamos muestras
auténticamente aleatorias nos acercamos al parámetro. Si aumento el tamaño muestral el error disminuye.
Cuando la muestra es aleatoria se cumple el teorema del límite central, cuando es grande pegan más cerca del
parámetro las estimaciones muestrales. Aun las más lejanas de parámetro (el error máximo) no es muy distinto. Acá
se puede aplicar la regla empírica de la curva normal general a esta curva normal de la variable distribución medias
muestrales. De forma que acá entran tambien en juego las probabilidades, dado que hay un 64% de probabilidades
de que mi muestra caiga entre más y menos de un desvío estándar respecto de µ.
Clase 14/9.
El teorema del límite central nos dice que ocurriría usando una estimación muestral de la media.
El teorema del límite central nos dice que si promediamos todas las estimaciones muestrales, la media de la
distribución de medias muestrales va a dar el parámetro, en el largo plazo el promedio de todas las muestras da en
el parámetro, es insesgado. Cada media muestral tiene error.
Lo segundo que nos dice el teorema del límite central es que la distribución de medias muestrales se distribuye de
forma normal y tendrá media en el parámetro. Una distribución normal se caracteriza por dos cosas: por su media
(el parámetro en este caso, la media de la edad es igual a la media de la distribución de medias muestrales de la
edad) y su desviación estándar de la distribución de medias muestrales que la achata o la hace más alta (esto es el
error estándar, y si supiéramos sigma de la edad podemos calcularlo, caso contrario usamos una estimación
muestral de la edad).
Vamos a aplicar la regla empírica de la curva normal a esta curva de la variable distribución de medias muestrales.
Lo que sumamos acá son desviaciones estándar de esta variable en particular que es el error estándar! Esta curva
normal está describiendo como se describirían las infinitas medias muestrales posibles de 1600 casos. Es
fundamental entender que de esas infinitas medias muestrales posibles nosotros vamos a sacar UNA. Algo
fundamental es entender que la probabilidad de que me de menos de tres errores estándar o la probabilidad de que
me dé más de tres errores estándar es muy baja. Siempre hay error, pero esto te da una idea de la precisión de la
estimación. Si el error nos parece muy grande lo único que podemos hacer es aumentar el número de casos.
El 68% de los casos de las medias muestrales tienen un error menor o igual a 0,5. El 32% de las muestras tienen más
de 0,5 de error.
Para interpretar el error estándar como magnitud estadística (describir en palabras) una posible forma es decir que
el error estándar es el alejamiento promedio de una estimación muestral respecto del parámetro (de todas las
posibles muestras, no necesariamente de la mía). Lo cual implica que posiblemente el error más grande que pueda
tener una muestra de este tamaño sea de tres errores estándar.
El teorema del límite central en la realidad funciona.
¿Cómo podemos usar mi estimación muestral para ver dónde está el parámetro? más o menos por donde debería
estar es el intervalo de confianza, es un rango en torno a la estimación muestral que obtuvimos dentro del cual hay
cierta probabilidad o confianza de que este incluido el parámetro. Sería como sumarle el error estándar a mis
resultados.
¿Cómo hacemos un intervalo de confianza? El proceso consiste en tomar la estimación muestral que tenemos,
sumarle y restarle una cantidad Z de errores estándar. Como estimamos el error estándar con una estimación
muestral lo calculamos con cierto margen de error de forma que calculamos una estimación del error estándar. El
68% de las muestras van a estar a menos de un error estándar a la izquierda o a la derecha del parámetro, cuando
yo le sumo o le resto un error estándar a mi media muestral trazo un intervalo de confianza que tiene una
probabilidad del 68% de contener al parámetro y un 32% de probabilidad no contenerlo.
Vamos a calcular intervalos de confianza de mayor seguridad, no del 68% porque me dejan un 32% de probabilidad
de no incluir al parámetro. Como sabemos que a dos errores estándar están el 95% de medias muestrales
tendríamos en ese intervalo una mayor probabilidad de incluir al parámetro. De esta forma el intervalo de confianza
esta ampliado al 95% de probabilidad de que el parámetro este incluido ahí, perdemos precisión pero ganamos
cierta seguridad. Sé que hay mucha probabilidad de que el parámetro este incluido ahí, nunca sé el parámetro.
Si aumento el número de casos el intervalo de confianza se achica bastante.
Así mismo todo esto está condicionado por los errores de medición. Y a su vez, al trabajar con muestras y no con el
universo pago el riesgo del error muestral.
Aun en un intervalo de confianza del 99% tenés una probabilidad de un 1% de que no incluya al parámetro.
La lógica real de la investigación, sacamos intervalos de confianza con alta probabilidad de que el parámetroeste
incluido sin nunca saber el parámetro y sin la seguridad de que lo contenga.
Clase 19/9.
Teorema del límite central: curva normal con media en el parámetro. eso quiere decir que por regla empírica el 68%
de las medias muestrales van a estar a más o menos una desviación estándar de la media (el parámetro). una
confusión normal es que tomamos como desviación estándar, NO ES 20, NO ES LA EDAD DE LA GENTE, es una
desviación estándar de las medias muestrales es pequeña porque no varían mucho. ¡¡¡¡La desviación de esta curva