1 Clases Estadística (1 (10)

Estadística

•

SIN SIGLA

0

aidensz27

8/7/2023

¡Estudia con miles de materiales!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Estadística

5354 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

su vez pueden tener distintos desvíos las muestras. El proceso completo de sacar muchas muestras a largo plazo es
importante entender que si hiciéramos el proceso de sacar muchas estimaciones muestrales se distribuirían en torno
al parámetro de forma normal. Lo cual es una buena noticia, porque a medida que nos alejamos del parámetro hay
menos medias muestrales, la mayor parte de las medias muestrales están cerca del parámetro porque están cerca
de la parte más alta de la curva normal. Podemos ver probabilidades en torno a esto.
Del viernes que viene en adelante vamos a hablar en términos de tener muchas muestras pero no es una realidad de
la investigación, es una estrategia pedagógica para entender el teorema del límite central.
Clase 7/9.
De la población universo se desprenden ciertos parámetros poblacionales µ que es la media, σ (sigma) es la
desviación estándar y π es la proporción.
Pero nosotros podemos solo tomar muestras en muchos casos, de forma que para conocer estos parámetros para
muestras hablamos de estimaciones muestrales, porque cada muestra de una misma población arroja una
estimación muestral diferente. Siendo las estimaciones muestrales: Xbarraarriba la media, S la desviación estándar y
P la proporción. Las muestras son representativas, no quiere decir que van a ser igual a los parámetros, siempre
hay un margen de error. (vamos a calcular el error muestral más adelante, por más de que sean representativas
tienen error, al ser pequeño se puede calcular).
Si la muestra es grande y aleatoria no es un error del procedimiento, sólo es el margen de error propio de la
aleatoriedad. Cada muestra grande y aleatoria arroja estimaciones muestrales cerca del parámetro, pero con un
pequeño margen de error.
Acabamos de definir una nueva variable, que es las medias muestrales de la edad no es la variable edad. es Xbarra
grande y representa a todas las medias muestrales, es el símbolo que representa la variable, y esta variable adopta
distintos valores que son las estimaciones muestrales de distintas muestras aleatorias y grandes. Al ser una variable
nueva tiene a su vez media, mediana, etc. La distribución de medidas normales es la variable distribución medias
muestrales, que obtengo de muestrear repetidamente a una misma población, tomando muestras grandes y
aleatorias, de forma que potencialmente hay mil Xbarra, mil medias muestrales.
Esta variable es normal. Esta variable es lo que te arrojaría el proceso de obtener mil medias muestrales, en el eje y
tenemos la frecuencia de las muestras, con una cierta media muestral, esa media muestral se grafica en el eje x. Al
ser una variable continua, es casi imposible tener dos medias muestras iguales. (densidad y frecuencia es
conceptualmente lo mismo. Densidad es igual a área debajo de la curva).
El teorema del límite central: se puede probar algo que es cierto si ciertos supuesto se cumplen. El teorema del
límite central tiene un solo supuesto, habla de la variable distribución de media muestrales, de forma que el único
supuesto es que las muestras tienen que ser aleatorias. A partir de muestras de 30 casos el teorema del límite
central funciona, con un error muestral grande, pero lo que diga el teorema sigue siendo cierto. Este teorema nos
dice cuatro cosas:
1. Cuál es la media poblacional (µ) de Xbarra grande (distribución de medias muestrales). La
población es el universo teórico de muestras posibles obtenidas, es un universo enorme.
Todas las posibles combinaciones de la población en muestras al azar. ¿Cuál es la media
poblacional de la variable distribución de las medias muestrales, de todas las posibles
medias muestrales?
El teorema nos dice que la media poblacional de la DMM es igual a la media de la edad del universo
poblacional total de la variable en cuestión, en este caso edad. y esto es igual al parámetro,
porque si saco todas las posibles muestras es como tener la población.
Que en promedio todas las muestras den el parámetro implica que las muestras sean insesgadas,
por más que tengan error, en promedio pegan en el parámetro de forma que no tienen
sesgo. (Esto funciona tambien para las desviaciones estándar, pero no es tema de la
materia, la única diferencia es que no se distribuye normalmente).
2. La distribución de medias muestrales se distribuye, tiene forma normal. Esta variable DMM,
si yo la graficara y después le hiciera un histograma este tendría una forma normal. Que
significa esto en términos sustantivos que las medias muestrales se distribuyan en torno al
parámetro de forma normal, es que a medida que me aleje del parámetro disminuye la
probabilidad de tener una muestra ahí. Esto se ve porque cuanto más me alejo del
parámetro la curva normal desciende de forma que descienden las muestras. Como la curva
normal es asintótica al eje x sabemos que las muestras a un punto disminuyen tanto que no
hay forma de tener muestras mas allá de determinado margen de error.
3. La desviación estándar de las medias muestrales respecto de las desviaciones estándar de la
variable (de la edad) es menor. Dado que la variable distribución de medias muestrales es
muy pequeña, ya que al ser muchas medias muestrales de una variable se alejan del
parámetro muy poco precisamente porque son medias de muestras de la edad una misma
población. mientras que la desviación estándar de la variable edad es muy grande,
alrededor de 20, tiene una variabilidad muy grande.
Cuanto más chicas sean las muestras más desviación estándar habrá en la variable DMM pero
seguirá siendo menor esta desviación estándar a la desviación estándar de la variable.
4. La desviación estándar de las medias muestrales es igual a la desviación estándar de la edad,
dividiendo por el número de casos. Cuanto más grande sea el N menor será la desviación
estándar, más chica va a ser la dispersión de las medias muestrales en torno al parámetro.
Esto es el error estándar de la media, o error muestral, es una formula desviaciones
estándar de la variable que uno quiere medir divido la raíz cuadrada del número de casos.
Clase 12/9.
REPASO de lo planteado en las últimas dos clases:
Hay un parámetro que queremos estimar, que es un parámetro poblacional que hablamos en forma singular. Como
no conocemos el parámetro poblacional hacemos un estudio. Paralelamente a este único parámetro poblacional
puede imaginarme un proceso por el cual se toman muchas muestras grandes y aleatorias para que sea
representativa que tendrán diferentes medias. Se pueden sacar infinitas medias muestrales de diferentes muestras.
El teorema del límite central habla de una variable, de la variable distribución de medias muestrales. LA CLAVE PARA
ENTENDER EL TEOREMA DEL LIMITE CENTRAL ES ENTENDER QUE HABLA DE LA VARIABLE DISTRIBUCION DE MEDIAS
MUESTRALES. El único supuesto del teorema es tener una muestra aleatoria de cualquier tamaño, no
necesariamente grande. Sobre esta variable el teorema dice cuatro cosas:
- Que la media de la distribución de medias muestrales es igual a la media de la variable que estamos
estimando. En el caso de clase es la edad. La media de la distribución de medias muestrales es igual
al parámetro poblacional. Cada media de cada muestra particular no da igual al parámetro
poblacional, pero el promedio de todas estas ósea la media de la distribución de medias muestrales
es igual al parámetro.
- La distribución de medias muestrales es normal. Si hago un histograma de estas miles de
estimaciones muestrales tiene forma normal con media en el parámetro, lo cual significa que hay
más medias muestrales cercas del parámetro y disminuyen a medida que se alejan de este.
- La desviación estándar de la variable distribución de medias muestrales es respecto de la desviación
estándar de la variable (en este caso edad) es más chica. Porque la edad es una variable que varía
entre 0 y 110, mientras que las medias muestrales de la edad varíanentre un poco menos y un
poco más que 32.