Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
su vez pueden tener distintos desvíos las muestras. El proceso completo de sacar muchas muestras a largo plazo es importante entender que si hiciéramos el proceso de sacar muchas estimaciones muestrales se distribuirían en torno al parámetro de forma normal. Lo cual es una buena noticia, porque a medida que nos alejamos del parámetro hay menos medias muestrales, la mayor parte de las medias muestrales están cerca del parámetro porque están cerca de la parte más alta de la curva normal. Podemos ver probabilidades en torno a esto. Del viernes que viene en adelante vamos a hablar en términos de tener muchas muestras pero no es una realidad de la investigación, es una estrategia pedagógica para entender el teorema del límite central. Clase 7/9. De la población universo se desprenden ciertos parámetros poblacionales µ que es la media, σ (sigma) es la desviación estándar y π es la proporción. Pero nosotros podemos solo tomar muestras en muchos casos, de forma que para conocer estos parámetros para muestras hablamos de estimaciones muestrales, porque cada muestra de una misma población arroja una estimación muestral diferente. Siendo las estimaciones muestrales: Xbarraarriba la media, S la desviación estándar y P la proporción. Las muestras son representativas, no quiere decir que van a ser igual a los parámetros, siempre hay un margen de error. (vamos a calcular el error muestral más adelante, por más de que sean representativas tienen error, al ser pequeño se puede calcular). Si la muestra es grande y aleatoria no es un error del procedimiento, sólo es el margen de error propio de la aleatoriedad. Cada muestra grande y aleatoria arroja estimaciones muestrales cerca del parámetro, pero con un pequeño margen de error. Acabamos de definir una nueva variable, que es las medias muestrales de la edad no es la variable edad. es Xbarra grande y representa a todas las medias muestrales, es el símbolo que representa la variable, y esta variable adopta distintos valores que son las estimaciones muestrales de distintas muestras aleatorias y grandes. Al ser una variable nueva tiene a su vez media, mediana, etc. La distribución de medidas normales es la variable distribución medias muestrales, que obtengo de muestrear repetidamente a una misma población, tomando muestras grandes y aleatorias, de forma que potencialmente hay mil Xbarra, mil medias muestrales. Esta variable es normal. Esta variable es lo que te arrojaría el proceso de obtener mil medias muestrales, en el eje y tenemos la frecuencia de las muestras, con una cierta media muestral, esa media muestral se grafica en el eje x. Al ser una variable continua, es casi imposible tener dos medias muestras iguales. (densidad y frecuencia es conceptualmente lo mismo. Densidad es igual a área debajo de la curva). El teorema del límite central: se puede probar algo que es cierto si ciertos supuesto se cumplen. El teorema del límite central tiene un solo supuesto, habla de la variable distribución de media muestrales, de forma que el único supuesto es que las muestras tienen que ser aleatorias. A partir de muestras de 30 casos el teorema del límite central funciona, con un error muestral grande, pero lo que diga el teorema sigue siendo cierto. Este teorema nos dice cuatro cosas: 1. Cuál es la media poblacional (µ) de Xbarra grande (distribución de medias muestrales). La población es el universo teórico de muestras posibles obtenidas, es un universo enorme. Todas las posibles combinaciones de la población en muestras al azar. ¿Cuál es la media poblacional de la variable distribución de las medias muestrales, de todas las posibles medias muestrales? El teorema nos dice que la media poblacional de la DMM es igual a la media de la edad del universo poblacional total de la variable en cuestión, en este caso edad. y esto es igual al parámetro, porque si saco todas las posibles muestras es como tener la población. Que en promedio todas las muestras den el parámetro implica que las muestras sean insesgadas, por más que tengan error, en promedio pegan en el parámetro de forma que no tienen sesgo. (Esto funciona tambien para las desviaciones estándar, pero no es tema de la materia, la única diferencia es que no se distribuye normalmente). 2. La distribución de medias muestrales se distribuye, tiene forma normal. Esta variable DMM, si yo la graficara y después le hiciera un histograma este tendría una forma normal. Que significa esto en términos sustantivos que las medias muestrales se distribuyan en torno al parámetro de forma normal, es que a medida que me aleje del parámetro disminuye la probabilidad de tener una muestra ahí. Esto se ve porque cuanto más me alejo del parámetro la curva normal desciende de forma que descienden las muestras. Como la curva normal es asintótica al eje x sabemos que las muestras a un punto disminuyen tanto que no hay forma de tener muestras mas allá de determinado margen de error. 3. La desviación estándar de las medias muestrales respecto de las desviaciones estándar de la variable (de la edad) es menor. Dado que la variable distribución de medias muestrales es muy pequeña, ya que al ser muchas medias muestrales de una variable se alejan del parámetro muy poco precisamente porque son medias de muestras de la edad una misma población. mientras que la desviación estándar de la variable edad es muy grande, alrededor de 20, tiene una variabilidad muy grande. Cuanto más chicas sean las muestras más desviación estándar habrá en la variable DMM pero seguirá siendo menor esta desviación estándar a la desviación estándar de la variable. 4. La desviación estándar de las medias muestrales es igual a la desviación estándar de la edad, dividiendo por el número de casos. Cuanto más grande sea el N menor será la desviación estándar, más chica va a ser la dispersión de las medias muestrales en torno al parámetro. Esto es el error estándar de la media, o error muestral, es una formula desviaciones estándar de la variable que uno quiere medir divido la raíz cuadrada del número de casos. Clase 12/9. REPASO de lo planteado en las últimas dos clases: Hay un parámetro que queremos estimar, que es un parámetro poblacional que hablamos en forma singular. Como no conocemos el parámetro poblacional hacemos un estudio. Paralelamente a este único parámetro poblacional puede imaginarme un proceso por el cual se toman muchas muestras grandes y aleatorias para que sea representativa que tendrán diferentes medias. Se pueden sacar infinitas medias muestrales de diferentes muestras. El teorema del límite central habla de una variable, de la variable distribución de medias muestrales. LA CLAVE PARA ENTENDER EL TEOREMA DEL LIMITE CENTRAL ES ENTENDER QUE HABLA DE LA VARIABLE DISTRIBUCION DE MEDIAS MUESTRALES. El único supuesto del teorema es tener una muestra aleatoria de cualquier tamaño, no necesariamente grande. Sobre esta variable el teorema dice cuatro cosas: - Que la media de la distribución de medias muestrales es igual a la media de la variable que estamos estimando. En el caso de clase es la edad. La media de la distribución de medias muestrales es igual al parámetro poblacional. Cada media de cada muestra particular no da igual al parámetro poblacional, pero el promedio de todas estas ósea la media de la distribución de medias muestrales es igual al parámetro. - La distribución de medias muestrales es normal. Si hago un histograma de estas miles de estimaciones muestrales tiene forma normal con media en el parámetro, lo cual significa que hay más medias muestrales cercas del parámetro y disminuyen a medida que se alejan de este. - La desviación estándar de la variable distribución de medias muestrales es respecto de la desviación estándar de la variable (en este caso edad) es más chica. Porque la edad es una variable que varía entre 0 y 110, mientras que las medias muestrales de la edad varíanentre un poco menos y un poco más que 32.
Compartir