Logo Studenta

1 Clases Estadística (1 (10)

¡Estudia con miles de materiales!

Vista previa del material en texto

su vez pueden tener distintos desvíos las muestras. El proceso completo de sacar muchas muestras a largo plazo es 
importante entender que si hiciéramos el proceso de sacar muchas estimaciones muestrales se distribuirían en torno 
al parámetro de forma normal. Lo cual es una buena noticia, porque a medida que nos alejamos del parámetro hay 
menos medias muestrales, la mayor parte de las medias muestrales están cerca del parámetro porque están cerca 
de la parte más alta de la curva normal. Podemos ver probabilidades en torno a esto. 
Del viernes que viene en adelante vamos a hablar en términos de tener muchas muestras pero no es una realidad de 
la investigación, es una estrategia pedagógica para entender el teorema del límite central. 
Clase 7/9. 
De la población universo se desprenden ciertos parámetros poblacionales µ que es la media, σ (sigma) es la 
desviación estándar y π es la proporción. 
Pero nosotros podemos solo tomar muestras en muchos casos, de forma que para conocer estos parámetros para 
muestras hablamos de estimaciones muestrales, porque cada muestra de una misma población arroja una 
estimación muestral diferente. Siendo las estimaciones muestrales: Xbarraarriba la media, S la desviación estándar y 
P la proporción. Las muestras son representativas, no quiere decir que van a ser igual a los parámetros, siempre 
hay un margen de error. (vamos a calcular el error muestral más adelante, por más de que sean representativas 
tienen error, al ser pequeño se puede calcular). 
Si la muestra es grande y aleatoria no es un error del procedimiento, sólo es el margen de error propio de la 
aleatoriedad. Cada muestra grande y aleatoria arroja estimaciones muestrales cerca del parámetro, pero con un 
pequeño margen de error. 
Acabamos de definir una nueva variable, que es las medias muestrales de la edad no es la variable edad. es Xbarra 
grande y representa a todas las medias muestrales, es el símbolo que representa la variable, y esta variable adopta 
distintos valores que son las estimaciones muestrales de distintas muestras aleatorias y grandes. Al ser una variable 
nueva tiene a su vez media, mediana, etc. La distribución de medidas normales es la variable distribución medias 
muestrales, que obtengo de muestrear repetidamente a una misma población, tomando muestras grandes y 
aleatorias, de forma que potencialmente hay mil Xbarra, mil medias muestrales. 
Esta variable es normal. Esta variable es lo que te arrojaría el proceso de obtener mil medias muestrales, en el eje y 
tenemos la frecuencia de las muestras, con una cierta media muestral, esa media muestral se grafica en el eje x. Al 
ser una variable continua, es casi imposible tener dos medias muestras iguales. (densidad y frecuencia es 
conceptualmente lo mismo. Densidad es igual a área debajo de la curva). 
El teorema del límite central: se puede probar algo que es cierto si ciertos supuesto se cumplen. El teorema del 
límite central tiene un solo supuesto, habla de la variable distribución de media muestrales, de forma que el único 
supuesto es que las muestras tienen que ser aleatorias. A partir de muestras de 30 casos el teorema del límite 
central funciona, con un error muestral grande, pero lo que diga el teorema sigue siendo cierto. Este teorema nos 
dice cuatro cosas: 
1. Cuál es la media poblacional (µ) de Xbarra grande (distribución de medias muestrales). La 
población es el universo teórico de muestras posibles obtenidas, es un universo enorme. 
Todas las posibles combinaciones de la población en muestras al azar. ¿Cuál es la media 
poblacional de la variable distribución de las medias muestrales, de todas las posibles 
medias muestrales? 
El teorema nos dice que la media poblacional de la DMM es igual a la media de la edad del universo 
poblacional total de la variable en cuestión, en este caso edad. y esto es igual al parámetro, 
porque si saco todas las posibles muestras es como tener la población. 
Que en promedio todas las muestras den el parámetro implica que las muestras sean insesgadas, 
por más que tengan error, en promedio pegan en el parámetro de forma que no tienen 
sesgo. (Esto funciona tambien para las desviaciones estándar, pero no es tema de la 
materia, la única diferencia es que no se distribuye normalmente). 
2. La distribución de medias muestrales se distribuye, tiene forma normal. Esta variable DMM, 
si yo la graficara y después le hiciera un histograma este tendría una forma normal. Que 
significa esto en términos sustantivos que las medias muestrales se distribuyan en torno al 
parámetro de forma normal, es que a medida que me aleje del parámetro disminuye la 
probabilidad de tener una muestra ahí. Esto se ve porque cuanto más me alejo del 
parámetro la curva normal desciende de forma que descienden las muestras. Como la curva 
normal es asintótica al eje x sabemos que las muestras a un punto disminuyen tanto que no 
hay forma de tener muestras mas allá de determinado margen de error. 
3. La desviación estándar de las medias muestrales respecto de las desviaciones estándar de la 
variable (de la edad) es menor. Dado que la variable distribución de medias muestrales es 
muy pequeña, ya que al ser muchas medias muestrales de una variable se alejan del 
parámetro muy poco precisamente porque son medias de muestras de la edad una misma 
población. mientras que la desviación estándar de la variable edad es muy grande, 
alrededor de 20, tiene una variabilidad muy grande. 
Cuanto más chicas sean las muestras más desviación estándar habrá en la variable DMM pero 
seguirá siendo menor esta desviación estándar a la desviación estándar de la variable. 
4. La desviación estándar de las medias muestrales es igual a la desviación estándar de la edad, 
dividiendo por el número de casos. Cuanto más grande sea el N menor será la desviación 
estándar, más chica va a ser la dispersión de las medias muestrales en torno al parámetro. 
Esto es el error estándar de la media, o error muestral, es una formula desviaciones 
estándar de la variable que uno quiere medir divido la raíz cuadrada del número de casos. 
Clase 12/9. 
REPASO de lo planteado en las últimas dos clases: 
Hay un parámetro que queremos estimar, que es un parámetro poblacional que hablamos en forma singular. Como 
no conocemos el parámetro poblacional hacemos un estudio. Paralelamente a este único parámetro poblacional 
puede imaginarme un proceso por el cual se toman muchas muestras grandes y aleatorias para que sea 
representativa que tendrán diferentes medias. Se pueden sacar infinitas medias muestrales de diferentes muestras. 
El teorema del límite central habla de una variable, de la variable distribución de medias muestrales. LA CLAVE PARA 
ENTENDER EL TEOREMA DEL LIMITE CENTRAL ES ENTENDER QUE HABLA DE LA VARIABLE DISTRIBUCION DE MEDIAS 
MUESTRALES. El único supuesto del teorema es tener una muestra aleatoria de cualquier tamaño, no 
necesariamente grande. Sobre esta variable el teorema dice cuatro cosas: 
- Que la media de la distribución de medias muestrales es igual a la media de la variable que estamos 
estimando. En el caso de clase es la edad. La media de la distribución de medias muestrales es igual 
al parámetro poblacional. Cada media de cada muestra particular no da igual al parámetro 
poblacional, pero el promedio de todas estas ósea la media de la distribución de medias muestrales 
es igual al parámetro. 
- La distribución de medias muestrales es normal. Si hago un histograma de estas miles de 
estimaciones muestrales tiene forma normal con media en el parámetro, lo cual significa que hay 
más medias muestrales cercas del parámetro y disminuyen a medida que se alejan de este. 
- La desviación estándar de la variable distribución de medias muestrales es respecto de la desviación 
estándar de la variable (en este caso edad) es más chica. Porque la edad es una variable que varía 
entre 0 y 110, mientras que las medias muestrales de la edad varíanentre un poco menos y un 
poco más que 32.

Otros materiales