Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
APUNTE DE CLASE: “ELEMENTOS DE MUESTREO” - 1° de Setiembre de 2015 Bibliografía: “Elementos de la Teoría del Muestreo” del Dr. Raúl Pedro Mentz- Instituto de Investigaciones Estadística INIE de la Universidad Nacional de Tucumán- ;“Probabilidad y Estadística” Walpole-Myers-Myers-Ye; “Estadística Básica en Administración” Berenson y Levine; “Elementos de Muestreo” Scheaffer- Mendenhall - Ott 1.- Sobre Muestreo en General Para hacer más ilustrativa nuestra exposición, referiremos algunos de los conceptos que nos interesa presentar a un ejemplo práctico. PROBLEMA: Por razones de gobierno se desea conocer el ingreso total (o el ingreso promedio que es otra forma de presentar la información) de los habitantes de la provincia de Jujuy "en un momento dado", entrevistando para tal propósito a las unida- des familiares que viven en la provincia. La restricción de que la información se refiere a “un momento dado" es importante; en toda nuestra discusión éste será un supuesto permanente y solo nos interesaremos en datos que fluctúan a través del tiempo bastante más adelante. Nos conviene pensar que la población es el conjunto de ingresos totales ($) de las citadas unidades familiares. Con es- to queremos resaltar que nos interesan las mediciones de la variable "ingreso" ($) y no la entidad física "unidad fami- liar". Por ello (Walpole) damos la siguiente definición: POBLACION es la totalidad de observaciones en las que se está interesado. El número de observaciones de la población se define como el tamaño de la población y lo designamos por N. En nuestro ejemplo N será igual a la cantidad de unidades familiares al momento de realizar el estudio. El censo del año 2010 indicó que en ese momento había 174.630 unidades familiares en la provincia de Jujuy, Decimos que tenemos una población de tamaño 174.630. METODOS ALTERNATIVOS PARA REUNIR LA INFORMACION NECESARIA: (a) CENSAR: Esto es, entrevistar a todos los alumnos que cursan la materia para obtener la información de interés. (b) MUESTREAR: Entrevistar solamente a un subconjunto de los 165 alumnos. Una MUESTRA es un subconjunto de la población. El número de observaciones de la población se define como el tamaño de la población y lo designamos por N. En nuestro ejemplo N será igual a la cantidad de unidades familiares al momento de realizar el estudio. El censo del 27 de octubre de 2010 indicó que en ese momento había 174.630 unidades familiares en la provincia de Jujuy, El número de elementos de la muestra es el tamaño muestral y lo designamos por n. En realidad existen razones importantes para muestrear vs. censar, si bien existen limitaciones a la posibilidad de muestre- ar. Esquemáticamente: VENTAJAS DEL MUESTREO 1) Casos en los que siempre debe muestrearse (debido a características de la población, naturaleza del método de estudio, etc.): a) Población infinita. Ej.: el experimento de lanzar un dado indefinidamente genera una población infinita. Todas las medicio- nes de profundidad de un lago, desde cualquier posición concebible b) Población de tamaño desconocido. Ej: alguna característica medible de los animales del bosque, no los puedo censar porque no se cuantos hay. c) Muestreo destructivo. Ej: tiempo de duración de focos. 2) A menudo conviene muestrear por razones de: a) Tiempo: Oportunidad, cambios en la población.(el tiempo que se demora en la determinación de los resultados de un censo es considerable). b) Costo: El censo del 91 costó U$S 62.000.000. c) Calidad: Seguridad en la captación de los datos. DESVENTAJAS DEL MUESTREO 1) La información de una muestra no es la de la población. Se introduce un elemento más de aproximación. 2) Cuando se quiere desagregar mucho a los datos (clasificaciones cruzadas por varios atributos), la cantidad de in- formación juega un papel preponderante. Aún los censos pueden resultar insuficientes para que ciertas clasificaciones cruzadas tengan relevancia estadística. En lo sucesivo supondremos que por alguna razón de las expuestas, o por otras, ya se ha decidido tomar solo una muestra. Por ejemplo, en el caso práctico, del total de aproximadamente 174.630 (Censo 2.010) unidades familiares, se selec- cionarán 500, 1000, 1500, 2000 o una cantidad de ese orden, y a ellas solamente les preguntará por el ingreso total. 2.- SELECCIÓN DE MUESTRAS Si las inferencias de la muestra para la población han de ser válidas, es importante obtener muestras representativas de la población. a) Muestra seleccionada "por expertos": De alguna manera especial se decide la muestra que se tomará, basada en razonamientos o consideraciones de algún tipo. Ejemplos: Catadores, evaluadores de cosechas y de bosques, "familia tipo“ en ciertas encuestas económicas, etc. b) Muestra Probabilística : Es aquella en la que los elementos de la muestra se seleccionan con base en probabilida- des conocidas. b1) "Al azar o aleatorio": Con mucha frecuencia se está tentado en elegir una muestra seleccionando a los miembros más convenientes de la población. Tal procedimiento puede conducir a inferencias erróneas respecto a la mis- ma. Cualquier procedimiento de muestreo que produce inferencias que en forma consistente sobrestiman o subestiman alguna característica de la población es un procedimiento sesgado. Para eliminar cualquier posibilidad de sesgo en el procedimiento muestral, es conveniente seleccionar una muestra al AZAR o aleatoria. Las formas más sencillas de este método consiste en poner a toda la población en una urna, y extraer al azar, con re- posición o sin ella, la muestra del tamaño deseado. Es decir se pueden utilizar dos métodos básicos para seleccionar la muestra al azar: con reemplazo o sin reemplazo. Con Reemplazamiento: En este tipo de muestreo todas las muestras tienen la misma probabilidad de ser selecciona- das y todas las unidades de la población tienen la misma probabilidad de ser seleccionadas para formar parte de la muestra. Formalmente coincide con el muestreo de poblaciones infinitas, ya que al devolver a la población cada elemento extraído de la misma, una vez anotada su característica, la población es inagotable y el resultado de la extracción de cada elemento, indepen- diente de los anteriores a él. Sin Reemplazamiento: En este tipo de muestreo cada una de las n N muestras, tiene la misma probabilidad de ser escogida. Como en el método anterior todas las unidades de la población tienen la misma probabilidad de ser extraídas, pero si la población es finita, la probabilidad de que salga un elemento dependerá de los que fueron separados anteriormente para formar parte de la muestra y dejaron, por lo tanto, de pertenecer a los seleccionables. Algunas veces se designa a este método: muestreo irrestricto aleatorio. Si bien el nombre de muestreo aleatorio simple se ha aplicado tanto a este método como al ante- rior, nosotros lo aplicaremos a este último método (muestreo al azar sin reemplazamiento). El especialista en estadística debe establecer en forma clara el método que se utiliza, porque varias de las fórmulas empleadas para realizar inferencias estadísticas dependen del método de selección. Resulta interesante observar que ya sea que se realice el muestreo con reemplazo en poblaciones finitas o sin reemplazo en poblaciones infinitas (tal como algunos proce- sos continuos de producción) las fórmulas que se utilizan son las mismas. El muestreo “al azar” o aleatorio se utiliza cuando a priori no conocemos que elementos de la población tendrán valo- res altos de ella. Cuando dispongamos de información sobre la población, conviene tenerla en cuenta al seleccionar la muestra. Un ejem- plo clásico son las encuestas de opinión, donde los elementos son heterogéneos en razón de su sexo, edad, profe- sión, etc. Interesa en estos casos que la muestra tenga una composición análoga a la población, lo que se consigue mediante una MUESTRA ESTRATIFICADA.b.2 Se denomina MUESTREO ESTRATIFICADO aquel en que los elementos de la población se dividen en clases o estratos, y la muestra se toma asignando un número determinado de miembros a cada estrato y escogiendo por muestreo al azar dentro del estrato. Existen dos criterios básicos para dividir el tamaño total entre los estratos: a) Proporcionalmente al tamaño relativo del estrato en la población (por ejemplo si en la población hay 55% de muje- res y 45% de hombres, mantendremos esta proporción en la muestra). b) Proporcionalmente a la variabilidad del estrato: tomaremos menos elementos de estratos donde la característica tenga menos dispersión. b.3 Otro tipo de muestreo que se utiliza cuando los elementos de la población están ordenados en listas es el MUES- TREO SISTEMATICO. Supongamos que la población tiene tamaño N y se desea una muestra de tamaño n. Sea k el entero más próximo a N/n. La muestra sistemática se toma eligiendo al azar (con números aleatorios) un elemento entre los primeros k elementos de la lista. Sea n1 el orden elegido. Tomaremos a continuación los elementos n1+k; n1+2k, etc., a intervalos fijos de k hasta completar la muestra. Si el orden de los elementos en la lista es al azar, este procedimiento es equivalente al mues- treo al azar o aleatorio, aunque resulta más fácil de llevar a cabo sin errores. Si el orden de los elementos es tal que los indivi- duos próximos tienden a ser mas semejantes que los alejados, el muestreo sistemático tiende a ser más preciso que el muestreo al azar, al cubrir más homogéneamente toda la población. El muestreo sistemático puede utilizarse conjuntamente con el estratificado, para seleccionar la muestra dentro de cada estrato. b.4 Para poblaciones muy heterogéneas se utiliza el MUESTREO POLIETAPICO: para seleccionar una muestra de personas de S.S. de Jujuy podemos seleccionar por muestreo aleatorio simple barrios, después calles dentro de los barrios, luego viviendas de la calle y finalmente, el piso dentro de la vivienda, etc. La regla general que se aplica a todos los procedimientos de muestreo es que cualquier información previa debe utilizarse para subdividir la población y asegurar la mayor representatividad de la muestra. Una vez que dispone- mos de subpoblaciones homogéneas, la selección dentro de ellas debe realizarse por muestreo al azar. En todo lo que sigue SUPONDREMOS SIEMPRE que la muestra proviene de un muestreo al azar. 3.- MODELO PARA MUESTREO AL AZAR CON REPOSICION Lo que prevemos es lo siguiente: Por algún procedimiento práctico adecuado, se va a seleccionar al azar, con reposi- ción un subconjunto de tamaño n de la población y se va a preguntar a las respectivas familias sus ingresos totales, por ejemplo en el último año anterior al día del relevamiento. Designemos con x 1 , x 2 , ... , xn los números (ingresos) que se obtendrán en tal forma (muestra de tamaño n). Estos son los números que se tendrán para la posterior elaboración. Como nosotros estamos interesados en el ingreso promedio de las 174.630 familias (Censo 2010), una cosa que po- demos hacer es tomar el ingreso promedio de las n (n quizás igual a 1.500 familias entrevistadas) (1) n x x n i i 1 Ahora bien: como solo tenemos una pequeña porción de la población, queremos evaluar el verdadero valor y alcance de la medida (1). Advertimos por ejemplo que si la selección hubiera recaído en otras n familias (lo que es completamente factible, pues la selección fue hecha "al azar"), x podría fácilmente haber tomado un valor distinto. Por ejemplo nos interesa saber si podrían haberse presentado valores muy alejados del que obtuvimos, de manera que por "pura casualidad" tengamos un valor excepcionalmente alto o bajo. Para analizar todas estas cuestiones, utilizamos el hecho básico de que la selección fue hecha al azar. Vale decir utilizaremos algunas ideas de probabilidad y variables aleatorias. Primero consideremos la población INGRESOS de los habitantes. Las personas son "PORTADORAS" del ingreso. MODELO: Utilicemos el nombre genérico de X para designar a la variable o característica que se quiere investigar. (Una variable aleatoria solo requiere valores numéricos y frecuencias relativas que sumen 1). En nuestro caso X es el ingreso total de una unidad familiar. Esa variable tiene una distribución de frecuencias relativas, que muestra las proporciones de unidades familiares que tiene cada nivel de ingreso total. Por supuesto que esa distribución de frecuencias relativas es desconocida, pues de otra manera no estaríamos haciendo investigación, pero es fundamental tenerla bien presente en el análisis que estamos haciendo. Supongamos que x es un valor de X, entonces x es el ingreso de una unidad familiar. Supongamos que hay k familias con ingreso x, entonces k/ 174.630 es la proporción de familias con ingreso x. Resumiendo: LA POBLACION ES UNA VARIABLE ALEATORIA X QUE TIENE ALGUNA DISTRIBUCION DE FRE- CUENCIAS RELATIVAS (que sumen 1). En nuestro caso X es el ingreso total de una unidad familiar. Como consecuencia la distribución de X tiene una media, una varianza, etc. Podemos pensar que esas son algunas de las características (desconocidas) en que estamos interesados. En virtud del proceso de selección al azar, pensemos ahora que por cada valor de X distinto, se ponen en la urna tantas bolillas como veces ese valor aparezca en la población. Tenemos una urna con bolillas en la misma proporción que la distribución de frecuencias relativas. Consideremos ahora el problema de extraer de esa población o urna, una muestra al azar de tamaño n= 1. Proposición Fundamental: Si designamos por X1 el valor que resultará seleccionado, X1 es una variable aleatoria cuya distribución de probabilidad es la distribución de frecuencias relativas de X. Justificación: Esto es cierto porque todos los valores posibles que X1 puede tomar son todos los de la distribución de X ( todos los que están en la urna) y la probabilidad ( a priori) de cada valor x1, es la frecuencia relativa de ese valor en la población original (proporción de bolillas favorables a x1 que están en la urna) Más formalmente, el espacio muestral S (asociado a X) consta de todos los valores distintos que X puede tomar y como la selección fue hecha al azar, cada uno de esos valores tiene como probabilidad la frecuencia relativa de la distribución de X, por la regla de casos favorables sobre casos posibles. Conclusión: Si FX (x) es la función de distribución de X (frecuencias relativas acumuladas), entonces X1 tiene la misma fun- ción de distribución de probabilidad ; esto es En el ejemplo dado, esto es P(X1 ≤ 50.000) = P(X ≤ 50.000) Si X2 registra el valor que resultará seleccionado en la segunda unidad muestral, X2 es una variable aleatoria con la misma distribución de X y es INDEPENDIENTE de X1. Conclusión: Si X1,X2,...,Xn son las variables aleatorias del muestreo al azar con reposición, entonces FX i = FX para cada i = 1, 2, …, n. Esto es P( X i ≤ a ) = P( X ≤ a ) A X1,X2,...,Xn se le llama muestra aleatoria de variables aleatorias Si X1,X2,...,Xn son variables aleatorias INDEPENDIENTES cada una con la distribución de probabilidad de X, defini- mos X1,X2,...,Xn como una MUESTRA ALEATORIA de variables aleatorias de la población X. RESUMEN: En el muestreo al azar queremos distinguir entre los números que se observan al disponer de los datos (x1, x2,..., xn) y las variables aleatorias X1, X2,..., Xn que constituyen la CONTRAPARTE TEORICA de las observaciones. Con los números observados podemos hacer cálculos, gráficos etc., pero para aclarar el valor intrínseco de las obser- vaciones, y para tener en cuenta que provienen de un muestreo al azar, recurrimos al análisis de las correspondientes variables aleatorias. 4.- MUESTREO AL AZAR SIN REPOSICION (SIMPLE) Hasta X1 es lo mismo que en el modelo anterior.Proposición : Si X1,X2,...,Xn son las variables aleatorias del muestreo sin reposición de una población de tamaño N > n, y X es la variable aleatoria de la población, entonces X1,X2,...,Xn tienen marginalmente la misma distribución de X pero no son independientes. (Es así pues X2 es el valor que resultará seleccionado y hasta tanto no salga seleccionado x1 la distribución de X2 será igual a la Distribución de X). Mientras que al censar conocemos toda la distribución de X, con el muestreo al azar obtenemos información proba- bilística sobre esa distribución pues cada Xi tiene la distribución de probabilidad de X. 5.- NOTAS SOBRE MUESTREO AL AZAR a) Con reposición: teóricamente el más fácil, pues las observaciones X1, X2, ..., Xn son independientes en sentido probabilís- tico, e idénticamente distribuidas (tienen la distribución de la población). b) Sin reposición: Es el más eficiente, pues la información que da un elemento no aparece sino una sola vez. Si por ejemplo tuviésemos una población muy chica, el muestreo sin reposición rápidamente nos proporcionaría toda la información, mientras que el muestreo con reposición seguiría manteniendo ciertos niveles de probabilidad. Proposición: Aún en el caso del muestreo sin reposición, cada una de las observaciones X1, X2, ..., Xn tiene (marginalmente) la misma distribución que la población. Sin embargo las observaciones no son independientes en el sentido probabilístico. No demostraremos esta aseveración en general, sino que daremos un ejemplo para ver por qué se cumple. Ejemplo: Sea una urna con 100 bolillas de las cuales 20 están marcadas con el número uno, 30 con el dos y 50 con el tres. Analice el experimento aleatorio consistente en extraer dos bolillas al azar, con y sin reposición. Analicemos en primer lugar la v.a. poblacional X “la puntuación de una bolilla extraída al azar”. La distribución de probabilidad de X es: x P(X = x) 1 0,20 2 0,30 3 0,50 Las posibles muestras de tamaño 2 y sus respectivas probabilidades se presentan en la tabla siguiente: Caso A: Extracciones con reposición Donde P(X1 = x1, X2 = x2 ) = P(X1 = x1) P(X2 = x2 ) Caso B: Extracciones sin reposición Donde P(X1 = x1, X2 = x2 ) = P(X1 = x1) P(X2 = x2 │ X1 = x1) Como 198/990 = 0,20, 297/990 = 0,30 y 495/990 = 0,50, en este caso resulta que marginalmente los acontecimientos “1”, “2” y “3” tienen las misma probabilidades en ambos casos. Note sin embargo que el cuerpo de cada tabla es distinto y que en el caso sin reposición no hay independencia. 6.- NOTA SOBRE TERMINOLOGIA La dualidad entre los valores muestrales observados (xi ) y su contraparte teórica, las variables aleatorias Xi , hace que existan dos maneras de caracterizar a la mayoría de los elementos en juego. Para aclarar presentamos ambas formas en el cuadro si- guiente, en el que además aprovechamos para presentar algunas nuevas definiciones. D E F I N I C I O N E S Concepto En Muestreo En términos de variables aleatorias Población Conjunto de mediciones de una característica, para los individuos de un grupo bien defini- do. A menudo también la población física (per- sonas, ratones, etc.) Variable aleatoria (X) y su distribución de probabili- dad. (Nota: ver definición “alternativa” de v.a. en las notas – Claramente la variable poblacional X con- cuerda con esa definición, y es una v. a.) Muestra Subconjunto de la población Muestra al azar Conjunto de observaciones muestrales (Xi ), cada una es una variable aleatoria. Muestreo al azar Selección de una muestra con probabilidades conocidas Parámetro Cualquier característica mensurable de la población Parámetro (o función paramétrica) de la distribución de la variable aleatoria (cuando la v. a. tiene una distribución paramétrica). (1) Estadístico Característica mensurable de la muestra Función de las variables aleatorias muestrales, y por lo tanto también una v. a. (2) Algunos textos usan solamente las definiciones de la derecha, pues están destinados a elaborar la teoría estadística. (1) Cuando estudiamos las variables aleatorias presentamos los parámetros y 2 , que miden la posición central y la variabili- dad de una distribución de probabilidad. Estos son parámetros poblacionales constantes y de ninguna manera se ven afectados o influidos por las observaciones de una muestra aleatoria. Definiremos, sin embargo, algunos estadísticos (2) importantes ya estudiados en estadística descriptiva, hoy los planteamos en términos de variables aleatorias. 7.- EL CONCEPTO DE LA DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO Ya dijimos que estamos interesados en analizar el promedio observado n x x n i i 1 o la suma observada n i ix 1 , no como núme- ros dados sino tomados desde el punto de vista que las xi tienen como contraparte teórica las variables aleatorias Xi. Vale decir que queremos analizar como variables aleatorias a n X X n i i 1 , n i iX 1 , etc. Entonces en el marco de las variables aleatorias involucradas usamos la siguiente definición (2): Definición: Se llama ESTADISTICO a cualquier función de las variables aleatorias del muestreo y solo de ellas, y por lo tanto también es una variable aleatoria- U es un estadístico ↔ U = U (X1, X2, ..., Xn) Una primera observación es que estos estadísticos son también variables aleatorias, pues son transformaciones (simples o complicadas) de las variables aleatorias X1, X2, ..., Xn. Como además sabemos algo de la distribución de las Xi, podemos aspi- rar a analizar a los estadísticos (tomados como variables aleatorias) con mucho detalle. Por ejemplo, si el muestreo fue al azar con reposición, los Xi son independientes y tienen la distribución FX de la población X. Si el muestreo fue al azar sin reposición (al azar simple), los Xi tienen todavía marginalmente la misma distribución FX (de la población X), pero no son independientes. Por ser un estadístico una variable aleatoria tiene una distribución de probabilidad que se llama “Distribución muestral del estadístico”. Definición: Llamamos distribución muestral de un estadístico a su distribución de probabilidad cuando se lo considera una variable aleatoria. Ejemplos: Si x 1 , x 2 , ... , xn son los números obtenidos en el muestreo, todas las operaciones con esos números nos permiten definir es- tadísticos. x1+ x2+ … + xn= t —→ será un valor del estadístico T = X1 + X2 + ... + Xn —→ será un valor del estadístico Entonces, desde un punto de vista teórico T y son variables aleatorias cuyas distribuciones de probabilidad se llaman “Distri- bución Muestral de T” y “Distribución Muestral de ”. Problemas típicos con respecto a la distribución muestral de un estadístico: (1) Problema amplio: Dada una cierta distribución de probabilidad de la población X, deducir la distribución muestral de un estadístico. (2) Problema reducido: Dada cierta información con respecto a la distribución de probabilidad de la población X, deducir algunas partes de la distribución muestral de un estadístico, e incluso decir algo sobre toda la distribución si fuera po- sible. Por ejemplo: E(X) = , entonces satisface E( ) = Típicamente estos problemas son resueltos por la estadística matemática, los resultados se expresan en la forma siguiente: Si la v.a. poblacional X tiene una cierta distribución (específica) FX y U = U (X1, X2, ..., Xn) es un estadístico muestral función de las variables aleatorias Xi , y Xi se distribuye como X para cada subíndice i, entonces U tiene la distribución FU. 8.- OTROS ESTADÍSTICOS IMPORTANTES Si X1, X2, ..., Xn es una muestra aleatoria de v. a. (iid) son de interés, entre otros, los siguientes estadísticos ya estudiados en estadística descriptiva que miden donde se concentra la distribución muestral, su variabilidad, como así también posicionesno centrales de dicha distribución. T = X1 + X2 +...+Xn Total de la muestra Media o promedio muestral Mediana Muestral S2 Varianza muestral S = Desviación estándar muestral K = Mín (X1, X2, ..., Xn) Mínimo de la muestra M = Máx (X1, X2, ..., Xn) Máximo de la muestra R = M – K Rango muestral Estadísticos de orden: j-ésima observación de la muestra ordenada en orden creciente j 1, 2, , n ≤ ≤ ≤ ≤ Obviamente Un problema que nos ocupará es ver que podemos decir sobre la distribución muestral de y S2. Vamos a analizar estos pro- blemas cuando X es normal con parámetros y 2 , habitualmente desconocidos; cuando X es Bernoullí con parámetro p y se extraen muestras de tamaño n, etc. También nos consideraremos el caso en que tomamos dos muestras, en las que se originan los estadísticos 1 y 2, y y queremos encontrar la distribución de funciones complicadas como 1 - 2 , / , etc. En muchos casos no podremos dar el argumento matemático completo, así que nos tendremos que referir a trabajos de investi- gadores que encontraron estas distribuciones muestrales en algunos casos de interés. 9.- EJEMPLO de la CONSTRUCCION DE LA DISTRIBUCION MUESTRAL DE UN ESTADISTICO Problema: Sea una urna con 100 bolillas de las cuales 20 están marcadas con el número uno, 30 con el dos y 50 con el tres. Se extraen dos bolillas al azar con reposición. Determine: a) Distribución de probabilidad, esperanza y varianza de la población. b) Distribución de probabilidad de la muestra. a) Distribución de probabilidad, esperanza y varianza de la media muestral y de la varianza muestral. Solución: a) Denominando X a la puntuación de la bolilla extraída, la distribución de probabilidad de X es x P(X=x) 1 0,2 2 0,3 3 0,5 Calculamos su esperanza y varianza. E(X) = = 2,3 V(X) = 2 = 0,61 b) Las posibles muestras seleccionadas al azar, con reposición y sus respectivas probabilidades fueron calculadas en el ejem- plo del punto 4) Tabla A (Probabilidades Conjuntas de X1, X2) c) Veamos a continuación el valor de la media y la varianza para cada posible muestra: Muestra (x1, x2) s 2 P(X1= x1, X2= x2) (1,1) 1 0 0,04 (1,2) 1,5 0,5 0,06 (1,3) 2 2 0,10 (2,1) 1,5 0,5 0,06 (2,2) 2 0 0,09 (2,3) 2,5 0,5 0,15 (3,1) 2 2 0,10 (3,2) 2,5 0,5 0,15 (3,3) 3 0 0,25 Por lo tanto las distribuciones muestrales de la media muestral y de la varianza muestral son: P( = 1 P{(1,1)} = 0,04 1,5 P{(1,2), (2,1)}= 0,06 + 0,06 = 0,12 2 P{(1,3), (2,2), (3,1)}= 0,10 + 0,09 + 0,10 = 0,29 2,5 P{(2,3), (3,2)}= 0,15 + 0,15 =0,30 3 P{(3,3)} = 0,25 E( ) = 1∙ 0,04 + 1,5 ∙ 0,12 + 2∙ 0,29 +2,5 ∙ 0,30 + 3 ∙ 0,25 = 2,3 = E(X) E( 2 ) = 12∙ 0,04 + 1,52 ∙ 0,12 + 22∙ 0,29 +2,52 ∙ 0,30 + 32 ∙ 0,25 = 5,59 V( ) = 5,59 – 2,32 = 0,305 = = , s 2 P(S 2 = s 2 ) 0 P{(1,1), (2,2), (3,3)}= 0,04+0,09+0,25 = 0,38 0,5 P{(1,2), (2,1), (2,3), (3,2)}= 0,06 + 0,06 + 0,15 + 0,15 = 0,42 2 P{(1,3), (3,1)}= 0,10 + 0,10 = 0,20 E( 2) = 0∙ 0,38 + 0,5 ∙ 0,42 + 2∙ 0,20 = 0,61 = V(X) E( 2 ) = 02∙ 0,38 + 0,52 ∙ 0,42 + 22∙ 0,20 = 0,905 V( ) = 0,905 – 0,612 = 0,5329 Nótese que la distribución muestral de un estadístico depende de la distribución de la población, por supuesto de la fórmula definitoria del estadístico y del proceso de muestreo incluso el tamaño muestral. Si el muestreo hubiera sido sin reposición, las distribuciones podrían haber sido diferentes, por ejemplo. Estas consideraciones son válidas para la mayoría de las distribucio- nes muestrales. El alumno debe tener en cuenta que en la realidad la población nunca es conocida en forma completa, no es razonable suponer que sea tan elemental como en el ejemplo. Además debe reconocer que en la mayoría de los casos útiles no es posible deducir la distribución muestral enumerando los casos, como hicimos en el ejemplo. 10. MOMENTOS DE ALGUNAS DISTRIBUCIONES MUESTRALES El problema que tratamos es el siguiente: Sea X1, X2, … , Xn una muestra al azar de una variable aleatoria (población) X con distribución acumulada FX. Sea U = U (X1, X2, … , Xn) un estadístico, función solo de las observaciones muestrales (no depende de parámetros poblacionales, por ejemplo). Queremos encontrar momentos de U, esto es, momentos de la distri- bución muestral de U. Por ejemplo queremos saber que son E(U), E[U – E(U)] 2 = Var(U), etc. Consideramos algunos casos particulares: 10.1 Para el Caso de Muestreo al Azar Con Reposición de una población X con E(X)= , Var(X) = 2 Momentos de 1°) E( ) = E(X) = Demostración: E( ) = Notas: (1) La reposición o falta de ella no afecta este resultado, pues la clave está en la “linealidad de la esperanza matemáti- ca”. 2°) V( ) = = pues las variables son X1, X2, … , Xn son independientes por ser el muestreo con reposición. Demostración: V( ) = E [ - E( 2 = E [ – 2 = E = E = E = E 1 2 E = E = = 1 2 1 1 iǂj = 1 , 1 1 , por ser las Xi independientes iǂj = = Momentos de S 2 S 2 1°) E(S 2 ) = 2 2°) Si X es normal, V( ) = Momentos de S’ 2 S’ 2 = 1°) E(S’ 2 ) = 2 2°) Si X es normal, V( ) = 10.2 Para el Caso de Muestreo “Simple al Azar” (Sin Reposición) de una Población Finita X Los momentos de estadísticos presentados, corresponden al caso en que se muestrea con reposición. Esto es equiva- lente a considerar una población infinitamente grande, en el sentido de que no se altera por la extracción de una muestra de tamaño n, finito. Un caso distinto ocurre cuando la población es finita, de tamaño N, y extraemos una muestra al azar simple, esto es sin reposición. Ya vimos que en este caso las observaciones muestrales Xi siguen teniendo marginalmente la misma distribu- ción que X, pero que son dependientes. En consecuencia cuando calculemos momentos es necesario tener en cuenta este hecho; por ejemplo el cálculo de la varianza de que reproducimos más arriba, no es válido cuando las Xi no son indepen- dientes. Parámetros Momentos de 1°) E( ) = . Demostrado en 9.1 2°) V( ) = = . El factor es efecto de la dependencia y se llama factor de corrección por población finita (cpf) puede omitirse cuando el tamaño de la muestra es pequeño en comparación con el tamaño de la población. Criterio: La mayoría de los estadísticos no utilizan el cpf a menos que la muestra contenga más del 5% de las observaciones de la población. O sea se ignora el cpf si ≤ 0,05 Ejemplo: Una muestra de tamaño 100 de una población de tamaño N= 100.000 unidades tiene la misma precisión que una muestra de tamaño 100 de una población de tamaño N = 100.000.000 n = 100, N = 100.000 V( )= = = 0,99900999 n = 100, N = 100.000.000 V()= = = 0,99900001 Notaciones : Para el valor esperado de : E( ) o Para la varianza de : V ( ) o
Compartir