Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
ESTADÍSTICA INFERENCIAL Luis Ramón Barrios Roqueme ESTADÍSTICA INFERENCIAL Introducción Cuando las poblaciones son generalmente muy grandes como para ser estudiadas en su totalidad, por cuestiones de costo, tiempo u otros factores que influyan en la recolección de los datos, se requiere de la selección de muestras de dicha población. Población Muestra Por consiguiente, se utilizan las muestras para inferir (hacer inferencia) en la población considerada. En este sentido, la Estadística inferencial consiste en los métodos utilizados para la toma de decisiones o para sacar conclusiones acerca de una población a partir de la muestra seleccionada. ESTADÍSTICA INFERENCIAL Introducción Se puede dividir la estadística inferencial en tres grandes áreas: ✓ Estimación de parámetros que consiste es encontrar las función basada en una muestra que se aproximen lo más posible a una o varias características poblacionales de interés. ✓ Estimación por intervalos que consiste en encontrar los extremos de intervalos con funciones basadas en la muestra el cual contenga la mayor información posible de una o varias características poblacionales. ✓ Pruebas de hipótesis que trata de verificar si una cierta afirmación acerca de la distribución de una población puede considerarse como válida basándose en una muestra observada. ESTADÍSTICA INFERENCIAL Conceptos básicos Población: Una población es la colección completa o conjunto de objetos cuyo interés para el investigador es realizar inferencia sobres ciertas características comunes de los elementos de estudio en el conjunto. Unidad observacional: Es la unidad objeto de estudio de interés para el investigador de la cual puede obtener algunas características para hacer inferencia. Parámetro: Un parámetro es un cantidad calculada que caracteriza o representa la población de interés. Los parámetros serán denotados de manera general como 𝜃. Muestra: Una muestra es un subconjunto que es representativo de la población y sirve para inferir en la población. ESTADÍSTICA INFERENCIAL Conceptos básicos Muestra aleatoria: Una muestra aleatoria de tamaño n es un conjunto constituido por n variables aleatorias independientes e idénticamente distribuidas 𝑋1, 𝑋2,…, 𝑋𝑛. Taño muestral: A n se le llama tamaño de la muestra o tamaño muestral y corresponde al número de elementos constituidos en la muestra. Estadística o estimador: Una estadística T es una función de variables aleatorias que no depende de ningún parámetro, pero es utilizada para estimar los parámetros desconocidos 𝜃 o funciones del parámetro 𝑔(𝜃). Estimador puntual: Las realizaciones del estimador a partir de “una muestra seleccionada” se estimaciones o estimadores puntuales denotados como t. ESTADÍSTICA INFERENCIAL Estimaciones puntuales El objetivo fundamental de la estimación puntal es encontrar estimadores para la estimación de parámetros desconocidos 𝜃 o una función de los parámetros 𝑔(𝜃). Ejemplo: Se desea estimar gasto de alimentación diaria promedio de los hogares colombianos en los estratos 1 y 2. Si se selecciona una muestra aleatoria de 10 hogares y los resultados en miles de pesos son: 10, 25, 30, 35, 30, 40, 35, 50, 15, 28. ത𝑋 = σ𝑖=1 𝑛 𝑥𝑖 𝑛 = 10 + 25 +⋯+ 28 10 = 29.8 Es decir, el gasto promedio en alimentación diaria de los hogares colombianos en estratos 1 y 2 es de $29800 ESTADÍSTICA INFERENCIAL Estimaciones puntuales Según la definición de estimador, cualquier estadística se puede considerar como un estimador del parámetros desconocido 𝜃 o de una función de este 𝑔(𝜃). Ejemplo: Se desea estimar gasto de alimentación diaria promedio de los hogares colombianos en los estratos 1 y 2. Si se selecciona una muestra aleatoria de 10 hogares y los resultados en miles de pesos son: 10, 25, 30, 35, 30, 40, 35, 50, 15, 28. Ahora consideremos la estadística: 𝑋𝑚á𝑥 − 𝑋𝑚í𝑛 2 = 50 − 10 2 = 20 Es decir, el gasto promedio en alimentación diaria en estratos 1 y 2 es de $20000 y también parece una estimación aceptable. ¿Qué otra estadística propone?, ¿Cuál es el mejor estimador? ESTADÍSTICA INFERENCIAL Estimaciones puntuales Nombre Parámetro 𝜽 Estimador puntual Total: 𝑡𝑋 = 𝑖=1 𝑁 𝑋𝑖 Ƹ𝑡𝑋 = 𝑖=1 𝑛 𝑋𝑖 Promedio: 𝜇𝑋 = σ𝑖=1 𝑁 𝑋𝑖 𝑁 ො𝜇𝑋 = ത𝑋 = σ𝑖=1 𝑛 𝑋𝑖 𝑛 Varianza: 𝜎𝑋 2 = σ𝑖=1 𝑁 𝑋𝑖 − 𝜇𝑋 2 𝑁 ො𝜎𝑋 2 = 𝑆𝑋 2 = σ𝑖=1 𝑛 𝑋𝑖 − ത𝑋 2 𝑛 Algunos parámetros y sus respectivos estimadores puntuales para una variable aleatoria X son los siguientes: ESTADÍSTICA INFERENCIAL Algunos métodos de estimación puntual Método de máxima verosimilitud El método de estimación máxima verosimilitud (traducido del inglés: Maximum Likelihood estimator) es uno de los métodos más difundidos y quizás uno de los más utilizados para estimación de parámetros. Aunque este método fue concebido y empleado por Gauss, se debe realmente al británico Fisher quien lo hizo público en la primera década del siglo XX. La idea de este método se basa en encontrar el valor de 𝜃 o de 𝑔(𝜃) que maximiza la probabilidad de observar la muestra 𝑥1, 𝑥2, … , 𝑥𝑛. ESTADÍSTICA INFERENCIAL Algunos métodos de estimación puntual Método de máxima verosimilitud Función de verosimilitud: Dadas n variables aleatorias 𝑋1, 𝑋2, … , 𝑋𝑛 la función de verosimilitud se define como la función de densidad conjunta de las n variables, denotada y expresada: 𝐿 𝑥1, 𝑥2, … , 𝑥𝑛, 𝜃 = 𝑓 𝑥1, 𝜃 ∙ 𝑓 𝑥2, 𝜃 ∙∙∙ 𝑓 𝑥𝑛, 𝜃 =ෑ 𝑖=1 𝑛 𝑓(𝑥𝑖 , 𝜃) Donde f es la función de densidad común para las n variables. No obstante, dada la función de verosimilitud, el método de máxima verosimilitud para un parámetro 𝜃 consiste en encontrar el valor de 𝜃 que maximice esta función, este será el estimador de máxima verosimilitud de 𝜃 y lo denotaremos como 𝜃𝑀𝑉 . ESTADÍSTICA INFERENCIAL Algunos métodos de estimación puntual Método de máxima verosimilitud Ejemplo 1: El instituto nacional de salud (INS) necesita conocer el número de casos por COVID-19 en ocupación de UCI que ocurren diariamente en 15 de los 32 departamentos de Colombia donde los resultados de un día cualquiera son 1, 1, 3, 3, 4, 7, 5, 5, 5, 3, 2, 1, 1, 9, 6. • Si denotamos el números de ocupación de UCI que ocurren diariamente en un departamento de Colombia por X, entonces, • 𝑋 ≔ {0,1,2, 3, … }, por consiguiente, • una distribución apropiada para X puede ser la distribución de 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜃) • Luego, la estimación de máxima verosimilitud para 𝜃 es el promedio muestral, veamos: ESTADÍSTICA INFERENCIAL Algunos métodos de estimación puntual Método de máxima verosimilitud Ejemplo 1.1: Dada una muestra aleatoria 𝑋1, 𝑋2, … , 𝑋𝑛 con distribución 𝑃𝑜𝑖𝑠(𝜃), el estimador de máxima verosimilitud de 𝜃 es el promedio muestral ത𝑋. Para verificar esta afirmación se calcula primero la función de verosimilitud: 𝐿 𝑥1, 𝑥2, … , 𝑥𝑛, 𝜃 = 𝑓 𝑥1, 𝜃 ∙ 𝑓 𝑥2, 𝜃 ∙∙∙ 𝑓 𝑥𝑛, 𝜃 = 𝑒−𝜃𝜃𝑥1 𝑥1! ∙ 𝑒−𝜃𝜃𝑥2 𝑥2! ∙∙∙ 𝑒−𝜃𝜃𝑥𝑛 𝑥𝑛! = 𝑒−𝑛𝜃𝜃σ𝑖=1 𝑛 𝑥𝑖 ς𝑖=1 𝑛 𝑥𝑖! ESTADÍSTICA INFERENCIAL Algunos métodos de estimación puntual Método de máxima verosimilitud Ejemplo 1.1: (Zhang H. & Gutiérrez H.) Dada una muestra aleatoria 𝑋1, 𝑋2, … , 𝑋𝑛 con distribución 𝑃𝑜𝑖𝑠(𝜃), el estimador de máxima verosimilitud de 𝜃 es el promedio muestral ത𝑋. Encontrar el valor de 𝜃 que maximiza la anterior expresión de 𝐿 𝑥1, 𝑥2, … , 𝑥𝑛, 𝜃 es equivalente a maximizar 𝑒−𝑛𝜃𝜃σ𝑖=1 𝑛 𝑥𝑖 , pues es la parte que depende de 𝜃. Ahora encontrar el valor que máxima una función es equivalente a encontrar el valor que maximiza el logaritmo natural de esta función, pues la función logaritmo natural es creciente. Por consiguiente, basta en encontrar el valor de 𝜃 que maximiza 𝐿′ 𝜃 = 𝑙𝑛 𝑒−𝑛𝜃𝜃σ𝑖=1 𝑛 𝑥𝑖 = −𝑛𝜃 + ln(𝜃) 𝑖=1 𝑛 𝑥𝑖 ESTADÍSTICA INFERENCIAL Algunos métodos de estimación puntual Método de máxima verosimilitud El espacio muestral dela distribución de 𝑃𝑜𝑖𝑠(𝜃) es (0,∞) y 𝐿′(𝜃) es función derivable, entonces para hallar el máximo de la función se debe resolver 𝜕𝐿´(𝜃) 𝜕𝜃 = 0. 𝜕𝐿´(𝜃) 𝜕𝜃 = −𝑛 + 1 𝜃 𝑖=1 𝑛 𝑥𝑖 = 0 Luego tenemos que 𝜃 = σ𝑖=1 𝑛 𝑥𝑖 𝑛 con σ𝑖=1 𝑛 𝑥𝑖 ≠ 0 es la solución . Calculando la segunda derivada evaluada en la anterior solución se puede garantizar que 𝜃 maximiza la función de verosimilitud: อ 𝜕2𝐿´(𝜃) 𝜕𝜃2 𝜃= σ𝑖=1 𝑛 𝑥𝑖 𝑛 = − ቤ σ𝑖=1 𝑛 𝑥𝑖 𝜃2 𝜃= σ𝑖=1 𝑛 𝑥𝑖 𝑛 = − 𝑛2 σ𝑖=1 𝑛 𝑥𝑖 ESTADÍSTICA INFERENCIAL Algunos métodos de estimación puntual Método de máxima verosimilitud Retomando el Ejemplo 1: • Si denotamos el números de ocupación de UCI que ocurren diariamente en un departamento de Colombia por X, entonces, • 𝑋 ≔ {0,1,2, 3, … }, por consiguiente, • una distribución apropiada para X puede ser la distribución de 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜃) • Luego, la estimación de máxima verosimilitud para 𝜃 es el promedio muestral, 𝜃 = ത𝑋 = σ𝑖=1 𝑛 𝑥𝑖 𝑛 = 1 + 3 +⋯+ 6 15 = 3.73 Código en R: x<- c(1, 1, 3, 3, 4, 7, 5, 5, 5, 3, 2, 1, 1, 9, 6) mean(x) ESTADÍSTICA INFERENCIAL Algunos métodos de estimación puntual Método de Máxima verosimilitud Ejemplo 2. Suponga que una fábrica de vidrios, tiene una línea de producción de láminas de vidrio templado de grosor de 3 cm. Para controlar la calidad de los vidrios de esta línea, se seleccionan 12 láminas para inspección, estas 12 láminas midieron (en cm) 3.56, 3.36, 2.99, 2.71, 3.31, 3.68, 2.78, 2.95, 2.82, 3.45, 3.42, 3.15. Estos datos son, aparentemente, continuos y podemos pensar que ellos están distribuidos de forma normal. Por lo tanto, podemos estimar el grosor promedio de las láminas de esta línea como ො𝜇𝑀𝑉 = ҧ𝑥 = 3.18 𝑐𝑚 y la varianza estimada en este caso es ො𝜎𝑀𝑉 2 = 𝑠𝑛 2 = 0.097 𝑐𝑚2, de donde ො𝜎𝑀𝑉 = 0.31 𝑐𝑚. grosor<- c(3.56, 3.36, 2.99, 2.71, 3.31, 3.68, 2.78, 2.95, 2.82, 3.45, 3.42, 3.15) n<- length(grosor) Xbar<- mean(grosor) s2n<- (n-1)*var(grosor)/n sn<- sqrt(s2n) ESTADÍSTICA INFERENCIAL Algunos métodos de estimación puntual Método de Máxima verosimilitud # Ingreso de datos y librerías library(ggplot2) library(car) grosor<- c(3.56, 3.36, 2.99, 2.71, 3.31, 3.68, 2.78, 2.95, 2.82, 3.45, 3.42, 3.15) # Histograma de los datos df<- data.frame(grosor) ggplot(df, aes(x=grosor)) + geom_histogram(bins=5, color="white", fill="forestgreen") # Gráfico Quantil-Quantil qqPlot(grosor, pch = 16, col = 'forestgreen', main = "NORMAL Q-Q PLOT", id = F ) # Prueba normalidad: Shapiro-Wilk shapiro.test(grosor) Shapiro-Wilk normality test data: grosor W = 0.94204, p-value = 0.5249 ESTADÍSTICA INFERENCIAL Algunos métodos de estimación puntual Método de Máxima verosimilitud Ejemplo 3. Retomando el ejemplo 2, donde se disponía una muestra de 12 láminas de vidrio templado. Ahora suponga que se selecciona una muestra de 10 láminas de la misma línea de producción con grosor 3.56, 3.17, 2.98, 2.95, 3.03, 2.87, 3.58, 3.73, 2.83 y 3.43. Dado que las dos muestras son productos de una misma línea de producción, entonces podemos afirmar que las dos muestras provienen de una misma distribución normal 𝑁 𝜇, 𝜎2 . ¿Cómo es posible estimar el grosor promedio y la desviación estándar de esta línea de producción? ESTADÍSTICA INFERENCIAL Algunos métodos de estimación puntual Método de Máxima verosimilitud Resultado 1. Suponga que se tienen dos muestras aleatorias independientes 𝑋1, 𝑋2, … , 𝑋𝑛1 y 𝑋1, 𝑋2, … , 𝑋𝑛2 provenientes de 𝑁 𝜇1, 𝜎1 2 y 𝑁 𝜇2, 𝜎2 2 , respectivamente. A continuación se presentan dos casos de estimación del promedio y la varianza conjunta para las dos muestras aleatorias utilizando el método de estimación por máxima verosimilitud. ESTADÍSTICA INFERENCIAL Algunos métodos de estimación puntual Método de Máxima verosimilitud Caso 1. Suponga que se tienen dos muestras aleatorias independientes 𝑋1, 𝑋2, … , 𝑋𝑛1 y 𝑋1, 𝑋2, … , 𝑋𝑛2 provenientes de la misma distribución normal 𝑁 𝜇, 𝜎2 , esto es 𝜇1 = 𝜇2 = 𝜇 y 𝜎1 2 = 𝜎2 2 = 𝜎2. Entonces mediante el proceso de estimación de máxima verosimilitud para 𝜇 y 𝜎2 se tiene que: Ƹ𝜇𝑀𝑉 = σ𝑖=1 𝑛1 𝑋𝑖 +σ𝑗=1 𝑛2 𝑋𝑗 𝑛1 + 𝑛2 , y ො𝜎𝑀𝑉 2 = σ𝑖=1 𝑛1 𝑋𝑖 − Ƹ𝜇𝑀𝑉 2 +σ𝑗=1 𝑛2 𝑋𝑗 − Ƹ𝜇𝑀𝑉 2 𝑛1 + 𝑛2 , ESTADÍSTICA INFERENCIAL Algunos métodos de estimación puntual Método de Máxima verosimilitud Caso 2. Suponga que se tienen dos muestras aleatorias independientes 𝑋1, 𝑋2, … , 𝑋𝑛1 y 𝑋1, 𝑋2, … , 𝑋𝑛2 provenientes de distribuciones normales con la misma esperanza, pero varianzas diferentes, esto es 𝜇1 = 𝜇2 = 𝜇 y 𝜎1 2 ≠ 𝜎2 2. Supongamos 𝜎1 2 y 𝜎2 2 son conocidas y mediante el proceso de estimación de máxima verosimilitud para 𝜇 y 𝜎2 se tiene que: Ƹ𝜇𝑀𝑉 = 𝑛1 ത𝑋1+𝑛2 ത𝑋2 𝜎1 2 𝜎2 2 𝑛1+𝑛2 𝜎1 2 𝜎2 2 y ො𝜎𝑀𝑉 2 = σ 𝑖=1 𝑛1 𝑋𝑖− ത𝑋1 2+σ𝑗=1 𝑛2 𝑋𝑗− ത𝑋2 2 𝑛1+𝑛2 = 𝑛1−1 𝑆1 2+ 𝑛2−1 𝑆2 2 𝑛1+𝑛2 ESTADÍSTICA INFERENCIAL Algunos métodos de estimación puntual Método de Máxima verosimilitud Ejemplo 4. Retomando el ejemplo 2, suponga que hay en total, dos líneas de producción de láminas de vidrio templado de 3 cm y además por ajuste inapropiado de temperatura la línea A tiene una desviación estándar de 0.6 cm, mucho mayor que la línea B cuya desviación estándar es 0.3 cm. Si se desea estimar el grosor promedio de las láminas de vidrio del grosor nominal de 3 cm, se debe seleccionar una muestra de las láminas de la línea A, y una muestra de la línea B. Suponga que el grosor de 10 láminas de cada línea corresponde a 3.80, 2.81, 2.98, 2.97, 3.69, 2.77, 3.08, 2.98, 2.37, 3.00 y 2.87, 3.48, 2.65, 3.38, 2.75, 2.99, 2.81, 2.54, 2.84, 2.79, respectivamente. Estime el grosor promedio de las láminas de vidrio y su desviación estándar. ESTADÍSTICA INFERENCIAL Algunos métodos de estimación puntual Otros métodos de estimador de parámetros: • Método de los momentos • Métodos de mínimos cuadrados ESTADÍSTICA INFERENCIAL Propiedades de los estimadores puntuales Error cuadrático medio Ejemplo 5: Consideremos la siguiente situación. Suponga que para estimar un parámetro 𝜃, se disponen de tres estimadores 𝑇1, 𝑇2 y 𝑇3, suponga además que las respectivas estimaciones e 7 muestras observadas de la población son: Muestra T1 T2 T3 1 4.1 5.5 5.1 2 4.3 5.6 5.0 3 5.6 5.4 4.8 4 5.3 5.5 4.9 5 4.5 5.4 5.2 6 4.7 5.6 5.0 7 5.7 5.5 4.9 Promedio 4.88 5.5 4.99 Desviación 0.64 0.08 0.13 ESTADÍSTICA INFERENCIAL Propiedades de los estimadores puntuales Error cuadrático medio Suponga que el valor verdadero de 𝜃 es 5, ¿Cuál estimador es mejor dadas las anteriores estimaciones? • Los valores que toma 𝑇1 en promedio están cerca de 5, pero estos están muy alejados entre sí, es decir, tienen una dispersión grande. • Los valores que toma 𝑇2 están alrededor de 5.5 muy por encima del valor verdadero de 𝜃, esta situación se llama sobreestimación. • Los valores que toma 𝑇3, en primer lugar, están al rededor del 5, además una dispersión pequeña. Lo anterior indica que en todas las muestras, el valor de 𝑇3 está cercano del valor de 𝜃 y podemos concluir que es el mejor estimador de los tres. ESTADÍSTICA INFERENCIAL Propiedades de los estimadores puntuales Error cuadrático medio La anterior situación nos ilustra que un buen estimador 𝑇 debe tener dos propiedades 1. Los valores que toma 𝑇 en promedio deben ser cercanos al parámetro 𝜃. Teniendo en cuenta la esperanza de una variable aleatoria, podemos concluir que 𝑇 debe cumplir con 𝐸 𝑇 = 𝜃. 2. La varianza de 𝜃 debe ser pequeña. ESTADÍSTICA INFERENCIAL Propiedades de los estimadores puntuales Error cuadrático medio Sesgo: Dada una muestra aleatoria 𝑋1, 𝑋2, … , 𝑋𝑛 proveniente de una distribución con parámetro desconocido 𝜃, y se T un estimador de 𝜃, se define el sesgo de T como 𝐵𝑇 = 𝐸 𝑇 − 𝜃 Cuando 𝐵𝑇 = 0 o equivalente a 𝐸 𝑇 = 𝜃, se dice que el estimador T es insesgado para 𝜃. Cuando𝐵𝑇 > 0 o equivalente a 𝐸 𝑇 > 𝜃, se dice que T sobreestima a 𝜃. Análogamente se dice que T subestima a 𝜃 cuando 𝐵𝑇 < 0 o equivalente a 𝐸 𝑇 < 𝜃. ESTADÍSTICA INFERENCIAL Propiedades de los estimadores puntuales Error cuadrático medio Ejemplo 6: Calcular el sesgo para cada estadística de la situación presente en el ejemplo 5, considere que 𝜃 = 5. • 𝐵𝑇1 = 𝐸 𝑇1 − 𝜃 = 4.88 − 5 = −0.12 • 𝐵𝑇2 = 𝐸 𝑇2 − 𝜃 = 5.5 − 5 = 0.5 • 𝐵𝑇3 = 𝐸 𝑇3 − 𝜃 = 4.99 − 5 = −0.01 • En conclusión, es más probable que 𝑇3 sea un mejor estimador para 𝜃 = 5. ESTADÍSTICA INFERENCIAL Propiedades de los estimadores puntuales Error cuadrático medio ECM: Dada una muestra aleatoria 𝑋1, 𝑋2, … , 𝑋𝑛 proveniente de una distribución con parámetro desconocido 𝜃, y se T un estimador de 𝜃, se define el Error Cuadrático Medio (ECM) de T como 𝐸𝐶𝑀𝑇 = 𝑉𝑎𝑟 𝑇 + 𝐵𝑇 2 Entonces, un buen estimador debe tener el error cuadrático medio pequeño, para las estimadores insesgados, se requiere que la varianza sea pequeña. ESTADÍSTICA INFERENCIAL Propiedades de los estimadores puntuales Error cuadrático medio Ejemplo 6: Calcular el ECM para cada estadística de la situación presente en el ejemplo 5, considere que 𝜃 = 5. • 𝐸𝐶𝑀𝑇1 = 𝑉𝑎𝑟 𝑇1 + 𝐵𝑇1 2 = 0.642 + (−0.12)2= 0.424 • 𝐸𝐶𝑀𝑇2 = 𝑉𝑎𝑟 𝑇2 + 𝐵𝑇2 2 = 0.082 + (0.5)2= 0.2564 • 𝐸𝐶𝑀𝑇3 = 𝑉𝑎𝑟 𝑇3 + 𝐵𝑇3 2 = 0.132 + (−0.01)2= 0.017 • En conclusión, es más probable que 𝑇3 sea un mejor estimador para 𝜃 = 5. ESTADÍSTICA INFERENCIAL Teorema Central del Límite Sea 𝑋1, 𝑋2, … , 𝑋𝑛 una sucesión de variables aleatorias independientes e igualmente distribuidas (i.i.d) con media 𝜇 y varianza finita y positiva 𝜎2. Sea 𝑋 = σ𝑖=1 𝑛 𝑋𝑖, entonces la variable aleatoria 𝑍𝑛 = 𝑋 − 𝑛𝜇 𝜎 𝑛 = 𝑛 ത𝑋 − 𝜇 𝜎 = ത𝑋 − 𝜇 𝜎/ 𝑛 está, aproximadamente distribuida normal con media 0 y varianza 1 Nota: El Teorema Central del Límite puede ser aplicado a la mayoría de las distribuciones clásicas como, por ejemplo: distribución binomial, distribución Poisson, binomial negativa, gamma, Weibull, etc. pues ellas satisfacen las hipótesis del teorema. Sin embargo, no puede ser aplicado a la distribución Cauchy pues ella no satisface las condiciones dadas en éste. ESTADÍSTICA INFERENCIAL Teorema Central del Límite Ejemplo: Ejemplo: Un elevador de carga grande puede transportar un máximo de 5000 kg. Supóngase que una carga, que contiene 45 cajas, se debe transportar mediante el elevador. La experiencia ha demostrado que el peso 𝑋, de una caja de este tipo de carga, se ajusta a una distribución de probabilidad con una media de 𝜇 = 100 kg y una desviación estándar de 𝜎 = 27.5 kg. Calcular la probabilidad de que las 45 cajas se puedan transportar simultáneamente en el elevador. ESTADÍSTICA INFERENCIAL Teorema Central del Límite Si denotamos el peso de cada caja por 𝑋𝑖 y se sabe que 𝑋𝑖~𝑁(𝜇 = 100, 𝜎 = 27.5), 𝑖 = 1,2, … , 𝑛. Sea 𝑋 = σ𝑖=1 𝑛 𝑋𝑖 el peso total de las cajas, entonces, se desea encontrar 𝑃 𝑋 ≤ 5000 . Por TCL tenemos que: 𝑃 𝑋 ≤ 5000 = 𝑃 𝑋 − 𝑛𝜇 𝜎 𝑛 ≤ 5000 − 45(100) 27.5 45 = 𝑃 𝑍𝑛 ≤ 2.71 = 0.9966 Código en R: X<- 5000 n<- 45 mu<- 100 sig<- 27.5 Zn<- (X-n*mu)/(sig*sqrt(n)) pnorm(Zn) ESTADÍSTICA INFERENCIAL Teorema Central del Límite Ejemplo: Muchos insumos de producción, como el mineral de hierro, el carbón y el azúcar sin refinar, se muestrean, para determinar su calidad, por un método que implica la toma periódica de muchas pequeñas muestras cuando el material se mueve sobre una banda transportadora. Posteriormente las muestras pequeñas se juntan y mezclan para formar una muestra compuesta. Sea 𝑌𝑖 el volumen de la 𝑖 − é𝑠𝑖𝑚𝑎 muestra pequeña de un lote particular y supóngase que 𝑌1, 𝑌2, … , 𝑌𝑛 es una muestra aleatoria, en donde cada 𝑌𝑖 tiene media 𝜇 (en pulgadas cúbicas) y varianza 𝜎 2. El volumen promedio de las muestras, 𝜇, se puede regular ajustando el tamaño del equipo que se utiliza para el muestreo. Supóngase que la varianza de los volúmenes de las muestras, 𝜎2, es, aproximadamente, 4 para una situación particular. Se requiere que el volumen total de la muestra exceda las 200 pulgadas cúbicas con una probabilidad de 0.95 cuando se seleccionan 𝑛 = 50 muestras pequeñas. Determinar el ajuste de 𝜇 que permitirá satisfacer los requerimientos del muestreo. ESTADÍSTICA INFERENCIAL Teorema Central del Límite Si denotamos la medida en pulgadas cúbicas de cada muestra por 𝑋𝑖 y se sabe que 𝑋𝑖~𝑁(𝜇, 𝜎 = 2), 𝑖 = 1,2, … , 𝑛 = 50. Sea 𝑋 = σ𝑖=1 𝑛 𝑋𝑖 medidad total de las muestras, entonces, se desea encontrar 𝜇, tal que 𝑃 𝑋 > 200 = 0.95. Por TCL tenemos que: 𝑃 𝑋 > 200 = 0.95 ⟹ 1 − 𝑃 𝑋 − 𝑛𝜇 𝜎 𝑛 ≤ 200 − 50𝜇 2 50 = 0.95 ⟹ 𝑃 𝑍𝑛 ≤ 200 − 50𝜇 2 50 = 0.05 ⟹ 𝑍𝑛 = 200 − 50𝜇 2 50 𝑦 𝑍𝑛 = −1.65 Igualando y despejando 𝜇 de la última ecuación obtenida, tenemos −1.65 = 200 − 50𝜇 2 50 ⟹ 𝜇 = 200 + 2 1.65 50 50 = 4.47 ESTADÍSTICA INFERENCIAL Estimación de parámetros por intervalos de confianza Dada 𝑋 una variable aleatoria de una población con fdp o fmp 𝑓(𝑥, 𝜃), caracterizada por el parámetro desconocido 𝜃. Sea también 𝑋1, 𝑋2, … , 𝑋𝑛 una muestra aleatoria de tamaño 𝑛. Los estimadores de intervalo 𝐿 = 𝑙 (𝑋1, 𝑋2, … , 𝑋𝑛) (iniciales en ingles de lower) y 𝑈 = 𝑢 (𝑋1, 𝑋2, … , 𝑋𝑛) (iniciales en ingles de upper), 𝐿 < 𝑈 basados en la muestra aleatoria, contiene al parámetro desconocido 𝜃 con una probabilidad de 1 − 𝛼, esto es, 𝑃 𝐿 ≤ 𝜃 ≤ 𝑈 = 1 − 𝛼, donde: • 1 − 𝛼 es llamada probabilidad nivel de confianza, • 𝛼 es llama probabilidad o nivel de significancia y • 𝐿, 𝑈 es llamado rango o intervalo de confianza para el parámetro desconocido 𝜃. ESTADÍSTICA INFERENCIAL Estimación de parámetros por intervalos de confianza Seleccionada la muestra 𝑋1, 𝑋2, … , 𝑋𝑛 de tamaño 𝑛 se pueden determinar los siguientes intervalos: • Intervalo de confianza para 𝜇 cuando 𝜎 es conocida: ത𝑋 − 𝑍 1− 𝛼 2 𝜎 𝑛 ≤ 𝜇 ≤ ത𝑋 + 𝑍 1− 𝛼 2 𝜎 𝑛 • Intervalo de confianza para 𝜇 cuando 𝜎 es desconocida: ത𝑋 − 𝑡𝑛−1,𝛼/2 𝑆𝑥 𝑛 ≤ 𝜇 ≤ ത𝑋 + 𝑡𝑛−1,𝛼/2 𝑆𝑥 𝑛 donde 𝑆𝑥 es la desviación estándar muestral, dada por: 𝑆𝑥 = 𝑆𝑥 2 = σ𝑖=1 𝑛 𝑋𝑖 − ത𝑋 2 𝑛 − 1 ESTADÍSTICA INFERENCIAL Estimación de parámetros por intervalos de confianza Sea 𝑆2 la varianza muestral de una muestra aleatoria de 𝑛 observaciones de una distribución normal con varianza 𝜎2 desconocida. • Intervalo de confianza para 𝜎2: (𝑛 − 1)𝑆2 𝜒𝛼 2,𝑛−1 2 ≤ 𝜎 2 ≤ (𝑛 − 1)𝑆2 𝜒 1− 𝛼 2,𝑛−1 2 donde 𝜒𝛼 2 ,𝑛−1 2 y 𝜒 1− 𝛼 2 ,𝑛−1 2 son los puntos porcentuales 100𝛼/2 superior e inferior de la distribución ji-cuadrada con 𝑛 − 1 grados de libertad, respectivamente. ESTADÍSTICA INFERENCIAL Estimación de parámetros por intervalos de confianza Sea 𝑋 una v.a. con distribución Binomial de parámetro desconocido 𝜋 y sea 𝑋1, 𝑋2, … , 𝑋𝑛 una muestra aleatoria de tamaño 𝑛. • Intervalo de confianza para 𝜋 (proporción): 𝑝 − 𝑍 1− 𝛼 2 𝑝(1 − 𝑝) 𝑛 ≤ 𝜋 ≤ ത𝑋 + 𝑍 1− 𝛼 2 𝑝(1 − 𝑝) 𝑛 donde p es la proporción muestral, dada por: 𝑝 = 𝑥 𝑛
Compartir