Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Facultad de Ciencias Económicas y Sociales Escuela de Estadística Métodos de Estimaciones y Pruebas de Hipótesis Apuntes de clase Lic. Juan Faustino Polanco Rivera Licenciado en Estadística, Demógrafo, Maestría en Gerencia de Proyectos, Certificado en Diseño y Evaluación de Sistemas de Compensación Gerencial, con gran experiencia en el Diseño y Administración de Sistemas de Información, Procesamiento de datos e Investigación Social y de Mercado. Profesor Universitario. Distrito Nacional. 25 de octubre 2022. VIII. MÉTODOS DE ESTIMACIONES ....................................................................................... 3 8.1. Características de un estimador: ..................................................................................................... 3 8.2. Tipos de estimación .......................................................................................................................... 3 8.2.1. Estimación puntual .................................................................................................................... 3 8.2.2. Estimación por intervalo. ........................................................................................................... 3 8.2.3. Concepto de Intervalo de Confianza. ......................................................................................... 4 8.2.4. Intervalo de confianza para un promedio de la población ........................................................... 5 8.2.5. Estimación por intervalos del valor medio en población normal................................................. 7 8.2.6. Intervalo de Confianza para varianza y la desviación estándar poblacional. ............................. 10 IX. PRUEBA DE HIPÓTESIS Y SUS APLICACIONES .............................................................. 11 9.1. Pasos básicos dela prueba de hipótesis con el método de valor crítico .......................................... 11 9.2. Tipos de pruebas de hipótesis ...................................................................................................... 13 9.2.1. La media para una muestra grande, desviación estándar Poblacional desconocida.................... 14 9.2.2. Prueba de hipótesis: dos medias poblacionales ........................................................................ 15 9.2.3. Variancia muestral combinada y estadístico de prueba ............................................................. 16 9.2.4. Pruebas de hipótesis con observaciones por pares .................................................................... 16 9.2.5. Pruebas respecto a relaciones proporcionales ........................................................................... 17 9.2.6. Prueba donde interviene la diferencia entre dos relaciones proporcionales de población .......... 18 9.2.7. Contraste sobre el cociente de varianzas .................................................................................. 19 9.2.8. Distribución Chi Cuadrado ...................................................................................................... 20 9.2.9. Diferencia entre la varianza muestral y la varianza Poblacional. .............................................. 21 9.2.10. Test de bondad de ajuste. ......................................................................................................... 21 9.2.11. La prueba chi-square de independencia. .................................................................................. 23 VIII. Métodos de Estimaciones El concepto de estimación se refiere a medidas o indicadores resultantes de datos maestrales. Si los datos corresponden a todos los elementos de la población las medidas resultantes de ellos se llaman parámetros. 8.1. Características de un estimador: Insesgado es una estadística muestral cuyo valor esperado es igual al parámetro por estimar. Imparcial. un estimador imparcial (o no sesgado) si, en promedio, tiende a tomar valores con la misma frecuencia y la misma extensión por encima o por debajo del parámetro de población que se está estiman. Eficiencia. Se refiere al tamaño del error estándar de la estadística. El de menor error estándar o la menor desviación estándar de la distribución de muestreo. Coherencia. Se aproxima al valor del parámetro de la población a medida que aumenta en tamaño de muestra. Suficiencia. Si utiliza una cantidad de información que adicionalmente ningún otro estimador muestral podría extraer sobre el parámetro de la población que se está estimando. Consistente. Su resultado mantiene una diferencia no significativa estadísticamente entre una muestra y otra. 8.2. Tipos de estimación 8.2.1. Estimación puntual Podemos hacer dos tipos de estimaciones concernientes a una población: una estimación puntual y una estimación de intervalo. Un estimador puntual es el valor numérico de una estadística muestral empleado para estimar el valor de un parámetro de la población o proceso. Ejemplo: El ingreso promedio de los hogares dominicanos es µ=26,748 pesos. 8.2.2. Estimación por intervalo. Es una expresión del rango en el cual se espera con cierto grado de probabilidad (ẞ) de que este incluido el valor del parámetro que se pretende estimar. Se pueden obtener estimaciones por intervalos para distintas medidas estadísticas, como la media aritmética, una proporción, la varianza, o cualquier otra medida obtenido a través de una muestra, para la cual se conozca su error estándar. Esta se puede expresar de la forma (a < μ < b). Siendo a y b los límites inferior y superior del intervalo, respectivamente. Ejemplo: El ingreso promedio de los hogares dominicanos oscila entre (23,698 ≤ µ ≤ 29,537) pesos. 8.2.3. Concepto de Intervalo de Confianza. En el contexto de estimar un parámetro poblacional, un intervalo de confianza es un rango de valores (calculado en una muestra) en el cual se encuentra el verdadero valor del parámetro, con una probabilidad determinada. La probabilidad de que el verdadero valor del parámetro se encuentre en el intervalo construido se denomina nivel de confianza, y se denota β = 1-α. La probabilidad de equivocarnos se llama nivel de significancia y se simboliza α. Por lo general α varía entre (0.01< α < 0.10) y β varía entre (0.90< β < 0.99). Por lo tanto β + α = 1. Generalmente se construyen intervalos con un nivel de confianza 1- α =0.95 o con un nivel de significancia α =0.05. Los intervalos conα =10% oα =1% son menos frecuentes. Para construir un intervalo de confianza, se puede comprobar que la distribución Normal Estándar en la cual se cumple que: P (-1.96 < z < 1.96) = 0.95 Esto se puede comprobar con una tabla de probabilidades o un programa computacional que calcule las probabilidades de una función normal. Si una variable X tiene distribución normal N(µ,s), donde µ es el promedio y s es la desviación estándar, en este caso se cumple que el 95% de las muestras tamaño n se cumple: También -1.96 ≤ (X- ) / s ≤ 1.96 El resultado es un intervalo de confianza que incluye alel 95% de las veces. Es decir, es un intervalo de confianza al 95% para la media cuando la variable X es normal y es conocido. _ X =ΣXi / n Despejando en la ecuación se tiene: 8.2.4. Intervalo de confianza para un promedio de la población Generalmente, cuando se quiere construir un intervalo de confianza para la media poblacional, la varianza poblacional es desconocida, por lo que el intervalo para construido al final de II es muy poco práctico. Si en el intervalo se reemplaza la desviación estándar poblacional por la desviación estándar muestral, el intervalo de confianza toma la forma: De lo cual se obtendrá el intervalo de confianza: Si no se conoce y n es grande (habitualmente se toma n ≥ 30) ,donde s es la desviación típica de una muestra Haciendo operaciones es posible despejar para obtener el intervalo: La cual es una buena aproximación para el intervalo de confianza de 95% para con desconocido. Esta aproximación es mejor en la medida que el tamaño muestral sea grande. Cuando el tamaño muestral es pequeño, el intervalo de confianza requiere utilizar la distribución t de Student (con n-1 grados de libertad, siendo n el tamaño de la muestra), en vez de la distribución normal (por Ejemplo:, para un intervalo de 95% de confianza, los límites del intervalo ya no serán construidos usando el valor 1,96). Ejemplo: 1: Los siguientes datos son los puntajes obtenidos para 45 personas de una escala de depresión (mayor puntaje significa mayor depresión). 2 5 6 8 8 9 9 10 11 11 11 13 13 14 14 14 14 14 14 15 15 16 16 16 16 16 16 16 16 17 17 17 18 18 18 19 19 19 19 19 19 19 19 20 20 Para construir un intervalo de confianza para el puntaje promedio poblacional, asumamos que los datos tienen distribución normal, con varianza poblacional desconocida. Como es desconocido, lo estimamos por s2 =18.7, lo que seria los mismo una desviación estándar s=4.3. La depresión promedio de las 45 personas es igual a 14.5. Luego, un intervalo de confianza. ,siendo el intervalo de confianza para el promedio de la población igual a 13.24 ≤ µ ≤ 15.76 Ejemplo: 2. Supongamos que se plantea la hipótesis de que el promedio de peso de los niños al momento de nacer es igual a la media nacional de 3,250 gramos. Al tomar una muestra de 30 recién nacidos de la población en estudio, se obtuvo: = 2,930 s= 450 n= 30 Al construir un intervalo de 95% de confianza para la media poblacional, se obtiene: ,lo que sería igual a 2,769≤ µ ≤ 3,091 El peso promedio de la población de niños al momento de nacer varía entre 2,769 y 3,091 gramos, con una confianza de 95%. Valores de Z para distintos niveles de confianza. Zα/2 ẞ α=1-ẞ Zα/2 ẞ α=1-ẞ 3.09 0.997 0.003 1.60 0.890 0.110 2.33 0.980 0.020 1.56 0.880 0.120 2.17 0.970 0.030 1.51 0.870 0.130 2.05 0.960 0.040 1.48 0.860 0.140 1.96 0.950 0.050 1.44 0.850 0.150 1.88 0.940 0.060 1.41 0.840 0.160 1.81 0.930 0.070 1.37 0.830 0.170 1.75 0.920 0.080 1.35 0.820 0.180 1.70 0.910 0.090 0.88 0.810 0.190 1.65 0.900 0.100 8.2.5. Estimación por intervalos del valor medio en población normal. Vamos a ilustrar el procedimiento de obtención de un intervalo de confianza, considerando una población normal X con varianza desconocida, siendo el parámetro a estimar su valor medio μ. Para ello se deberá disponer de: Una muestra aleatoria X1, X2 ,..., Xn de tamaño n extraída de la población X. Un estimador Θ del parámetro poblacional μ, que en este caso es la media muestral pero que, debido al desconocimiento de la varianza de la población, tendremos que reemplazar este último parámetro por la varianza muestral. El que emplearemos, relacionado con el parámetro μ, será: Este estadístico sigue una distribución t de Student con (n-1) grados de libertad. El nivel de confianza 1- α, establecido a priori por el experimentador (los usuales son 0.95, 0.90 y 0.99). Dada la distribución del estadístico y el nivel de confianza, se tiene la siguiente igualdad probabilística: javascript:openWin7() La expresión anterior es equivalente a: que hace referencia a que con una probabilidad 1- α el intervalo aleatorio contendrá el valor medio μ . El intervalo es aleatorio ya que sus extremos se determinan a partir de los estimadores media muestral y desviación típica muestral, tratándose de variables aleatorias. La probabilidad a que se refiere dicho intervalo aleatorio, puede interpretarse de manera informal pero quizás más clara: "Si consideramos todas las muestras distintas de tamaño n que puedan ser extraídas de la población X, y con las observaciones de cada una construimos los correspondientes intervalos, según la estructura anterior, el (1-α)% de estos intervalos contendrán el parámetro μ". Por tanto, si extraemos una muestra de tamaño n y con los datos u observaciones, x1, x2… ,xn, calculamos los extremos del intervalo, dispondremos del concreto intervalo de confianza para el parámetro μ . que, en función de la interpretación informal anterior, contendrá dicho parámetro con un nivel de confianza de (1-α)% Ejemplo: El promedio de consumo de la población en salud es estimo en base a una muestra de (n=27) hogares, obteniéndose que en promedio gastan 1,767.63 pesos para satisfacer esa necesidad y la desviación estándar resultante fue de 246.35 pesos,. Se requiere determinar el intervalo de confianza para el gasto promedio en salud de la población general, a un nivel de confianza (ꞵ=0.93). O sea α=1 - ꞵ = 1 - 0.93=0.07. α/2=0.07/2=0.035, gl=n-1=27-1=26 → t=2.056 la tabla de t de student IC= - tα/2*S / √n ≤ µ ≤ + tα/2*S / √n= 1,767.63 – 2.056 x 246.35/√27 ≤ µ ≤ 1,767.63 +2.056 x 246.35/√27= 1,670.15 ≤ µ ≤ 1,865.10 El gasto promedio en salud de la población oscila entre 1,670.15 y 1,865.10 pesos mensuales. Intervalo de Confianza para una proporción. En este caso, interesa construir un intervalo de confianza para una proporción o un porcentaje poblacional (por Ejemplo:, el porcentaje de personas con hipertensión, fumadoras, etc.) Si el tamaño muestral n es grande, el Teorema Central del Límite nos asegura que: O bien: El intervalo de confianza para estimar una proporción p, conocida una proporción muestral p de una muestra de tamaño n, a un nivel de confianza del (1-α)100% es: Donde p es el porcentaje de personas con la característica de interés en la población (o sea, es el parámetro de interés) y p es su estimador muestral. Luego, procediendo en forma análoga al caso de la media, podemos construir un intervalo de 95% de confianza para la proporción poblacional p. Ejemplo: 3: En un estudio de prevalencia de factores de riesgo en una cohorte de 412 mujeres mayores de 15 años en la Región Metropolitana, se encontró que el 17.6% eran hipertensas. Un intervalo de 95% de confianza para la proporción de mujeres hipertensas en la Región Metropolitana está dado por: =ΣPMi*fi / n _ X =ΣPMi*fi / n _ X La proporción de personas hipertensas en la población oscila entre 0.139 ≤ P≤ 0.212. Con una confianza de 95%. 8.2.6. Intervalo de Confianza para varianza y la desviación estándar poblacional. Basado en los resultados de una muestra de elementos tomados de manera aleatoria de una población, es posible determinar el intervalo de confianza de la varianza de la población, para ello es necesario apoyarse en la distribución de probabilidad Chi Cuadrado. Para ilustrar sobre este procedimiento se presenta el siguiente ejemplo: Determinar el intervalo de confianza para la varianza con un nivel de significancia de 0.05. Precios del alquiler de carros de transporte diario por compañías. Compañía Precio Compañía Precio Compañía A 1,495.00 Compañía I 1,379.00 Compañía B 1,671.00 Compañía J 1,557.00 Compañía C 1,375.00 Compañía K 1,417.00 Compañía D 1,347.00 Compañía L 1,410.00 Usando la tabla chi cuadrado Compañía E 1,734.00 Compañía M 1,561.00 14 x 21,675.83/26.1 ≤ σ 2≤14 x21,675.83/5.63 Compañía F 1,285.00 Compañía N 1,396.00 Compañía G 1,668.00 Compañía O 1,675.00 11,626.88 ≤σ 2≤ 53,900.82 Compañía H 1,671.00 S2 = 21,675.83 Gl=n-1= 15-1 α = 0.05 Gl=n-1= 14 α/2 = 0.025 La varianza de la población del precio de alquiler de vehículos por empresa varia oscila entre 11,626.88 y 53,900.82 pesos IX. Prueba deHipótesis y sus aplicaciones Hipótesis: enunciado acerca de una población elaborado con el propósito de ponerse a prueba. Ejemplos de hipótesis acerca de un parámetro de población son: la media del ingreso mensual de los analistas de sistemas es $3625, el 20% de los delincuentes juveniles son capturados y sentenciados a prisión. Conceptos Prueba de hipótesis: procedimiento basado en la evidencia muestral y en la teoría de probabilidad que se emplea para determinar si la hipótesis es un enunciado razonable y no debe rechazarse o si no es razonable y debe ser rechazado. Hipótesis nula H0: afirmación acerca del valor de un parámetro poblacional. Hipótesis alterna H1: afirmación que se aceptará si los datos muestrales proporcionan evidencia de que la hipótesis nula es falsa. Nivel de significancia: probabilidad de rechazar la hipótesis nula cuando es verdadera. Error Tipo I o error alfa: rechazar la hipótesis nula cuando en realidad es verdadera. Error Tipo II o error beta: aceptar la hipótesis nula cuando en realidad es falsa. Estadístico de prueba: valor obtenido a partir de la información muestral, se utiliza para determinar si se rechaza o no la hipótesis. Valor crítico: el punto que divide la región de aceptación y la región de rechazo de la hipótesis nula. Una prueba es de una cola cuando la hipótesis alterna, H1, establece una dirección, como: H0: el ingreso medio de las mujeres es menor o igual al ingreso medio de los hombres. H1: el ingreso medio de las mujeres es mayor que el de los hombres. Una prueba es de dos colas cuando no se establece una dirección específica de la hipótesis alterna H1, como: H0: el ingreso medio de las mujeres es igual al ingreso medio de los hombres. H1: el ingreso medio de las mujeres no es igual al ingreso medio de los hombres. 9.1. Pasos básicos dela prueba de hipótesis con el método de valor crítico Pasos para elaborar una Prueba de hipótesis son: Paso1.Formule la hipótesis nula y la hipótesis alternativa. La hipótesis nula (H0 es el valor paramétrico hipotético que se compara con el resultado muestral. Se le rechaza sólo si es poco probable que el resultado muestral haya ocurrido dado lo correcto de la hipótesis. La hipótesis alternativa (H1) se acepta sólo si la hipótesis nula es rechazada. En muchos libros de texto la hipótesis alternativa también se designa como H1. Ejemplo: Un auditor desea probar el supuesto de que el valor medio de la totalidad de las cuentas por cobrar de una empresa dada es de $260.00 tomando una muestra de n = 36 y calculando la media muestral. El auditor desea rechazar el valor supuesto de $260.00 sólo si es claramente contradicho por la media muestral, caso éste en el que el valor hipotético recibiría el beneficio de la duda en el procedimiento de prueba. Las hipótesis nula y alternativa de esta prueba son H0: µ = $260.00 y H1: µ ≠ $260.00. Paso 2. Especifique el nivel de significancia por aplicar. El nivel de significancia es el estándar estadístico que se especifica para rechazar la hipótesis nula. Si se especifica un nivel de significancia de 5%, la hipótesis nula se rechaza sólo si el resultado muestral es tan diferente del valor hipotético que una diferencia por ese monto o un monto superior ocurriría al azar con una probabilidad de 0.05 o menos. Nótese que si se usa el nivel de significancia de 5%, hay una probabilidad de 0.05 de rechazar la hipótesis nula aun siendo efectivamente cierta. Esto se llama error tipo I La probabilidad del error tipo I siempre es igual al nivel de significancia empleado como estándar para rechazar la hipótesis nula; se le designa con la letra griega minúscula a (alfa), de modo que a designa también al nivel de significancia. Los niveles de significancia de uso más frecuente en la prueba de hipótesis son los de 5% y 1%. Ocurre un error tipo II si la hipótesis nula no se rechaza, y es por lo tanto aceptada, cuando en realidad es falsa. La determinación de la probabilidad del error tipo II se explica. En la tabla correspondiente se resumen los tipos de decisiones y las posibles consecuencias de las decisiones tomadas en pruebas de hipótesis. Paso 3. Seleccione la estadística de prueba. La estadística de prueba será ya sea la estadística muestral (el estimador insesgado del parámetro a prueba) o una versión estandarizada de la estadística muestral. Por ejemplo, para probar un valor hipotético de la media Poblacional, la media de una muestra aleatoria tomada de esa población podría servir como la estadística de prueba. Sin embargo, si la distribución de muestreo de la media es normal, el valor de la media muestral se convierte usualmente en un valor z, el cual funge entonces como la estadística de prueba. Paso 4. Establezca el valor o valores críticos de la estadística de prueba. Habiendo especificado la hipótesis nula, el nivel de significancia y la estadística de prueba por usar, se establece entonces el(los) valor(es) crítico(s) de la estadística de prueba. Estos valores pueden ser uno o dos, dependiendo de si están implicadas las así llamadas pruebas unilaterales o bilaterales. En cualquier caso, un valor crítico identifica el valor de la estadística de prueba requerido para rechazar la hipótesis nula. Paso 5. Determine el valor de la estadística de prueba. Por ejemplo, al probar un valor hipotético de la media Poblacional, se recolecta una muestra aleatoria y se determina el valor de la media muestral. Si el valor crítico fue establecido como un valor z, la media muestral se convierte a un valor z. Paso 6. Tome la decisión. El valor observado de la estadística muestral se compara con el valor (o valores) crítico(s) de la estadística de prueba. Se rechaza o no entonces la hipótesis nula. Si la hipótesis nula es rechazada, se acepta la hipótesis alternativa. Esta decisión tendrá relevancia a su vez para otras decisiones por tomar por los gerentes de operación, como la de si se está sosteniendo o no cierto estándar de desempeño o cuál de dos estrategias de comercialización seguir. 9.2. Tipos de pruebas de hipótesis Prueba para la media Poblacional: muestra grande, desviación estándar Poblacional es conocida Cuando se hace una prueba para la media Poblacional de una muestra grande y se conoce la desviación estándar, el estadístico de prueba está dado por: Los fabricantes de Fries’ Catsup indican en su etiqueta que el contenido de la botella es de 16 onzas. Cada hora se toma una muestra de 36 botellas y se pesa el contenido. La muestra de la última hora tiene un peso medio de 16.12 onzas con una desviación estándar de 0.5 onzas. ¿Está el proceso fuera de control para un nivel de significancia de 0.05? Paso 1: establezca la hipótesis nula y alterna Paso 2: establezca la regla de decisión: Paso 3: calcule el valor del estadístico de prueba: H0 se rechaza si z <- 1.96 o z > 1.96 ᾳ=0.05 ᾳ/2=0.05/2=0.025 Β=1- ᾳ/2 = 1-0.05/2 = 0.97500z=1.96 en la tabla normal Paso 4: decisión sobre H0: no se rechaza H0 porque 1.44 es menor que el valor crítico 1.96 9.2.1. La media para una muestra grande, desviación estándar Poblacional desconocida Aquí σ es desconocida, así que se estimará con la desviación estándar de la muestras. Siempre que el tamaño de muestra n ³30, z puede aproximarse con: Ejemplo: La cadena Roder’s Discount emite su propia tarjeta de crédito. Lisa, la gerente de crédito, quiere encontrar si la media mensual de saldos no pagados es mayor que $400. El nivel de significancia es de 0.05. Una revisión al azar de 172 saldos reveló que la media muestral es $407 y la desviación estándar muestral es $38. ¿Debe Lisa concluir que la media de población es mayor que $400, o es razonable suponer que la diferencia de $7 ($407-$400) se debe al azar?Paso 1: Paso 2: H0 se rechaza si z > 1.645 Paso 3: Paso 4: H0 se rechaza. Lisa puede concluir que la media de saldos no pagados es mayor que $400. 9.2.2. Prueba de hipótesis: dos medias poblacionales Suponga que los parámetros para dos poblaciones son: Para muestras grandes el estadístico de prueba es: Cuando σ1 y σ2 no se conocen pero el tamaño de muestra n1 y n2 es mayor o igual que 30, el estadístico de prueba es Ejemplo: Se realizó un estudio para comparar los años promedio de servicio de quienes se retiraron en 1979 con los que se retiraron el año anterior en Delong Manufacturing Co. Con un nivel de significancia de 0.01 ¿podemos concluir que los trabajadores que se retiraron el año pasado trabajaron más años según la siguiente muestra? Nota: sea población #1= año anterior. Paso 1: Paso 2: Rechace H0 si z > 2.33 Paso 3: Paso 4: Como zc = 6.80 > Zt=2.33, H0 se rechaza. Los que se retiraron el año anterior tenían más años de servicio. 9.2.3. Variancia muestral combinada y estadístico de prueba Variancia muestral combinada: Estadístico de prueba: Un estudio EPA reciente compara la economía de combustible en carretera de los automóviles nacionales e importados. Una muestra de 15 autos nacionales reveló una media de 33.7mpg con desviación estándar de 2.4mpg. Una muestra de 12 autos importados indicó una media de 35.7mpg con desviación estándar de 3.9. Para 0.05 de nivel de significancia, ¿puede EPA concluir que el consumo de las mpg para los autos importados es mayor? (Asocie el subíndice 1 con los autos nacionales.) Paso 1: Paso 2: H0 se rechaza si t<-1.708, gl=25 Paso 3: t = 1.64 (verifique) Paso 4: H0 no se rechaza. La evidencia muestral es insuficiente para asegurar que el consumo de mpg es más alto en los autos importados. 9.2.4. Pruebas de hipótesis con observaciones por pares Las muestras independientes que no están relacionadas. Las muestras dependientes están pareadas o relacionadas de alguna manera. Por ejemplo, si se desea comprar un auto se busca el mismo modelo en dos (o más) distribuidores diferentes y se comparan los precios. Use la siguiente prueba cuando las muestras son dependientes: donde es el promedio de las diferencias es la desviación estándar de las diferencias n es el número de pares (diferencias) Ejemplo: Una empresa independiente de pruebas estadísticas compara el costo diario de renta de un auto compacto en Hertz y en Avis. Se obtiene una muestra aleatoria de ocho ciudades con la siguiente información. Para .05 de nivel de significancia, ¿puede la empresa de pruebas concluir que existe una diferencia en los costos de renta? Paso 1: Paso 2: H0 se rechaza si t <-2.365 o t >2.365 Paso 3: Paso 4: H0 no se rechaza. No existe diferencia en los costos. 9.2.5. Pruebas respecto a relaciones proporcionales Relación proporcional: parte fraccional o porcentaje que indica la parte de la población o muestra que tiene un atributo particular de interés. La relación proporcional muestral se representa por `R donde Estadístico de prueba para ensayos con una sola relación proporcional de población Ejemplo: En el pasado, 15% de la propaganda por correo para donativos dio como resultado contribuciones. Se mandó una nueva carta a una muestra de 200 personas y 45 enviaron un donativo. Para 0.05 de significancia, ¿se puede concluir que la nueva carta fue más efectiva? Paso 1: Establecer H0 y H1 Paso 2: H0 se rechaza si z > 1.645 Paso 3: Paso 4: como z = 2.97 >1.645, H0 se rechaza. La nueva carta es más efectiva. 9.2.6. Prueba donde interviene la diferencia entre dos relaciones proporcionales de población El estadístico de prueba en este caso es: Ejemplo: ¿Es más probable que los trabajadores solteros falten más que los trabajadores casados? Una muestra de 250 trabajadores casados indicó que 22 faltaron más de 5días el año pasado, mientras que una muestra de 300 trabajadores solteros indicó que 35 faltaron más de 5 días. Utilice 0.05 de nivel de significancia. Nota: sea población #1 = trabajadores solteros. Paso 4: H0 no se rechaza. No existe diferencia entre la proporción de trabajadores casados y solteros que faltan más de 5 días al trabajo. El valor p = P{ z > 1.1} =0.1357 9.2.7. Contraste sobre el cociente de varianzas Distribución F de Snedecor La distribución F de Snedecor aparece en los contrastes asociados a comparaciones entre las varianzas de dos poblaciones normales. El objetivo básico consiste en determinar si la diferencia entre las dos varianzas es estadísticamente significativa a un nivel de significación dado. Si (X1, X2,..., Xm) y (Z1, Z2,..., Zn) son m+n variables aleatorias normales independientes de media =0 y varianza , la variable tiene una distribución Fm,n de Snedecor de m y n grados de libertad. Se realizan dos muestras aleatorias simples de tamaños n y m a dos Poblaciones normales independientes, y , de medias desconocidas. Se trata de contrastar la hipótesis nula H0: las varianzas de ambas poblaciones son iguales: frente a la alternativa: H1: las Poblaciones tienen diferentes varianzas: . Para ello se hará uso del estadístico Fc = S2(mayor) / S2(menor)con Gl del numerador (n1-1) Gl del denominador (n1-1) α= que es el nivel de significación establecido, se distribuye como una Fn-1, m-1 de Snedecor. Ejemplo: Una empresa de remesas tiene la intención crear un establecimiento en Santiago y otro en Santo Domingo, con la finalidad de recibir y enviar dinero desde y otros países de personas que residen en el extranjero y de los que residen en este. Para ello se tomaron dos muestras de las personas que reciben o envían dinero. Y se requiere determinar si existe diferencia estadísticamente entre las varianzas ambas muestras, con un nivel de significación de α=0.05. Los resultados son los que aparecen a continuación: S22= 51,194,411.41 n2= 32 S21= 52,412,352.97 n1= 36 H0: S 2 1 = S 2 2 Conclusión: Como Fc < F(n1-1, n2-1 y α=0.05) indica que no se evidencia una diferencia estadísticamente significativa entre la varianza de las remesas de Santiago y las de Santo Domingo. Por lo tanto se puede aplicar la misma estrategia en ambas ciudades. H1: S 2 1 ≠ S 2 2 α=0.05 Gl1=n1-1=36-1=35 Gl2=n2-1=32-1=31 F(n1-1, n2-1 y α=0.05)= 1.77 en la tabla F. Fc= S 2 1/ S 2 2 = 52,412,352.97 / 51,194,411.41 =1.02. 9.2.8. Distribución Chi Cuadrado Decimos que una variable aleatoria se distribuye ji-cuadrado con n grados de libertad cuando sigue la misma distribución que la suma de n variables aleatorias normales (0,1) elevadas al cuadrado, independientes n i iz 1 22 Grados de libertad: Los grados de libertad pueden ser interpretados como el número de valores de la muestra que pueden ser fijados arbitrariamente y su cuantificación depende del número de variables o del tamaño de la muestra .Una muestra de tamaño n tienen-1 grados de libertad. Para tamaños grandes de la muestra la distribución ji-cuadrado puede aproximarse a una normal mediante la expresión 2 2 1 0 12 n N ( , ) Las pruebas Chi-Cuadrada de independencia y de bondad de ajuste se usan para detectar diferencias de grupos usando valores de frecuencia (números). 9.2.9. Diferencia entre la varianza muestral y la varianza Poblacional. Muchas veces se requiere determinar si existe diferencia estadísticamente significativa entre la varianza (s2) de la muestra y la de la población. Donde σ02 es la varianza de una variable de la población y s2 es la varianza de la muestra y n el tamaño de la muestra. El procedimientoes el siguiente: H0: S 2= σ02 H1: S 2≠ σ02 α=0.05 es el nivel de significación gl=n-1 son los grados de libertad Ejemplo: Una empresa requiere determinar si existe diferencia estadísticamente significativa entre la varianza (σ2=59.72) del tiempo de servicio de todos sus empleados y la varianza (S2=74.97) resultante de una muestra (n=26) empleados seleccionados aleatoriamente para trabajar en un proyecto especializado. Los datos básicos son los siguientes: χ2 (n-1, α=0.05) =37.7 en la tabla χ2 χ2(c) = (26-1) x74.97 / 59.72=31.38 Como χ2 (n-1, α=0.05) < χ2(c), se rechaza la hipótesis Ho, indicando que la varianza del tiempo de servicio de todos los trabajadores de la empresa es diferente a la varianza del tiempo de servicio de los empleados seleccionados en la muestra, a un nivel de significación de 0.05. 9.2.10. Test de bondad de ajuste. Consideramos una población y el carácter X que presenta las siguientes modalidades x1, x2, ..xk excluyentes con sus respectivas probabilidades p1, p2, ....., pk. Tenemos una muestra de tamaño n en la que observamos el carácter X y nos planteamos hasta qué punto esta muestra se puede considerar como perteneciente a una población con una distribución teórica ya conocida. Independientemente de la distribución teórica que consideremos siempre existirán diferencias entre los valores teóricos esperados y los valores observados. El problema está en saber en qué medida dichos valores son debidos al azar o a que los datos no se ajustan a la distribución teórica considerada. Las oi o las fo se denominan frecuencias observadas Las ei o las ft se denominan frecuencias esperadas Ejemplo: Las Oi representan la distribución de los visitadores al psicólogo la primera vez, y las Ei representan la misma distribución pero luego de aplicarle el tratamiento para bajar el peso corporal. Peso corporal Oi Ei (Oi-Ei) (Oi-Ei) 2 (Oi-Ei) 2/Ei < 40 8 4 4 16 4.0000 40 a 50 6 5 1 1 0.2000 50 a 60 7 8 -1 1 0.1250 60 a 70 10 11 -1 1 0.0909 70 a 80 6 8 -2 4 0.5000 80 a 90 9 10 -1 1 0.1000 Total 46 46 χc 2= 5.0159 χt2 con gl=5 y α =0.025 =12.83 Comparamos el valor de nuestra estadística de prueba (χc2=5.0159) con el valor de χt2 de gl=5 y α =0.025 =12.83. Como 5.0159 < 12.83, se acepta la hipótesis nula, diciendo que no hubo cambio en la distribución de los pacientes de acuerdo a su peso corporal antes y después del tratamiento establecido por el psicólogo. Consideramos como hipótesis nula e hipótesis alternativa a: H0: la distribución empírica se ajusta a la distribución teórica considerada. H1: Se rechaza el ajuste. Evidentemente, si aceptamos la hipótesis nula (aceptamos el ajuste), las diferencias entre los valores observados y los valores esperados son debidas al azar y podemos decir que no existen evidencias para rechazar dicha hipótesis; en otro caso diremos existen diferencias significativas para el nivel de significación marcado entre ambas distribuciones, no pudiendo atribuirse las diferencias entre las distribuciones empíricas y observadas al azar. El estadístico que se utilizará para dicho contraste será: χ2 = = Pearson demostró que la distribución de dicho estadístico es una con k-1 grados de libertad en el caso de no existir discrepancias entre los valores observados y los esperados. 9.2.11. La prueba chi-square de independencia. Permite ver si la frecuencia de los casos que representan una característica varían entre niveles de un factor dado o entre combinaciones de niveles de dos o más factores. En tales situaciones, la prueba apropiada es la prueba chi-cuadrada de bondad de ajuste o la prueba chi-cuadrada de independencia de los k grupos. Para realizar la prueba de chi-cuadrada, se toman en cuentas las frecuencias observadas correspondientes a las combinaciones de niveles de factores relevantes. Luego se calculan las sumas de los elementos dentro de los renglones y dentro de las columnas. Se usa para probar la hipótesis nula de que la frecuencia dentro de las celdas es la esperada. La chi-cuadrada para la bondad de ajuste se usa para probar la hipótesis de que la muestra total n se distribuye de manera uniforme entre todos los niveles del factor relevante. Si Oij es la frecuencia observada y Eij la frecuencia esperada para la celda correspondiente a la iva condición y el jvo grupo, la chi-cudarada es: Si hay un sólo factor opera la misma fórmula, con un sólo i ó j. Arreglos de más dimensiones son posibles; se basan en el mismo principio y en la misma fórmula, aunque implican muchas sumas internas. El estadístico se distribuye como una con (Cols - 1)(Filas - 1) grados de libertad y a un nivel de significación α. Ejemplo: Se requiere determinar si existe una relación estadísticamente significativa entre la asignatura de mayor destreza del padre y la de mayor destreza del hijo-estudiante. Usando un nivel de significación α=0.05. Hijos y padres según asignatura de mayor destreza. Oij Asignatura de mayor destreza padres Asignatura de mayor destreza de hijo Total Matem ática Lenguaje Ciencias Naturales Ciencias sociales Idiomas Negocios Matemática 18 21 9 16 22 21 107 Lenguaje 17 10 22 10 16 23 98 Ciencias Naturales 8 16 19 21 16 24 104 Ciencias sociales 17 12 13 16 9 21 88 Idiomas 21 20 18 8 13 19 99 Negocios 23 15 8 8 18 10 82 Total 104 94 89 79 94 118 578 Eij = Ei. x E.j / ƩƩOij Asignatura de padres Asignatura de mayor destreza de hijo Total Matem ática Lenguaje Ciencias Naturales Ciencias sociales Idiomas Negocios Matemática 19.25 17.40 16.48 14.62 17.40 21.84 107.00 Lenguaje 17.63 15.94 15.09 13.39 15.94 20.01 98.00 Ciencias Naturales 18.71 16.91 16.01 14.21 16.91 21.23 104.00 Ciencias sociales 15.83 14.31 13.55 12.03 14.31 17.97 88.00 Idiomas 17.81 16.10 15.24 13.53 16.10 20.21 99.00 Negocios 14.75 13.34 12.63 11.21 13.34 16.74 82.00 Total 104.00 94.00 89.00 79.00 94.00 118.00 578.00 (Oij-Eij)2 / Eij Asignatura de padres Asignatura de mayor destreza de hijo Total Matem ática Lenguaje Ciencias Naturales Ciencias sociales Idiomas Negocios Matemática 0.08 0.74 3.39 0.13 1.22 0.03 5.60 Lenguaje 0.02 2.21 3.16 0.86 0.00 0.45 6.71 Ciencias Naturales 6.13 0.05 0.56 3.24 0.05 0.36 10.39 Ciencias sociales 0.09 0.37 0.02 1.31 1.97 0.51 4.28 Idiomas 0.57 0.94 0.50 2.26 0.60 0.07 4.94 Negocios 4.61 0.21 1.70 0.92 1.63 2.71 11.77 Total 11.50 4.53 9.33 8.72 5.46 4.14 43.69 H0: La asignatura de mayor destreza de hijo es independiente de la de su padre H0: La asignatura de mayor destreza de hijo no es independiente de la de su padre Gl=(Filas – 1)(Columnas – 1)=(6-1)(6-1)=25 Un nivel de significación α=0.05. El valor de χt2 en la tabla chi-cuadrado = 34.4 El valor de la chi-cuadrado χc2=ƩƩ(Oij-Eij)2 / Eij =43.69 Como el valor de χc2 > χt2 significa que existe relación entre la asignatura donde el padre tiene mayor destreza y la del hijo. O sea, la asignatura donde el padre tiene mayor destreza no es independiente de la del hijo.
Compartir