Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
MÉTODOS ESTADÍSTICOS PARA LA INVESTIGACIÓN I Profesores del curso UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Facultad de Economía y Planificación Departamento de Estadística e Informática Aplicaciones Chi-Cuadrado Semana 1 y 2 2020-II OBJETIVOS Identificar variables de naturaleza Binomial, Poisson y Multinomial utilizando ejemplos. Reconocer las características de las pruebas estadísticas asociadas a la distribución Chi-Cuadrado Aplicar las pruebas estadísticas asociadas a la distribución Chi Cuadrado Métodos Estadísticos para la Investigación I 2020-II INTRODUCCIÓN � En la inferencia estadística existen procedimientos paramétricos y no paramétricos. � Las pruebas paramétricas exigen el conocimiento de la distribución teórica de los datos. Mientras que las pruebas no paramétricas no lo requiere. � Una variable aleatoria Chi- Cuadrado es de naturaleza continua y su rango va de 0 a ∞. Métodos Estadísticos para la Investigación I 2020-II LA DISTRIBUCIÓN CHI-CUADRADO � Es asimétrica positiva � Los grados de libertad controlan la asimetría. Métodos Estadísticos para la Investigación I 2020-II APLICACIONES DE LA DISTRIBUCIÓN CHI CUADRADO � Pearson (1900) demostró que la distribución Chi-Cuadrado puede aplicarse para verificar la similitud entre los datos de conteo resultados de una observación y los hipotéticos. � Esta aplicación esta basada en la comparación de las frecuencias observadas (muestrales) con las frecuencias esperadas (poblacionales), las cuales pueden provenir de una tabla de frecuencias o de contingencia. � Existen otras aplicaciones de la distribución Chi-Cuadrado tales como la verificación de la homogeneidad de varianzas en dos o más grupos. Métodos Estadísticos para la Investigación I 2020-II PRUEBAS BASADAS EN LA DISTRIBUCIÓN CHI CUADRADO Pruebas de Bondad de Ajuste Prueba de Independencia Prueba de Homogeneidad de Subpoblaciones Prueba de Homogeneidad de Varianzas • Multinomial • Poisson • Binomial • Normal, etc No Paramétricas Paramétrica Métodos Estadísticos para la Investigación I 2020-II PRUEBA DE BONDAD DE AJUSTE A UNA MULTINOMIAL � Métodos Estadísticos para la Investigación I 2020-II P3) Cálculo del estadístico de Prueba N° Categoría de la variable cualitativa Frecuencia observada (oi) Probabilidad teórica (πi) Frecuencia esperada (ei) 1 A1 o1 π1 e1 2 A2 o2 π2 e2 … … … … … k Ak ok πk ek Total n 1 n Donde: � n: tamaño de muestra � ei= nπi PRUEBA DE BONDAD DE AJUSTE A UNA MULTINOMIAL Métodos Estadísticos para la Investigación I 2020-II PROCEDIMIENTO � Métodos Estadísticos para la Investigación I 2020-II APLICACIÓN I Una fábrica cuenta con tres máquinas para la producción de un mismo producto. Durante la última semana de producción se han producido 135 artículos. El jefe de producción cree que las máquinas no producen en cantidades similares. Por lo que ha solicitado clasifiquen cada producto según la máquina que la ha producido. A continuación se presenta la tabla de frecuencia de las cantidades producidas por cada máquina: Use nivel de significación 5% para probar si la cantidad producida es la misma en las 3 máquinas. Máquina A B C Producción 43 53 39 Métodos Estadísticos para la Investigación I 2020-II � APLICACIÓN I Métodos Estadísticos para la Investigación I 2020-II � P3) Cálculo del estadístico de Prueba APLICACIÓN I N° Categoría de la variable cualitativa (Máquina) Frecuencia observada (oi) Probabilidad teórica (πi) Frecuencia esperada (ei = nπi) 1 A 43 1/3 45 0,08888889 2 B 53 1/3 45 1,42222222 k=3 C 39 1/3 45 0,80000000 Total n=135 1 135 Métodos Estadísticos para la Investigación I 2020-II APLICACIÓN I Métodos Estadísticos para la Investigación I 2020-II A un nivel de 0.05 de significación no existe evidencia estadística para rechazar Ho. No se puede afirmar que las tres máquinas no producen en igual proporción. APLICACIÓN I Reporte de Minitab Categoría Observado Proporción de prueba Esperado Contribución a chi-cuadrada A 43 0.333333 45 0.08889 B 53 0.333333 45 1.42222 C 39 0.333333 45 0.80000 Prueba Chi-cuadrada de bondad de ajuste para conteos ... producción Conteos observados y esperados N GL Chi-cuad. Valor p 135 2 2.31111 0.315 Prueba de chi-cuadrada Métodos Estadísticos para la Investigación I 2020-II � APLICACIÓN I Métodos Estadísticos para la Investigación I 2020-II LA DISTRIBUCIÓN BINOMIAL Sea X = número de éxitos en r ensayos independientes, y si X~Binomial(r,p) entonces: Donde: � r es el número de ensayos � p es la probabilidad de éxito Métodos Estadísticos para la Investigación I 2020-II LA DISTRIBUCIÓN POISSON Sea X = número de sucesos que ocurren en intervalos de tamaño t, con promedio de sucesos por unidad de intervalo (t=1) igual a v; si X~Poisson(vt=λ) entonces: E(X) = λ = vt V(X) = λ = vt Donde: � t es el tamaño del intervalo � v es el promedio de sucesos por unidad de intervalo (t=1) � vt es el promedio de sucesos por intervalo de tamaño t Métodos Estadísticos para la Investigación I 2020-II PRUEBAS DE BONDAD DE AJUSTE A UNA BINOMIAL O POISSON P1) Planteamiento de hipótesis: H0: La variable X se ajusta a una distribución “A” H1: La variable X no se ajusta a una distribución “A” P2) Nivel de significación: α P3) Cálculo del estadístico de Prueba Métodos Estadísticos para la Investigación I 2020-II P3) Cálculo del estadístico de Prueba N° Valor de la variable cuantitativa Frecuencia observada (oi) Probabilidad teórica (πi) Frecuencia esperada (ei) 1 x1 o1 π1 e1 2 x2 o2 π2 e2 … … … … … k xk ok πk ek Total n 1 n Donde: � n: tamaño de muestra � ei= nπi � πi = P(x=xi) , usando la función de probabilidad de la distribución especificada en la hipótesis nula. PRUEBAS DE BONDAD DE AJUSTE A UNA BINOMIAL O POISSON Métodos Estadísticos para la Investigación I 2020-II PRUEBAS DE BONDAD DE AJUSTE A UNA BINOMIAL O POISSON � Métodos Estadísticos para la Investigación I 2020-I APLICACIÓN II Con el fin de realizar afiliaciones a un seguro médico, un vendedor de pólizas de seguros hace cuatro llamadas diarias. Una muestra de 210 días da como resultado las frecuencias del número de ventas realizadas tal como se muestra en la siguiente tabla: Se desea verificar si el número de ventas realizadas diariamente sigue una distribución Binomial a un nivel de significación del 5%. N° de ventas realizadas 0 50 1 75 2 65 3 15 4 5 Métodos Estadísticos para la Investigación I 2020-II � APLICACIÓN II Métodos Estadísticos para la Investigación I 2020-II � APLICACIÓN II N° Número de días (oi) 1 0 50 0 2 1 75 75 3 2 65 130 4 3 15 45 k=5 4 5 20 Total 210 270 Métodos Estadísticos para la Investigación I 2020-II � Esta probabilidad de éxito será utiliza para calcular las probabilidades teóricas que a la vez servirán para calcular las frecuencias esperadas: . . . La frecuencia observada de la última clase es menor que cinco. APLICACIÓN II N° Número de días (oi) Probabilidad teórica (πi) Frecuencia esperada (ei = nπi) 1 0 50 0.212023 44.5247586 2 1 75 0.401727 84.3627004 3 2 65 0.285438 59.9419187 4 3 15 0.090138 18.929027 k=5 4 o más 5 0.010674 2.2415953 Total n=210 1.0000 210 Métodos Estadísticos para la Investigación I 2020-II � La tabla final quedaría con los siguientes resultados: APLICACIÓN II N° Frecuencia observada (oi) Probabilidad teórica (πi) Frecuencia esperada (ei = nπi) 1 0 50 0.212023 44.5247586 0.673294359 2 1 75 0.401727 84.3627004 1.039086694 3 2 65 0.285438 59.9419187 0.426816269 k=4 3 y 4 20 0.1008125 21.1706223 0.064729155 Total n=210 1.0000 210.00 Métodos Estadísticos para la Investigación I 2020-II � APLICACIÓN II Métodos Estadísticos para la Investigación I 2020-II A un nivel de 0.05 de significación no existe evidencia estadística para rechazar Ho. � P5) Conclusión No se puede afirmar que la variable número de ventasrealizadas tenga una distribución distinta a la Binomial. APLICACIÓN II Métodos Estadísticos para la Investigación I 2020-II APLICACIÓN III Se cree que el número de accidentes automovilísticos diarios en un cruce de dos avenidas de determinada ciudad tiene una distribución de Poisson. En una muestra de 80 días del año pasado se obtuvieron los datos de la tabla adjunta. ¿Apoyan estos datos la hipótesis de que el número diario de accidentes tiene una distribución de Poisson? Use nivel de significación 0.05 y concluya usando p-valor y el estadístico de prueba N° accidentes 0 34 1 25 2 11 3 7 4 3 Métodos Estadísticos para la Investigación I 2020-II � APLICACIÓN III Métodos Estadísticos para la Investigación I 2020-II � P3) Cálculo del estadístico de prueba APLICACIÓN III N° Frecuencia observada (oi) 1 0 34 0 2 1 25 25 3 2 11 22 4 3 7 21 k=5 4 3 12 Total n=80 80 Métodos Estadísticos para la Investigación I 2020-II � APLICACIÓN III N° Frecuencia observada (oi) Probabilidad teórica (πi) Frecuencia esperada (ei = nπi) 1 0 34 0.3679 29.43 2 1 25 0.3679 29.43 3 2 11 0.1839 14.72 4 3 7 0.0613 4.90 k=5 4 o más 3 0.0190 1.52 Total n=80 1.0000 80.00 Métodos Estadísticos para la Investigación I 2020-II � La tabla final quedaría con los siguientes resultados: APLICACIÓN III N° Frecuencia observada (oi) Probabilidad teórica (πi) Frecuencia esperada (ei = nπi) 1 0 34 0.3679 29.43 0.7096 2 1 25 0.3679 29.43 0.6668 3 2 11 0.1839 14.72 0.9401 k=4 3 o más 10 0.0613+0.019= 0.0803 6.42 1.9963 Total n=80 1.0000 80.00 Métodos Estadísticos para la Investigación I 2020-II � APLICACIÓN III Métodos Estadísticos para la Investigación I 2020-II � APLICACIÓN III Métodos Estadísticos para la Investigación I 2020-II PREGUNTA 1 En un estudio para determinar la opinión de los agricultores sobre un nuevo tipo de insecticida se tomó una muestra aleatoria de 400 agricultores en una región, obteniéndose los siguientes resultados: Probar si la opinión de los agricultores respecto al nuevo tipo de insecticida no se distribuye en la proporción: 2:4:6:5:3. Use α = 0.01 Opinión muy bueno bueno regular malo muy malo total Frecuencia 25 60 175 120 20 400 Métodos Estadísticos para la Investigación I 2020-II PREGUNTA 2 Un vendedor de semillas hace cuatro llamadas diarias. Una muestra aleatoria de 100 días da como resultado las frecuencias de ventas que vemos a continuación: En los registros históricos se conoce que el 30% de las llamadas se concretaron en una venta. Suponga que las llamadas son independientes, ¿El número de ventas que se concretan por día sigue una distribución binomial? Use α = 0.01. Número de ventas 0 1 2 3 4 Número de días 30 32 25 10 3 Métodos Estadísticos para la Investigación I 2020-II PREGUNTA 3 Una empresa estudia el número de defectos en unas tarjetas de video que se fabrican para unos equipos de meteorología. Se obtiene una muestra aleatoria de las tarjetas y se observa el número de defectos que hay. Los resultados obtenidos se muestran a continuación Probar si los datos se ajustan a una distribución teórica. Use α= 0.05 Número de defectos 0 1 2 3 4 Frecuencia 17 13 9 5 7 Métodos Estadísticos para la Investigación I 2020-II PRUEBAS EN TABLAS DE CONTINGENCIA Característica A Total a1 a2 … ac Carac. B b1 o11 o12 … o1c n1. b2 o21 o22 … o2c n2. … … … … … … bf of1 of2 … ofc nr. Total n.1 n.2 n.c n.. Tabla de Contingencia cxf Donde: � oij es una frecuencia observada conjunta � ni. y n.j son frecuencias marginales fila y columna, respectivamente � n.. es el tamaño de muestra Métodos Estadísticos para la Investigación I 2020-II PRUEBAS EN TABLAS DE CONTINGENCIA � Utiliza una muestra � Evalúa dos características � Las frecuencias marginales son aleatorias. Prueba de Independencia Prueba de Homogeneidad de Subpoblaciones � Utiliza dos o más muestras � Evalúa una característica � Una de las frecuencias marginales es fija y la otra aleatoria. Métodos Estadísticos para la Investigación I 2020-II PRUEBA DE INDEPENDENCIA Métodos Estadísticos para la Investigación I 2020-II P3) Cálculo del estadístico de Prueba PRUEBA DE INDEPENDENCIA Característica A Total a1 a2 … ac Carac. B b1 o11 (e11) o12 (e12) … o1c (e1c) n1. b2 o21 (e21) o22 (e22) … o2c (e2c) n2. … … … … … … bf of1 (ef1) of2 (ef2) … ofc (efc) nr. Total n.1 n.2 n.c n.. Tabla de Contingencia para frecuencias observadas y esperadas Donde: � eij es una frecuencia esperada conjunta � . Métodos Estadísticos para la Investigación I 2020-II PRUEBA DE INDEPENDENCIA � Métodos Estadísticos para la Investigación I 2020-II COEFICIENTE DE CONTINGENCIA 0 1 Métodos Estadísticos para la Investigación I 2020-II APLICACIÓN IV El jefe de una planta industrial desea determinar si existe relación entre el rendimiento en el trabajo y turno laboral del empleado. Se tomó una muestra aleatoria de 400 empleados y se obtuvo los siguientes resultados: Con el nivel de significación 0.01 � a) ¿La calificación del rendimiento del trabajador está asociada con el turno en el que labora el empleado? Analice la magnitud de la asociación, si la hubiera Rendimiento en el trabajo Turno laboral Mañana Tarde Noche Total Deficiente 23 60 29 112 Promedio 28 79 60 167 Muy bueno 9 49 63 121 Total 60 188 152 400 Métodos Estadísticos para la Investigación I 2020-II � APLICACIÓN IV Métodos Estadísticos para la Investigación I 2020-II � APLICACIÓN IV Rendimiento en el trabajo Turno laboral Mañana Tarde Noche Total Deficiente 23 (16.80) 60 (52.64) 29 (42.56) 112 Promedio 28 (25.05) 79 (78.49) 60 (63.46) 167 Muy bueno 9 (18.15) 49 (56.87) 63 (45.98) 121 Total 60 188 152 400 Métodos Estadísticos para la Investigación I 2020-II � APLICACIÓN IV Métodos Estadísticos para la Investigación I 2020-II � b) El grado de asociación entre estas dos variables es: APLICACIÓN IV Métodos Estadísticos para la Investigación I 2020-II APLICACIÓN IV Mañana Tarde Noche Todo Deficiente 23 60 29 112 16.80 52.64 42.56 Promedio 28 79 60 167 25.05 78.49 63.46 Muy Bueno 9 49 63 121 18.15 56.87 45.98 Todo 60 188 152 400 Estadísticas tabuladas: Rendimiento, Turno Usando frecuencias en Frecuencia Filas: Rendimiento Columnas: Turno Chi-cuadrada GL Valor p Pearson 20.179 4 0.000 Relación de verosimilitud 20.892 4 0.000 Contenido de la celda Conteo Conteo esperado Prueba de chi-cuadrada Métodos Estadísticos para la Investigación I 2020-II APLICACIÓN IV � Métodos Estadísticos para la Investigación I 2020-II PRUEBA DE HOMOGENEIDAD DE SUBPOBLACIONES Métodos Estadísticos para la Investigación I 2020-II APLICACIÓN V Muestras de tres tipos de materiales, sujetos a cambios extremos de temperatura (desintegración), produjeron los resultados que se muestran en la siguiente tabla: Use un nivel de significancia de 0.05 para probar si, en las condiciones establecidas, la probabilidad de desintegración es diferente en al menos uno de los tres tipos de materiales. Use el valor P y prueba estadística. Condición Materiales Material A Material B Material C Total Desintegrados 41 27 22 90 Permanecieron intactos 79 53 78 210 Total 120 80 100 300 Métodos Estadísticos para la Investigación I 2020-II APLICACIÓN V � Métodos Estadísticos para la Investigación I 2020-II APLICACIÓN V � P3) Cálculo del estadístico de Prueba Condición Materiales Material A Material B Material C Total Desintegrados 41 (36) 27 (24) 22 (30) 90 Permanecieron intactos 79 (84) 53 (56) 78 (70) 210 Total 120 80 100 300 Métodos Estadísticos para la Investigación I 2020-II APLICACIÓN V � Métodos Estadísticos para la Investigación I 2020-II A un nivel de 0.05 de significación no existe evidencia estadística para rechazar Ho. No se puede afirma que las condiciones de desintegración no se distribuya homogéneamente en los tipos de materiales.PRUEBA DE HOMOGENEIDAD DE VARIANZAS � Evalúa si la variabilidad de una variable continua es homogénea en dos o más poblaciones. � A diferencia de las anteriores, esta prueba es de tipo paramétrica � Requiere de los siguientes supuestos: o Las muestras son aleatorias o Las muestras son independientes o Los datos que provienen de las muestras son normales Métodos Estadísticos para la Investigación I 2020-II PRUEBA DE HOMOGENEIDAD DE VARIANZAS Métodos Estadísticos para la Investigación I 2020-II PRUEBA DE HOMOGENEIDAD DE VARIANZAS � Métodos Estadísticos para la Investigación I 2020-II APLICACIÓN VI Una empresa usa 4 máquinas para el llenado de bolsas de detergente. Todas las máquinas son de la misma marca y modelo. Dichas máquinas están programadas para llenar 250 gr. en cada bolsa de detergente. El jefe de producción se ha quejado de que las 4 máquinas presentan cierto nivel de variabilidad en la cantidad de detergente de cada bolsa. Un especialista encargado por la compañía selecciona al azar 6 bolsas de c/u de las máquinas y posteriormente pesa las bolsas. Los resultados obtenidos se muestran a continuación: Repetición Máquinas A B C D 1 250.3 249.3 250 251.1 2 250.2 246.8 251.1 250.1 3 249.9 248.3 250.9 248.9 4 249.3 247.9 248.3 249.3 5 250.6 249.7 248.9 251 6 250.3 249.9 249.9 249.9 Total 1500.6 1491.9 1499.1 1500.3 Promedio 250.10 248.65 249.85 250.05 0.2 1.44 1.2 0.78 Métodos Estadísticos para la Investigación I 2020-II APLICACIÓN VI p-valor= 0.254 p-valor= 0.576 p-valor= 0.630 p-valor= 0.621 a. Pruebe el supuesto de normalidad utilizando los reportes. Use α=0.05 Métodos Estadísticos para la Investigación I 2020-II APLICACIÓN VI � Métodos Estadísticos para la Investigación I 2020-II APLICACIÓN VI � P3) Cálculo del estadístico de Prueba 0.20 1.44 1.20 0.78 -1.6094 0.3646 0.1823 -0.2485 5 5 5 5 20 Métodos Estadísticos para la Investigación I 2020-II APLICACIÓN VI � Métodos Estadísticos para la Investigación I 2020-II FÓRMULAS Métodos Estadísticos para la Investigación I 2020-II Referencias � R.G.D. Steel, & Torrie, J.H.(1985). Bioestadística Principios y Procedimientos. McGraw Hill, ed Bogotá, Colombia. � Porras, J. (2017). Pruebas No Paramétricas Usando R. Lima. UNALM . � Ramsey, F. L., & Schafer, D. W. (2002). The statistical sleuth: A course in methods of data analysis. Australia: Duxbury/Thomson Learning � Agresti, A. (2002) Categorical Data Analysis, (2nd Ed). Wiley- Interscience. New Yersey �
Compartir