Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Universidad Autónoma de Nuevo León Facultad de IngenieríaMecánica y Eléctrica División de Estudios de Posgrado Contraste de datos categóricos Ing. Sergio DavidMadrigal Espinoza, Dr. Métodos Cuantitativos 2 de junio de 2021 1 / 43 Contenido Datos categóricos El estadístico ji-cuadrada de Pearson Experimentos multinomiales Tablas de contingencia Prueba de McNemar 2 / 43 Datos categóricos Un dato categórico, es aquel que puede ser clasificado en cierta categoría. El término contraste de datos categóricos, hace referencia a las pruebas estadísticas que se aplican a un experimento, en el que los resultados pueden ser clasificados, a pesar de ser no numéricos. 3 / 43 Los datos de un experimento categórico, se reportan en una lista que contiene las subcategorías (i = 1, 2, . . . , c) y el número de veces que cada una de ellas fue observada (Oi) durante el experimento. Categoría subcategoría 1 subcategoría 2 · · · subcategoría c Conteo (Oi) O1 O2 · · · Oc 4 / 43 Contenido Datos categóricos El estadístico ji-cuadrada de Pearson Experimentos multinomiales Tablas de contingencia Prueba de McNemar 5 / 43 El estadístico ji-cuadrada de Pearson La variable aleatoria χ2v se utiliza para realizar contrastes de datos categóricos. Esto se debe a que el estadístico británico Karl Pearson (1900) demostró que el estadístico del contraste asociado a estas pruebas se distribuye de manera aproximada a esta variable aleatoria. 6 / 43 Distribución ji−cuadrada P(χv 2 ≥ χv, α 2 ) = α0 χv, α 2 7 / 43 v\α 0.1 0.05 0.025 0.01 0.005 1 2.706 3.841 5.024 6.635 7.879 2 4.605 5.991 7.378 9.210 10.597 3 6.251 7.815 9.348 11.345 12.838 4 7.779 9.488 11.143 13.277 14.860 5 9.236 11.070 12.833 15.086 16.750 6 10.645 12.592 14.449 16.812 18.548 7 12.017 14.067 16.013 18.475 20.278 8 13.362 15.507 17.535 20.090 21.955 9 14.684 16.919 19.023 21.666 23.589 10 15.987 18.307 20.483 23.209 25.188 11 17.275 19.675 21.920 24.725 26.757 12 18.549 21.026 23.337 26.217 28.300 13 19.812 22.362 24.736 27.688 29.819 14 21.064 23.685 26.119 29.141 31.319 15 22.307 24.996 27.488 30.578 32.801 Cuadro 1: Cuantiles χ2v,α ( P { χ2v ≥ χ 2 v,α } = α ) de la dist. Ji cuadrada. 8 / 43 El estadístico ji-cuadrada en GNU R El programa GNU R, incluye una rutina para calcular los cuantiles de una distribución ji-cuadrada. Por ejemplo, si v = 2 y α = 0.05, el cuantil χ22;0.05 se calcula de la siguiente manera: > v = 2 > alfa = 0.05 > qchisq(1 - alfa, v) [1] 5.991465 9 / 43 Contenido Datos categóricos El estadístico ji-cuadrada de Pearson Experimentos multinomiales Tablas de contingencia Prueba de McNemar 10 / 43 Situación I I Se realiza un experimento que consiste de n ensayos idénticos. I Los resultados de cada intento pertenecen a uno de los c posibles valores de una categoría. I La probabilidad de que el resultado de un ensayo pertenezca a la categoría i (i = 1, 2, . . . , c) es pi ( ∑ pi = 1). I Los ensayos son independientes. 11 / 43 Situación II I Los resultados correspondientes a cada categoría, se denotarán como O1,O2, . . . ,Oc. Se tiene que, O1 +O2 + . . . +Oc = n. 12 / 43 Algunos ejemplos de esta clase de experimentos son: 1. Clasificar a la gente en cinco tramos de ingreso. 2. Un ratón puede responder de tres formas distintas a un estimulo. 3. Un M&M puede tener 6 colores. 4. Una pieza producida por un fabricante de muebles puede clasificarse como aceptable, de segunda calidad o defectuosa. 13 / 43 Realización de la prueba 1. Las posibles hipótesis son: H0: Las proporciones de cada categoría son p1, p2, . . ., pc. H1: Al menos una proporción es diferente. 2. Rechazar H0 si X2 ≥ χ2c−1,α. 3. El estadístico del contraste es: X2 = c∑ i=1 (Oi − Ei)2 Ei , Ei = npi. 4. Conclusiones. 14 / 43 Ejemplo Un investigador diseña un experimento en el cual, mantiene a una rata sobre una rampa que conduce a tres puertas de diferente color. El investigador suelta a la rata al final de la rampa un total de 90 veces y registra cada vez el color de la puerta elegido por la rata. ¿Tendrá la rata una preferencia por alguna de las puertas? Utilice α = 0.05. Puertas Verde Roja Azul Conteo (Oi) 20 39 31 15 / 43 Solución 1. H0 : p1 = p2 = p3 = 1/3. H1 : Al menos una pi es diferente. α = 0.05. 2. Rechazar H0 si X2 ≥ χ2c−1,α, con χ 2 2;0.05 = 5.991. 3. X2 = c∑ i=1 (Oi − Ei)2 Ei , = (20 − 30)2 30 + (39 − 30)2 30 + (31 − 30)2 30 , = 6.0667. 4. Se rechaza H0. La evidencia indica que la rata muestra preferencias por los colores. 16 / 43 Solución con R > puertas = c(20, 39, 31) > chisq.test(puertas) Chi-squared test for given probabilities data: puertas X-squared = 6.0667, df = 2, p-value = 0.04815 Conclusión: se rechaza H0. 17 / 43 Ejemplo La compañía Mars dice que los porcentajes de cada color de M&M’s son los siguientes: Color Café Amarillo Rojo Naranja Verde Azul % 30 20 20 10 10 10 Una bolsa de M&M’s de un kilo es seleccionada aleatoriamente y contiene 176 cafés, 135 amarillos, 79 rojos, 41 anaranjados, 36 verdes y 38 azules. ¿Sustentan los datos las proporciones declaradas por Mars? Realice las hipótesis correspondientes al nivel α = 0.05. 18 / 43 Solución 1. H0: p1 = 0.30, p2 = 0.20, . . . , p6 = 0.10. H1: Al menos una es diferente. α = 0.05. 2. Rechazar H0 si X2 ≥ χ2c−1,α con χ 2 5,0.05 = 11.070. 3. X2 = (176 − 151.5)2 151.5 + . . . + (38 − 50.5)2 50.5 , = 29.2442. 4. Se rechaza H0. Según la evidencia, lo declarado por Mars es incorrecto. 19 / 43 Solución con R > declarado = c(0.30, 0.20, 0.20, 0.10, 0.10, 0.10) > observado = c(176, 135, 79, 41, 36, 38) > chisq.test(observado, p = declarado) Chi-squared test for given probabilities data: observado X-squared = 29.244, df = 5, p-value = 2.076e-05 Conclusión: se rechaza H0. 20 / 43 Contenido Datos categóricos El estadístico ji-cuadrada de Pearson Experimentos multinomiales Tablas de contingencia Prueba de McNemar 21 / 43 Situación En algunas situaciones, el investigador puede clasificar los resultados de un experimento en dos tipos de categorías, obteniendo lo que se conoce como datos bivariados. Estos datos pueden acomodarse en una tabla de r × c a la que se le denomina, tabla de contingencia. 22 / 43 Categoría 1 Categoría 2 1 2 · · · c Total 1 d11 d12 · · · d1c r1 2 d21 d22 · · · d2c r2 ... ... ... . . . ... ... r dr1 dr2 · · · drc rr Total c1 c2 · · · cc n 23 / 43 Algunos ejemplos de datos bivariados son: I Un mueble que puede clasificarse de acuerdo con el tipo de defecto que presenta y la línea de producción en la que fue producido. I Un profesor puede ser clasificado de acuerdo a los resultados de su examen evaluador y a la universidad en la que trabaja. I Un paciente puede estar en la categoría de los que tomaron vacunas contra la influenza y en la categoría de los que tuvieron influenza. 24 / 43 Realización de la prueba 1. Las hipótesis son: H0: Las categorias son independientes. H1: Existe relación (dependencia) entre las categorías. 2. Rechazar H0 si X2 ≥ χ2(r−1)(c−1),α. 3. El estadístico del contraste es: X2 = ∑ i ∑ j (Oij − Êij)2 Êij , Êij = ricj n . 4. Conclusiones. 25 / 43 Ejemplo Se pidió a estadounidenses de distintas generaciones que expresaran su acuerdo o desacuerdo a la frase: «si pudiera empezar de nuevo en la vida, haría las cosas diferentes». ¿Depende la respuesta de la generación? Utilice α = 0.05. Generación X, Baby boomers, Generación sil., nacidos entre nacidos entre nacidos antes 1965 y 1976. 1946 y 1964. de 1946. De acuerdo 118 213 88 En contra 80 87 61 26 / 43 Solución 1. H0: no hay relación entre las categorías. H1: si existe dependencia. α = 0.05. 2. Rechazar H0 si X2 ≥ χ2(r−1)(c−1),α con χ 2 2,0.05 = 5.991. 3. X2 = (118 − 128.2256)2 128.2256 + . . . + (61 − 52.5069)2 52.5069 , = 9.5532. 4. Se rechaza H0. Existe una relación entre la respuesta y la generación. 27 / 43 Solución con R > GX = c(118, 80) > BB = c(213, 87) > GS = c(88, 61) > respuestas = cbind(GX, BB, GS) > respuestas GX BB GS [1,] 118 213 88 [2,]80 87 61 > chisq.test(respuestas) Pearson's Chi-squared test data: respuestas X-squared = 9.5532, df = 2, p-value = 0.008424 Conclusión: se rechaza H0. 28 / 43 Ejemplo Un total de n = 309 defectos en muebles fueron registrados y estos fueron clasificados en las categorías A, B, C y D. También se registró la línea de ensamble en la que el mueble defectuoso fue fabricado. ¿Existe suficiente evidencia para rechazar la hipótesis nula de independencia entre los tipos de defectos y las líneas? Utilice α = 0.05. 29 / 43 Tipo de defecto Línea A B C D Total 1 15 21 45 13 94 2 26 31 34 5 96 3 33 17 49 20 119 Total 74 69 128 38 309 30 / 43 Solución I 1. H0: El tipo de defecto es independiente de la línea de ensamble. H1: hay una relación entre el tipo de defecto y la línea de ensamblaje. α = 0.05. 2. Rechazar H0 si X2 ≥ χ2(r−1)(c−1),α con χ26,0.05 = 12.592. 3. Cálculo de Êij ∀i, j. Estos valores se muestran en el siguiente cuadro: 31 / 43 Solución II Tipo de defecto (Êij) Línea A B C D Total 1 15 (22.51) 21 (20.99) 45 (38.94) 13 (11.56) 94 2 26 (22.99) 31 (21.44) 34 (39.77) 5 (11.81) 96 3 33 (28.50) 17 (26.57) 49 (49.29) 20 (14.63) 119 Total 74 69 128 38 309 El estadístico ji-cuadrado de Pearson se calcula 32 / 43 Solución III así: X2 = ∑ (Oij − Êij)2 Êij , = (15 − 22.51)2 22.51 + · · · + (20 − 14.63)2 14.63 , = 19.1778. 4. Se rechaza H0. La evidencia indica que hay una relación entre el tipo de defecto y la línea de producción. 33 / 43 Solución con R > linea1 = c(15, 21, 45, 13) > linea2 = c(26, 31, 34, 5) > linea3 = c(33, 17, 49, 20) > defectos = rbind(linea1, linea2, linea3) > defectos [,1] [,2] [,3] [,4] linea1 15 21 45 13 linea2 26 31 34 5 linea3 33 17 49 20 > chisq.test(defectos) Pearson's Chi-squared test data: defectos X-squared = 19.178, df = 6, p-value = 0.003873 Conclusión: se rechaza H0. 34 / 43 Contenido Datos categóricos El estadístico ji-cuadrada de Pearson Experimentos multinomiales Tablas de contingencia Prueba de McNemar 35 / 43 Situación Se desea saber si cierto «tratamiento» influye en ciertos «individuos» tomando en cuenta sus estados «antes» del tratamiento y «después» de éste. Los posibles estados son dos e indican si el tratamiento está surtiendo efecto (1) o no (0). Lo que la prueba hace es buscar diferencias entre las probabilidades de los pares (0, 1) y (1, 0). Los datos pueden acomodarse de la siguiente manera: 36 / 43 Yt 0 1 Totales Xt 0 a b a + b 1 c d c + d Totales a + c b + d n 37 / 43 donde a es el número de individuos cuyo estado antes y después del tratamiento fue 0; b son aquellos individuos cuyo estado antes del tratamiento fue 0 y después de éste fue 1; c es el número de individuos cuyo estado antes del tratamiento fue 1 y después de éste fue 0; finalmente, d son aquellos individuos cuyo estado antes y después del tratamiento es 1. 38 / 43 Procedimiento 1. Las posibles hipótesis son: H0: El tratamiento no tiene efecto: pi01 = p i 10. H1: El tratamiento si tiene efecto: pi01 , p i 10. 2. Rechazar H0 si X2 ≥ χ21,α. 3. El estadístico del contraste es: X2 = (|b − c| − 1)2 b + c 4. Conclusiones. 39 / 43 Ejemplo Después de un discurso del candidato de un partido político a la presidencia, se desea saber si las preferencias del electorado han cambiado. Realice las pruebas correspondientes al nivel α = 0.05. Los datos de la encuesta realizada son los siguientes: 40 / 43 Después En contra A favor Totales Antes En contra 1200 200 1400 A favor 300 1500 1800 Totales 1500 1700 3200 41 / 43 Solución 1. H0: pi01 = p i 10. H1: pi01 , p i 10. α = 0.05. 2. Rechazar H0 si X2 ≥ χ21,α, donde χ 2 1,0.05 = 3.841. 3. X2 = (|b − c| − 1)2 b + c = (| − 100| − 1)2 500 , = 19.6020. 4. Se rechaza H0. El discurso no fue favorable. 42 / 43 Solución con R > interes = matrix(c(1200, 300, 200, 1500), nrow=2) > mcnemar.test(interes) McNemar's Chi-squared test with continuity correction data: interes McNemar's chi-squared = 19.602, df = 1, p-value = 9.537e-06 Conclusión: se rechaza H0. 43 / 43 Datos categóricos El estadístico ji-cuadrada de Pearson Experimentos multinomiales Tablas de contingencia Prueba de McNemar
Compartir