Logo Studenta

Contraste de Datos Categóricos

¡Estudia con miles de materiales!

Vista previa del material en texto

Universidad Autónoma de Nuevo León
Facultad de IngenieríaMecánica y Eléctrica
División de Estudios de Posgrado
Contraste de datos categóricos
Ing. Sergio DavidMadrigal Espinoza, Dr.
Métodos Cuantitativos
2 de junio de 2021
1 / 43
Contenido
Datos categóricos
El estadístico ji-cuadrada de Pearson
Experimentos multinomiales
Tablas de contingencia
Prueba de McNemar
2 / 43
Datos categóricos
Un dato categórico, es aquel que puede ser clasificado
en cierta categoría. El término contraste de datos
categóricos, hace referencia a las pruebas estadísticas
que se aplican a un experimento, en el que los
resultados pueden ser clasificados, a pesar de ser no
numéricos.
3 / 43
Los datos de un experimento categórico, se reportan
en una lista que contiene las subcategorías
(i = 1, 2, . . . , c) y el número de veces que cada una de
ellas fue observada (Oi) durante el experimento.
Categoría
subcategoría 1 subcategoría 2 · · · subcategoría c
Conteo (Oi) O1 O2 · · · Oc
4 / 43
Contenido
Datos categóricos
El estadístico ji-cuadrada de Pearson
Experimentos multinomiales
Tablas de contingencia
Prueba de McNemar
5 / 43
El estadístico ji-cuadrada de Pearson
La variable aleatoria χ2v se utiliza para realizar
contrastes de datos categóricos. Esto se debe a que
el estadístico británico Karl Pearson (1900)
demostró que el estadístico del contraste asociado a
estas pruebas se distribuye de manera aproximada a
esta variable aleatoria.
6 / 43
Distribución ji−cuadrada
 
P(χv
2 ≥ χv, α
2 ) = α0 χv, α
2
7 / 43
v\α 0.1 0.05 0.025 0.01 0.005
1 2.706 3.841 5.024 6.635 7.879
2 4.605 5.991 7.378 9.210 10.597
3 6.251 7.815 9.348 11.345 12.838
4 7.779 9.488 11.143 13.277 14.860
5 9.236 11.070 12.833 15.086 16.750
6 10.645 12.592 14.449 16.812 18.548
7 12.017 14.067 16.013 18.475 20.278
8 13.362 15.507 17.535 20.090 21.955
9 14.684 16.919 19.023 21.666 23.589
10 15.987 18.307 20.483 23.209 25.188
11 17.275 19.675 21.920 24.725 26.757
12 18.549 21.026 23.337 26.217 28.300
13 19.812 22.362 24.736 27.688 29.819
14 21.064 23.685 26.119 29.141 31.319
15 22.307 24.996 27.488 30.578 32.801
Cuadro 1: Cuantiles χ2v,α
(
P
{
χ2v ≥ χ
2
v,α
}
= α
)
de la dist. Ji cuadrada.
8 / 43
El estadístico ji-cuadrada en GNU R
El programa GNU R, incluye una rutina para
calcular los cuantiles de una distribución
ji-cuadrada. Por ejemplo, si v = 2 y α = 0.05, el
cuantil χ22;0.05 se calcula de la siguiente manera:
> v = 2
> alfa = 0.05
> qchisq(1 - alfa, v)
[1] 5.991465
9 / 43
Contenido
Datos categóricos
El estadístico ji-cuadrada de Pearson
Experimentos multinomiales
Tablas de contingencia
Prueba de McNemar
10 / 43
Situación I
I Se realiza un experimento que consiste de n
ensayos idénticos.
I Los resultados de cada intento pertenecen a uno
de los c posibles valores de una categoría.
I La probabilidad de que el resultado de un ensayo
pertenezca a la categoría i (i = 1, 2, . . . , c) es pi
(
∑
pi = 1).
I Los ensayos son independientes.
11 / 43
Situación II
I Los resultados correspondientes a cada categoría,
se denotarán como O1,O2, . . . ,Oc. Se tiene que,
O1 +O2 + . . . +Oc = n.
12 / 43
Algunos ejemplos de esta clase de experimentos son:
1. Clasificar a la gente en cinco tramos de ingreso.
2. Un ratón puede responder de tres formas
distintas a un estimulo.
3. Un M&M puede tener 6 colores.
4. Una pieza producida por un fabricante de
muebles puede clasificarse como aceptable, de
segunda calidad o defectuosa.
13 / 43
Realización de la prueba
1. Las posibles hipótesis son:
H0: Las proporciones de cada categoría son
p1, p2, . . ., pc.
H1: Al menos una proporción es diferente.
2. Rechazar H0 si X2 ≥ χ2c−1,α.
3. El estadístico del contraste es:
X2 =
c∑
i=1
(Oi − Ei)2
Ei
, Ei = npi.
4. Conclusiones.
14 / 43
Ejemplo
Un investigador diseña un experimento en el cual, mantiene a
una rata sobre una rampa que conduce a tres puertas de
diferente color. El investigador suelta a la rata al final de la
rampa un total de 90 veces y registra cada vez el color de la
puerta elegido por la rata. ¿Tendrá la rata una preferencia por
alguna de las puertas? Utilice α = 0.05.
Puertas
Verde Roja Azul
Conteo (Oi) 20 39 31
15 / 43
Solución
1. H0 : p1 = p2 = p3 = 1/3.
H1 : Al menos una pi es diferente.
α = 0.05.
2. Rechazar H0 si X2 ≥ χ2c−1,α, con χ
2
2;0.05 = 5.991.
3.
X2 =
c∑
i=1
(Oi − Ei)2
Ei
,
=
(20 − 30)2
30
+
(39 − 30)2
30
+
(31 − 30)2
30
, = 6.0667.
4. Se rechaza H0. La evidencia indica que la rata muestra
preferencias por los colores.
16 / 43
Solución con R
> puertas = c(20, 39, 31)
> chisq.test(puertas)
Chi-squared test for given probabilities
data: puertas
X-squared = 6.0667, df = 2, p-value = 0.04815
Conclusión: se rechaza H0.
17 / 43
Ejemplo
La compañía Mars dice que los porcentajes de cada color de
M&M’s son los siguientes:
Color Café Amarillo Rojo Naranja Verde Azul
% 30 20 20 10 10 10
Una bolsa de M&M’s de un kilo es seleccionada
aleatoriamente y contiene 176 cafés, 135 amarillos, 79 rojos, 41
anaranjados, 36 verdes y 38 azules. ¿Sustentan los datos las
proporciones declaradas por Mars? Realice las hipótesis
correspondientes al nivel α = 0.05.
18 / 43
Solución
1. H0: p1 = 0.30, p2 = 0.20, . . . , p6 = 0.10.
H1: Al menos una es diferente.
α = 0.05.
2. Rechazar H0 si X2 ≥ χ2c−1,α con χ
2
5,0.05 = 11.070.
3.
X2 =
(176 − 151.5)2
151.5
+ . . . +
(38 − 50.5)2
50.5
,
= 29.2442.
4. Se rechaza H0. Según la evidencia, lo declarado por Mars es
incorrecto.
19 / 43
Solución con R
> declarado = c(0.30, 0.20, 0.20, 0.10, 0.10, 0.10)
> observado = c(176, 135, 79, 41, 36, 38)
> chisq.test(observado, p = declarado)
Chi-squared test for given probabilities
data: observado
X-squared = 29.244, df = 5, p-value = 2.076e-05
Conclusión: se rechaza H0.
20 / 43
Contenido
Datos categóricos
El estadístico ji-cuadrada de Pearson
Experimentos multinomiales
Tablas de contingencia
Prueba de McNemar
21 / 43
Situación
En algunas situaciones, el investigador puede
clasificar los resultados de un experimento en dos
tipos de categorías, obteniendo lo que se conoce
como datos bivariados. Estos datos pueden
acomodarse en una tabla de r × c a la que se le
denomina, tabla de contingencia.
22 / 43
Categoría 1
Categoría 2 1 2 · · · c Total
1 d11 d12 · · · d1c r1
2 d21 d22 · · · d2c r2
... ... ... . . . ... ...
r dr1 dr2 · · · drc rr
Total c1 c2 · · · cc n
23 / 43
Algunos ejemplos de datos bivariados son:
I Un mueble que puede clasificarse de acuerdo con
el tipo de defecto que presenta y la línea de
producción en la que fue producido.
I Un profesor puede ser clasificado de acuerdo a
los resultados de su examen evaluador y a la
universidad en la que trabaja.
I Un paciente puede estar en la categoría de los
que tomaron vacunas contra la influenza y en la
categoría de los que tuvieron influenza.
24 / 43
Realización de la prueba
1. Las hipótesis son:
H0: Las categorias son independientes.
H1: Existe relación (dependencia) entre las
categorías.
2. Rechazar H0 si X2 ≥ χ2(r−1)(c−1),α.
3. El estadístico del contraste es:
X2 =
∑
i
∑
j
(Oij − Êij)2
Êij
, Êij =
ricj
n
.
4. Conclusiones.
25 / 43
Ejemplo
Se pidió a estadounidenses de distintas
generaciones que expresaran su acuerdo o
desacuerdo a la frase: «si pudiera empezar de nuevo
en la vida, haría las cosas diferentes». ¿Depende la
respuesta de la generación? Utilice α = 0.05.
Generación X, Baby boomers, Generación sil.,
nacidos entre nacidos entre nacidos antes
1965 y 1976. 1946 y 1964. de 1946.
De acuerdo 118 213 88
En contra 80 87 61
26 / 43
Solución
1. H0: no hay relación entre las categorías.
H1: si existe dependencia.
α = 0.05.
2. Rechazar H0 si X2 ≥ χ2(r−1)(c−1),α con χ
2
2,0.05 = 5.991.
3.
X2 =
(118 − 128.2256)2
128.2256
+ . . . +
(61 − 52.5069)2
52.5069
,
= 9.5532.
4. Se rechaza H0. Existe una relación entre la respuesta y la
generación.
27 / 43
Solución con R
> GX = c(118, 80)
> BB = c(213, 87)
> GS = c(88, 61)
> respuestas = cbind(GX, BB, GS)
> respuestas
GX BB GS
[1,] 118 213 88
[2,]80 87 61
> chisq.test(respuestas)
Pearson's Chi-squared test
data: respuestas
X-squared = 9.5532, df = 2, p-value = 0.008424
Conclusión: se rechaza H0.
28 / 43
Ejemplo
Un total de n = 309 defectos en muebles fueron
registrados y estos fueron clasificados en las
categorías A, B, C y D. También se registró la línea
de ensamble en la que el mueble defectuoso fue
fabricado. ¿Existe suficiente evidencia para rechazar
la hipótesis nula de independencia entre los tipos de
defectos y las líneas? Utilice α = 0.05.
29 / 43
Tipo de defecto
Línea A B C D Total
1 15 21 45 13 94
2 26 31 34 5 96
3 33 17 49 20 119
Total 74 69 128 38 309
30 / 43
Solución I
1. H0: El tipo de defecto es independiente de la
línea de ensamble.
H1: hay una relación entre el tipo de defecto y la
línea de ensamblaje.
α = 0.05.
2. Rechazar H0 si X2 ≥ χ2(r−1)(c−1),α con
χ26,0.05 = 12.592.
3. Cálculo de Êij ∀i, j. Estos valores se muestran en
el siguiente cuadro:
31 / 43
Solución II
Tipo de defecto (Êij)
Línea A B C D Total
1 15 (22.51) 21 (20.99) 45 (38.94) 13 (11.56) 94
2 26 (22.99) 31 (21.44) 34 (39.77) 5 (11.81) 96
3 33 (28.50) 17 (26.57) 49 (49.29) 20 (14.63) 119
Total 74 69 128 38 309
El estadístico ji-cuadrado de Pearson se calcula
32 / 43
Solución III
así:
X2 =
∑ (Oij − Êij)2
Êij
,
=
(15 − 22.51)2
22.51
+ · · · +
(20 − 14.63)2
14.63
,
= 19.1778.
4. Se rechaza H0. La evidencia indica que hay una
relación entre el tipo de defecto y la línea de
producción.
33 / 43
Solución con R
> linea1 = c(15, 21, 45, 13)
> linea2 = c(26, 31, 34, 5)
> linea3 = c(33, 17, 49, 20)
> defectos = rbind(linea1, linea2, linea3)
> defectos
[,1] [,2] [,3] [,4]
linea1 15 21 45 13
linea2 26 31 34 5
linea3 33 17 49 20
> chisq.test(defectos)
Pearson's Chi-squared test
data: defectos
X-squared = 19.178, df = 6, p-value = 0.003873
Conclusión: se rechaza H0.
34 / 43
Contenido
Datos categóricos
El estadístico ji-cuadrada de Pearson
Experimentos multinomiales
Tablas de contingencia
Prueba de McNemar
35 / 43
Situación
Se desea saber si cierto «tratamiento» influye en
ciertos «individuos» tomando en cuenta sus estados
«antes» del tratamiento y «después» de éste. Los
posibles estados son dos e indican si el tratamiento
está surtiendo efecto (1) o no (0). Lo que la prueba
hace es buscar diferencias entre las probabilidades
de los pares (0, 1) y (1, 0). Los datos pueden
acomodarse de la siguiente manera:
36 / 43
Yt
0 1 Totales
Xt
0 a b a + b
1 c d c + d
Totales a + c b + d n
37 / 43
donde a es el número de individuos cuyo estado
antes y después del tratamiento fue 0; b son aquellos
individuos cuyo estado antes del tratamiento fue 0 y
después de éste fue 1; c es el número de individuos
cuyo estado antes del tratamiento fue 1 y después
de éste fue 0; finalmente, d son aquellos individuos
cuyo estado antes y después del tratamiento es 1.
38 / 43
Procedimiento
1. Las posibles hipótesis son:
H0: El tratamiento no tiene efecto: pi01 = p
i
10.
H1: El tratamiento si tiene efecto: pi01 , p
i
10.
2. Rechazar H0 si X2 ≥ χ21,α.
3. El estadístico del contraste es:
X2 =
(|b − c| − 1)2
b + c
4. Conclusiones.
39 / 43
Ejemplo
Después de un discurso del candidato de un partido
político a la presidencia, se desea saber si las
preferencias del electorado han cambiado. Realice
las pruebas correspondientes al nivel α = 0.05. Los
datos de la encuesta realizada son los siguientes:
40 / 43
Después
En contra A favor Totales
Antes
En contra 1200 200 1400
A favor 300 1500 1800
Totales 1500 1700 3200
41 / 43
Solución
1. H0: pi01 = p
i
10.
H1: pi01 , p
i
10.
α = 0.05.
2. Rechazar H0 si X2 ≥ χ21,α, donde χ
2
1,0.05 = 3.841.
3.
X2 =
(|b − c| − 1)2
b + c
=
(| − 100| − 1)2
500
,
= 19.6020.
4. Se rechaza H0. El discurso no fue favorable.
42 / 43
Solución con R
> interes = matrix(c(1200, 300, 200, 1500), nrow=2)
> mcnemar.test(interes)
McNemar's Chi-squared test with continuity correction
data: interes
McNemar's chi-squared = 19.602, df = 1, p-value = 9.537e-06
Conclusión: se rechaza H0.
43 / 43
	Datos categóricos
	El estadístico ji-cuadrada de Pearson
	Experimentos multinomiales
	Tablas de contingencia
	Prueba de McNemar

Continuar navegando