Estadistica No Parametrica

Análisis Estadístico

•
UNAM

andreasaga1525
6/11/2023
¡Este material tiene más páginas!
Vista previa del material en texto
Estadística 
No paramétrica 
No paramétricas 
Se basan en un modelo que especifica condiciones generales y ninguna acerca de la forma de la distribución de la cual fue obtenida la muestra.
Suposiciones 
-Observaciones son independientes
-Quizá la variable de estudio es continúa.
Usos 
Se pueden usar en datos medidos en una escala 
-nominal o categórica. 
-de rangos o ordinal. 
Nominal o categórica 
Es la medición en su nivel más débil. Existe cuando los números u otros símbolos se usan simplemente para clasificar un objeto, una persona o una característica. 
Cuando se emplean números u otros símbolos para identificar los grupos a los cuales pertenecen varios objetos, estos números (sin propiedades cuantitativas) o símbolos constituyen una escala nominal o categórica.
 
Hombres o mujeres 
 1 mujeres 2 hombres 
Respuestas a un cuestionario
 S: Si N: No 
Ordinal o de rangos
Cuando los objetos en una categoría de una escala no sean únicamente diferentes de los objetos de otras categorías, sino que también exista algún tipo de relación entre ellos. 
Las relaciones típicas serian 
Más alto, más preferido, más difícil, más doloroso y estas relaciones se denominan por >. 
Podemos tener una escala parcialmente ordenada. 
Ejemplos: Niveles de satisfacción del algún servicio. 
Se usan cuando los datos medidos en una escala de intervalo o de razón (cero absoluto) no tengan homogeneidad de varianza. 
Ventajas de las pruebas no paramétricas
Si el tamaño de la muestra es muy pequeño se debe usar una prueba no paramétrica. A menos que la naturaleza de la distribución de la población se conozca con exactitud. 
Hacen menos suposiciones acerca de los datos y pueden ser más relevantes en una situación en particular. 
Pueden analizar datos inherentes a rangos. 
Ejemplos: ansiedad, podemos decir que el sujeto A es más ansioso que el B, sin conocer con exactitud cuanto más ansioso es A. 
-Categorizar los datos como mayor o menor.
Los métodos no paramétricos se pueden usar para datos que son clasificatorios o categóricos es decir son medidos en una escala nominal.
Existen pruebas no paramétricas adecuadas para tratar muestras obtenidas de observaciones de diferentes poblaciones. 
Son más fáciles de aprender y aplicar que las pruebas paramétricas. Su interpretación es más directa. 
Desventajas de las pruebas no paramétricas 
Si los datos cumplen con las suposiciones de las pruebas paramétricas es mejor usar estas.
No existen pruebas de dos o tres factores para estadística no paramétrica. 
Hay que transformar los datos para que cumplan con los requisitos de las pruebas paramétricas. 
 Uno de los pasos previos a la comprobación de si existen diferencias entre las medias de varias muestras es determinar si las varianzas en tales muestras son iguales.
Existen varias pruebas que permiten comprobar la igualdad de varianzas: 
F de Fisher,
Fmax de Hartley, 
Bartlett 
Levene 
Cochran 
Shapiro Wilk 
 
Homogeneidad de varianza 
Pruebas de homogeneidad de 
Hartley's F-Max: Usa la proporción entre la varianza mayor entre la menor.
Cochran's C: Usa la proporción entre la varianza mayor y la suma de las varianzas.
Levene: Usa la diferencia absoluta entre cada dato y su media 
Bartlett's Chi-Square: Se sugiere usar para variables correlacionadas o de medidas repetidas.
Ejemplo 1: grupo control vs grupo experimental 
Hay homogeneidad de varianza? 
Si hay homogeneidad de varianza! Entonces podemos usar una prueba paraméterica.
Ahora veamos un ejemplo donde no hay homogeneidad de varianza
El mismo grupo control y variamos solamente algunos datos del grupo experimental 
Distribución normal 
Contraste de Pearson 
Prueba Kolmogorov-Smirnov 
X2
X2 = ∑ ∑ (fo –fe )2 / fe 
 r=1 c=1
	 	Mujeres 	Hombres 	 
	No saludable 	34	16	 
	Saludable 	29	27	 
	Muy saludable 	17	54	 
	 	 	 	 
¿Existen diferencias en las horas invertidas para ver TV entre los niños mexicanos y los de USA?. 
	 	USD	México	 
	Mucho 	22	14	 
	Mediano 	9	6	 
	Poco 	12	32	 
	 	 	 	 
Prueba exacta de Fisher 
(dos muestras)
Se utiliza para analizar dos grupos independientes. 
Se utiliza para analizar muestras pequeñas. 
En 25% de los datos son menores que 5. 
Ejemplo 1 
		hombres	mujeres
	No dieta	4	1
	Dieta	1	6
Existe una plaga que deteriora la salud de los árboles. Se quiere averiguar si la infección depende del tipo de árbol. 
		Infectado 	No infectado 	Total 
	Jacaranda	1	4	5
	Pirú 	7	2	9
	Total 	8	6	14
c2 para varios grupo 
Ejemplo 
	Especie 	Tundra 	Desierto	Llano 
	Rata 	125	16	6
	Ratón 	7	19	117
MacNemar
(dos grupos 2X2)
Se utiliza en diseños antes-después, en los cuales cada sujeto se utiliza como su propio control y las mediciones se realizan en escala nominal u ordinal. 
 X2= (|A-D|-1)2 / A+D
	Antes/después 	no	si 
	si	A	B
	no	C	D
Ejemplo 1 
Datos de 20 pacientes intervenidos quirúrgicamente en los que se valoró el dolor tras la cirugía y al cabo de 1 hora tras la administración de un analgésico.
Individuo 	Dolor tras la intervención 	Dolor 1 horas después del Tto.
1 	No 	No
2 	Sí 	No
3 	No 	No
4 	No 	No
5 	Sí 	No
6 	Sí 	No
7 	No 	No
8 	Sí 	Sí
9 	No 	No
10 	No 	No
11 	Sí 	No
12 	Sí 	No
13 	Sí 	No
14 	Sí 	No
15 	Sí 	No
16 	No 	Sí
17 	No 	Sí
18 	Sí 	No
19 	Sí 	No
20 	Sí 	No
		si	no
	si		
	no		
Ejemplo 2 
Se quiere demostrar que un método didáctico mejora el desempeño escolar de los alumnos.
 
		Éxito 	Fracaso 	
	Éxito 	63	21	84
	Fracaso 	4	12	16
		67	33	100
Tarea 1
75 Votantes 
	Antes debate		Después del debate	
			Reagan	Carter
	Carter		13	28
	Reagan		27	7
Prueba de los signos
Se aplica a investigaciones en las cuales las mediciones cuantitativas son imposibles o no son viables pero en las que si se pueden determinar para cada par de observaciones cual es la más grande en algún sentido. 
En esta prueba debemos poner atención a la dirección de la diferencia si es positivo o negativo. 
Hipótesis nula z≤s
 s = r+ -0.5n /0.5 √n 
a= 0.05
z=1.645 una cola, dos colas 1.960 
Ejemplo 1 
	automovil	Llantas radiales	Llantas con cinturón	d
	1	4.2	4.1	+
	2	4.7	4.9	-
	3	6.6	6.2	+
	4	7.0	6.9	+
	5	6.7	6.8	-
	6	4.5	4.4	+
	7	5.7	5.7	0
	8	6.0	5.8	+
	9	7.4	6.9	+
	10	4.9	4.9	0
	11	6.1	6.0	+
	12	5.2	4.9	+
	13	5.7	5.3	+
	14	6.9	6.5	+
	15	6.8	7.1	-
	16	4.9	4.8	+
Ejemplo 2
	paciente	Analgésico A	Analgésico B	
	1	2	3.5	
	2	3.6	5.7	
	3	2.6	2.9	
	4	2.6	2.4	
	5	7.3	9.9	
	6	3.4	3.3	
	7	14.9	16.7	
	8	6.6	6	
	9	2.3	3.8	
	10	2	4	
	11	6.8	9.1	
	12	8.5	20.9	
Tarea
a= 0.05
z=1.645 una cola, dos colas 1.960 
	pareja	Esposo 	Esposa 	pareja	Esposo 	Esposa 
	1	5	3	9	4	3
	2	4	3	10	5	2
	3	6	4	11	4	2
	4	6	5	12	4	5
	5	2	3	13	7	2
	6	5	2	14	5	5
	7	3	3	15	5	3
	8	1	2	16	5	1
Prueba de los signos de Wilcoxon
La prueba de los signos solo nos dice la dirección de la diferencia entre los pares pero no la magnitud de esta. Wilcoxon adjudica mayor peso a los pares que muestran más diferencia entre las dos condiciones. 
Se obtiene el valor de T- (suma de los rangos con diferencia negativa) y T+ (suma de los rangos con diferencias positivas. 
T- = N (N+1)/2-T+
Significativo 
Ejemplo 1 
	Par	EXPERIMENTAL	CONTROL 	DIFERENCIA 	RANGO 	RANGOS CON MENOR PUNTAJE 
	A	47	40	+7		
	B	43	38	+5		
	C	36	42			
	D	38	25			
	E	30	29			
	F	22	26			
	G	25	16			
	H	21	18			
	I	14	8			
	J	12	4			
	K	5	7			
	L	9	3			
	M	5	5			
						T-=13
Tabla J para valores de T-
Ejemplo 2 
	Sujetos 	SINCRONIA 	FUERA DE SIN 	Diferencia 	Rango 
	DC	20.3	50.4	30.1	
	MK	17	87	70.0	
	VH	6.5	25.1	18.6	
	JM	25	28.5	3.5	
	SB	5.4	26.9	21.5	
	MM	29.2	36.6	7.4	
	RH	2.9	1	-1.9	
	DJ	6.6	43.8	37.2	
	JD	15.8	44.2	28.4	
	ZC	8.3	10.4	2.1	
	CW	34	29.9	-4.1	
	AF	8	27.7	19.7	
Dos grupos 
Mann-Whitney 
Evaluar si dos grupos independientes fueron extraídos de la misma población. 
Las medianas de dos muestras son diferentes significativamente. 
Los datos al menos en escala ordinal. 
Contraparte t
 
Ejemplo 1 
	Sin entrenamientoEntrenamiento 
	12	2
	18	8
	31	15
	45	19
	47	38
Organizar los datos en rangos 
U cada ves que e precede a c 
U=3+2+1+0+0=6
U´cada ves que c precede a e 
U´=5+5+4+3+2=19
Significativo U igual o menor que el valor de tabla 
 U´ igual o más grande del valor de tabla 
Valor de tabla 2/23
6 es mayor que 2 
19 es menor que 23
 No es significativo 
	Rango 	1	2	3	4	5	6	7	8	9	10
	Entrenamiento 	2	8	12	15	18	19	31	38	45	47
	No entrenamiento 	c	c	e	c	e	c	e	c	e	e
Ejemplo 2 
	Experimental 		Control 	
	Tiempo en segundos 	Rango 	Tiempo en segundos 	Rango 
	140	4	130	1
	147	6	135	2
	153	8	138	3
	160	10	144	5
	165	11	148	7
	170	13	155	9
	171	14	168	12
	193	15		
		R1=81		R2=39
		n1=8		n2=7
U=n1n2 + (n1 (n1+1)/2)-r1
U´=n1n2 + (n2 (n2+1)/2)-r2
 Usando a=0.01 de dos colas 6/50
Significativo U igual o menor que el valor de tabla 
 U´ igual o más grande del valor de tabla 
a
Tarea 
Comparar el número de huevos maduros en dos cepas de Drosophila, D. melanogaster y D. simulans. 
D. melanogaster 10, 2, 20, 15. 
D. simulans 8, 3, 5, 4. 
Kolmogorov-Smirnov
(dos muestras) 
Prueba de si dos muestras independientes se han extraído de la misma población. 
La predicción es que las puntaciones de un grupo experimental serán mayores que los correspondientes a un grupo control. 
Dm,n= max |Sm (X)- Sn (X)|
mnDm,n=nmDm,n
Sm (X) distribución acumulada observada para una muestra de tamaño m. 
Sn (X) distribución acumulada observada para una muestra de tamaño n. 
Ejemplo 1 
	Sujetos de 10 grado 	Sujetos del 7 grado 
	35.2	39.1
	39.2	41.2
	40.9	45.2
	38.1	46.2
	34.4	48.4
	29.1	48.7
	41.8	55
	24.3	40.6
	32.4	52.1
		47.2
		24-27	28-31	32-35	36-39	40-43	44-47	48-51	52-55
	Sm(X)								
	Sn(X)								
	Sm(x)-Sn(X)								
Dm,n= max |Sm (X)- Sn (X)|
mnDm,n= (n) (m) (Dm,n)
Ejemplo 2 
	Grupo 1	Grupo 2 
	10	12
	8	15
	12	20
	16	18
	5	13
	9	14
	7	9
	11	16
	6	
		1-2	3-4	5-6	7-8	9-10	11-12	13-14	15-16	17-18	19-20
	Sm(X)										
	Sn(X)										
	Sm(X)-Sn(X)										
Tablas 
Pruebas no paramétricas para más de dos grupos 
Q Cochran 
Se usa para estudios con más de dos grupos relacionados. 
Evalúa si tres o más conjuntos igualados de frecuencias o proporciones difieren significativamente entre ellos.
Se utiliza en estudios en los que los mismos sujetos sean utilizados en las diferentes condiciones. 
Formula 
Q= (k-1) [ K ∑Gn2 – (∑ Gn)2 ] / k ∑Lc-∑Lc2
K número de grupos 
Gn sumatoria de numero total de éxitos en la columna.
 Lc sumatoria de éxitos en el renglón.
	grupo	entrevista1	Entrevista 2	Entrevista 3	Li	Li2
	1	0	0	0		
	2	1	1	0		
	3	0	1	0		
	4	0	0	0		
	5	1	0	0		
	6	1	1	0		
	7	1	1	0		
	8	0	1	0		
	9	1	0	0		
	10	0	0	0		
	11	1	1	1		
	12	1	1	1		
	13	1	1	0		
	14	1	1	0		
	15	1	1	0		
	16	1	1	1		
	17	1	1	0		
	18	1	1	0		
	TOTAL	G1	G2	G3	SUM L1	SUM L12
	Identidad de la rata 	Tratamiento 1	Tratamiento 2	Tratamiento 3	Tratamiento 4	Lc	Lc2
	1	0	0	1	0		
	2	1	1	1	0		
	3	0	1	1	0		
	4	0	1	1	1		
	5	1	0	1	1		
	6	1	1	0	0		
	7	1	0	0	1		
	8	0	1	1	1		
	9	0	0	1	0		
	10	0	0	0	1		
	11	1	0	1	0		
	12	0	0	1	0		
	13	0	0	1	0		
	14	1	0	1	1		
	15	0	1	1	1		
	∑Gn					∑Lc	∑Lc2
Tabla C
Tarea 
Estudio de los efectos que producen tres fármacos en el tratamiento de la misma enfermedad. En el estudio participaron 5 sujetos se les pregunto si el tratamiento les indujo un efecto secundario (1) o no efectos (0). Son los tratamientos significativamente diferente a a=0.01? y a=0.05? 
	Sujeto/tratamiento	A	B	C
	1	1	1	1
	2	0	1	1
	3	1	1	1
	4	1	1	1
	5	0	0	0
Kruskal-Wallis 
Se utiliza para determinar si tres o más grupos provienen de diferentes poblaciones. Si los grupos difieren entre sí. 
 Análogo no paramétrico de la ANOVA de una vía. 
K=número de muestras o grupo 
nj= numero de casos en la j ésima muestra
N=número de casos en la muestra combinada (suma de n)
Rj=sumatoria de los rangos en la j ésima muestra o grupo 
︠Rj=promedio de los rangos en la j ésima muestra o grupo 
︠R= (N+1)/2 promedio de los rangos en la muestra combinada 
Ejercicio 1
		A		B		C	
		.994		.795		.940	
		.872		.884		.979	
		.349		.816		.949	
				.981		.890	
						.978	
	Rj						
	︠Rj						
Pruebas Post hoc 
Tukey más estricta que la Student-Newman ya que controla los errores de todas las comparaciones simultáneamente mientras que la Student-Newman controla los errores entre las medias. 
Hace comparaciones entre todos los pares. 
Student-Newman-Keuls es menos estricta que la Tukey. Por lo tanto es mas probable que una diferencia sea significativa.
Solo se usa en comparaciones pareadas. 
Dunnett realiza múltiples comparaciones contra el grupo control.
Dunn´s se usa para la ANOVA de rangos cuando el número de datos en cada grupo es diferente. Se pueden realizar todas las comparaciones pareadas y comparaciones múltiples contra el control.
Ejercicio 2
	Control 	Tratamiento 1	Tratamiento 2
	7	10	23
	4	11	14
	5	12	15
	6	9	13
	1		16
Ejercicio 3 
	Control 	Tratamiento a	Tratamiento b
	18	8	7
	28	12	19
	24	3	2
	21	24	30
	28	2	18
	32	1	5
	10		14
Tarea
a mano y en computadora, usar la prueba post hoc adecuada 
	Control 	Tratamiento 1	Tratamiento 2
	7	10	23
	4	11	14
	5	12	15
	6	9	13
	1		16
Friedman ANOVA rangos de medidas repetidas de una vía
Análogo no paramétrico de la ANOVA de una vía de medidas repetidas. 
Múltiples tratamientos a comparar. 
Grupos con un número de sujetos iguales. 
Se usa en sujetos en las mismas condiciones. 
Sujetos igualados y asignar al azar un sujeto de cada conjunto a la primera condición y al otro sujeto a la segunda condición. 
Ejercicio 1
	Grupo 1	Grupo 2	Grupo 3	Grupo 4
	9	4	1	7
	6	5	2	8
	9	1	2	6
Tarea 
	Grupo control 	Tratamiento 1	Tratamiento 2
	12	18	10
	3	20	8
	16	13	0
	5	9	19
	14	20	16
Varianza
La desviación estándar es la raíz cuadrada de la varianza.
Σ (X- x) 2 / N 
S = 
S2 = Σ (X- x) 2 / N
La suma de los cuadrados de las desviaciones de la media dividida entre N.
Control EXP 
99.40 284.60 
196.00 309.00 
80.20 145.40 
168.00 288.00 
160.00 316.60 
84.80 273.00 
119.00 301.60 
217.00 260.20 
164.00 405.00 
194.00 297.00 
 
 Media Des Estandar Varianza 
Control 148.24 49.1872 2419.3848 
Exp 288.04 63.7338 4062.0071 
 
--Homogeneity of Variance Tests -- 
 
 Lower 95% Upper 95% 
 Group Size Stand Dev Variance Conf Int Conf Int 
 ----- ---- --------- -------- -------- -------- 
 DH4 10 49.18724 2419.38489 1144.81935 8064.6163 
 DH5 10 63.73388 4062.00711 1922.08538 13540.0237 
 
 Hartley's F-max = 1.67894 p >.05 
 Cochran's C = .62672 p >.05 
 Levene's F = .17376 p = .68083 
 Bartlett's Chi-Square = .57013 p = .45021 
 
Control EXP 
99.40 84.00 
196.00 10.00 
80.20 145.00 
168.00 288.00 
160.00 316.00 
84.80 273.00 
119.00 690.00 
217.00 260.20 
164.00 405.00 
194.00 680.00 
 
 
 Media Des Estandar Varianza 
Control 148.24 49.1872 2419.3848 
Exp 315.1 226.7536 51417.21111 
 
 --Homogeneity of Variance Tests -- 
 
 Lower 95% Upper 95% 
 Group Size Stand Dev Variance Conf Int Conf Int 
 ----- ---- --------- -------- -------- -------- 
 DH4 10 49.18724 2419.38489 1144.81935 8064.6163 
 EXP 1 10 226.75364 51417.21111 24329.91062 171390.7037Hartley's F-max = 21.25218 p <.01 
 Cochran's C = .95506 p<.01 
 Levene's F = 6.25746 p = .0203 
 Bartlett's Chi-Square = 15.13335 p = .0001