Vista previa del material en texto
Estadística No paramétrica No paramétricas Se basan en un modelo que especifica condiciones generales y ninguna acerca de la forma de la distribución de la cual fue obtenida la muestra. Suposiciones -Observaciones son independientes -Quizá la variable de estudio es continúa. Usos Se pueden usar en datos medidos en una escala -nominal o categórica. -de rangos o ordinal. Nominal o categórica Es la medición en su nivel más débil. Existe cuando los números u otros símbolos se usan simplemente para clasificar un objeto, una persona o una característica. Cuando se emplean números u otros símbolos para identificar los grupos a los cuales pertenecen varios objetos, estos números (sin propiedades cuantitativas) o símbolos constituyen una escala nominal o categórica. Hombres o mujeres 1 mujeres 2 hombres Respuestas a un cuestionario S: Si N: No Ordinal o de rangos Cuando los objetos en una categoría de una escala no sean únicamente diferentes de los objetos de otras categorías, sino que también exista algún tipo de relación entre ellos. Las relaciones típicas serian Más alto, más preferido, más difícil, más doloroso y estas relaciones se denominan por >. Podemos tener una escala parcialmente ordenada. Ejemplos: Niveles de satisfacción del algún servicio. Se usan cuando los datos medidos en una escala de intervalo o de razón (cero absoluto) no tengan homogeneidad de varianza. Ventajas de las pruebas no paramétricas Si el tamaño de la muestra es muy pequeño se debe usar una prueba no paramétrica. A menos que la naturaleza de la distribución de la población se conozca con exactitud. Hacen menos suposiciones acerca de los datos y pueden ser más relevantes en una situación en particular. Pueden analizar datos inherentes a rangos. Ejemplos: ansiedad, podemos decir que el sujeto A es más ansioso que el B, sin conocer con exactitud cuanto más ansioso es A. -Categorizar los datos como mayor o menor. Los métodos no paramétricos se pueden usar para datos que son clasificatorios o categóricos es decir son medidos en una escala nominal. Existen pruebas no paramétricas adecuadas para tratar muestras obtenidas de observaciones de diferentes poblaciones. Son más fáciles de aprender y aplicar que las pruebas paramétricas. Su interpretación es más directa. Desventajas de las pruebas no paramétricas Si los datos cumplen con las suposiciones de las pruebas paramétricas es mejor usar estas. No existen pruebas de dos o tres factores para estadística no paramétrica. Hay que transformar los datos para que cumplan con los requisitos de las pruebas paramétricas. Uno de los pasos previos a la comprobación de si existen diferencias entre las medias de varias muestras es determinar si las varianzas en tales muestras son iguales. Existen varias pruebas que permiten comprobar la igualdad de varianzas: F de Fisher, Fmax de Hartley, Bartlett Levene Cochran Shapiro Wilk Homogeneidad de varianza Pruebas de homogeneidad de Hartley's F-Max: Usa la proporción entre la varianza mayor entre la menor. Cochran's C: Usa la proporción entre la varianza mayor y la suma de las varianzas. Levene: Usa la diferencia absoluta entre cada dato y su media Bartlett's Chi-Square: Se sugiere usar para variables correlacionadas o de medidas repetidas. Ejemplo 1: grupo control vs grupo experimental Hay homogeneidad de varianza? Si hay homogeneidad de varianza! Entonces podemos usar una prueba paraméterica. Ahora veamos un ejemplo donde no hay homogeneidad de varianza El mismo grupo control y variamos solamente algunos datos del grupo experimental Distribución normal Contraste de Pearson Prueba Kolmogorov-Smirnov X2 X2 = ∑ ∑ (fo –fe )2 / fe r=1 c=1 Mujeres Hombres No saludable 34 16 Saludable 29 27 Muy saludable 17 54 ¿Existen diferencias en las horas invertidas para ver TV entre los niños mexicanos y los de USA?. USD México Mucho 22 14 Mediano 9 6 Poco 12 32 Prueba exacta de Fisher (dos muestras) Se utiliza para analizar dos grupos independientes. Se utiliza para analizar muestras pequeñas. En 25% de los datos son menores que 5. Ejemplo 1 hombres mujeres No dieta 4 1 Dieta 1 6 Existe una plaga que deteriora la salud de los árboles. Se quiere averiguar si la infección depende del tipo de árbol. Infectado No infectado Total Jacaranda 1 4 5 Pirú 7 2 9 Total 8 6 14 c2 para varios grupo Ejemplo Especie Tundra Desierto Llano Rata 125 16 6 Ratón 7 19 117 MacNemar (dos grupos 2X2) Se utiliza en diseños antes-después, en los cuales cada sujeto se utiliza como su propio control y las mediciones se realizan en escala nominal u ordinal. X2= (|A-D|-1)2 / A+D Antes/después no si si A B no C D Ejemplo 1 Datos de 20 pacientes intervenidos quirúrgicamente en los que se valoró el dolor tras la cirugía y al cabo de 1 hora tras la administración de un analgésico. Individuo Dolor tras la intervención Dolor 1 horas después del Tto. 1 No No 2 Sí No 3 No No 4 No No 5 Sí No 6 Sí No 7 No No 8 Sí Sí 9 No No 10 No No 11 Sí No 12 Sí No 13 Sí No 14 Sí No 15 Sí No 16 No Sí 17 No Sí 18 Sí No 19 Sí No 20 Sí No si no si no Ejemplo 2 Se quiere demostrar que un método didáctico mejora el desempeño escolar de los alumnos. Éxito Fracaso Éxito 63 21 84 Fracaso 4 12 16 67 33 100 Tarea 1 75 Votantes Antes debate Después del debate Reagan Carter Carter 13 28 Reagan 27 7 Prueba de los signos Se aplica a investigaciones en las cuales las mediciones cuantitativas son imposibles o no son viables pero en las que si se pueden determinar para cada par de observaciones cual es la más grande en algún sentido. En esta prueba debemos poner atención a la dirección de la diferencia si es positivo o negativo. Hipótesis nula z≤s s = r+ -0.5n /0.5 √n a= 0.05 z=1.645 una cola, dos colas 1.960 Ejemplo 1 automovil Llantas radiales Llantas con cinturón d 1 4.2 4.1 + 2 4.7 4.9 - 3 6.6 6.2 + 4 7.0 6.9 + 5 6.7 6.8 - 6 4.5 4.4 + 7 5.7 5.7 0 8 6.0 5.8 + 9 7.4 6.9 + 10 4.9 4.9 0 11 6.1 6.0 + 12 5.2 4.9 + 13 5.7 5.3 + 14 6.9 6.5 + 15 6.8 7.1 - 16 4.9 4.8 + Ejemplo 2 paciente Analgésico A Analgésico B 1 2 3.5 2 3.6 5.7 3 2.6 2.9 4 2.6 2.4 5 7.3 9.9 6 3.4 3.3 7 14.9 16.7 8 6.6 6 9 2.3 3.8 10 2 4 11 6.8 9.1 12 8.5 20.9 Tarea a= 0.05 z=1.645 una cola, dos colas 1.960 pareja Esposo Esposa pareja Esposo Esposa 1 5 3 9 4 3 2 4 3 10 5 2 3 6 4 11 4 2 4 6 5 12 4 5 5 2 3 13 7 2 6 5 2 14 5 5 7 3 3 15 5 3 8 1 2 16 5 1 Prueba de los signos de Wilcoxon La prueba de los signos solo nos dice la dirección de la diferencia entre los pares pero no la magnitud de esta. Wilcoxon adjudica mayor peso a los pares que muestran más diferencia entre las dos condiciones. Se obtiene el valor de T- (suma de los rangos con diferencia negativa) y T+ (suma de los rangos con diferencias positivas. T- = N (N+1)/2-T+ Significativo Ejemplo 1 Par EXPERIMENTAL CONTROL DIFERENCIA RANGO RANGOS CON MENOR PUNTAJE A 47 40 +7 B 43 38 +5 C 36 42 D 38 25 E 30 29 F 22 26 G 25 16 H 21 18 I 14 8 J 12 4 K 5 7 L 9 3 M 5 5 T-=13 Tabla J para valores de T- Ejemplo 2 Sujetos SINCRONIA FUERA DE SIN Diferencia Rango DC 20.3 50.4 30.1 MK 17 87 70.0 VH 6.5 25.1 18.6 JM 25 28.5 3.5 SB 5.4 26.9 21.5 MM 29.2 36.6 7.4 RH 2.9 1 -1.9 DJ 6.6 43.8 37.2 JD 15.8 44.2 28.4 ZC 8.3 10.4 2.1 CW 34 29.9 -4.1 AF 8 27.7 19.7 Dos grupos Mann-Whitney Evaluar si dos grupos independientes fueron extraídos de la misma población. Las medianas de dos muestras son diferentes significativamente. Los datos al menos en escala ordinal. Contraparte t Ejemplo 1 Sin entrenamientoEntrenamiento 12 2 18 8 31 15 45 19 47 38 Organizar los datos en rangos U cada ves que e precede a c U=3+2+1+0+0=6 U´cada ves que c precede a e U´=5+5+4+3+2=19 Significativo U igual o menor que el valor de tabla U´ igual o más grande del valor de tabla Valor de tabla 2/23 6 es mayor que 2 19 es menor que 23 No es significativo Rango 1 2 3 4 5 6 7 8 9 10 Entrenamiento 2 8 12 15 18 19 31 38 45 47 No entrenamiento c c e c e c e c e e Ejemplo 2 Experimental Control Tiempo en segundos Rango Tiempo en segundos Rango 140 4 130 1 147 6 135 2 153 8 138 3 160 10 144 5 165 11 148 7 170 13 155 9 171 14 168 12 193 15 R1=81 R2=39 n1=8 n2=7 U=n1n2 + (n1 (n1+1)/2)-r1 U´=n1n2 + (n2 (n2+1)/2)-r2 Usando a=0.01 de dos colas 6/50 Significativo U igual o menor que el valor de tabla U´ igual o más grande del valor de tabla a Tarea Comparar el número de huevos maduros en dos cepas de Drosophila, D. melanogaster y D. simulans. D. melanogaster 10, 2, 20, 15. D. simulans 8, 3, 5, 4. Kolmogorov-Smirnov (dos muestras) Prueba de si dos muestras independientes se han extraído de la misma población. La predicción es que las puntaciones de un grupo experimental serán mayores que los correspondientes a un grupo control. Dm,n= max |Sm (X)- Sn (X)| mnDm,n=nmDm,n Sm (X) distribución acumulada observada para una muestra de tamaño m. Sn (X) distribución acumulada observada para una muestra de tamaño n. Ejemplo 1 Sujetos de 10 grado Sujetos del 7 grado 35.2 39.1 39.2 41.2 40.9 45.2 38.1 46.2 34.4 48.4 29.1 48.7 41.8 55 24.3 40.6 32.4 52.1 47.2 24-27 28-31 32-35 36-39 40-43 44-47 48-51 52-55 Sm(X) Sn(X) Sm(x)-Sn(X) Dm,n= max |Sm (X)- Sn (X)| mnDm,n= (n) (m) (Dm,n) Ejemplo 2 Grupo 1 Grupo 2 10 12 8 15 12 20 16 18 5 13 9 14 7 9 11 16 6 1-2 3-4 5-6 7-8 9-10 11-12 13-14 15-16 17-18 19-20 Sm(X) Sn(X) Sm(X)-Sn(X) Tablas Pruebas no paramétricas para más de dos grupos Q Cochran Se usa para estudios con más de dos grupos relacionados. Evalúa si tres o más conjuntos igualados de frecuencias o proporciones difieren significativamente entre ellos. Se utiliza en estudios en los que los mismos sujetos sean utilizados en las diferentes condiciones. Formula Q= (k-1) [ K ∑Gn2 – (∑ Gn)2 ] / k ∑Lc-∑Lc2 K número de grupos Gn sumatoria de numero total de éxitos en la columna. Lc sumatoria de éxitos en el renglón. grupo entrevista1 Entrevista 2 Entrevista 3 Li Li2 1 0 0 0 2 1 1 0 3 0 1 0 4 0 0 0 5 1 0 0 6 1 1 0 7 1 1 0 8 0 1 0 9 1 0 0 10 0 0 0 11 1 1 1 12 1 1 1 13 1 1 0 14 1 1 0 15 1 1 0 16 1 1 1 17 1 1 0 18 1 1 0 TOTAL G1 G2 G3 SUM L1 SUM L12 Identidad de la rata Tratamiento 1 Tratamiento 2 Tratamiento 3 Tratamiento 4 Lc Lc2 1 0 0 1 0 2 1 1 1 0 3 0 1 1 0 4 0 1 1 1 5 1 0 1 1 6 1 1 0 0 7 1 0 0 1 8 0 1 1 1 9 0 0 1 0 10 0 0 0 1 11 1 0 1 0 12 0 0 1 0 13 0 0 1 0 14 1 0 1 1 15 0 1 1 1 ∑Gn ∑Lc ∑Lc2 Tabla C Tarea Estudio de los efectos que producen tres fármacos en el tratamiento de la misma enfermedad. En el estudio participaron 5 sujetos se les pregunto si el tratamiento les indujo un efecto secundario (1) o no efectos (0). Son los tratamientos significativamente diferente a a=0.01? y a=0.05? Sujeto/tratamiento A B C 1 1 1 1 2 0 1 1 3 1 1 1 4 1 1 1 5 0 0 0 Kruskal-Wallis Se utiliza para determinar si tres o más grupos provienen de diferentes poblaciones. Si los grupos difieren entre sí. Análogo no paramétrico de la ANOVA de una vía. K=número de muestras o grupo nj= numero de casos en la j ésima muestra N=número de casos en la muestra combinada (suma de n) Rj=sumatoria de los rangos en la j ésima muestra o grupo ︠Rj=promedio de los rangos en la j ésima muestra o grupo ︠R= (N+1)/2 promedio de los rangos en la muestra combinada Ejercicio 1 A B C .994 .795 .940 .872 .884 .979 .349 .816 .949 .981 .890 .978 Rj ︠Rj Pruebas Post hoc Tukey más estricta que la Student-Newman ya que controla los errores de todas las comparaciones simultáneamente mientras que la Student-Newman controla los errores entre las medias. Hace comparaciones entre todos los pares. Student-Newman-Keuls es menos estricta que la Tukey. Por lo tanto es mas probable que una diferencia sea significativa. Solo se usa en comparaciones pareadas. Dunnett realiza múltiples comparaciones contra el grupo control. Dunn´s se usa para la ANOVA de rangos cuando el número de datos en cada grupo es diferente. Se pueden realizar todas las comparaciones pareadas y comparaciones múltiples contra el control. Ejercicio 2 Control Tratamiento 1 Tratamiento 2 7 10 23 4 11 14 5 12 15 6 9 13 1 16 Ejercicio 3 Control Tratamiento a Tratamiento b 18 8 7 28 12 19 24 3 2 21 24 30 28 2 18 32 1 5 10 14 Tarea a mano y en computadora, usar la prueba post hoc adecuada Control Tratamiento 1 Tratamiento 2 7 10 23 4 11 14 5 12 15 6 9 13 1 16 Friedman ANOVA rangos de medidas repetidas de una vía Análogo no paramétrico de la ANOVA de una vía de medidas repetidas. Múltiples tratamientos a comparar. Grupos con un número de sujetos iguales. Se usa en sujetos en las mismas condiciones. Sujetos igualados y asignar al azar un sujeto de cada conjunto a la primera condición y al otro sujeto a la segunda condición. Ejercicio 1 Grupo 1 Grupo 2 Grupo 3 Grupo 4 9 4 1 7 6 5 2 8 9 1 2 6 Tarea Grupo control Tratamiento 1 Tratamiento 2 12 18 10 3 20 8 16 13 0 5 9 19 14 20 16 Varianza La desviación estándar es la raíz cuadrada de la varianza. Σ (X- x) 2 / N S = S2 = Σ (X- x) 2 / N La suma de los cuadrados de las desviaciones de la media dividida entre N. Control EXP 99.40 284.60 196.00 309.00 80.20 145.40 168.00 288.00 160.00 316.60 84.80 273.00 119.00 301.60 217.00 260.20 164.00 405.00 194.00 297.00 Media Des Estandar Varianza Control 148.24 49.1872 2419.3848 Exp 288.04 63.7338 4062.0071 --Homogeneity of Variance Tests -- Lower 95% Upper 95% Group Size Stand Dev Variance Conf Int Conf Int ----- ---- --------- -------- -------- -------- DH4 10 49.18724 2419.38489 1144.81935 8064.6163 DH5 10 63.73388 4062.00711 1922.08538 13540.0237 Hartley's F-max = 1.67894 p >.05 Cochran's C = .62672 p >.05 Levene's F = .17376 p = .68083 Bartlett's Chi-Square = .57013 p = .45021 Control EXP 99.40 84.00 196.00 10.00 80.20 145.00 168.00 288.00 160.00 316.00 84.80 273.00 119.00 690.00 217.00 260.20 164.00 405.00 194.00 680.00 Media Des Estandar Varianza Control 148.24 49.1872 2419.3848 Exp 315.1 226.7536 51417.21111 --Homogeneity of Variance Tests -- Lower 95% Upper 95% Group Size Stand Dev Variance Conf Int Conf Int ----- ---- --------- -------- -------- -------- DH4 10 49.18724 2419.38489 1144.81935 8064.6163 EXP 1 10 226.75364 51417.21111 24329.91062 171390.7037Hartley's F-max = 21.25218 p <.01 Cochran's C = .95506 p<.01 Levene's F = 6.25746 p = .0203 Bartlett's Chi-Square = 15.13335 p = .0001