Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
1 De forma análoga a la bondad de ajuste ρyx 2 como proporción en la que la variabilidad de “Y” está asociada a “X”. 41 3.- FIABILIDAD 3.1.- Introducción Como se ha indicado, la fiabilidad de un instrumento de medida hace referencia a su precisión; esto es, el grado en que las puntuaciones empíricas son reflejo de las verdaderas. La fiabilidad marca el grado de ajuste entre puntuaciones empíricas y verdaderas. En una primera aproximación hemos definido la fiabilidad como la proporción que, de la varianza empírica, explica la varianza verdadera. Como se sabe, viene reflejado por el valor de (ver ecuaciones 3.11 en tema ρ 2 vx anterior)1. Esta definición, no obstante, no es operativa por cuanto no disponemos jamás de ninguna "puntuación verdadera". Todas las puntuaciones son el resultado de mediciones. Son, pues, puntuaciones empíricas con sus correspondientes errores implícitos. Necesitamos, en consecuencia, abordar el problema desde otra perspectiva. De forma indirecta podemos conocer la fiabilidad de una determinada prueba de medida mediante la variabilidad de sus mediciones. Si dicha variabilidad es pequeña deduciremos que la puntuación verdadera, al estar dentro del rango de variación de las puntuaciones empíricas, no estará muy lejos de éstas. Por el contrario, una gran variabilidad será indicativo de amplios márgenes para la puntuación verdadera, lo que será indicativo de que nuestro test no es muy preciso. De esta forma la constancia o estabilidad del test mostrará su fiabilidad. Esto es lo que se denomina Coeficiente de Fiabilidad (ρxx ). Así, un determinado test será relativamente fiable si tras diferentes pasadas a los mismos individuos ofrece parecidos resultados. En términos matemáticos la fiabilidad de un test quedará reflejada por la correlación de las puntuaciones empíricas obtenidas en dos situaciones semejantes. Cuanto mayor correlación, más parecidas o constantes serán las puntuaciones observadas en situaciones semejantes, y en consecuencia, mayor será su coeficiente de fiabilidad. No conviene confundir la constancia de las mediciones con la constancia de lo medido. Un objeto que no cambia deberá proporcionar equivalentes resultados en diferentes pasadas si nuestro test es fiable, pero si cambia el atributo del objeto, y entendemos que nuestra prueba es fiable, entonces ésta deberá reflejar tal cambio. esto es, será fiable en la medida en que proporcione diferentes mediciones. Este aspecto del posible cambio en el atributo que se mide es importante controlarlo y no confundirlo con falta de precisión, pues aunque en las ciencias físicas cabe esperar 42 Fiabilidad 42 Figura 3.1- . Cuadro esquemático de los distintos coeficientes de fiabilidad que un objeto permanezca idéntico a sí mismo a lo largo de diferentes mediciones, no ocurre otro tanto con los atributos humanos. Una persona puede cambiar ciertos rasgos psicológicos, tales como las actitudes o las emociones, con una relativa facilidad. En este caso un test que mida tales cambios será más fiable que el que no lo hiciera. Aunque hemos de reconocer la dificultad que entraña distinguir en tales cambios medidos, qué parte de modificaciones se dan en la verdadera puntuación del atributo y que parte del cambio en X es atribuible al error de medida. Queremos enfatizar con ello las dificultades que entrañan las mediciones de rasgos psicológicos frente a las mediciones en otros ámbitos de la ciencia, donde tanto la subjetividad como la estabilidad del atributo o aspecto del objeto medido es menos problemática que en Psicología. A tal efecto, en un intento de encontrar un procedimiento idóneo para determinar la fiabilidad, se han planteado, dentro de la TCT, diferentes enfoques para el cálculo del coeficiente de fiabilidad. Todos están basados en el coeficiente de correlación de Pearson. Distinguiremos, a este respecto, y muy a groso modo, procedimientos basados en dos aplicaciones del test (ver fig. 3.1), bien sea el mismo test -método test-retest- o dos test equivalentes -método de las formas paralelas-, de aquellos procedimientos basados en una única aplicación del test, bien sea dividiendo éste en dos mitades -método de las dos mitades-o bien considerando todos y cada uno de los ítems como elementos independientes -Alpha de Crombach-. No obstante, hemos de decir que no puede afirmarse a priori cual de estos procedimientos es el más adecuado. Veremos que distintas circunstancias harán aconsejable unas veces un procedimiento Introducción 43 43 ρxv ρx´v Siendo: - ρxv = ρx´v - ρxe = ρx´e´ - Varianzas igualesρxe ρx´e´ Figura 3.2.- Modelo de medida de formas paralelas para calcular la fiabilidad x ' πxv v % πxe e ; x ) ' πx )v v % πx )e e ρxx´ ' ρvxρvx´ ' ρ 2 xv ; ρvx ' ρxx´ y otras veces otro, o incluso ambos. Digamos, en principio, que mediante dos aplicaciones del test medimos fundamentalmente la fiabilidad como estabilidad de las medidas, mientras que merced al procedimiento de una única aplicación medimos la consistencia interna de las medidas. Para justificar que estos procedimientos empíricos de cálculo del coeficiente de fiabili- dad (ρxx) sirven para conocer indirectamente el índice de fiabilidad (ρxv) en párrafos ante- riores hemos dicho que ρxx es una correlación entre las medidas obtenidas en dos situaciones semejantes. La TCT ha definido de forma más precisa este concepto de semejanza de las medidas y lo ha sustituido por el de paralelis- mo de las medidas. Así se puede afirmar que dos medidas son paralelas si coinciden en su puntuación verdadera (V= V'), coinciden en su índice de fiabilidad (ρxv = ρx'v) y coinciden en la desviación típica de sus errores (σe = σ'e). Todo ello significa, en términos familia- res para el alumno que haya superado la asignatura de Análisis de Datos II, que las dos (o más) puntuaciones medidas se deben en un mismo porcentaje (ρ2xv) al atributo que mide (que habrá de ser el mismo atributo) y en un mismo porcentaje se deben a lo que hemos llamado error aleatorio de medida (ρ2xe =1- ρ2xv). Estos supuestos o restricciones del modelo de formas paralelas se pueden presen- tar de forma más intuitiva a través del diagrama causal o diagrama path de la figura 3.2. En la medida en que con los distintos procedimientos empíricos de obtener el coeficiente de fiabilidad se cumplan estas condiciones, en esa misma medida, se cumplirá que ρ2xv = ρxx'. Así, en la citada figura 3.2. se puede apreciar que : (3.1.) Aplicando la regla del trazado en fig. 3.2: (3.2.) En el grado en que no se cumplan las anteriores restricciones del modelo de medidas paralelas, se deben buscar (así lo haremos en los siguientes apartados) las posibles explicaciones de por qué para un mismo tests los coeficientes de fiabilidad calculados por procedimientos distintos ofrecen resultados más o menos distintos. Si se cumpliera el supuesto de formas paralelas la fiabilidad sería siempre la misma independientemente de la fórmula o procedimiento empírico utilizados. 3.2.- Procedimientos basados en dos aplicaciones del test 44 Fiabilidad 44 Figura 3.3. Posibles variaciones del modelo de medida test-retest. Figura 3.4.- Modelo del método test-retest con pasadas distantes ρxx´ ' πxvβv´v πx´v´ < ρxvρx )v ) Así pues ρxx´ < ρ 2 xv 3.2.1.- El método del test-retest Este quizás sea el procedimiento más sencillo, o al menos el que surge de forma intuitiva a cualquiera que se le pregunte cómo comprobar si la medida obtenida con un test es estable y por lo tanto precisa. Fácilmente puede responder que midiendo dos veces lo mismo podemos comprobar la precisión a través del grado de coincidencia entre las dos medidas. Efectivamente el método test-retest para el cálculo de la fiabilidad consiste en aplicar el mismo test al mismo grupo de individuos en dos ocasiones distintas. Posteriormente se calcula el coeficiente de correlación de Pear son entre las dos series de puntuaciones obtenidas. En la medida que dicha correla- ción sea alta entenderemos que el test mide de forma estable a los sujetosestudiados y que por lo tanto, presenta una alta fiabilidad. Pero si observamos el diagrama de la figura 3.3 podremos encontrar las explica- ciones de que este coeficiente de fiabili- dad se muestre, a veces, algo distorsiona- do. Gráficamente, se puede representar esta situación (test-retest) mediante dicho diagrama causal (ver fig. 3.3). Este diagrama general se puede concre- tar en un coeficiente de fiabilidad (ρxx) más bajo que el que corresponde a la verdadera precisión de la medida, si las dos pasadas están distantes en el tiempo y por lo tanto: Las puntuaciones verdaderas no son iguales sino relacionadas o depen- dientes en un cierto grado (inferior a 1), y los errores no están relacionados por no haber recuerdo de la respuesta de una vez a otra. En este caso la figura 3.3 se con- vierte en fig. 3.4. Este cambio en las pun- tuaciones verdaderas se puede llamar maduración, reactividad, etc; pero desde el punto de vista operativo (ver figura adjunta) se trata de un valor en el atributo psicológico en la segunda pasada (v') que depende en parte (βv'v) de su valor previo (en la primera pasada) y en parte de la influencia del resto de variables durante ese transcurso de tiempo (D). Así, si aplicamos la regla del trazado sobre la figura 3.4 se puede comprobar que (en puntuaciones estandarizadas) (ver ecuación 3.3): (3.3) Procedimientos basados en dos aplicaciones del test 45 45 ρxx´ ' πxvπx )v % πxe ρee ) πx )e ) > ρxvρx )v ; asípues: ρxx´ > ρ 2 xv Figura 3.5. Modelo de medida test-retest con pasadas cercanas en el tiempo Esta infravaloración de la fiabilidad puesta de manifiesto en este procedimiento test-retests con pasadas distantes en el tiempo se puede evitar reduciendo el intervalo temporal. Pero entonces puede existir recuerdo, con lo cual los sujetos dan respuestas parecidas y ello se pone de manifiesto en la correlación entre los errores de medida de la primera y segunda vez. También afectan a la - correlación entre los errores, si el período de tiempo transcurrido es corto, la constancia en los valores de las variables de circunstancias. El valor estable de estas variables extrañas (no contempladas) daría lugar a errores estables y no aleatorios, lo cual produciría una sobre-estimación de la fiabilidad (ver esta situación en figura 3.5). Si aplicamos en este caso la regla del trazado sobre la figura 3.5 se puede comprobar (ver ecuación 3.4): Por estas razones, podemos considerar que el método test-retest es un procedimien- to adecuado cuando se miden rasgos que varían poco en el tiempo, o en donde la práctica no ejerce especial influencia, procu- rando que el intervalo temporal no sea ni excesivamente corto ni muy largo. No existe una respuesta única respecto a cuánto es el tiempo adecuado, depende del tipo de prueba realizada. Pruebas tales como atención, rapidez perceptiva, cálculo numérico, etc.. pueden ser adecuadas para ser sometidas al método del test-retest. Si se cumple el modelo de las medidas paralelas (ver figura 3.2) el valor de ρxx es fiel reflejo del grado de precisión del test. En este caso las ecuaciones correspondientes coinciden con las presentadas al principio del tema (ver ecuaciones 3.2). Obsérvese que si aplicamos la regla del trazado sobre la figura 3.2, es fácil comprobar que la correlación entre las puntuaciones empíricas del test equivale al cuadrado de la correla- ción entre las puntuaciones del test y sus puntuaciones verdaderas, ya que se entiende que x y x´ no son más que distintas aplicaciones del mismo test. Se comprueba de esta forma que la fiabilidad, considerada como proporción que la varianza verdadera es de la empírica, es equivalente a la correlación entre dos aplicaciones de un mismo test. El procedimiento del test-retest tiene la ventaja de que resulta de fácil aplicación y es poco costoso llevarlo a la práctica. No obstante, presenta algunos inconvenientes en psicología como ya hemos reseñado en párrafos anteriores, debido a las propias características del ser humano. El coeficiente de fiabilidad obtenido mediante este procedimiento se denomina coeficiente de estabilidad por cuanto refleja el grado en que las medidas se mantienen estables a lo largo de las dos aplicaciones del test. 3.2.2.- El método de las formas paralelas 46 Fiabilidad 46 Figura 3.6. Modelo de medidas casi paralelas o alternativas ρxx´ ' πxvρvv )πx )v ) < ρxvρx )v ); asípues: ρxx´ < ρ 2 xv Este método consiste en aplicar a un mismo grupo de individuos dos formas paralelas (dos versiones) del mismo test. Dos formas se dice que son paralelas cuando miden los mismos aspectos con el mismo tipo de cuestiones (que no iguales). Si la muestra de sujetos a la que se aplica el test es representativa de la población, el coeficiente de correlación obtenido con ambas series de puntua- ciones, será una estimación del coeficiente de fiabilidad de dicho test. La característica de las pruebas paralelas es que aún estando constituidas por ítems diferentes, éstos, uno a uno, han de medir el mismo rasgo y de las misma manera, lo que implica igualdad de medias, varianzas y covarianzas entre ambos tests. Lo cual se representa en el diagrama de la figura 3.2 en páginas anteriores. Es evidente la dificultad que entraña lograr formas exactamente paralelas, por lo que parece más razonable hablar del formas alternativas mas bien que de formas paralelas, donde se entiende que ambos tests no son por completo equivalentes sino que son simples intentos de que lo sean. En este caso, el diagrama path sería el de la figura 3.6. Se observa que la fiabilidad del test, en este caso, depende no sólo de la ausencia de errores en la medida, sino también del grado de similitud de ambas formas. Así: (3.5) El método de las formas paralelas sería el procedimiento idóneo en psicología si no fuera por la dificultad que entraña la elaboración de pruebas realmente equivalentes. Cuando las formas no son totalmente paralelas es difícil distinguir lo que es cambio en la puntuación verdadera de la falta de fiabilidad (Carmines y Zeller, pág. 30). No obstante, este procedimiento para el cálculo del coeficiente de fiabilidad (en la versión que hemos apuntado como de formas alternativa) presenta algunas ventajas respecto al método del test-retest. Al tratarse de formas diferentes, no existe el efecto de memoria anteriormente señalado. Por esta misma razón los errores de medida entre ambas aplicaciones tendrán menos probabilidad de estar correlacionados. Algunas dificultades permanecen aún vigentes con este procedimiento. Puede presentarse reactividad al test de forma tal que en la segunda pasada haya cambiado la actitud del sujeto, y por otro lado, se mantienen algunos efectos del intervalo temporal entre ambas aplicaciones del test. Si el período de tiempo es corto, cierto influjo puede traslucirse (más por efecto de práctica que de memoria) y si el intervalo es largo puede, como el caso del test-retest, cambiar el rasgo a medir del sujeto. Todo ello puede contribuir, al igual que la falta de paralelismo entre las formas del del test, a reducir la correlación entre V y V'. Procedimientos basados en una única aplicación del test 47 47 ρXX´ ' 2ρxx´ 1 % ρxx´ 3.3.- Procedimientos basados en una única aplicación del test 3.3.1.- Método de las dos mitades Se trata de aplicar un único test a un mismo grupo de individuos representativos de una cierta población. A continuación se divide el test en dos mitades; esto es, la mitad de los ítems configura uno de los tests y la otra mitad de los ítems el otro test. La correlación de Pearson entre las puntuaciones de ambas mitades constituirá el coeficiente de fiabilidad de medio test. La intención es crear dos partes que sean lo más paralelas o equivalentes posible. A este respecto, existen varios posibles procedimientos para realizar la partición. El más usual consiste en seleccionar los ítems pares como constituyentes de una mitad, y los ítems impares formando parte de la otra. Pero podemos utilizar también una asignación aleatoria para cadauna de las partes. No es conveniente, por ejemplo, elegir la primera mitad de los ítems para configurar un test y la segunda mitad, para el otro test, ya que es frecuente que los ítems vayan creciendo progresivamente en dificultad con lo que lograríamos dos tests distintos. Además, si el test tuviera una cierta longitud, el efecto de la fatiga incidiría en mayor grado sobre la segunda parte que sobre la primera, y, por otro lado, posiblemente hubiera ítems sin responder de la segunda parte. Ha de hacerse notar que con este procedimiento estamos dividiendo el test original en dos partes, y por tanto, el coeficiente de fiabilidad calculado con ambas mitades es el coeficiente de fiabilidad de un test con la mitad de la longitud del que estamos contrastando. De esta forma, si el test que administramos tiene 50 ítems, al dividirlo por la mitad, en realidad estamos calculando la fiabilidad de un test de 25 ítems (como si fueran formas paralelas de 25 elementos cada una). Por ello al final debemos efectuar una cierta "corrección" sobre el coeficiente obtenido, intentando determinar cual sería el coeficiente de fiabilidad de un test de longitud doble del que disponemos y equivalente a éste. La siguiente fórmula debida a Spearman-Brown, y que desarrollaremos más adelante, permite dicha estimación: (3.6) Donde: ρXX´: Coeficiente del test de longitud doble ρxx´: Coeficiente original El método de las dos mitades, desde la consideración de que las dos mitades son equivalentes, puede presentar las mismas situaciones que el modelo de las formas paralelas, bien sea la ecuación 3.2 si se cumplen todos los supuestos del modelo, o bien la ecuación 3.5 si se plantea como formas alternativas. Gráficamente sucede otro tanto (ver figuras 3.2 y 3.6). El método de las dos mitades, como veremos en las clases prácticas no es aconsejado en los tests de rapidez, esto es en los test de ejecución máxima que tienen un tiempo limitado de realización. En estos casos este procedimiento ofrece una fiabilidad sobrevalorada debido a aspectos relacionados con la secuenciación de los pares de ítems, como su dificultad y proporción de ítems no alcanzados. Este procedimiento recoge las ventajas principales de los dos métodos anteriores, al mismo tiempo, que elimina sus mayores inconvenientes. El simple hecho de ser una única aplicación supone un cierto ahorro de esfuerzo, tiempo y dinero. Por otro lado, al aplicarse simultáneamente formas distintas de un mismo test, suprimimos el efecto del intervalo temporal a la par que eliminamos el posible efecto de memoria. La principal desventaja del método de la dos mitades consiste en que el valor del coeficiente de 48 Fiabilidad 1 Ver más adelante el apartado donde se relaciona fiabilidad y longitud del test, para su demostración. 48 . . . . .1 4 13 2 n 1 E1 En E4E3 E2 πxnv πx4vπx3v πx2v πx1v πx4e4 πx1e1 πx2e2 πxnen πx3e3 Figura 3.7.- Modelo de medida del coeficiente α. α ' n‾ρxx´ 1% (n&1)‾ρxx´ fiabilidad obtenido depende de cómo hayan quedado repartidos los ítems en cada una de las mitades. Posiblemente la correlación entre lo ítems pares e impares sea diferentes que la correlación entre la primera mitad y la segunda o entre dos agrupaciones cualesquiera realizada con los ítems de manera aleatoria. Si esto ocurriera tendríamos tantos coeficientes de fiabilidad para un determinado test como formas posibles de agrupaciones existieran, sin tener motivos para afirmar cuál de estos coeficientes refleja la verdadera precisión del test. Si no hay un criterio único de la división en las dos mitades y al mismo tiempo se exige paralelismo en ambas mitades entonces está claro que todos y cada uno de los ítems del test han de medir el mismo rasgo y de la misma manera. Esta es la única manera de garantizase que los diferentes coeficientes de fiabilidad posibles coincidan. Y para ello, como veremos, el coeficiente Alpha de Crombach, calculado a partir de la correlación media entre todos los ítems, es más conveniente. Se deduce de ello que el coeficiente de fiabilidad obtenido por el método de las dos mitades como indicador de la consistencia interna de un test es de dudoso valor. Si se plantea como una forma cómoda de pruebas paralelas (o mejor, alternativas), entonces sí podemos reafirmar su utilidad, siempre y cuando nos preocupemos de lograr pares de ítems equivalentes y que vayan a parar uno a cada una de las mitades. 3.3.4.- El coeficiente Alpha Como hemos expuesto en el apartado anterior el método de las dos mitades no es un buen procedimiento para determinar la fiabilidad de un test, en cuanto consistencia interna. Un test puede subdividirse de múltiples maneras en dos mitades, obteniéndose numerosos coeficientes distintos de fiabilidad, con lo que obviamente, carecemos de un único coeficiente de fiabilidad para dicho test. A este respecto, se han propuesto procedimientos que permitan obtener una idea de la consistencia interna del test con un único coeficiente. El más conocido es el coeficiente Alpha de Crombach (Crombach, 1951) basado en la correlación media entre todos los ítems de un test. Para su cálculo, se procede a considerar cada ítem del test como si fuera un test de longitud unidad. A continuación se procede a calcular la correlación media entre los ítems y se considera al valor resultante como la fiabilidad media de un test de un ítem. Por último se aplica la fórmula de Spearman-Brown 1, que permite determinar la fiabilidad de un test de longitud n veces superior a la de los test de longitud unidad (el test total tiene n ítems). De esta forma, logramos con un único coeficiente tener información global del grado de consistencia interna de dicha prueba. Su fórmula es la siguiente: (3.7) Donde: : correlación media de todos los ítems entre sí.‾ρxx´ Procedimientos basados en una única aplicación del tests 49 49 α ' n n&1 1 & j n j'1 σ 2 j σ 2 x (3.10 ρxx ' j πxjv 2 j πxjv 2 % j π 2 xjej (3.9) α σ σ σ = − p e p 2 2 2 (3.8) Como resulta un tanto laborioso calcular la correlación media de todo s los ítems entre sí (cuestión cada día más irrelevante con la profusión de ordenadores personales), una fórmula alternativa de más fácil aplicación es la expresión 3.10 (ver demostración en apéndice), o su versión más intuitiva de figura 3.7 y ecuaciones 3.8 y 3.9. El coeficiente Alpha expresa el grado en que todos los ítems miden el mismo rasgo y lo miden con precisión. En su extremo, si se cumple que todos los ítems sean paralelos, coincidirá con el coeficiente obtenido por el procedimiento de las dos mitades, o más fácilmente, será suficiente con determinar la correlación entre dos ítems cualesquiera, y aplicar Spearman-Brown. Partiendo del concepto original de fiabilidad como proporción de varianza verdadera y sustituyendo dichas varianzas por sus equivalentes en términos de modelos estructurales de medida, tenemos esta otra versión del coeficiente Alfa de fiabilidad (ver figura 3.7 y ecuación 3.8). En esta ecuación se comprueba cómo si las puntuaciones de los distintos componentes de un test se suman para formar una puntuación compuesta, la fiabilidad de esta última se obtiene sumando todas las varianzas de puntuación verdadera y dividiendo por la varianza total. (Gómez-Benito, 1996. p.480). Alpha, ofrece un indicador infravalorado de la fiabilidad del test. Esto ocurre por ser consecuencia de los parámetros “PI” y no incluir el componente específico de algún ítem o grupo de ítems. Componente específico que sí se manifiesta como correlación entre los errores y que sí queda incluido en los coeficientes de fiabilidad como correlación entre puntuaciones observadas para distintas pasadas o formas de un test. Por último, digamos que el coeficiente Alpha, además de ser un indicador de la precisión con que un conjunto de ítems miden un cierto rasgo psicológico en función de su coherencia o consistencia interna (correlación entre ítems), puede tomarse también como una medida de la representatividad del test, en el sentidode que una alta correlación media entre ítems será indicativo de una pequeña variabilidad en los mismos. En este caso, se entiende que los ítems particulares con los que estamos operando no son más que una muestra aleatoria del hipotético universo que engloba el conjunto de ítems que expresan el rasgo medido (Nunnally, 1978 ). La puntuación verdadera es la que obtendría el sujeto en ese supuesto universo. De esta forma, en la medida en que la muestra de ítems tenga una pequeña dispersión podemos hacer mejores estimaciones -mayor precisión- a la hora de inferir los verdaderos valores en el universo de procedencia. Este planteamiento está estrechamente ligado con la Teoría de la Generalizabilidad, que no será abordado aquí por el momento. Cuando existan dentro de una prueba varios subtests, como es relativamente frecuente (personalidad, inteligencia ..etc) resulta necesario calcular el coeficiente de fiabilidad separadamen- te para cada una de las partes, para finalmente calcular la fiabilidad global del test como una combinación lineal de tales subtests (ver apartado siguiente). Incluso, aunque operemos con un test supuestamente unidimensional, es conveniente aplicarle alguna prueba estadística, tal como el análisis factorial en un intento de encontrar los factores subyacentes. En este caso, dependiendo del resultado del análisis podríamos configurar distintos subtests (o no) dependiendo de la estructura factorial obtenida. Ver Carmines y Zeller (1979), págs 59-70, para una discusión al respecto. 3.4.- Fiabilidad de un test compuesto 50 Fiabilidad 1 Los datos son reales y han sido obtenidos y adaptados de la tesis doctoral de M.J. Cuellar (1998) con su autorización. 50 ρyy ' 1 & j k j'1 b 2j σ 2 j & j k j'1 b 2j σ 2 jαjj´ σ 2 Y A continuación se presenta el cálculo de fiabilidad de un test compuesto (Muñiz, 1996) o, lo que es lo mismo, de un criterio constituido por una combinación lineal de pruebas o subtests (Nunnally y Bernstein, 1995). Así pues, aunque el coeficiente Alpha parece pensado para pruebas en las que existe una cierta unidimensionalidad en el rasgo medido, no hay impedimento alguno para que sea aplicado en baterías compuestas por varios subtests que reflejen rasgos psicológicos diferentes, aunque claro está que con ítems homogéneos dentro de cada rasgo. En estas circunstancias se puede obtener la fiabilidad global de la batería en función de la consistencia interna de las subescalas, de la correlación entre ellas y de su peso relativo en la escala global (Para ampliar este tema el alumno puede consultar Muñiz (1994), Nunnally y Bernstein (1995), Raju (1977) y Nunnally (1978). Así pues, tres son los aspectos que afectan a la fiabilidad global de una batería de tests o criterio “Y” constituido por una combinación lineal de puntuaciones parciales. De ellos hay dos que serán impuestos por los datos como son la consistencia interna de cada subescala (ρjj) y las correlaciones o covarianzas entre subescalas (σjk ). Los pesos de cada una de las subescalas para conformar u optimizar el criterio dependerán de cuál sea el constructo a medir o el criterio empírico a optimizar. Si se trata de un criterio empírico a optimizar ya sabemos por la asignatura de Análisis de Datos II cómo se estima el vector de pesos (β), si se trata de un constructo dependerá de los pesos (importancia relativa) que tengan las subescalas en el modelo de medida de ese constructo. Otra cosa muy distinta como veremos en los ejemplos de cálculo que presentaremos a continuación es el planteamiento de la combinación de pesos que optimice la fiabilidad. Veremos que para optimizar la fiabilidad basta poner los mayores pesos a las subescalas de mayores varianza y fiabilidad. Así pues se nos pueden plantear distintas situaciones prácticas en las que dispondremos en cada caso de la ecuación más adecuada para calcular el coeficiente Alfa de fiabilidad de la batería que utilizamos para medir un constructo u optimizar un criterio empírico. Con la ecuación 3.10 llegaremos al resultado correcto en cualquier circunstancia. Basta con asignar la unidad como peso de las subescalas, si no están ponderadas, y con asignar una varianza de uno a las distintas subescalas si están estandarizadas. (3.11) A modo de ejemplo presentamos en la figura 3.9 y tabla 3.6 el modelo de medida correspondiente a una prueba diseñada para medir la capacidad rítmica en niños de primeros cursos de primaria (Ritmo global). Prueba constituida por dos subescalas unidimensionales: ritmo con las manos “M” y ritmo con los piés “P”. Manipularemos con fines didácticos la relación o no entre las subescalas. Tabla 3.6.- Datos de las subescalas1 Varianza Fiabilidad Pesos Ritmo Manos 10 0.7 1 Ritmo Pies. 19 0.9 2 Fiabilidad de un test compuesto 51 1 Valores obtenidos a partir de la suma de las varianzas de las subescalas. 2 Valores obtenidos con los datos reales del ejemplo (Cuellar, 1998). 51 Figura 3.9.- Modelo estructural de medida de un test compuesto (adtdo de Gómez -Benito, 1996. p.489) ρyy ' 1 & j k j'1 b 2j σ 2 j & j k j'1 b 2j σ 2 jαjj´ σ 2 Y ' 1 & 86 & 75.4 126 ' 1 & 0.084 ' 0.916 Tabla 3.7.- Varianzas de la batería, combinación lineal de las subescalas de ritmo incorrelados1 relacionados2 Varianza ritmo global (subtests estandarizados y sin ponderar) 2 3.5 Ritmo global (subtests con P. directas y sin ponderar) 29 49 Ritmo global (subtests estandarizados y ponderados) 3 8 Ritmo global (subtests con P. directas y ponderados) 86 126 Para hacer una aplicación de las ecuaciones del coeficiente de fiabilidad de una batería, hemos presentado la anterior matriz de varianzas/covarianzas y pesos de las dos subescalas de ritmo (ritmo con las manos y ritmo con los pies). Vamos a pasar por las distintas y posibles situaciones paro obtener así la mayor utilidad didáctica del ejemplo. Con puntuaciones directas, pesos distintos y subtests de ritmo relacionados (como son datos reales podemos informar que la relación entre las subescalas es de 0.753), veamos cuál es la fibilidad de la batería: (3.12) Como se puede comprobar, el mayor peso y mayor varianza de la escala más fiable hace que la fiabilidad se acerque más a ella (con fiabilidad de 0.9), la corelación entre las subescalas hace que 52 Fiabilidad 52 ρyy ' 1 & j k j'1 b 2j σ 2 j & j k j'1 b 2j σ 2 jαjj´ σ 2 Y ' 1 & 86 & 75.4 86 ' 1 & 0.123 ' 0.877 ρyy ' 1 & j k j'1 b 2j & j k j'1 b 2j αjj´ σ 2 Y ' ' 1 & 5 & (1(0.7 % 22 (0.9) 5 ' 1 & 0.14 ' 0.86 ρyy ' 1 & j k j'1 σ 2 j & j k j'1 σ 2 jαjj´ σ 2 Y ' 1 & 29 & 24.1 29 ' 1 & 0.169 ' 0.83 ρyy ' j k j'1 αjj´ k ' 0.7 % 0.9 2 ' 0.8 la fiabilidad global sea aún más alta (0.924). . Si las subescalas fueran incorrelacionadas, la varianza global sería la suma ponderada cuadrática de las varianzas parciales y el coeficiente de fiabilidad global sería: (3.13) Aquí ya se observa cómo la fiabilidad global es la media ponderada. La fiabilidad global está más cercana a 0.9 por tener esta subescala mayor ponderación y mayor varianza. Pero al no haber ningún tipo de comunalidad o redundancia entre las subescalas la fiabilidad global no añade nada a las fiabilidades parciales. En las mismas circunstancias (esto es con subtests ponderados e incorrelacionados), pero con puntuaciones estandarizadas el coeficiente de fiabilidad de la puntuación global será muy semejante, pero al no estar afectado por la variabilidad de las subescalas su valor será ligeramente inferior. Veamos: (3.14) Si las subescalas estan incorrelacionadas y las tratamos en puntuaciones directas y con ponderación de uno, veamos: (3.15) Con lo que comprobamos que la fiabilidad global no está tan cercana a 0.9 como en la situación 3.14, pues ritmo con los pies tiene el mismo peso que ritmo con las manos. Así la fiabilidad global es casi la media de las fiabilidades parciales, aunque inclinada hacia la fiabilidad (mayor) de ritmo con los pies por su mayor varianza. Así pùes, si además de todo lo anterior (incorrelacionadasy equiponderadas) la puntuaciones de la subescalas estuvieran estandarizadas, la fiabilidad global sería la media de las fiabilidades parciales (ver ecuación 3.16). (3.16) Compruebe el alumno que aplicando la ecuación general 3.11 el resultado es el mismo. Esta Fiabilidad de un test compuesto 53 53 ρyy ' 1 & j k j'1 b 2j & j k j'1 b 2j αjj´ σ 2 Y ' 1 & 5 & 4.3 8 ' 0.912 ρyy ' 1 & j k j'1 σ 2 j & j k j'1 σ 2 jαjj´ σ 2 Y ' 1 & 29 & 24.1 49 ' 1 & 0.1 ' 0.90 ρyy ' 1 & k & j k j'1 αjj´ σ 2 Y ' 1 & 2 & 1.6 3.5 ' 1 & 0.114 ' 0.886 ecuación 3.11 se puede aplicar en todos los casos. Seguimos con la ejemplificación de las distintas situaciones planteadas en la tabla 3.6 y 3.7. Imaginémosnos las puntuaciones de los subtests ponderadas, estandarizadas y relacionadas. Veamos: (3.17) Como hemos comprobado la fiabilidad supera la fiabilidad de ambas subescalas debido a la correlación o redundancia y por lo tanto fiabilidad que aporta la parte común (por lo tanto medida dos veces) de ambas subescalas. Cabe observar, no obstante, un valor ligeramente inferior al de la sistuación 3.12 (puntuaciones directas), porque en aquel caso la fiabilidad global se ve favorecida por la mayor varianza de la subescala más fiable (ritmo con los pies). Si los subtests están en puntuaciones directas, sin ponderar y relacionados; la fiabilidad global no quedará afectada de forma diferenciada por las ponderaciones, pero sí por las varianzas que da más peso a ritmo con los pies (fiabilidad más alta) y, también se ve afectada la fiabilidad global, por la correlación entre las subescalas que produce una fiabilidad superior aún. Veamos: (3.18) Si nos encontramos con una situación de subtests relacionados, típificados y no ponderados. Veamos: (3.19) Con resultado ligeramente inferior al de la situación anterior (3.18), por el mismo motivo que 3.16 era inferior a 3.15. Animamos al paciente lector a que compruebe y razone el hecho. Así pues en las baterías de tests hay que aplicar la fórmula adecuada de las expuestas en este apartado. Hay que prevenirse de la tentación de aplicar (como a veces se hace) las fórmulas (3.7, 3.8, 3.9 o 3.10) del coeficiente Alpha, como si los distintos subtests fueran los ítems de un cierto test. Con este procedimiento lo que obtenemos en realidad es la consistencia u homogeneidad entre pruebas o subescalas de una batería. Pero este valor así obtenido nunca puede ser interpretado como la fiabilidad de un test compuesto, sino que cuanto mayor sea más se incrementará la fiabilidad global con respecto a la de las subescalas parciales. Una solución para saber si es correcto calcular Alfa con todos los ítems (como unidimensionales) o es necesario calcular por separado la consistencia de cada subescala y después la fiabilidad global 54 Fiabilidad 1 El lector interesado puede encontrar en Harman (1976) una buena introducción al análisis factorial. En Carmines y Zeller (1979), en el apéndice, se trata el papel de dicha técnica en la fiabilidad. 54 Figura 3.11.- Efecto de la variabilidad sobre la correlación como test compuesto; es recurrir a la técnica del análisis factorial 1 y obrar en consecuencia a la estructura factorial obtenida. Si todos los ítems saturan un único factor, no hay problema y se aplica Alpha sin más. En caso contrario, si los ítems se reparten en varios factores, será cuestión de definir primeramente tales factores, y a continuación tratarlos como pruebas distintas que configuran un aspecto global (vease figura 3.9). Aquí, si deseamos la fiabilidad del test total, habremos de aplicar una de las distintas fórmulas tratadas en este apartado. Así pues, dado que la consistencia interna de la escala tiene algo que ver con la fiabilidad, ha habido algunas aproximaciones al coeficiente de fiabilidad a partir de los datos del Análisis Factorial, que expondremos en el siguiente apartado. 3.7.- Factores que afectan al coeficiente de fiabilidad Trataremos en las próximas páginas los factores más relevantes que inciden sobre el valor del coeficiente de fiabilidad de un determinado test: variabilidad de la muestra, longitud del test, limitación del tiempo y características de los ítems. Como puede observarse, algunos de estos factores hacen referencia, como cabría esperar, a los elementos constituyentes del test (longitud del test y características de los ítems), pero otros son ajenos al mismo (variabilidad de la muestra y limitación del tiempo). Todo ello implica una cierta paradoja con respecto a la variabilidad de la muestra, por cuanto hace depender la precisión de un test no sólo de sí mismo sino de aquello que mide, lo que da lugar a tantas fiabilidades como muestras potenciales a las que se aplique el test. Como ya vimos en el tema dos , a la hora de construir una prueba se han de tener en cuenta tanto los aspectos internos a la prueba (análisis de ítems, fiabilidad, validez) como externos a la prueba, que más concretamente son los referentes a la población de sujetos que nos planteamos como objetivo de medida (para ampliar este doble objeto de la depuración y preparación del test se puede consultar Gerardo Prieto y Ana R. Delgado, 1996). 3.7.1.- Fiabilidad y variabilidad de la muestra Como acaba de indicarse el coeficiente de fiabilidad, como en un principio podría suponer- se, no depende exclusivamente de las características intrínse- cas del instrumento de medida, sino que también depende de ciertos aspectos externos como son la variabilidad del grupo sobre el que se efectúa la me- dición. Esta circunstancia da lugar a que no exista un único coeficiente de fiabilidad para cada test sino tantos como muestras a las que se aplique. Consistencia interna basada en resultados del Análisis Factorial 55 55 ρxx´ ' σ 2 v σ 2 x ' σ 2 v σ 2 v % σ 2 e σ 2 e1 ' σ 2 11&ρ11´ σ 2 e2 ' σ 2 21&ρ22´ Es importante destacar este aspecto por cuanto implica que el profesional de psicología, a la hora de aplicar un determinado test, no ha de conformarse con el coeficiente de fiabilidad que venga indicado en el manual de referencia de dicho test en cuestión, sino que ha de adaptarlo a su propia muestra, según explicaremos en las próximas líneas. El coeficiente de fiabilidad, como un coeficiente de correlación que es, viene afectado por las varianzas de las variables consideradas, en el sentido de que a mayor variabilidad de las mismas, mayor correlación. Supóngase a este respecto, que correlacionamos entre sí dos pruebas de inteligencia. En el gráfico de fig. 3.11. se observa que si consideramos todo el rango de variación para ambas variables, la nube de puntos resulta un tanto estilizada, expresándose un cierto grado de correlación. Si extraemos una submuestra de los datos originales (rango de variabilidad menor), comprobaremos igualmente, que ésta resulta más redondeada, y en consecuencia, el grado de correlación será menor que cuando se contempla el rango completo. En otros términos, es fácil entender que si los sujetos son significativamente distintos entre sí (variabilidad alta) en cuanto a inteligencia, tenderán a mantenerse las posiciones relativas en ambas pruebas y el coeficiente de correlación será, por consiguiente, alto. Por el contrario, para un grupo de personas muy similares entre sí en cuanto a inteligencia, será relativamente fácil alterar sus posiciones en ambas pruebas, ya que hay otros factores variables que inciden en este rendimiento, obteniéndose un coeficiente de correlación más bajo. En este sentido, la misma fórmula original, utilizada para definir el coeficiente de fiabilidad, puede ser ilustrativa para expresar lo que estamos comentando. Como se sabe por ecuación 2.15 del tema 2: (3.20) Dado que la varianza del error es lo único constante y característico de un determinado test, en la medida en que los sujetos realmente difieren entre sí en el atributo que se mide, el numerador representa una mayor proporción de varianza total; y, portanto la fiabilidad es mayor. Por el contrario, en la medida que los sujetossean semejantes entre sí en sus puntuaciones verdaderas, mayor parte de su varianza es debida al error de medida, y, por tanto, el coeficiente de fiabilidad es menor. Supongamos, a este respecto, que tenemos dos poblaciones con varianzas en el test en cuestión cuyos valores son y respectivamente. Por otro lado, sus coeficientes de fiabilidad asociadosσ 2 1 σ 2 2 son ρ11´ y ρ22´. Esto supuesto, tendremos que las varianzas de los errores para ambas poblaciones es: (3.21) Por otro lado, la condición de homocedasticidad implica que la varianza de los errores se mantiene constante para cualquier valor del rasgo medido. Así: 56 Fiabilidad 56 Var(e*v) ' σ2e σ 2 11&ρ11´ ' σ 2 21&ρ22´ ρ22´ ' 1 & σ 2 1 σ 2 2 1&ρ11´ (4.23) σ 2 e2 # σ 2 e1 ρ22´ # 1 & σ 2 1 σ 2 2 1&ρ11´ (3.22)) Igualando, en consecuencia, las ecuaciones de (3.21): (3.23) Despejando ρ22´ Esta fórmula ha de aplicarse con ciertas precauciones (Lord y Novick, págs. 130-131), ya que no siempre se cumple el supuesto de homocedasticidad, en especial cuando ρ22´ se obtiene a partir de la subpoblación donde se extrajo ρ11´. En estas circunstancias: (3.24) Lo que da lugar a que: (3.25) Una buena idea con carácter preventivo (Gulliksen, 1950, pág. 111) consiste en comprobar mediante la prueba de comparación de varianzas, si se cumple la igualdad merced aσ 2 e1 ' σ 2 e2 las ecuaciones indicadas en (3.28), esto es, en base a los cálculos de y .σ 2 11&ρ11´ σ 2 21&ρ22´ 3.7.2.- Fiabilidad y longitud del test Otro aspecto que juega un papel importante en el valor de la fiabilidad de un test es el número de ítems que lo configuran, en el sentido de que cuanto mayor sean el número de elementos del test mayor será su fiabilidad. Desde el supuesto que toda medición conlleva un cierto error aleatorio, es lógico considerar que cuanto mayor sea el número de mediciones (ítems) más compensados quedarán tales errores aleatorios (unos positivos y otros negativos) lográndose cada vez más una suma de cero para estos errores, y logrando, en consecuencia, un valor empírico (con el conjunto de ítems) más próximo al valor verdadero. Consistencia interna basada en resultados del Análisis Factorial 57 57 ρXX´ ' nρxx´ 1% (n&1)ρxx´ ρxx´ ' σ 2 v σ 2 x σ 2 v ' σ 2 v1%v2% ...%vn 'j n i'1 σ 2 vj % j n j'1 j n h'1 σvjvh ' nσ2v%n(n&1)σ 2 v ' n 2σ 2 v σ 2 x ' σ 2 x1%x2% ...%xn ' j n i'1 σ 2 xj % j n j'1 j n h'1 σxjxh ' ' nσ2x%n(n&1)ρxjxhσjσh ' nσ 2 x%n(n&1)ρxx´ σ 2 x No obstante, hay que decir que sólo hasta un cierto punto podremos mejorar la fiabilidad de un test en base al incremento del número de ítems, y que no es suficiente, como veremos más adelante, con aumentar dicho número para lograr la fiabilidad deseada. Además nunca podremos llevar la cantidad de ítems demasiado lejos, por cuanto incrementaremos igualmente la fatiga de los sujetos examinados, lo que a su vez, incidirá en un mayor error en la respuesta, invalidándose así nuestros propósitos originales. Otra limitación importante es que se entiende que los ítems añadidos han de ser paralelos o equivalentes, objetivo no siempre fácil de conseguir. No obstante, a pesar de estos inconvenientes, merece destacarse la importancia del incremento de la longitud del test como procedimiento para mejorar la fiabilidad del mismo. La fórmula que nos permite conocer el efecto que sobre la fiabilidad ejerce el hecho de multiplicar por “n” el número de ítems iniciales es la ya citada de Spearman-Brown. Su expresión es: (3.26) Siendo ρXX´ fiabilidad final lograda a partir de la fiabilidad inicial ρxx´, y "n" es el número de veces que el test resultante contiene la longitud del test original. Para su demostración partamos de la definición conocida de fiabilidad como cociente entre la varianza verdadera y la empírica (recordar la expresión 2.15): y veamos el efecto que tiene tanto sobre la varianza verdadera como la empírica el hecho de multiplicar por n la longitud inicial. En relación a la varianza verdadera: (3.27) ya que, bajo el supuesto de pruebas paralelas, coincidirán sus puntuaciones verdaderas (las varianzas serán todas iguales y las covarianzas coincidirán con sus varianzas). En relación a la varianza empírica: (3.28) ya que por paralelismo, las varianzas (y desviaciones tipo) empíricas serán todas iguales, y las 58 Fiabilidad 58 ρXX´ ' σ 2 V σ 2 X ' n 2σ2v nσ2x%n(n&1)ρxx´ σ 2 x ' n 2σ2v nσ2x 1% (n&1)ρxx´ ' nρxx´ 1% (n&1)ρxx´ 1 2 3 4 5 6 7 8 9 10 0 0,2 0,4 0,6 0,8 1 k ρxx´ Figura 3.12.- Efecto de la longitud del test sobre su fiabilidad correlaciones entre pruebas paralelas coincidirán con el coeficiente de fiabilidad. Sustituyendo (3.27) y (3.28) en (3.134) obtendremos la fórmula de Spearman-Brown citada (ver expresión 3.29): (3.29) Resulta interesante represen- tar gráficamente cómo varía la fiabilidad en función de los va- lores de n. En este sentido, ofre- cemos a continuación el efecto del aumento de la longitud sobre tres supuestos tests, A, B y C, cuyos coeficientes de fiabilidad son respectivamente 0.2, 0.5 y 0.8. Se observa en el anterior grá- fico que cuanto mayor es el va- lor de n mayor será su fiabili- dad, pero que la ganancia obser- vada no es proporcional al valor de la longitud del test, sino que por el contrario, la variación es decreciente, lo que sugiere que a partir de un cierto punto no es rentable invertir en ítems añadidos. Aquí, como en otros órdenes de la vida, hay una cierta relación coste-beneficio que hay que tener presente en todo momento si no queremos invertir todas nuestras energías en prácticamente nada. De ello se deduce que la fórmula de Spearman-Brown no es una pócima mágica para hacer fiables tests carentes de toda precisión. Lo razonable es fabricar ya de partida un buen instrumento de medida, que obviamente, sea susceptible de mejora, también por este procedimiento. Aunque como veremos, un buen test podría reducir su contenido si esto facilita su manejo y la pérdida de precisión no es importante. En este sentido, el valor de n, como se tendrá ocasión de comprobar, puede ser menor que la unidad. 3.7.3.- Fiabilidad y limitación del tiempo de aplicación del test A este respecto, hemos de distinguir previamente los test de velocidad de los test de potencia. Los tests de velocidad se caracterizan por el contenido de ítems todos ellos de fácil resolución, donde se valora exclusivamente la rapidez de ejecución de los mismos. Por el contrario, en los test de potencia, los ítems son de diferente complejidad, y lo que cuenta es la capacidad intelectual - poder mental- de los sujetos en su resolución. Normalmente, los tests suelen ser mixtos, en el sentido de que se aplican en un determinado intervalo de tiempo (aunque, no de forma muy restrictiva), pero, a su vez, los ítems son de dificultad creciente. Existen toda una serie de indicadores que permiten conocer los índices de velocidad/potencia para cada test en cuestión. Aquí no los mencionaremos, pero puede encontrarse una exposición de los fundamentales en Martínez Arias (1995, págs. 88-90) o bien en Muñiz (1994, págs. 34-36). Consistencia interna basada en resultados del Análisis Factorial 59 59 La fiabilidad, debida a la escasez de tiempo, queda afectada, es obvio decirlo, en los tests donde la velocidad es un factor a considerar. Y puede quedar afectada de diferentes maneras. Si se aplica, por ejemplo, el método de las dos mitades, de forma tal que se correlaciona la primera mitad de los ítems con la segunda mitad, entonces, está claro, que en esta segunda parte habrá más ítems no contestados, que puntuarán como cero, lo que dará lugar a una baja fiabilidad (menor cuanto mayor sea el índice de velocidad/potencia, esto es, cuanto más fáciles sean los ítems). Cuando se utiliza el método de las dos mitades correlacionando elementos pares con los impares, diseño de emparejamiento que es el más frecuente para equilibrar en ambas mitades el efecto de la fatiga, entonces la rapidez de respuesta delos sujetos se acumula a la fiabilidad propiamente dicha del test y da como resultado un coeficiente de fiabilidad sobrevalorado. En los ejemplos prácticos del tema cinco, cuando se realiza el análisis de ítems de las distintas subescalas del PMA con los alumnos de Psicometría, se puede ampliar este aspecto y comprobar cómo, hasta cierto punto, se puede comprobar que con sujetos de nivel Universitario estas subescalas miden velocidad de respuesta más que habilidades intelectuales concretas. En este caso, cuanta más falta de tiempo haya, más ítems valdrán cero, y en consecuencia, mayor será la correlación entre ellos, resultando una fiabilidad sobredimensionada. En los tests de velocidad, donde se entiende que los ítems son fáciles, lo que cuenta es la rapidez. Y si es la rapidez lo que medimos, necesitaremos varias medidas de dicha rapidez para conocer la fiabilidad de nuestro test. De donde se deduce que son los procedimientos del test-retest y de formas paralelas (con las limitaciones de tales métodos, ya comentadas), los recomendables para medir la fiabilidad de este tipo de tests. 3.7.4.- Fiabilidad y características del ítem Es evidente que la fiabilidad de un test, como suma de un conjunto de ítems, dependerá de las naturaleza de éstos. Hablando con propiedad, depende de tales ítems y las relaciones entre ellos. Hasta ahora, hemos hablado exclusivamente de la fiabilidad como correlación, pero por aquello de que todo conjunto es mayor que la suma de las partes, habremos considerar también tales partes y no sólo sus interrelaciones. Es importante la naturaleza de cada ítem, por cuanto de la calidad de los elementos constituyentes derivará la bondad del conjunto. Además, cuanto mejor construidos estén los ítems, menor número de ellos necesitaremos para configurar un buen test, logrando de esta forma un instrumento más sencillo y de más fácil aplicación. Trataremos aquí, tres aspectos constitutivos de los ítems que inciden sobre la fiabilidad del test, a saber: a) el índice de homogeneidad, b) el índice de fiabilidad y c), el índice de dificultad. Todos ellos afectan, como veremos, a la varianza total del test, que como se ha tratado al comienzo de este capítulo incide sobre la fiabilidad del mismo, ya que siempre se pretende que el test sea suficientemente sensible y detecte diferencias entre los sujetos por muy pequeñas que sean, sobre todo en tests referidos a la norma. Para un tratamiento más extenso del Análisis de Ítems remitimos al lector al tema cinco. Se define como índice de homogeneidad del ítem a la correlación entre las puntuaciones de un determinado ítem y las puntuaciones totales del test. Se entiende que el test sirve para discriminar entre unos sujetos y otros en relación a un cierto rasgo de interés, de forma tal que permita distinguir aquello sujetos que presentan un nivel alto de aquellos otros más bajos en dicho rasgo. Según esto, si la correlación de un determinado ítem con el conjunto del test es elevado, dicho ítem contribuirá igualmente a distinguir unos sujetos de otros, de ahí su nombre. A este índice se le suele llamar también índice de homogeneidad, por cuanto expresa la contribución de dicho ítem a medir lo mismo que es test en su conjunto. 60 Fiabilidad 60 σ 2 X ' Cov(X,X) ' Cov X, j k j'1 xj ' j k j'1 CovX,xj ' j k j'1 σXσjρjX σX ' j k j'1 σjρjX σj ' pj(1&pj) ' pjqj σX ' j k j'1 ρjX pjqj α ' n n&1 1 & j n j'1 pjqj j n j'1 ρjX pjqj 2 α ' n n&1 1 & j n j'1 σ 2 j j k j'1 σjρjX 2 Veamos cómo el índice de homogeneidad del ítem afecta a la varianza total del test. Como se sabe, la varianza de una determinada variable no es más que la covarianza de dicha variable consigo misma. Y considerando que la puntuación total del test equivale a la suma de las puntuaciones de los ítems, tendremos: (3.30) Y simplificando: (3.31) Se observa que la desviación tipo del test depende de las desviaciones tipo de los distintos ítems y de los coeficientes de discriminación de éstos. Al producto de σjρjX se le denomina, precisamente, índice de fiabilidad del ítem. De esta forma, la desviación tipo del test equivale a suma de los índices de fiabilidad de los diferentes ítems. Por otro lado, en lo que se refiere a la desviación tipo de los ítems, se sabe que si operamos en puntuaciones dicotómicas: (3.32) donde pj hace referencia a la proporción de " unos" -esto es, proporción de aciertos- existentes en tales ítems. Si tomamos este valor como indicativo del índice de dificultad para cada ítem, tendremos que: (3.33) Si deseamos saber cómo afectan estos valores (índice de discriminación, de fiabilidad y dificultad) sobre la fiabilidad, por ejemplo, sobre el coeficiente Alpha: (3.34) Si operásemos con datos cuantitativos, prescindiremos del índice de dificultad tal como aquí ha sido definido, obteniendo: (3.35) Valoración de los distintos Coeficientes de Fiabilidad 61 61 lo que pone de manifiesto de qué forma la dificultad de los ítems afectan a la fiabilidad global del test (supuesto índices de discriminación diferentes de cero). En este sentido cuanto mayor sea la varianza de los ítems, así como su índice de hmogeneidad, mayor es el coeficiente de fialidad del test. 3.8.- Valoración de los distintos coeficientes de fiabilidad Básicamente hay dos conceptos de fiabilidad: a) la fiabilidad como consistencia de las medidas, b) la fiabilidad como estabilidad en el tiempo. El primer tipo de fiabilidad se logra, tras una única aplicación del test, mediante las correlaciones entre los distintos ítems de dicho test o agrupaciones de los mismos (especialmente, en dos mitades). El segundo tipo de fiabilidad se consigue tras distintas aplicaciones (habitualmente dos) bien del test o de formas paralelas (o alternativas), y calculando la correlación entre ellas. Hay que decir que ambas medidas de la precisión son realmente concepciones distintas de la fiabilidad y no conviene confundirlas. Ciertos tests, como los estrictamente de velocidad, solamente admite un tipo de fiabilidad, pero frecuentemente ambas medidas son complementarias y siempre que se puedan convienen aplicarse conjuntamente (recordemos lo dicho lo dicho a este respecto al principio de este tema). Podemos, de esta forma, encontrarnos con un test que presente una alta consistencia interna, pero una pequeña estabilidad temporal, o al revés. O bien, coincidan en ambos aspectos. Obviamente, un test que sea consistente en el sentido de que todos sus componentes configuren una única pieza, y que además como instrumento, aguante el paso del tiempo manteniéndose en sus mediciones, será un test óptimo. Aunque esto no implica necesariamente que un test heterogeneo (con baja consistencia interna) sea un mal test. Más bien ocurre al contrario en algunos casos. Por poner un ejemplo, los buenos tests de rendimiento o de selección profesional suelen ser heterogéneos, por lo que respecta a los constructos psicológicos que lo integran. En el mismo sentido un test que ofrezca medidas con baja estabilidad temporal no tiene por qué ser poco fiable, pues, si lo sujetos han cambiado en el aributo durante ese intervalo de tiempo, es bueno el test que refleje ese cambio. En lo que hace referencia a los distintos procedimientos, cuyo común denominador es el hacer una única aplicación del test, podemos afirmar que el coeficiente Alpha es el idóneo. Puede demostrarse además que las fórmulas de Rulon y Flanagan y Guttman son casos particulares de Alpha (ver Muñiz (1994) págs 50-54). Son fórmulas simplicadoras del mismo que no tienen sentido actualmente con los recursos informáticos al alcance de cualquiera. Además si lo que se pretende es la coherencia interna de todos los ítems, mejor será considerarlos individualmente que no en dos bloques, donde siempre será dudoso el criterio de asignación de los distintos ítems en cada uno de tales bloques, y por otro lado, aunque los bloques coincidan en lo que hace referencia en su puntuación total, pueden esconder una cierta diversidad en su interior quequeda enmascarada. Pero si lo que se pretende, por el contrario es utilizar un procedimiento económico para calcular la fiabilidad de un tests heterogéneo, podemos aprovechar esa diversidad interior de la que acabamos de hablar para dar cabida a la heterogeneidad que contempla el atributo. Bastaría con tener, para cada aspecto del atributo, dos ítems o indicadores paralelos, que pasarían cada uno a formar parte de una de las mitades del test. En cuanto a los procedimientos que implican dos (o más) aplicaciones del test (o tests), lo más razonable es plantearlo como formas alternativas. Como en el caso de Alpha, es el planteamiento 62 Fiabilidad 62 menos restrictivo. Suponer formas paralelas o equivalentes no es más que una utopía imposible de conseguir. El método de las dos mitades parece que reúne las ventajas del método de las formas paralelas (o alternativas) al mismo tiempo que se logra en una única aplicación del test, pero en realidad más que contener todas las ventajas lo que tiene son todos los inconvenientes, y al final resulta insatisfactorio, ya que no contempla la estabilidad en el tiempo ni la verdadera consistencia entre todos los ítems por cuanto opera con bloques donde tales ítems quedan agrupados. Por ello precisamente es la solución adecuada cuando se quiere calcular la fiabilidad por dos-mitades cuando el tests es heterogeneo en su conjunto aunque con dos mitades paralelas o alternativas. Hay que tener cuidado de no aplicar este procedimiento (dos mitades) en pruebas de rapidez, pues podría ser falseada la fiabilidad por aspectos camuflados en la seriación como: rapidez de respuesta, dificultad del ítem, aprendizaje, fatiga, ... etc.. Hay cierto tipo de tests como el Binet o el Terman, que miden rasgos complejos, donde lo más conveniente es recurrir a la fiabilidad como estabilidad -diferentes aplicaciones de la misma prueba-. No puede aplicarse Alpha o equivalente por cuanto el contenido es variado y las intercorrelaciones obtenidas serían bajas aún cuando hubiera una gran estabilidad entre las mediciones tras diferentes pasadas. No obstante, hay que decir que en esta situación (cuando se elabora un test) es preferible desentrañar previamente la estructura interna de lo complejo -distinguir los rasgos unitarios que alberga-, aplicar Alpha a cada uno de estos rasgos, y finalmente, determinar la fiabilidad de un test compuesto según la fórmula (3.17). A este respecto, se aconseja recurrir a algún procedimiento, que como el análisis factorial permite determinar los rasgos -factores- que componen un cierto material complejo, siendo las variables que saturan un determinado factor, los ítems de dicho rasgo. De esta manera logramos no solamente una fiabilidad que en la práctica es fiable sino que lo es sobre la base de una fundamentación teórica. En definitiva, de los procedimientos basados en una aplicación del test -fiabilidad como consistencia- el coeficiente Alpha, por las razones apuntadas, es el más adecuado. Proceder a realizar varias pasadas -fiabilidad como estabilidad- puede quedar justificado por razones prácticas cuando el material es complejo, pero resulta aconsejable desentrañar previamente su estructura y aplicar Alpha. Así pues, al final, acabamos en el coeficiente Alpha como el preferible en la mayor parte de los casos. No obstante, no puede generalizarse su uso sin más. Como hemos apuntado, en los tests de velocidad es más apropiado realizar diferentes pasadas -test-retest o formas paralelas- para cuantificar su fiabilidad.
Compartir