3 Fiabilidad

Psicometría

•

SIN SIGLA

Pablo Roa Jorquera

22/9/2023

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Psicometría

1727 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

1 De forma análoga a la bondad de ajuste ρyx
2 como proporción en la que la variabilidad de “Y” está
asociada a “X”.
41
3.- FIABILIDAD
3.1.- Introducción
Como se ha indicado, la fiabilidad de un instrumento de medida hace referencia a su precisión;
esto es, el grado en que las puntuaciones empíricas son reflejo de las verdaderas. La fiabilidad marca
el grado de ajuste entre puntuaciones empíricas y verdaderas. En una primera aproximación hemos
definido la fiabilidad como la proporción que, de la varianza empírica, explica la varianza
verdadera. Como se sabe, viene reflejado por el valor de (ver ecuaciones 3.11 en tema
ρ
2
vx
anterior)1.
Esta definición, no obstante, no es operativa por cuanto no disponemos jamás de ninguna
"puntuación verdadera". Todas las puntuaciones son el resultado de mediciones. Son, pues,
puntuaciones empíricas con sus correspondientes errores implícitos. Necesitamos, en consecuencia,
abordar el problema desde otra perspectiva. De forma indirecta podemos conocer la fiabilidad de
una determinada prueba de medida mediante la variabilidad de sus mediciones. Si dicha variabilidad
es pequeña deduciremos que la puntuación verdadera, al estar dentro del rango de variación de las
puntuaciones empíricas, no estará muy lejos de éstas. Por el contrario, una gran variabilidad será
indicativo de amplios márgenes para la puntuación verdadera, lo que será indicativo de que nuestro
test no es muy preciso.
De esta forma la constancia o estabilidad del test mostrará su fiabilidad. Esto es lo que se
denomina Coeficiente de Fiabilidad (ρxx ). Así, un determinado test será relativamente fiable si tras
diferentes pasadas a los mismos individuos ofrece parecidos resultados. En términos matemáticos
la fiabilidad de un test quedará reflejada por la correlación de las puntuaciones empíricas obtenidas
en dos situaciones semejantes. Cuanto mayor correlación, más parecidas o constantes serán las
puntuaciones observadas en situaciones semejantes, y en consecuencia, mayor será su coeficiente
de fiabilidad.
No conviene confundir la constancia de las mediciones con la constancia de lo medido. Un
objeto que no cambia deberá proporcionar equivalentes resultados en diferentes pasadas si nuestro
test es fiable, pero si cambia el atributo del objeto, y entendemos que nuestra prueba es fiable,
entonces ésta deberá reflejar tal cambio. esto es, será fiable en la medida en que proporcione
diferentes mediciones. Este aspecto del posible cambio en el atributo que se mide es importante
controlarlo y no confundirlo con falta de precisión, pues aunque en las ciencias físicas cabe esperar
42 Fiabilidad
42
Figura 3.1- . Cuadro esquemático de los distintos coeficientes de fiabilidad
que un objeto permanezca idéntico a sí mismo a lo largo de diferentes mediciones, no ocurre otro
tanto con los atributos humanos. Una persona puede cambiar ciertos rasgos psicológicos, tales como
las actitudes o las emociones, con una relativa facilidad. En este caso un test que mida tales cambios
será más fiable que el que no lo hiciera. Aunque hemos de reconocer la dificultad que entraña
distinguir en tales cambios medidos, qué parte de modificaciones se dan en la verdadera puntuación
del atributo y que parte del cambio en X es atribuible al error de medida.
Queremos enfatizar con ello las dificultades que entrañan las mediciones de rasgos psicológicos
frente a las mediciones en otros ámbitos de la ciencia, donde tanto la subjetividad como la
estabilidad del atributo o aspecto del objeto medido es menos problemática que en Psicología. A
tal efecto, en un intento de encontrar un procedimiento idóneo para determinar la fiabilidad, se han
planteado, dentro de la TCT, diferentes enfoques para el cálculo del coeficiente de fiabilidad. Todos
están basados en el coeficiente de correlación de Pearson. Distinguiremos, a este respecto, y muy
a groso modo, procedimientos basados en dos aplicaciones del test (ver fig. 3.1), bien sea el mismo
test -método test-retest- o dos test equivalentes -método de las formas paralelas-, de aquellos
procedimientos basados en una única aplicación del test, bien sea dividiendo éste en dos mitades
-método de las dos mitades-o bien considerando todos y cada uno de los ítems como elementos
independientes -Alpha de Crombach-.
No obstante, hemos de decir que no puede afirmarse a priori cual de estos procedimientos es el
más adecuado. Veremos que distintas circunstancias harán aconsejable unas veces un procedimiento
Introducción 43
43
ρxv ρx´v
Siendo:
- ρxv = ρx´v
- ρxe = ρx´e´
- Varianzas igualesρxe ρx´e´
Figura 3.2.- Modelo de medida de
formas paralelas para calcular la
fiabilidad
x ' πxv v % πxe e ; x
) ' πx )v v % πx )e e
ρxx´ ' ρvxρvx´ ' ρ
2
xv ; ρvx ' ρxx´
y otras veces otro, o incluso ambos. Digamos, en principio, que mediante dos aplicaciones del test
medimos fundamentalmente la fiabilidad como estabilidad de las medidas, mientras que merced
al procedimiento de una única aplicación medimos la consistencia interna de las medidas.
Para justificar que estos procedimientos
empíricos de cálculo del coeficiente de fiabili-
dad (ρxx) sirven para conocer indirectamente
el índice de fiabilidad (ρxv) en párrafos ante-
riores hemos dicho que ρxx es una correlación
entre las medidas obtenidas en dos situaciones
semejantes. La TCT ha definido de forma más
precisa este concepto de semejanza de las
medidas y lo ha sustituido por el de paralelis-
mo de las medidas. Así se puede afirmar que
dos medidas son paralelas si coinciden en su
puntuación verdadera (V= V'), coinciden en
su índice de fiabilidad (ρxv = ρx'v) y coinciden
en la desviación típica de sus errores (σe =
σ'e). Todo ello significa, en términos familia-
res para el alumno que haya superado la
asignatura de Análisis de Datos II, que las dos
(o más) puntuaciones medidas se deben en un
mismo porcentaje (ρ2xv) al atributo que mide
(que habrá de ser el mismo atributo) y en un
mismo porcentaje se deben a lo que hemos
llamado error aleatorio de medida (ρ2xe =1-
ρ2xv). Estos supuestos o restricciones del
modelo de formas paralelas se pueden presen-
tar de forma más intuitiva a través del diagrama causal o diagrama path de la figura 3.2.
En la medida en que con los distintos procedimientos empíricos de obtener el coeficiente de
fiabilidad se cumplan estas condiciones, en esa misma medida, se cumplirá que ρ2xv = ρxx'. Así, en
la citada figura 3.2. se puede apreciar que :
(3.1.)
Aplicando la regla del trazado en fig. 3.2:
(3.2.)
En el grado en que no se cumplan las anteriores restricciones del modelo de medidas paralelas,
se deben buscar (así lo haremos en los siguientes apartados) las posibles explicaciones de por qué
para un mismo tests los coeficientes de fiabilidad calculados por procedimientos distintos ofrecen
resultados más o menos distintos. Si se cumpliera el supuesto de formas paralelas la fiabilidad sería
siempre la misma independientemente de la fórmula o procedimiento empírico utilizados.
3.2.- Procedimientos basados en dos aplicaciones del test
44 Fiabilidad
44
Figura 3.3. Posibles variaciones del modelo de
medida test-retest.
Figura 3.4.- Modelo del método test-retest
con pasadas distantes
ρxx´ ' πxvβv´v πx´v´ < ρxvρx )v ) Así pues ρxx´ < ρ
2
xv
3.2.1.- El método del test-retest
Este quizás sea el procedimiento más
sencillo, o al menos el que surge de forma
intuitiva a cualquiera que se le pregunte
cómo comprobar si la medida obtenida con
un test es estable y por lo tanto precisa.
Fácilmente puede responder que midiendo
dos veces lo mismo podemos comprobar la
precisión a través del grado de coincidencia
entre las dos medidas.
Efectivamente el método test-retest para
el cálculo de la fiabilidad consiste en aplicar
el mismo test al mismo grupo de individuos
en dos ocasiones distintas. Posteriormente se
calcula el coeficiente de correlación de Pear
son entre las dos series de puntuaciones
obtenidas. En la medida que dicha correla-
ción sea alta entenderemos que el test mide
de forma estable a los sujetosestudiados y
que por lo tanto, presenta una alta fiabilidad.
Pero si observamos el diagrama de la
figura 3.3 podremos encontrar las explica-
ciones de que este coeficiente de fiabili-
dad se muestre, a veces, algo distorsiona-
do. Gráficamente, se puede representar
esta situación (test-retest) mediante dicho
diagrama causal (ver fig. 3.3).
Este diagrama general se puede concre-
tar en un coeficiente de fiabilidad (ρxx)
más bajo que el que corresponde a la
verdadera precisión de la medida, si las
dos pasadas están distantes en el tiempo y
por lo tanto: Las puntuaciones verdaderas
no son iguales sino relacionadas o depen-
dientes en un cierto grado (inferior a 1), y
los errores no están relacionados por no
haber recuerdo de la respuesta de una vez
a otra. En este caso la figura 3.3 se con-
vierte en fig. 3.4. Este cambio en las pun-
tuaciones verdaderas se puede llamar
maduración, reactividad, etc; pero desde
el punto de vista operativo (ver figura
adjunta) se trata de un valor en el atributo
psicológico en la segunda pasada (v') que
depende en parte (βv'v) de su valor previo
(en la primera pasada) y en parte de la
influencia del resto de variables durante ese transcurso de tiempo (D). Así, si aplicamos la regla del
trazado sobre la figura 3.4 se puede comprobar que (en puntuaciones estandarizadas) (ver ecuación
3.3):
(3.3)
Procedimientos basados en dos aplicaciones del test 45
45
ρxx´ ' πxvπx )v % πxe ρee ) πx )e ) > ρxvρx )v ; asípues: ρxx´ > ρ
2
xv
Figura 3.5. Modelo de medida test-retest
con pasadas cercanas en el tiempo
Esta infravaloración de la fiabilidad puesta de manifiesto en este procedimiento test-retests con
pasadas distantes en el tiempo se puede evitar reduciendo el intervalo temporal. Pero entonces puede
existir recuerdo, con lo cual los sujetos dan respuestas parecidas y ello se pone de manifiesto en la
correlación entre los errores de medida de la primera y segunda vez. También afectan a la -
correlación entre los errores, si el período de tiempo transcurrido es corto, la constancia en los
valores de las variables de circunstancias. El valor estable de estas variables extrañas (no
contempladas) daría lugar a errores estables y no aleatorios, lo cual produciría una sobre-estimación
de la fiabilidad (ver esta situación en figura 3.5). Si aplicamos en este caso la regla del trazado sobre
la figura 3.5 se puede comprobar (ver ecuación 3.4):
Por estas razones, podemos considerar
que el método test-retest es un procedimien-
to adecuado cuando se miden rasgos que
varían poco en el tiempo, o en donde la
práctica no ejerce especial influencia, procu-
rando que el intervalo temporal no sea ni
excesivamente corto ni muy largo. No existe
una respuesta única respecto a cuánto es el
tiempo adecuado, depende del tipo de prueba
realizada. Pruebas tales como atención,
rapidez perceptiva, cálculo numérico, etc..
pueden ser adecuadas para ser sometidas al
método del test-retest.
Si se cumple el modelo de las medidas
paralelas (ver figura 3.2) el valor de ρxx es
fiel reflejo del grado de precisión del test. En
este caso las ecuaciones correspondientes
coinciden con las presentadas al principio
del tema (ver ecuaciones 3.2). Obsérvese
que si aplicamos la regla del trazado sobre
la figura 3.2, es fácil comprobar que la
correlación entre las puntuaciones empíricas
del test equivale al cuadrado de la correla-
ción entre las puntuaciones del test y sus puntuaciones verdaderas, ya que se entiende que x y x´
no son más que distintas aplicaciones del mismo test. Se comprueba de esta forma que la fiabilidad,
considerada como proporción que la varianza verdadera es de la empírica, es equivalente a la
correlación entre dos aplicaciones de un mismo test.
El procedimiento del test-retest tiene la ventaja de que resulta de fácil aplicación y es poco
costoso llevarlo a la práctica. No obstante, presenta algunos inconvenientes en psicología como ya
hemos reseñado en párrafos anteriores, debido a las propias características del ser humano.
El coeficiente de fiabilidad obtenido mediante este procedimiento se denomina coeficiente de
estabilidad por cuanto refleja el grado en que las medidas se mantienen estables a lo largo de las dos
aplicaciones del test.
3.2.2.- El método de las formas paralelas
46 Fiabilidad
46
Figura 3.6. Modelo de medidas casi paralelas o
alternativas
ρxx´ ' πxvρvv )πx )v ) < ρxvρx )v );
asípues: ρxx´ < ρ
2
xv
Este método consiste en aplicar a un mismo
grupo de individuos dos formas paralelas (dos
versiones) del mismo test. Dos formas se dice que
son paralelas cuando miden los mismos aspectos
con el mismo tipo de cuestiones (que no iguales).
Si la muestra de sujetos a la que se aplica el test es
representativa de la población, el coeficiente de
correlación obtenido con ambas series de puntua-
ciones, será una estimación del coeficiente de
fiabilidad de dicho test.
La característica de las pruebas paralelas es que
aún estando constituidas por ítems diferentes,
éstos, uno a uno, han de medir el mismo rasgo y de
las misma manera, lo que implica igualdad de
medias, varianzas y covarianzas entre ambos tests.
Lo cual se representa en el diagrama de la figura
3.2 en páginas anteriores.
Es evidente la dificultad que entraña lograr
formas exactamente paralelas, por lo que parece
más razonable hablar del formas alternativas mas bien que de formas paralelas, donde se entiende
que ambos tests no son por completo equivalentes sino que son simples intentos de que lo sean. En
este caso, el diagrama path sería el de la figura 3.6.
Se observa que la fiabilidad del test, en este caso, depende no sólo de la ausencia de errores en
la medida, sino también del grado de similitud de ambas formas. Así:
(3.5)
El método de las formas paralelas sería el procedimiento idóneo en psicología si no fuera por la
dificultad que entraña la elaboración de pruebas realmente equivalentes. Cuando las formas no son
totalmente paralelas es difícil distinguir lo que es cambio en la puntuación verdadera de la falta de
fiabilidad (Carmines y Zeller, pág. 30). No obstante, este procedimiento para el cálculo del
coeficiente de fiabilidad (en la versión que hemos apuntado como de formas alternativa) presenta
algunas ventajas respecto al método del test-retest. Al tratarse de formas diferentes, no existe el
efecto de memoria anteriormente señalado. Por esta misma razón los errores de medida entre ambas
aplicaciones tendrán menos probabilidad de estar correlacionados.
Algunas dificultades permanecen aún vigentes con este procedimiento. Puede presentarse
reactividad al test de forma tal que en la segunda pasada haya cambiado la actitud del sujeto, y por
otro lado, se mantienen algunos efectos del intervalo temporal entre ambas aplicaciones del test. Si
el período de tiempo es corto, cierto influjo puede traslucirse (más por efecto de práctica que de
memoria) y si el intervalo es largo puede, como el caso del test-retest, cambiar el rasgo a medir del
sujeto. Todo ello puede contribuir, al igual que la falta de paralelismo entre las formas del del test,
a reducir la correlación entre V y V'.
Procedimientos basados en una única aplicación del test 47
47
ρXX´ '
2ρxx´
1 % ρxx´
3.3.- Procedimientos basados en una única aplicación del test
3.3.1.- Método de las dos mitades
Se trata de aplicar un único test a un mismo grupo de individuos representativos de una cierta
población. A continuación se divide el test en dos mitades; esto es, la mitad de los ítems configura
uno de los tests y la otra mitad de los ítems el otro test. La correlación de Pearson entre las
puntuaciones de ambas mitades constituirá el coeficiente de fiabilidad de medio test.
La intención es crear dos partes que sean lo más paralelas o equivalentes posible. A este respecto,
existen varios posibles procedimientos para realizar la partición. El más usual consiste en
seleccionar los ítems pares como constituyentes de una mitad, y los ítems impares formando parte
de la otra. Pero podemos utilizar también una asignación aleatoria para cadauna de las partes. No
es conveniente, por ejemplo, elegir la primera mitad de los ítems para configurar un test y la segunda
mitad, para el otro test, ya que es frecuente que los ítems vayan creciendo progresivamente en
dificultad con lo que lograríamos dos tests distintos. Además, si el test tuviera una cierta longitud,
el efecto de la fatiga incidiría en mayor grado sobre la segunda parte que sobre la primera, y, por
otro lado, posiblemente hubiera ítems sin responder de la segunda parte.
Ha de hacerse notar que con este procedimiento estamos dividiendo el test original en dos partes,
y por tanto, el coeficiente de fiabilidad calculado con ambas mitades es el coeficiente de fiabilidad
de un test con la mitad de la longitud del que estamos contrastando. De esta forma, si el test que
administramos tiene 50 ítems, al dividirlo por la mitad, en realidad estamos calculando la fiabilidad
de un test de 25 ítems (como si fueran formas paralelas de 25 elementos cada una). Por ello al final
debemos efectuar una cierta "corrección" sobre el coeficiente obtenido, intentando determinar cual
sería el coeficiente de fiabilidad de un test de longitud doble del que disponemos y equivalente a
éste. La siguiente fórmula debida a Spearman-Brown, y que desarrollaremos más adelante, permite
dicha estimación:
(3.6) Donde:
ρXX´: Coeficiente del test de longitud doble
ρxx´: Coeficiente original
El método de las dos mitades, desde la consideración de que las dos mitades son equivalentes,
puede presentar las mismas situaciones que el modelo de las formas paralelas, bien sea la ecuación
3.2 si se cumplen todos los supuestos del modelo, o bien la ecuación 3.5 si se plantea como formas
alternativas. Gráficamente sucede otro tanto (ver figuras 3.2 y 3.6).
El método de las dos mitades, como veremos en las clases prácticas no es aconsejado en los tests
de rapidez, esto es en los test de ejecución máxima que tienen un tiempo limitado de realización.
En estos casos este procedimiento ofrece una fiabilidad sobrevalorada debido a aspectos
relacionados con la secuenciación de los pares de ítems, como su dificultad y proporción de ítems
no alcanzados.
Este procedimiento recoge las ventajas principales de los dos métodos anteriores, al mismo
tiempo, que elimina sus mayores inconvenientes. El simple hecho de ser una única aplicación
supone un cierto ahorro de esfuerzo, tiempo y dinero. Por otro lado, al aplicarse simultáneamente
formas distintas de un mismo test, suprimimos el efecto del intervalo temporal a la par que
eliminamos el posible efecto de memoria.
La principal desventaja del método de la dos mitades consiste en que el valor del coeficiente de
48 Fiabilidad
1 Ver más adelante el apartado donde se relaciona fiabilidad y longitud del test, para su demostración.
48
. .
.
.
.1
4
13
2
n
1
E1 En
E4E3
E2
πxnv
πx4vπx3v
πx2v
πx1v
πx4e4
πx1e1
πx2e2
πxnen
πx3e3
Figura 3.7.- Modelo de medida del coeficiente α.
α '
n‾ρxx´
1% (n&1)‾ρxx´
fiabilidad obtenido depende de cómo hayan quedado repartidos los ítems en cada una de las mitades.
Posiblemente la correlación entre lo ítems pares e impares sea diferentes que la correlación entre
la primera mitad y la segunda o entre dos agrupaciones cualesquiera realizada con los ítems de
manera aleatoria. Si esto ocurriera tendríamos tantos coeficientes de fiabilidad para un determinado
test como formas posibles de agrupaciones existieran, sin tener motivos para afirmar cuál de estos
coeficientes refleja la verdadera precisión del test.
Si no hay un criterio único de la división en las dos mitades y al mismo tiempo se exige
paralelismo en ambas mitades entonces está claro que todos y cada uno de los ítems del test han de
medir el mismo rasgo y de la misma manera. Esta es la única manera de garantizase que los
diferentes coeficientes de fiabilidad posibles coincidan. Y para ello, como veremos, el coeficiente
Alpha de Crombach, calculado a partir de la correlación media entre todos los ítems, es más
conveniente.
Se deduce de ello que el coeficiente de fiabilidad obtenido por el método de las dos mitades como
indicador de la consistencia interna de un test es de dudoso valor. Si se plantea como una forma
cómoda de pruebas paralelas (o mejor, alternativas), entonces sí podemos reafirmar su utilidad,
siempre y cuando nos preocupemos de lograr pares de ítems equivalentes y que vayan a parar uno
a cada una de las mitades.
3.3.4.- El coeficiente Alpha
Como hemos expuesto en el
apartado anterior el método de las
dos mitades no es un buen
procedimiento para determinar la
fiabilidad de un test, en cuanto
consistencia interna. Un test puede
subdividirse de múltiples maneras
en dos mitades, obteniéndose
numerosos coeficientes distintos de
fiabilidad, con lo que obviamente,
carecemos de un único coeficiente
de fiabilidad para dicho test.
A este respecto, se han propuesto
procedimientos que permitan
obtener una idea de la consistencia
interna del test con un único
coeficiente. El más conocido es el
coeficiente Alpha de Crombach
(Crombach, 1951) basado en la
correlación media entre todos los
ítems de un test. Para su cálculo, se procede a considerar cada ítem del test como si fuera un test de
longitud unidad. A continuación se procede a calcular la correlación media entre los ítems y se
considera al valor resultante como la fiabilidad media de un test de un ítem. Por último se aplica la
fórmula de Spearman-Brown 1, que permite determinar la fiabilidad de un test de longitud n veces
superior a la de los test de longitud unidad (el test total tiene n ítems). De esta forma, logramos con
un único coeficiente tener información global del grado de consistencia interna de dicha prueba.
Su fórmula es la siguiente:
(3.7) Donde: : correlación media de todos los ítems entre sí.‾ρxx´

Procedimientos basados en una única aplicación del tests 49
49
α '
n
n&1
1 &
j
n
j'1
σ
2
j
σ
2
x
(3.10
ρxx '
j πxjv
2
j πxjv
2 % j π
2
xjej
(3.9)
α
σ σ
σ
=
−
p e
p
2 2
2
(3.8)
Como resulta un tanto laborioso calcular la correlación media de todo s los ítems entre sí
(cuestión cada día más irrelevante con la profusión de ordenadores personales), una fórmula
alternativa de más fácil aplicación es la expresión 3.10 (ver demostración en apéndice), o su versión
más intuitiva de figura 3.7 y ecuaciones 3.8 y 3.9.
El coeficiente Alpha expresa el grado en que todos los ítems miden el mismo rasgo y lo miden
con precisión. En su extremo, si se cumple que todos los ítems sean paralelos, coincidirá con el
coeficiente obtenido por el procedimiento de las dos mitades, o más fácilmente, será suficiente con
determinar la correlación entre dos ítems cualesquiera, y aplicar Spearman-Brown. Partiendo del
concepto original de fiabilidad como proporción de varianza verdadera y sustituyendo dichas
varianzas por sus equivalentes en términos de modelos estructurales de medida, tenemos esta otra
versión del coeficiente Alfa de fiabilidad (ver figura 3.7 y ecuación 3.8). En esta ecuación se
comprueba cómo si las puntuaciones de los distintos componentes de un test se suman para formar
una puntuación compuesta, la fiabilidad de esta última se obtiene sumando todas las varianzas de
puntuación verdadera y dividiendo por la varianza total. (Gómez-Benito, 1996. p.480).
Alpha, ofrece un indicador infravalorado de la fiabilidad del test. Esto ocurre por ser
consecuencia de los parámetros “PI” y no incluir el componente específico de algún ítem o grupo
de ítems. Componente específico que sí se manifiesta como correlación entre los errores y que sí
queda incluido en los coeficientes de fiabilidad como correlación entre puntuaciones observadas
para distintas pasadas o formas de un test.
Por último, digamos que el coeficiente Alpha, además de ser un indicador de la precisión con que
un conjunto de ítems miden un cierto rasgo psicológico en función de su coherencia o consistencia
interna (correlación entre ítems), puede tomarse también como una medida de la representatividad
del test, en el sentidode que una alta correlación media entre ítems será indicativo de una pequeña
variabilidad en los mismos. En este caso, se entiende que los ítems particulares con los que estamos
operando no son más que una muestra aleatoria del hipotético universo que engloba el conjunto de
ítems que expresan el rasgo medido (Nunnally, 1978 ). La puntuación verdadera es la que obtendría
el sujeto en ese supuesto universo. De esta forma, en la medida en que la muestra de ítems tenga una
pequeña dispersión podemos hacer mejores estimaciones -mayor precisión- a la hora de inferir los
verdaderos valores en el universo de procedencia. Este planteamiento está estrechamente ligado con
la Teoría de la Generalizabilidad, que no será abordado aquí por el momento.
Cuando existan dentro de una prueba varios subtests, como es relativamente frecuente
(personalidad, inteligencia ..etc) resulta necesario calcular el coeficiente de fiabilidad separadamen-
te para cada una de las partes, para finalmente calcular la fiabilidad global del test como una
combinación lineal de tales subtests (ver apartado siguiente). Incluso, aunque operemos con un test
supuestamente unidimensional, es conveniente aplicarle alguna prueba estadística, tal como el
análisis factorial en un intento de encontrar los factores subyacentes. En este caso, dependiendo del
resultado del análisis podríamos configurar distintos subtests (o no) dependiendo de la estructura
factorial obtenida. Ver Carmines y Zeller (1979), págs 59-70, para una discusión al respecto.
3.4.- Fiabilidad de un test compuesto
50 Fiabilidad
1 Los datos son reales y han sido obtenidos y adaptados de la tesis doctoral de M.J. Cuellar (1998)
con su autorización.
50
ρyy ' 1 &
j
k
j'1
b 2j σ
2
j & j
k
j'1
b 2j σ
2
jαjj´
σ
2
Y
A continuación se presenta el cálculo de fiabilidad de un test compuesto (Muñiz, 1996) o, lo que
es lo mismo, de un criterio constituido por una combinación lineal de pruebas o subtests (Nunnally
y Bernstein, 1995). Así pues, aunque el coeficiente Alpha parece pensado para pruebas en las que
existe una cierta unidimensionalidad en el rasgo medido, no hay impedimento alguno para que sea
aplicado en baterías compuestas por varios subtests que reflejen rasgos psicológicos diferentes,
aunque claro está que con ítems homogéneos dentro de cada rasgo. En estas circunstancias se puede
obtener la fiabilidad global de la batería en función de la consistencia interna de las subescalas, de
la correlación entre ellas y de su peso relativo en la escala global (Para ampliar este tema el alumno
puede consultar Muñiz (1994), Nunnally y Bernstein (1995), Raju (1977) y Nunnally (1978).
Así pues, tres son los aspectos que afectan a la fiabilidad global de una batería de tests o criterio
“Y” constituido por una combinación lineal de puntuaciones parciales. De ellos hay dos que serán
impuestos por los datos como son la consistencia interna de cada subescala (ρjj) y las correlaciones
o covarianzas entre subescalas (σjk ). Los pesos de cada una de las subescalas para conformar u
optimizar el criterio dependerán de cuál sea el constructo a medir o el criterio empírico a optimizar.
Si se trata de un criterio empírico a optimizar ya sabemos por la asignatura de Análisis de Datos II
cómo se estima el vector de pesos (β), si se trata de un constructo dependerá de los pesos
(importancia relativa) que tengan las subescalas en el modelo de medida de ese constructo. Otra cosa
muy distinta como veremos en los ejemplos de cálculo que presentaremos a continuación es el
planteamiento de la combinación de pesos que optimice la fiabilidad. Veremos que para optimizar
la fiabilidad basta poner los mayores pesos a las subescalas de mayores varianza y fiabilidad. Así
pues se nos pueden plantear distintas situaciones prácticas en las que dispondremos en cada caso
de la ecuación más adecuada para calcular el coeficiente Alfa de fiabilidad de la batería que
utilizamos para medir un constructo u optimizar un criterio empírico.
Con la ecuación 3.10 llegaremos al resultado correcto en cualquier circunstancia. Basta con
asignar la unidad como peso de las subescalas, si no están ponderadas, y con asignar una varianza
de uno a las distintas subescalas si están estandarizadas.
(3.11)
A modo de ejemplo presentamos en la figura 3.9 y tabla 3.6 el modelo de medida correspondiente
a una prueba diseñada para medir la capacidad rítmica en niños de primeros cursos de primaria
(Ritmo global). Prueba constituida por dos subescalas unidimensionales: ritmo con las manos “M”
y ritmo con los piés “P”. Manipularemos con fines didácticos la relación o no entre las subescalas.
Tabla 3.6.- Datos de las subescalas1
Varianza Fiabilidad Pesos
Ritmo Manos 10 0.7 1
Ritmo Pies. 19 0.9 2
Fiabilidad de un test compuesto 51
1 Valores obtenidos a partir de la suma de las varianzas de las subescalas.
2 Valores obtenidos con los datos reales del ejemplo (Cuellar, 1998).
51
Figura 3.9.- Modelo estructural de medida de un test compuesto (adtdo de Gómez -Benito, 1996. p.489)
ρyy ' 1 &
j
k
j'1
b 2j σ
2
j & j
k
j'1
b 2j σ
2
jαjj´
σ
2
Y
' 1 &
86 & 75.4
126
' 1 & 0.084 ' 0.916
Tabla 3.7.- Varianzas de la batería, combinación lineal de las subescalas de ritmo
incorrelados1 relacionados2
Varianza ritmo global (subtests estandarizados y sin ponderar) 2 3.5
Ritmo global (subtests con P. directas y sin ponderar) 29 49
Ritmo global (subtests estandarizados y ponderados) 3 8
Ritmo global (subtests con P. directas y ponderados) 86 126
Para hacer una aplicación de las ecuaciones del coeficiente de fiabilidad de una batería, hemos
presentado la anterior matriz de varianzas/covarianzas y pesos de las dos subescalas de ritmo (ritmo
con las manos y ritmo con los pies). Vamos a pasar por las distintas y posibles situaciones paro
obtener así la mayor utilidad didáctica del ejemplo.
Con puntuaciones directas, pesos distintos y subtests de ritmo relacionados (como son datos
reales podemos informar que la relación entre las subescalas es de 0.753), veamos cuál es la
fibilidad de la batería:
(3.12)
Como se puede comprobar, el mayor peso y mayor varianza de la escala más fiable hace que la
fiabilidad se acerque más a ella (con fiabilidad de 0.9), la corelación entre las subescalas hace que
52 Fiabilidad
52
ρyy ' 1 &
j
k
j'1
b 2j σ
2
j & j
k
j'1
b 2j σ
2
jαjj´
σ
2
Y
' 1 &
86 & 75.4
86
' 1 & 0.123 ' 0.877
ρyy ' 1 &
j
k
j'1
b 2j & j
k
j'1
b 2j αjj´
σ
2
Y
'
' 1 &
5 & (1(0.7 % 22 (0.9)
5
' 1 & 0.14 ' 0.86
ρyy ' 1 &
j
k
j'1
σ
2
j & j
k
j'1
σ
2
jαjj´
σ
2
Y
' 1 &
29 & 24.1
29
' 1 & 0.169 ' 0.83
ρyy '
j
k
j'1
αjj´
k
'
0.7 % 0.9
2
' 0.8
la fiabilidad global sea aún más alta (0.924). .
Si las subescalas fueran incorrelacionadas, la varianza global sería la suma ponderada cuadrática
de las varianzas parciales y el coeficiente de fiabilidad global sería:
(3.13)
Aquí ya se observa cómo la fiabilidad global es la media ponderada. La fiabilidad global está más
cercana a 0.9 por tener esta subescala mayor ponderación y mayor varianza. Pero al no haber ningún
tipo de comunalidad o redundancia entre las subescalas la fiabilidad global no añade nada a las
fiabilidades parciales.
En las mismas circunstancias (esto es con subtests ponderados e incorrelacionados), pero con
puntuaciones estandarizadas el coeficiente de fiabilidad de la puntuación global será muy
semejante, pero al no estar afectado por la variabilidad de las subescalas su valor será ligeramente
inferior. Veamos:
(3.14)
Si las subescalas estan incorrelacionadas y las tratamos en puntuaciones directas y con
ponderación de uno, veamos:
(3.15)
Con lo que comprobamos que la fiabilidad global no está tan cercana a 0.9 como en la situación
3.14, pues ritmo con los pies tiene el mismo peso que ritmo con las manos. Así la fiabilidad global
es casi la media de las fiabilidades parciales, aunque inclinada hacia la fiabilidad (mayor) de ritmo
con los pies por su mayor varianza. Así pùes, si además de todo lo anterior (incorrelacionadasy
equiponderadas) la puntuaciones de la subescalas estuvieran estandarizadas, la fiabilidad global
sería la media de las fiabilidades parciales (ver ecuación 3.16).
(3.16)
Compruebe el alumno que aplicando la ecuación general 3.11 el resultado es el mismo. Esta
Fiabilidad de un test compuesto 53
53
ρyy ' 1 &
j
k
j'1
b 2j & j
k
j'1
b 2j αjj´
σ
2
Y
' 1 &
5 & 4.3
8
' 0.912
ρyy ' 1 &
j
k
j'1
σ
2
j & j
k
j'1
σ
2
jαjj´
σ
2
Y
' 1 &
29 & 24.1
49
' 1 & 0.1 ' 0.90
ρyy ' 1 &
k & j
k
j'1
αjj´
σ
2
Y
' 1 &
2 & 1.6
3.5
' 1 & 0.114 ' 0.886
ecuación 3.11 se puede aplicar en todos los casos.
Seguimos con la ejemplificación de las distintas situaciones planteadas en la tabla 3.6 y 3.7.
Imaginémosnos las puntuaciones de los subtests ponderadas, estandarizadas y relacionadas.
Veamos:
(3.17)
Como hemos comprobado la fiabilidad supera la fiabilidad de ambas subescalas debido a la
correlación o redundancia y por lo tanto fiabilidad que aporta la parte común (por lo tanto medida
dos veces) de ambas subescalas. Cabe observar, no obstante, un valor ligeramente inferior al de la
sistuación 3.12 (puntuaciones directas), porque en aquel caso la fiabilidad global se ve favorecida
por la mayor varianza de la subescala más fiable (ritmo con los pies).
Si los subtests están en puntuaciones directas, sin ponderar y relacionados; la fiabilidad global
no quedará afectada de forma diferenciada por las ponderaciones, pero sí por las varianzas que da
más peso a ritmo con los pies (fiabilidad más alta) y, también se ve afectada la fiabilidad global, por
la correlación entre las subescalas que produce una fiabilidad superior aún. Veamos:
(3.18)
Si nos encontramos con una situación de subtests relacionados, típificados y no ponderados.
Veamos:
(3.19)
Con resultado ligeramente inferior al de la situación anterior (3.18), por el mismo motivo que
3.16 era inferior a 3.15. Animamos al paciente lector a que compruebe y razone el hecho.
Así pues en las baterías de tests hay que aplicar la fórmula adecuada de las expuestas en este
apartado. Hay que prevenirse de la tentación de aplicar (como a veces se hace) las fórmulas (3.7,
3.8, 3.9 o 3.10) del coeficiente Alpha, como si los distintos subtests fueran los ítems de un cierto
test. Con este procedimiento lo que obtenemos en realidad es la consistencia u homogeneidad entre
pruebas o subescalas de una batería. Pero este valor así obtenido nunca puede ser interpretado como
la fiabilidad de un test compuesto, sino que cuanto mayor sea más se incrementará la fiabilidad
global con respecto a la de las subescalas parciales.
Una solución para saber si es correcto calcular Alfa con todos los ítems (como unidimensionales)
o es necesario calcular por separado la consistencia de cada subescala y después la fiabilidad global
54 Fiabilidad
1 El lector interesado puede encontrar en Harman (1976) una buena introducción al análisis factorial.
En Carmines y Zeller (1979), en el apéndice, se trata el papel de dicha técnica en la fiabilidad.
54
Figura 3.11.- Efecto de la variabilidad sobre la correlación
como test compuesto; es recurrir a la técnica del análisis factorial 1 y obrar en consecuencia a la
estructura factorial obtenida. Si todos los ítems saturan un único factor, no hay problema y se aplica
Alpha sin más. En caso contrario, si los ítems se reparten en varios factores, será cuestión de definir
primeramente tales factores, y a continuación tratarlos como pruebas distintas que configuran un
aspecto global (vease figura 3.9). Aquí, si deseamos la fiabilidad del test total, habremos de aplicar
una de las distintas fórmulas tratadas en este apartado. Así pues, dado que la consistencia interna
de la escala tiene algo que ver con la fiabilidad, ha habido algunas aproximaciones al coeficiente
de fiabilidad a partir de los datos del Análisis Factorial, que expondremos en el siguiente apartado.
3.7.- Factores que afectan al coeficiente de fiabilidad
Trataremos en las próximas páginas los factores más relevantes que inciden sobre el valor del
coeficiente de fiabilidad de un determinado test: variabilidad de la muestra, longitud del test,
limitación del tiempo y características de los ítems.
Como puede observarse, algunos de estos factores hacen referencia, como cabría esperar, a los
elementos constituyentes del test (longitud del test y características de los ítems), pero otros son
ajenos al mismo (variabilidad de la muestra y limitación del tiempo). Todo ello implica una cierta
paradoja con respecto a la variabilidad de la muestra, por cuanto hace depender la precisión de un
test no sólo de sí mismo sino de aquello que mide, lo que da lugar a tantas fiabilidades como
muestras potenciales a las que se aplique el test. Como ya vimos en el tema dos , a la hora de
construir una prueba se han de tener en cuenta tanto los aspectos internos a la prueba (análisis de
ítems, fiabilidad, validez) como externos a la prueba, que más concretamente son los referentes a
la población de sujetos que nos planteamos como objetivo de medida (para ampliar este doble objeto
de la depuración y preparación del test se puede consultar Gerardo Prieto y Ana R. Delgado, 1996).
3.7.1.- Fiabilidad y variabilidad de la muestra
Como acaba de indicarse el
coeficiente de fiabilidad, como
en un principio podría suponer-
se, no depende exclusivamente
de las características intrínse-
cas del instrumento de medida,
sino que también depende de
ciertos aspectos externos como
son la variabilidad del grupo
sobre el que se efectúa la me-
dición. Esta circunstancia da
lugar a que no exista un único
coeficiente de fiabilidad para
cada test sino tantos como
muestras a las que se aplique.
Consistencia interna basada en resultados del Análisis Factorial 55
55
ρxx´ '
σ
2
v
σ
2
x
'
σ
2
v
σ
2
v % σ
2
e
σ
2
e1
' σ
2
11&ρ11´
σ
2
e2
' σ
2
21&ρ22´
Es importante destacar este aspecto por cuanto implica que el profesional de psicología, a la hora
de aplicar un determinado test, no ha de conformarse con el coeficiente de fiabilidad que venga
indicado en el manual de referencia de dicho test en cuestión, sino que ha de adaptarlo a su propia
muestra, según explicaremos en las próximas líneas.
El coeficiente de fiabilidad, como un coeficiente de correlación que es, viene afectado por las
varianzas de las variables consideradas, en el sentido de que a mayor variabilidad de las mismas,
mayor correlación.
Supóngase a este respecto, que correlacionamos entre sí dos pruebas de inteligencia. En el
gráfico de fig. 3.11. se observa que si consideramos todo el rango de variación para ambas variables,
la nube de puntos resulta un tanto estilizada, expresándose un cierto grado de correlación. Si
extraemos una submuestra de los datos originales (rango de variabilidad menor), comprobaremos
igualmente, que ésta resulta más redondeada, y en consecuencia, el grado de correlación será menor
que cuando se contempla el rango completo.
En otros términos, es fácil entender que si los sujetos son significativamente distintos entre sí
(variabilidad alta) en cuanto a inteligencia, tenderán a mantenerse las posiciones relativas en ambas
pruebas y el coeficiente de correlación será, por consiguiente, alto. Por el contrario, para un grupo
de personas muy similares entre sí en cuanto a inteligencia, será relativamente fácil alterar sus
posiciones en ambas pruebas, ya que hay otros factores variables que inciden en este rendimiento,
obteniéndose un coeficiente de correlación más bajo.
En este sentido, la misma fórmula original, utilizada para definir el coeficiente de fiabilidad,
puede ser ilustrativa para expresar lo que estamos comentando. Como se sabe por ecuación 2.15 del
tema 2:
(3.20)
Dado que la varianza del
error es lo único constante y característico de un determinado test, en la medida en que los sujetos
realmente difieren entre sí en el atributo que se mide, el numerador representa una mayor
proporción de varianza total; y, portanto la fiabilidad es mayor. Por el contrario, en la medida que
los sujetossean semejantes entre sí en sus puntuaciones verdaderas, mayor parte de su varianza es
debida al error de medida, y, por tanto, el coeficiente de fiabilidad es menor.
Supongamos, a este respecto, que tenemos dos poblaciones con varianzas en el test en cuestión
cuyos valores son y respectivamente. Por otro lado, sus coeficientes de fiabilidad asociadosσ
2
1 σ
2
2
son ρ11´ y ρ22´. Esto supuesto, tendremos que las varianzas de los errores para ambas poblaciones es:
(3.21)
Por otro lado, la condición de homocedasticidad implica que la varianza de los errores se
mantiene constante para cualquier valor del rasgo medido. Así:
56 Fiabilidad
56
Var(e*v) ' σ2e
σ
2
11&ρ11´ ' σ
2
21&ρ22´
ρ22´ ' 1 &
σ
2
1
σ
2
2
1&ρ11´ (4.23)
σ
2
e2
# σ
2
e1
ρ22´ # 1 &
σ
2
1
σ
2
2
1&ρ11´
(3.22))
Igualando, en consecuencia, las ecuaciones de (3.21):
(3.23)
Despejando ρ22´
Esta fórmula ha de
aplicarse con ciertas precauciones (Lord y Novick, págs. 130-131), ya que no siempre se cumple el
supuesto de homocedasticidad, en especial cuando ρ22´ se obtiene a partir de la subpoblación donde
se extrajo ρ11´.
En estas circunstancias:
(3.24)
Lo que da lugar a que:
(3.25)
Una buena idea con carácter preventivo (Gulliksen, 1950, pág. 111) consiste en comprobar
mediante la prueba de comparación de varianzas, si se cumple la igualdad merced aσ
2
e1
' σ
2
e2
las ecuaciones indicadas en (3.28), esto es, en base a los cálculos de y .σ
2
11&ρ11´ σ
2
21&ρ22´
3.7.2.- Fiabilidad y longitud del test
Otro aspecto que juega un papel importante en el valor de la fiabilidad de un test es el número
de ítems que lo configuran, en el sentido de que cuanto mayor sean el número de elementos del test
mayor será su fiabilidad.
Desde el supuesto que toda medición conlleva un cierto error aleatorio, es lógico considerar que
cuanto mayor sea el número de mediciones (ítems) más compensados quedarán tales errores
aleatorios (unos positivos y otros negativos) lográndose cada vez más una suma de cero para estos
errores, y logrando, en consecuencia, un valor empírico (con el conjunto de ítems) más próximo al
valor verdadero.
Consistencia interna basada en resultados del Análisis Factorial 57
57
ρXX´ '
nρxx´
1% (n&1)ρxx´
ρxx´ '
σ
2
v
σ
2
x
σ
2
v ' σ
2 v1%v2% ...%vn 'j
n
i'1
σ
2
vj
% j
n
j'1
j
n
h'1
σvjvh
' nσ2v%n(n&1)σ
2
v ' n
2σ
2
v
σ
2
x ' σ
2 x1%x2% ...%xn ' j
n
i'1
σ
2
xj
% j
n
j'1
j
n
h'1
σxjxh
'
' nσ2x%n(n&1)ρxjxhσjσh ' nσ
2
x%n(n&1)ρxx´ σ
2
x
No obstante, hay que decir que sólo hasta un cierto punto podremos mejorar la fiabilidad de un
test en base al incremento del número de ítems, y que no es suficiente, como veremos más adelante,
con aumentar dicho número para lograr la fiabilidad deseada. Además nunca podremos llevar la
cantidad de ítems demasiado lejos, por cuanto incrementaremos igualmente la fatiga de los sujetos
examinados, lo que a su vez, incidirá en un mayor error en la respuesta, invalidándose así nuestros
propósitos originales. Otra limitación importante es que se entiende que los ítems añadidos han de
ser paralelos o equivalentes, objetivo no siempre fácil de conseguir. No obstante, a pesar de estos
inconvenientes, merece destacarse la importancia del incremento de la longitud del test como
procedimiento para mejorar la fiabilidad del mismo.
La fórmula que nos permite conocer el efecto que sobre la fiabilidad ejerce el hecho de
multiplicar por “n” el número de ítems iniciales es la ya citada de Spearman-Brown.
Su expresión es:
(3.26)
Siendo ρXX´ fiabilidad final lograda a partir de la fiabilidad inicial ρxx´, y "n" es el número de veces
que el test resultante contiene la longitud del test original.
Para su demostración partamos de la definición conocida de fiabilidad como cociente entre la
varianza verdadera y la empírica (recordar la expresión 2.15):
y veamos el efecto que tiene tanto sobre la varianza verdadera como la empírica el hecho de
multiplicar por n la longitud inicial.
En relación a la varianza verdadera:
(3.27)
ya que, bajo el supuesto de pruebas paralelas, coincidirán sus puntuaciones verdaderas (las varianzas
serán todas iguales y las covarianzas coincidirán con sus varianzas).
En relación a la varianza empírica:
(3.28)
ya que por paralelismo, las varianzas (y desviaciones tipo) empíricas serán todas iguales, y las
58 Fiabilidad
58
ρXX´ '
σ
2
V
σ
2
X
'
n 2σ2v
nσ2x%n(n&1)ρxx´ σ
2
x
'
n 2σ2v
nσ2x 1% (n&1)ρxx´
'
nρxx´
1% (n&1)ρxx´
1 2 3 4 5 6 7 8 9 10
0
0,2
0,4
0,6
0,8
1
k
ρxx´
Figura 3.12.- Efecto de la longitud del test sobre su fiabilidad
correlaciones entre pruebas paralelas coincidirán con el coeficiente de fiabilidad.
Sustituyendo (3.27) y (3.28) en (3.134) obtendremos la fórmula de Spearman-Brown citada (ver
expresión 3.29):
(3.29)
Resulta interesante represen-
tar gráficamente cómo varía la
fiabilidad en función de los va-
lores de n. En este sentido, ofre-
cemos a continuación el efecto
del aumento de la longitud sobre
tres supuestos tests, A, B y C,
cuyos coeficientes de fiabilidad
son respectivamente 0.2, 0.5 y
0.8.
Se observa en el anterior grá-
fico que cuanto mayor es el va-
lor de n mayor será su fiabili-
dad, pero que la ganancia obser-
vada no es proporcional al valor
de la longitud del test, sino que
por el contrario, la variación es decreciente, lo que sugiere que a partir de un cierto punto no es
rentable invertir en ítems añadidos. Aquí, como en otros órdenes de la vida, hay una cierta relación
coste-beneficio que hay que tener presente en todo momento si no queremos invertir todas nuestras
energías en prácticamente nada.
De ello se deduce que la fórmula de Spearman-Brown no es una pócima mágica para hacer
fiables tests carentes de toda precisión. Lo razonable es fabricar ya de partida un buen instrumento
de medida, que obviamente, sea susceptible de mejora, también por este procedimiento. Aunque
como veremos, un buen test podría reducir su contenido si esto facilita su manejo y la pérdida de
precisión no es importante. En este sentido, el valor de n, como se tendrá ocasión de comprobar,
puede ser menor que la unidad.
3.7.3.- Fiabilidad y limitación del tiempo de aplicación del test
A este respecto, hemos de distinguir previamente los test de velocidad de los test de potencia.
Los tests de velocidad se caracterizan por el contenido de ítems todos ellos de fácil resolución,
donde se valora exclusivamente la rapidez de ejecución de los mismos. Por el contrario, en los test
de potencia, los ítems son de diferente complejidad, y lo que cuenta es la capacidad intelectual -
poder mental- de los sujetos en su resolución. Normalmente, los tests suelen ser mixtos, en el sentido
de que se aplican en un determinado intervalo de tiempo (aunque, no de forma muy restrictiva),
pero, a su vez, los ítems son de dificultad creciente. Existen toda una serie de indicadores que
permiten conocer los índices de velocidad/potencia para cada test en cuestión. Aquí no los
mencionaremos, pero puede encontrarse una exposición de los fundamentales en Martínez Arias
(1995, págs. 88-90) o bien en Muñiz (1994, págs. 34-36).
Consistencia interna basada en resultados del Análisis Factorial 59
59
La fiabilidad, debida a la escasez de tiempo, queda afectada, es obvio decirlo, en los tests donde
la velocidad es un factor a considerar. Y puede quedar afectada de diferentes maneras. Si se aplica,
por ejemplo, el método de las dos mitades, de forma tal que se correlaciona la primera mitad de los
ítems con la segunda mitad, entonces, está claro, que en esta segunda parte habrá más ítems no
contestados, que puntuarán como cero, lo que dará lugar a una baja fiabilidad (menor cuanto mayor
sea el índice de velocidad/potencia, esto es, cuanto más fáciles sean los ítems). Cuando se utiliza
el método de las dos mitades correlacionando elementos pares con los impares, diseño de
emparejamiento que es el más frecuente para equilibrar en ambas mitades el efecto de la fatiga,
entonces la rapidez de respuesta delos sujetos se acumula a la fiabilidad propiamente dicha del test
y da como resultado un coeficiente de fiabilidad sobrevalorado. En los ejemplos prácticos del tema
cinco, cuando se realiza el análisis de ítems de las distintas subescalas del PMA con los alumnos
de Psicometría, se puede ampliar este aspecto y comprobar cómo, hasta cierto punto, se puede
comprobar que con sujetos de nivel Universitario estas subescalas miden velocidad de respuesta más
que habilidades intelectuales concretas. En este caso, cuanta más falta de tiempo haya, más ítems
valdrán cero, y en consecuencia, mayor será la correlación entre ellos, resultando una fiabilidad
sobredimensionada.
En los tests de velocidad, donde se entiende que los ítems son fáciles, lo que cuenta es la rapidez.
Y si es la rapidez lo que medimos, necesitaremos varias medidas de dicha rapidez para conocer la
fiabilidad de nuestro test. De donde se deduce que son los procedimientos del test-retest y de formas
paralelas (con las limitaciones de tales métodos, ya comentadas), los recomendables para medir la
fiabilidad de este tipo de tests.
3.7.4.- Fiabilidad y características del ítem
Es evidente que la fiabilidad de un test, como suma de un conjunto de ítems, dependerá de las
naturaleza de éstos. Hablando con propiedad, depende de tales ítems y las relaciones entre ellos.
Hasta ahora, hemos hablado exclusivamente de la fiabilidad como correlación, pero por aquello de
que todo conjunto es mayor que la suma de las partes, habremos considerar también tales partes y
no sólo sus interrelaciones.
Es importante la naturaleza de cada ítem, por cuanto de la calidad de los elementos constituyentes
derivará la bondad del conjunto. Además, cuanto mejor construidos estén los ítems, menor número
de ellos necesitaremos para configurar un buen test, logrando de esta forma un instrumento más
sencillo y de más fácil aplicación.
Trataremos aquí, tres aspectos constitutivos de los ítems que inciden sobre la fiabilidad del test,
a saber: a) el índice de homogeneidad, b) el índice de fiabilidad y c), el índice de dificultad. Todos
ellos afectan, como veremos, a la varianza total del test, que como se ha tratado al comienzo de este
capítulo incide sobre la fiabilidad del mismo, ya que siempre se pretende que el test sea
suficientemente sensible y detecte diferencias entre los sujetos por muy pequeñas que sean, sobre
todo en tests referidos a la norma. Para un tratamiento más extenso del Análisis de Ítems remitimos
al lector al tema cinco.
Se define como índice de homogeneidad del ítem a la correlación entre las puntuaciones de un
determinado ítem y las puntuaciones totales del test. Se entiende que el test sirve para discriminar
entre unos sujetos y otros en relación a un cierto rasgo de interés, de forma tal que permita distinguir
aquello sujetos que presentan un nivel alto de aquellos otros más bajos en dicho rasgo. Según esto,
si la correlación de un determinado ítem con el conjunto del test es elevado, dicho ítem contribuirá
igualmente a distinguir unos sujetos de otros, de ahí su nombre. A este índice se le suele llamar
también índice de homogeneidad, por cuanto expresa la contribución de dicho ítem a medir lo
mismo que es test en su conjunto.
60 Fiabilidad
60
σ
2
X ' Cov(X,X) ' Cov X, j
k
j'1
xj ' j
k
j'1
CovX,xj ' j
k
j'1
σXσjρjX
σX ' j
k
j'1
σjρjX
σj ' pj(1&pj) ' pjqj
σX ' j
k
j'1
ρjX pjqj
α '
n
n&1
1 &
j
n
j'1
pjqj
j
n
j'1
ρjX pjqj
2
α '
n
n&1
1 &
j
n
j'1
σ
2
j
j
k
j'1
σjρjX
2
Veamos cómo el índice de homogeneidad del ítem afecta a la varianza total del test. Como se
sabe, la varianza de una determinada variable no es más que la covarianza de dicha variable consigo
misma. Y considerando que la puntuación total del test equivale a la suma de las puntuaciones de
los ítems, tendremos:
(3.30)
Y simplificando:
(3.31)
Se observa que la desviación tipo del test depende de las desviaciones tipo de los distintos ítems
y de los coeficientes de discriminación de éstos. Al producto de σjρjX se le denomina, precisamente,
índice de fiabilidad del ítem. De esta forma, la desviación tipo del test equivale a suma de los
índices de fiabilidad de los diferentes ítems.
Por otro lado, en lo que se refiere a la desviación tipo de los ítems, se sabe que si operamos en
puntuaciones dicotómicas:
(3.32)
donde pj hace referencia a la proporción de " unos" -esto es, proporción de aciertos- existentes en
tales ítems. Si tomamos este valor como indicativo del índice de dificultad para cada ítem,
tendremos que:
(3.33)
Si deseamos saber cómo afectan estos valores (índice de discriminación, de fiabilidad y
dificultad) sobre la fiabilidad, por ejemplo, sobre el coeficiente Alpha:
(3.34)
Si operásemos con datos cuantitativos,
prescindiremos del índice de dificultad tal
como aquí ha sido definido, obteniendo:
(3.35)
Valoración de los distintos Coeficientes de Fiabilidad 61
61
lo que pone de manifiesto de qué forma la dificultad de los ítems afectan a la fiabilidad global del
test (supuesto índices de discriminación diferentes de cero). En este sentido cuanto mayor sea la
varianza de los ítems, así como su índice de hmogeneidad, mayor es el coeficiente de fialidad del
test.
3.8.- Valoración de los distintos coeficientes de fiabilidad
Básicamente hay dos conceptos de fiabilidad: a) la fiabilidad como consistencia de las medidas,
b) la fiabilidad como estabilidad en el tiempo. El primer tipo de fiabilidad se logra, tras una única
aplicación del test, mediante las correlaciones entre los distintos ítems de dicho test o agrupaciones
de los mismos (especialmente, en dos mitades). El segundo tipo de fiabilidad se consigue tras
distintas aplicaciones (habitualmente dos) bien del test o de formas paralelas (o alternativas), y
calculando la correlación entre ellas.
Hay que decir que ambas medidas de la precisión son realmente concepciones distintas de la
fiabilidad y no conviene confundirlas. Ciertos tests, como los estrictamente de velocidad, solamente
admite un tipo de fiabilidad, pero frecuentemente ambas medidas son complementarias y siempre
que se puedan convienen aplicarse conjuntamente (recordemos lo dicho lo dicho a este respecto al
principio de este tema). Podemos, de esta forma, encontrarnos con un test que presente una alta
consistencia interna, pero una pequeña estabilidad temporal, o al revés. O bien, coincidan en ambos
aspectos. Obviamente, un test que sea consistente en el sentido de que todos sus componentes
configuren una única pieza, y que además como instrumento, aguante el paso del tiempo
manteniéndose en sus mediciones, será un test óptimo. Aunque esto no implica necesariamente que
un test heterogeneo (con baja consistencia interna) sea un mal test. Más bien ocurre al contrario en
algunos casos. Por poner un ejemplo, los buenos tests de rendimiento o de selección profesional
suelen ser heterogéneos, por lo que respecta a los constructos psicológicos que lo integran. En el
mismo sentido un test que ofrezca medidas con baja estabilidad temporal no tiene por qué ser poco
fiable, pues, si lo sujetos han cambiado en el aributo durante ese intervalo de tiempo, es bueno el
test que refleje ese cambio.
En lo que hace referencia a los distintos procedimientos, cuyo común denominador es el hacer
una única aplicación del test, podemos afirmar que el coeficiente Alpha es el idóneo. Puede
demostrarse además que las fórmulas de Rulon y Flanagan y Guttman son casos particulares de
Alpha (ver Muñiz (1994) págs 50-54). Son fórmulas simplicadoras del mismo que no tienen sentido
actualmente con los recursos informáticos al alcance de cualquiera.
Además si lo que se pretende es la coherencia interna de todos los ítems, mejor será considerarlos
individualmente que no en dos bloques, donde siempre será dudoso el criterio de asignación de los
distintos ítems en cada uno de tales bloques, y por otro lado, aunque los bloques coincidan en lo que
hace referencia en su puntuación total, pueden esconder una cierta diversidad en su interior quequeda enmascarada. Pero si lo que se pretende, por el contrario es utilizar un procedimiento
económico para calcular la fiabilidad de un tests heterogéneo, podemos aprovechar esa diversidad
interior de la que acabamos de hablar para dar cabida a la heterogeneidad que contempla el atributo.
Bastaría con tener, para cada aspecto del atributo, dos ítems o indicadores paralelos, que pasarían
cada uno a formar parte de una de las mitades del test.
En cuanto a los procedimientos que implican dos (o más) aplicaciones del test (o tests), lo más
razonable es plantearlo como formas alternativas. Como en el caso de Alpha, es el planteamiento
62 Fiabilidad
62
menos restrictivo. Suponer formas paralelas o equivalentes no es más que una utopía imposible de
conseguir. El método de las dos mitades parece que reúne las ventajas del método de las formas
paralelas (o alternativas) al mismo tiempo que se logra en una única aplicación del test, pero en
realidad más que contener todas las ventajas lo que tiene son todos los inconvenientes, y al final
resulta insatisfactorio, ya que no contempla la estabilidad en el tiempo ni la verdadera consistencia
entre todos los ítems por cuanto opera con bloques donde tales ítems quedan agrupados. Por ello
precisamente es la solución adecuada cuando se quiere calcular la fiabilidad por dos-mitades cuando
el tests es heterogeneo en su conjunto aunque con dos mitades paralelas o alternativas. Hay que
tener cuidado de no aplicar este procedimiento (dos mitades) en pruebas de rapidez, pues podría ser
falseada la fiabilidad por aspectos camuflados en la seriación como: rapidez de respuesta, dificultad
del ítem, aprendizaje, fatiga, ... etc..
Hay cierto tipo de tests como el Binet o el Terman, que miden rasgos complejos, donde lo más
conveniente es recurrir a la fiabilidad como estabilidad -diferentes aplicaciones de la misma prueba-.
No puede aplicarse Alpha o equivalente por cuanto el contenido es variado y las intercorrelaciones
obtenidas serían bajas aún cuando hubiera una gran estabilidad entre las mediciones tras diferentes
pasadas. No obstante, hay que decir que en esta situación (cuando se elabora un test) es preferible
desentrañar previamente la estructura interna de lo complejo -distinguir los rasgos unitarios que
alberga-, aplicar Alpha a cada uno de estos rasgos, y finalmente, determinar la fiabilidad de un test
compuesto según la fórmula (3.17). A este respecto, se aconseja recurrir a algún procedimiento, que
como el análisis factorial permite determinar los rasgos -factores- que componen un cierto material
complejo, siendo las variables que saturan un determinado factor, los ítems de dicho rasgo. De esta
manera logramos no solamente una fiabilidad que en la práctica es fiable sino que lo es sobre la
base de una fundamentación teórica.
En definitiva, de los procedimientos basados en una aplicación del test -fiabilidad como
consistencia- el coeficiente Alpha, por las razones apuntadas, es el más adecuado. Proceder a
realizar varias pasadas -fiabilidad como estabilidad- puede quedar justificado por razones prácticas
cuando el material es complejo, pero resulta aconsejable desentrañar previamente su estructura y
aplicar Alpha. Así pues, al final, acabamos en el coeficiente Alpha como el preferible en la mayor
parte de los casos. No obstante, no puede generalizarse su uso sin más. Como hemos apuntado, en
los tests de velocidad es más apropiado realizar diferentes pasadas -test-retest o formas paralelas-
para cuantificar su fiabilidad.