Validez de una Prueba - Ronald Jay Cohen y Mark E (6) Swerdlik - Capítulo 6 del Libro (2) - Carmen Ramirez

•

Outros

Desafio PASSEI DIRETO

11/7/2022

¡Este material tiene más páginas!

Vista previa del material en texto

CARLOS F. RIEGO CABRAL . BIBOTECA PeRsgua
CAPITULO
Validez
E el lenguaje cotidiano, decimos que algo es valido si es sélido, significativo o esta
bien fundado en principios 0 evidencia. Por ejemplo, hablamos de una teoria valida,
un argumento valido o una razén valida. En terminologia legal, los abogados dicen
que algo es valido si es “ejecutado con las formalidades apropiadas” (Black, 1979),
como un contrato valido y un testamento valido. En cada uno de estos casos, las per-
sonas hacen juicios basados en evidencia de la significacién o la veracidad de algo.
Del mismo modo, en el lenguaje de la evaluacién psicologica, validez es un término
usado conjuntamente con la significaci6n de una puntuacién de prueba, lo que en
verdad significa la puntuacién de la prueba.
El concepto de validez
Planteado en forma sucinta, la palabra validez cuando se aplicaa una prueba se refiere
a un juicio concerniente a lo bien que mide de hecho una prueba lo que pretende
medir. De manera mas especifica, es un juicio basado en evidencia sobre lo apropiado
de las inferencias extraidas de las puntuaciones de prueba.!Una inferencia es un resul-
tado légico o deduccién en un proceso de razonamiento. Las caracterizaciones de la
validez de las pruebas y las puntuaciones de prueba son expresadas con frecuencia
con términos como “aceptable” o “débil”, reflejando un juicio de lo adecuadamente
que se esta midiendo en realidad el atributo para cuya medicién’estaba disefada la
prueba. En un juicio de validez hay inherente un juicio de utilidad. Un psicometrista
respetado incluso definié la validez como lo “titil desde el punto de vista cientifico”
que es un instrumento de medicién (Nunnally, 1978, p. 86).
Validacion es el proceso de recopilacién y valoracion de la evidencia de validez.
Tanto quien elabora la prueba como el administrador de la misma pueden desempe-
far una funcion en la validacién de una prueba para un propésito especifico. Es res-
ponsabilidad del elaborador de la prueba suministrar evidencia de la validez en el
‘Recuérdese del capitulo 1 que la palabra prueba se usa en el sentido mas amplio posible; por consiguiente,
puede aplicarse también a procedimientos de medicién y procesos que, estrictamente hablando, no se de-
nominarian en forma coloquial “pruebas”.
184

manual de la misma. En ocasiones puede ser apropiado para los administradores de
la prueba realizar sus propios estudios de validacién con los grupos de personas que
responderan la prueba. Estos estudios de validaci6n “local” son necesarios cuando el
usuario de la prueba planea alterar de alguna manera el formato, instrucciones, len-
guaje o contenido de la prueba (como cambiar la prueba escrita a una forma Braille).
Los estudios de validacién local también serian apropiados cuando la prueba sera
usada con una poblacién de personas que responderdn la prueba que difiere de algu-
na manera significativa de la poblacidn en la que fue estandarizada.
jComo se procede a valorar la validez de una prueba? Un prerrequisito para abor-
dar esta cuestién es el desarrollo de una conceptualizacién mas precisa de validez.
Una forma de conceptualizar la validez se ha dado con respecto a la siguiente taxono-
mia de tres categorias:
a validez de contenido
a validez relacionada con un criterio
a validez de constructo
Es claro que esta perspectiva de la validez, a la que hace referencia Guion (1980)
como la perspectiva “trinitaria”, es la que prevalece en el campo de la psicologia en la
actualidad y lo ha sido al menos desde la década de 1950. En consecuencia, las res-
puestas a preguntas sobre los métodos para determinar la validez de una prueba tien-
den a ser expresadas con términos como “estrategias de validacién de contenido”,
“estrategias de validacién relacionadas con un criterio” y “estrategias de validacién
de constructo”. También hay referencias a otras categorias, como “validez predictiva”
y “validez concurrente”, pero estos dos términos tienden a hundirse bajo la categoria
mas general de “validez relacionada con un criterio”.
Dentro del contexto de la taxonomia de tres categorias, la validez de una prueba
puede evaluarse 1) examinando a fondo su contenido, 2) relacionando las puntuacio-
nes obtenidas en la prueba con otras puntuaciones de prueba u otras medidas y 3) rea-
lizando un anilisis general no sélo de la forma en que las puntuaciones de la prueba se
relacionan con otras puntuaciones de prueba y medidas sino también en la forma en
que pueden entenderse dentro de algtin marco teérico para comprender el constructo
al que la prueba est disefiada a medir. Estos tres enfoques para la evaluacién de la va-
lidez no son mutuamente excluyentes; cada uno deberd considerarse como un tipo de
evidencia que, con otras, contribuye a un juicio de la validez de la prueba. Los tres tipos
deevidencia de validez proporcionan un panorama unificado dela validez de una prue-
ba, aunque un administrador de pruebas puede no necesitar conocer los tres tipos de
evidencia de validez. Dependiendo del uso que se le vaya a dar a la prueba, uno u otro
de estos tres tipos de evidencia de validez puede no ser tan relevante como el siguiente.
Algunos autores han expresado preocupaciones respecto a la conceptualizaci6én
trinitaria tradicional de validez (Landy, 1986; Messick, 1995). Messick, por ejemplo,
condené este enfoque como fragmentado e incompleto. Pidié una perspectiva unita-
ria de la validez, una que tome en cuenta todo desde las implicaciones de las puntua-
ciones de prueba en funcién de valores sociales hasta las consecuencias del uso de la
prueba. Messick describié la validez como un “valor social sobresaliente” que “asu-
me una funcién tanto cientifica como politica que por ningtin medio se cumple con un
simple coeficiente de correlacién entre las puntuaciones de prueba y un pretendido
criterio (es decir, la validez clasica relacionada con un criterio) o por juicios expertos
de que el contenido de la prueba es relevante para el uso propuesto de la prueba (es
decir, validez de contenido tradicional)” (1995, p. 742). Conforme aprende mas sobre
la “validez clasica relacionada con un criterio”, la “validez de contenido tradicional”
Capitulo 6: Validez 185
y otras conceptualizaciones tradicionales de validez, estara en una mejor posicién
para valorar su utilidad general, asi como el grado en que dichas conceptualizaciones
representan valores y juicios sociales. Y hablando de valores y juicios sociales, comen-
zaremos con una mirada a una variedad de validez que ha “recibido poca atencién, y
atin menos respeto, de los examinadores de la validez del constructo de las pruebas y
medidas psicolégicas” (Bornstein et al., 1994, p. 363). Como caracterizan en forma
acertada Bornstein et al. (1994), es la “Rodney Dangerfield de las variables psicométri-
cas” (p. 363). Es la validez aparente.
Validez aparente
La validez aparente se relaciona més con lo que la prueba parece medir que con lo que
en realidad mide. La validez aparente es un juicio concerniente a lo relevantes
que parecen ser los reactivos de la prueba. Planteado de otra forma, si una prueba
parece medir en forma clara lo que pretende medir “a primera vista”, podria decirse
que tiene una validez aparente alta. Una prueba de personalidad por escrito denomi-
nada “La Prueba de Introversién/Extroversién” con reactivos que preguntan a quie-
nes la responden si han actuado de una manera introvertida o extrovertida en
situaciones particulares sera percibida como una prueba con validez aparente alta por
quienes la responden. Por otra parte, una prueba de personalidad en la que a quienes
la responden se les hacen preguntas sobre una variedad de manchas de tinta puede
ser percibida por lo general como una prueba con validez aparente baja; sin duda
muchos de quienes la responden se preguntarian cémo diablos lo que dicen que vie-
ron en las manchas de tinta tiene algo quever en realidad con la personalidad.
En contraste con los juicios concernientes a la confiabilidad de una prueba yala
validez de contenido, constructo o relacionada con un criterio de una prueba, los jui-
cios concernientes a la validez aparente de una prueba son considerados con fre-
cuencia desde la perspectiva de quien responde la prueba en oposicién a la del admi-
nistrador de la prueba. Es concebible que la falta de validez aparente podria contri-
buir a una falta de confianza con respecto a la efectividad percibida de la prueba, con
una disminucién consecuente en la motivacién de quien la responde para hacer su
mejor esfuerzo. Ademés, los padres pueden objetar el que sus hijos sean examinados
con dicho instrumento. Su preocupacién podria derivarse de una creencia de que di-
cha prueba dara como resultado conclusiones invélidas. Una prueba en realidad pue-
de ser muy relevante y «itil en un contexto particular, pero sino es percibida como tal
por los examinandos, pueden resultar consecuencias negativas (que pueden variar
desde una actitud negativa para responder la prueba hasta una demanda legal). Des-
de la perspectiva del administrador de la prueba, la validez aparente también puede
ser importante ya que contribuye (o deja de contribuir) a la confianza del administra-
dor en la prueba. Por consiguiente podemos concluir que la validez aparente puede
tener valor de rp. (relaciones publicas) tanto para quienes responden la prueba como
para los usuarios de la prueba. Sin embargo, la validez aparente de una prueba, la
simple apariencia de validez, no es una base aceptable para hacer inferencias inter-
pretativas a partir de las puntuaciones de la prueba (APA, 1974, p. 26).
Validez de contenido
La validez de contenido describe un juicio concerniente a lo adecuado del muestreo que
hace una prueba del comportamiento representativo del universo de comportamien-
186 Parte 2: La ciencia de la medicién psicolégica
to del que la prueba estaba disefiada para tomar una muestra. Por ejemplo, el univer-
so de comportamiento denominado como “asertivo” es muy amplio. Una prueba de
asertividad escrita de contenido valido seria una que fuera representativa de manera
adecuada de estas situaciones de rango tan amplio. Podriamos esperar que dicha prue-
ba contendria reactivos que hicieran un muestreo de situaciones hipotéticas en el ho-
gar (como si quien responde tiene dificultad para dar a conocer sus opiniones a otros
miembros de la familia), en el trabajo (como si quien responde tiene dificultad para
hacer que sus subordinados hagan lo que se requiere de ellos) y en situaciones socia-
les (como si quien responde regresaria un corte de carne que no estuviera cocido en el
término que él pidié en un restaurante de Lujo).
Con respecto a las pruebas de rendimiento educativo, se acostumbra considerar a
una prueba como una medida con contenido valido cuando la proporcién de material
cubierto por la prueba se aproxima a la proporcién de material cubierto en el curso.
Un examen final acumulativo sobre introduccion a la estadistica se consideraria con
un contenido valido sila proporcin y tipo de problemas de introduccién a la estadis-
tica en la prueba se aproxima a la proporcién y tipo de problemas de introduccién a la
estadistica presentados en el curso.
Las primeras etapas de una prueba que se esta elaborando para su uso en el salon
de clases, ya sea en un salon de clases 0 aquellas que se realizan a lo largo del estado
o de la nacién, generalmente implican una investigacién que explora el universo de
objetivos de instruccién posibles para el curso. Se incluyen entre las muchas fuentes
posibles de informacién sobre dichos objetivos los programas de estudio del curso,
los libros de texto, los maestros, los especialistas que elaboran los planes de estudio
y los profesores y supervisores que capacitan a los maestros en el 4rea tematica parti-
cular. De la informacion reunida (junto con el juicio del elaborador de 1a prueba),
surge un proyecto para la estructura de la prueba, un proyecto que representa la cul-
minacion de esfuerzos disefiados para obtener una muestra adecuada del universo de
areas de contenido que podrian ser susceptibles de muestreo en una prueba asi?
Para que una prueba de empleo tenga un contenido valido, éste debe ser una
muestra representativa de las habilidades relacionadas con el trabajo requeridas para
el empleo. Una técnica usada con frecuencia para hacer proyectos de las areas de
contenido que se van a abarcar en ciertos tipos de pruebas de empleo es la observa-
cién. El elaborador de la prueba observara a veteranos exitosos en ese trabajo, notara
las conductas necesarias para el éxito y disefiard la prueba para incluir una muestra
representativa de dichas conductas. Esos mismos trabajadores (al igual que sus su-
pervisores y otros) pueden ser Ilamados después para actuar como expertos 0 jueces
para estimar el grado en que el contenido de la prueba es una muestra representativa
de las habilidades relacionadas que se requieren en el trabajo. Lo que sigue es un
método para cuantificar el grado de acuerdo entre dichos evaluadores.
La cuantificaci6n de la validez de contenido
La medicién de la validez de contenido es importante en escenarios laborales, donde
las pruebas usadas para contratar y promover personas son examinadas en forma me-
ticulosa respecto a su relevancia para el trabajo. Recuérdese del capitulo 2 que los tribu-
2La aplicacién del concepto de proyecto y elaboracion de proyectos no se limita, por supuesto, a las pruebas
de rendimiento. La elaboracién de proyectos puede ser usada en el disefio de una prueba de personalidad,
una medida de actitud o cualquier otra prueba, empleando en ocasiones los juicios de expertos
en el campo.
Capitulo 6: Validez 187
nales a menudo requieren evidencia de que las pruebas de empleo estan relacionadas
con el trabajo. Es probable que en parte en respuesta a esta presion legal, y sin duda
también por una preocupacion por la calidad de las pruebas de empleo, se han creado
métodos para cuantificar la validez de contenido. Uno de estos métodos fue elaborado
por Lawshe (1975), quien propuso una formula simple para cuantificar el grado de
consenso pidiendo a un grupo de expertos que determinen la validez de contenido
de una prueba de empleo. Este método se ha usado para evaluar muchas pruebas rela-
cionadas con el empleo, tan diversas como valoraciones de la capacitacion de policias
(Ford y Wroten, 1984) y medidas del comportamiento laboral de los asistentes psiquia-
tricos (Distefano et al., 1983). El método también puede aplicarse a otras situaciones que
tequieran que un grupo de expertos emita algtin juicio, como enel examen dela validez
de contenido de pruebas de rendimiento matematico (Crocker et al., 1988).
Sin tener en cuenta la aplicacién especifica, el enfoque de Lawshe (1975) para la
cuantificacion de la validez de contenido incluye a un grupo de jueces. Cada miembro
del jurado responde a la siguiente pregunta para cada uno de varios reactivos: “La
habilidad o conocimiento medido por este reactivo es
@ esencial
a util pero no esencial
B nonecesaria
para el desempenio del trabajo?” (p. 567). Para cada reactivo, se anota el ntimero de
miembros del jurado que afirma que el reactivo es esencial. De acuerdo con Lawshe,
si mas de la mitad de los miembros del jurado indica que un reactivo es esencial, ese
reactivo tiene al menos alguna validez de contenido. Existen niveles mayores de vali-
dez de contenido conforme cantidades mayores de expertos concuerdan en que un
reactivo particular es esencial. Usando estas suposiciones, Lawshe desarrollé una
férmula denominada razén de validez de contenido:
n,-N/2
N/2
donde CVR = razén de validez de contenido, n, = numero de expertos que indican
“esencial” y N = nimero total de expertos. Suponiendo que un jurado consiste de diez
expertos, los siguientestres ejemplos ilustran el significado de la CVR cuando es ne-
gativa, cero y positiva.
CVR=
1. CVR negativa: cuando menos de la mitad de los expertos indica “esencial”, la
CVR es negativa. Supéngase que cuatro de diez expertos indicaron “esencial”:
4-(10/2) |
10/2
CVR=
2. CVR cero: cuando exactamente la mitad de los expertos indica “esencial”, la
CVR es cero:
see ae
10/2
3. CVR positiva: cuando més de la mitad pero no todos los expertos indican
“esencial”, la CVR varia entre .00 y .99. Supéngase que nueve de diez indicaron
“esencial”:
CVR 0
_ 9- (10/2) _
10/2
CVR .80
188 Parte 2: La ciencia de la medici6n psicolégica
Cuadro 6.1 Nimero de expertos Valor minimo

Valores minimos de la razon de validez de 5 99
contenido para asegurar que es improbable 6 99
que el acuerdo se deba al azar 7 99
8 15
g 18
10 62
11 59
12 96
13 04
14 51
15 Ag
20 42
25 Bs
30 og
35 31
40 -2g

Puente: Lawshe (1975)
Al validar una prueba, se calcula la razén de validez de contenido para cada
reactivo. Lawshe (1975) recomienda que si la cantidad de acuerdo observado tiene
una probabilidad de mas de 5% de ocurrir al azar, el reactivo deberia eliminarse. Los
valores minimos de la CVR correspondientes a este nivel de 5% se presentan en el
cuadro 6.1. En el caso en que haya diez expertos, un reactivo necesitaria una CVR
minima de .62. En nuestro tercer ejemplo (aquel en que nueve de diez expertos con-
cordaron), la CVR de .80 es significativa; por tanto el reactivo podria conservarse. En
lo subsecuente, en nuestra exposicién de la validez con base en criterios, nuestra
atenci6én cambia a un indice de validez que no se basa en el contenido de la prueba,
sino en las puntuaciones. Primero, alguna perspectiva sobre la cultura y su relacién
con la validez de una prueba.
La cultura y lo relativo a la validez de la prueba
Las pruebas a menudo se consideran ya sea como validas o invalidas. Una prueba de
historia, por ejemplo, mide o no mide con precisién un hecho histérico. Sin embargo,
también es cierto que lo que constituye un hecho histérico depende en algunos casos
de quién esta escribiendo la historia. Considérese, por ejemplo, un evento de los mas
trascendentales en la historia del mundo, uno que sirvi6 como un catalizador para la
primera guerra mundial. El archiduque Francisco Fernando fue asesinado el 28 de
junio de 1914 por un serbio llamado Gavrilo Princip (figura 6.1). Ahora piense en
cémo responderia el siguiente reactivo de opcién multiple en una prueba de historia:
Gavrilo Princip fue
a) un poeta.
b) un héroe.
c) un terrorista.
d) un nacionalista.
€) todo lo anterior.
“ae
Para varios libros de texto en la regién bosnia del mundo, la opcién “e”, —eso es,
todo lo anterior—, es la respuesta “correcta”. De acuerdo con Hedges (1997), los libros
Capitulo 6: Validez 189

Figura 6.1
Relatividad cultural, historia y validez de la prueba
El austrohtingaro Francisco Fernando y su esposa Sofia fueron retratados (izquierda) cuando salian del
Ayuntamiento de Sarajevo el 28 de junio de 1914. Momentos después, Fernando seria asesinado por
Gavrilo Princip, mostrado bajo custodia a la derecha. El asesinato sirvidé como un catalizador para la
primera guerra mundial y se expone y analiza en los libros de texto de historia en todos los idiomas del
mundo. Pero las descripciones del asesino Princip en esos libros de texto, y en los reactivos de las
pruebas de capacidad basadas en esas descripciones, varian como una funcion de la cultura.
de texto en 4reas de Bosnia y Herzegovina que son controladas por diferentes grupos
étnicos imparten caracterizaciones muy variadas del asesino. En la regién del pais
controlada por los serbios, los libros de texto de historia, y es de suponerse que tam-
bién las pruebas elaboradas para medir el aprendizaje de los estudiantes, consideran
a Princip como un “héroe y poeta”. Por el contrario, los estudiantes croatas leen que
Princip fue un asesino entrenado para cometer un acto terrorista. A los musulmanes
en la region se les ensefia que Princip fue un nacionalista cuya hazafia encendié los
disturbios antiserbios.
Por increible que pueda parecerles a los occidentales, a los estudiantes en Bosnia
y Herzegovina se les ensefian en la actualidad diferentes versiones de historia, arte y
lenguaje dependiendo de su origen étnico. Esta situaci6n ilustra con un relieve marca-
do la influencia de la cultura en lo que se ensefia a los estudiantes, al igual que en
aspectos de la construcci6n, calificacion, interpretacién y validacién de pruebas. La
influencia de la cultura se extiende por tanto a juicios concernientes a la validez de
pruebas y reactivos de pruebas. Pueden observarse diferencias en los juicios concer-
nientes a la validez de las pruebas y de los reactivos de pruebas de un pais a otro a lo
largo del mundo y, en algunos casos, incluso de un salon de clases a otro. Lo que se
considera una prueba de historia valida en un salon de clases no sera considerada asi
en otro. Es mas, las interpretaciones hechas con base en las respuestas de quien res-
ponde la prueba variaran como una funcién de la cultura. Asi, por ejemplo, los estu-
diantes croatas en Bosnia que seleccionen la opcién “b” (héroe) para el reactivo de
prueba anterior pueden hacer algo mas que disminuir sus puntuaciones en la prueba
190 Parte 2: La ciencia de la medicién psicologica
Fo
to
gr
af
ia
s
de

Un
it
ed

Pr
es
s
In
te
rn
de historia; pueden atraerse un escrutinio indeseable, si no es que una investigacion
formal, respecto a sus lealtades politicas. Estos escenarios dan nuevo significado al
término “politicamente correcto” en su aplicacién a las pruebas, de los reactivos y las
respuestas de quienes las responden.
La regién bosnia dificilmente es tinica en este sentido. Considérese en este contex-
to un segmento del programa 60 Minutes titulado “Brother Against Brother”, transmi-
tido por primera vez el 7 de diciembre de 1997. El corresponsal Ed Bradley reporto el
caso de un profesor palestino que incluia preguntas respecto a la corrupcion guberna-
mental en un examen. La autoridad palestina respondié interrogando, confinando y
torturando al profesor, todo por el interés de mantener la “validez de contenido” apro-
bada por el gobierno en los exA4menes universitarios.
Validez relativa al criterio
La validez relativa al criterio es un juicio respecto a lo adecuado que puede ser el uso de
una puntuacién de prueba para inferir la posicién mas probable del individuo en
alguna medida de interés, siendo la medida de interés el criterio. Dos tipos de eviden-
cia de validez se incluyen bajo el encabezado de “validez con base en criterios”. La
validez concurrente es la forma de validezrelacionada con un criterio que es un indice
del grado en que una puntuacién de prueba se relaciona con alguna medida criterio
obtenida al mismo tiempo (en forma concurrente). La validez predictiva es la forma de
validez relacionada con un criterio que es un indice del grado en que una puntuacion
de prueba predice alguna medida criterio. Antes de que expongamos cada uno de
estos tipos de evidencia de validez en detalle, parece apropiado plantear (y respon-
der) una interrogante importante.
éQué es un criterio?
Un criterio puede definirse en forma amplia como la norma contra la cual es valorada
una prueba o una puntuacién de prueba. Desde el punto de vista operativo, un crite-
tio puede ser casi cualquier cosa: “desempefio del piloto al volar un Boeing 767”,
“calificacion en el examen de Peinados Avanzados”, “nitimero de dias pasados en
hospitalizacién psiquidtrica’”. En resumen, no hay reglas inflexibles para lo que consti-
tuye un criterio; puede ser un comportamiento especifico o un grupo de comporta-
mientos, una puntuacién de prueba, una cantidad de tiempo, una estimacion, un
diagnéstico psiquiatrico, un costo de capacitacién, un indice de ausentismo, un indicede intoxicacién alcohélica, etc. Pero aunque un criterio puede ser casi cualquier cosa,
de manera ideal es confiable, relevante, valido y no esta contaminado.
Caracteristicas de un criterio Como las puntuaciones de prueba, las puntuaciones cri-
terio deben ser confiables. La confiabilidad del criterio y la confiabilidad de la prueba
limitan cada una la magnitud del coeficiente de validez de acuerdo con la siguiente
relacién tedrica:
Pe aNA(E )(r,,)
xy xx
Aqui, Tye el coeficiente de validez (la correlacién entre la prueba y el criterio), r,, es la
confiabilidad de la prueba y r,, es la confiabilidad del criterio. La formula se lee como
sigue: el coeficiente de validez es menor 0 igual que la raiz cuadrada del coeficiente de
confiabilidad de la prueba multiplicado por el coeficiente de confiabilidad del criterio.
Capitulo 6: Validez 191
También es relevante un criterio adecuado. Es de esperar, por ejemplo, que una
prueba que pretende decirnos algo sobre la aptitud de un individuo para una carrera
en psicologia se haya validado usando alguna especie de criterio que incluya datos
obtenidos de psicélogos.
Una medida criterio adecuada también debe ser valida para el propésito para el
que se esta usando. Si una prueba (X) se est4 usando como el criterio para validar una
segunda prueba (Y), entonces debe existir evidencia de que la prueba X es valida. Si el
criterio usado es una estimacién hecha por un juez o por un grupo de expertos, enton-
ces debe existir evidencia de que la estimacién es valida. Si, por ejemplo, un manual de
prueba para una prueba diagnéstica de personalidad reporté que la prueba habia sido
validada usando un criterio de “diagnésticos hechos por un grupo de expertos galar-
donados en psicodiagnéstico”, el administrador dela prueba podria desear investigar
mas a fondo, ya sea leyendo en el manual o escribiéndole al editor de la prueba, respec-
toa variables como 1) las definiciones especificas de términos y categorias diagnésticas,
2) lanaturaleza precisa de los antecedentes, capacitacién y experiencia del “grupo de
expertos galardonados” y 3) la naturaleza y extension del contacto fuera de la prueba
de los miembros del grupo de expertos con los sujetos diagnosticados.
De manera ideal, un criterio tampoco est4 contaminado. La contaminacién del crite-
vio es el término aplicad » a una situacién donde la medida criterio en si se ha basado,
al menos en parte, en medidas de prediccién. Supéngase que acabamos de completar
un estudio de la precisién con la que una prueba llamada MMPI predijo diagnésticos
psiquiatricos en la poblacién psiquiatrica del sistema de hospitales estatales de
Minnesota. En este estudio, quien leva a cabo el pronéstico es el MMPI y el criterio es
el diagndstico psiquidtrico que existe en el expediente del paciente. Supongamos ade-
mas que, mientras estamos en el proceso de anilisis de nuestros datos, alguien nos
intorma que el diagnéstico para cada paciente en el sistema de hospitales estatales de
Minnesota fue determinado, al menos en parte, por una puntuacién de prueba del
MMPI. ;Aun deberiamos proseguir con nuestro analisis? La respuesta, por supuesto,
es no; debido a que la medida pronosticadora ha contaminado a la medida criterio,
seria de poco valor averiguar que, en esencia, quien lleva a cabo el pronéstico en
efecto puede predecirse a si mismo.
Validez concurrente
Si las puntuaciones de prueba se obtienen mds o menos al mismo tiempo que las
medidas criterio, las medidas de la relacién entre las puntuaciones de prueba y el
criterio proporcionan evidencia de validez concurrente. Las declaraciones de validez
concurrente indican el grado en que las puntuaciones de prueba pueden ser usadas
para estimar la posicién presente de un individuo en un criterio. Si, por ejemplo, las
puntuaciones (o clasificaciones) hechas con base en una prueba de psicodiagnéstico
fueran a ser validadas contra un criterio de pacientes psiquidtricos ya diagnosticados,
el proceso seria uno de validacién concurrente. En general, una vez que se ha estable-
cido la validez de la inferencia de las puntuaciones de prueba, la prueba puede pro-
porcionar una forma més rapida y menos costosa para ofrecer un diagnéstico o una
decision de clasificacion. Una prueba con una validez concurrente demostrada en
forma satisfactoria puede por tanto ser muy atractiva para usuarios futuros porque
ofrece el potencial de ahorrar dinero y tiempo profesional; qué administrador, por
ejemplo, no preferiria usar una prueba escrita barata si pudiera obtener los mismos
resultados con esta prueba que por medio del uso de personal de salud mental muy
192 Parte 2: La ciencia de la medicién psicolégica
capacitado (quienes podrian dedicar su tiempo en forma més eficiente y valiosa ha-
ciendo otras cosas, como realizando investigaci6n o terapia)?
En ocasiones se explora la validez concurrente de una prueba particular (a la que
llamaremos prueba A para los propésitos de este ejemplo) con respecto a la forma en
que se compara con otra prueba (a la que llamaremos prueba B). En tales estudios, la
investigaci6n anterior ha demostrado en forma satisfactoria la validez de la prueba B
y la pregunta de interés se vuelve “;Qué tan bien se compara la prueba A con la prue-
ba B?” Aqui, la prueba B se usa como lo que se conoce como el “criterio de valida-
cién”. En algunos estudios, la prueba A es ya sea una prueba nueva o una prueba que
se esté usando para algtin propésito nuevo, quiza con una poblacién nueva. En el
ejemplo de un estudio de validez concurrente que sigue, un grupo de investigadores
exploré si una prueba que habia sido validada para su uso con adultos podria ser
usada con adolescentes.
El Inventario de Depresién Beck (Beck Depression Inventory; BDI; Beck et al., 1961,
1979; Beck y Steer, 1993) y su revisién, el Inventario de Depresion Beck-II (BDI-II; Beck
et al., 1996) son medidas de informe personal usadas para identificar sintomas de
depresi6on y cuantificar su gravedad. E] BDI-II es una de varias pruebas elaboradas por
Aaron Beck y sus colegas (véase la Instantdnea de un elaborador de pruebas de este capi-
tulo). Aunque el BDI se habia usado en forma amplia con adultos, se plantearon inte-
rrogantes respecto a lo apropiado de su uso con adolescentes. Ambrosini et al. (1991)
realizaron un estudio de validez concurrente para explorar la utilidad del BDI con
adolescentes. También buscaban determinar si la prueba podia diferenciar con éxito a
pacientes con depresién de aquellos sin depresién en una poblacién de pacientes ex-
ternos adolescentes. Los diagndésticos generados con la administracién concurrente
de un instrumento validado antes para su uso con adolescentes (la Lista de Trastornos
Afectivos y Esquizofrenia de Kiddie; Kiddie-Schedule for Affective Disorders and
Schizophrenia) se usaron como los validadores criterio. Los resultados sugiricron que
el BDI es valido para ser usado con adolescentes.
Ahora dirigiremos nuestra atencién a otra forma de validez de criterio, una en la
que la medida criterio no se obtiene en forma concurrente sino en algtiin momento
futuro.
Validez predictiva
Las puntuaciones de prueba pueden obtenerse en un momento y las medidas criterio
obtenerse en un momento futuro, después de que ha tenido lugar algiin evento inter-
medio (como una capacitacién, experiencia, terapia, medicacién o tan sélo el paso del
tiempo). Las medidas de la relacién entre las puntuaciones de prueba y una medida
criterio obtenida en un momento futuro proporcionan un indicio de la validez predictiva
de la prueba; es decir, con cudnta precisién las puntuaciones de la prueba predicen
alguna medida criterio. Las medidas de la relacién entre las pruebas de admision a la
universidad y el promedio de calificaciones al final del primer afio, por ejemplo, pro-
porcionan evidencia de la validez predictiva de las pruebas de admisi6n.
En escenarios donde podrian emplearse pruebas, como una agenciade colocacio-
nes, una oficina de admisiones a la universidad o la oficina de un alcaide, la validez
predictiva alta de una prueba puede ser un auxiliar muy util para quienes toman deci-
siones para seleccionara estudiantes exitosos, trabajadores productivoso convictos que
son buenos prospectos para salir bajo palabra. El que un resultado de pruebasea valioso
paratomaruna decisién depende delobien que los resultados mejoren las decisiones de
seleccién sobre aquellas decisiones tomadas sin conocimiento de los resultados de la
Capitulo 6: Validez 193
> INSTANTANEA DE UN ELABORADOR DE PRUEBA
Aaron T. Beck, M.D.
Prueba de Autoconcepto de Beck
Escala de Actitud Disfuncional
Escala de Autonomia Sociotrépica
"L: elaboracién de pruebas psicolégicas requiere de mucha
paciencia. Los reactivos rara vez pueden redactarse sin
sutrir una revisién extensa. Tienen que realizarse
numerosas pruebas piloto antes de que surja un
instrumento aceptable. Aun entonces, lo adecuado de tal
instrumento es efimero, debido a la continua redefinicion
de las constelaciones especificas que constituyen ciertos
sindromes psiquiatricos. Quien elabora las pruebas debe
estar siempre vigilante de que su instrumento refleje lo
que los pacientes estan experimentando en la actualidad...
Se aconseja a los futuros elaboradores de pruebas que
pidan a los que responden descripciones literales de
cualesquier constructos psicolégicos que deseen evaluar.
EI proceso de elaboracion de la prueba es una tarea
tediosa, que requiere de mucha paciencia y resistencia. No
hay una edicién final de una prueba: siempre aguarda la
siguiente version.”

Pruebas elaboradas:
Inventario de Ansiedad de Beck
Inventario de Depresién de Beck
Escala de Desesperanza de Beck
af mea Extractado del Test Developer Profile publicada en Cohen (1999) y en Escala para Ideacién Suicida de Beck Internet en wuw.mayfieldpub.com/psychtesting.

prueba. En unescenario industrial donde el volumen de produccién es importante, siel
uso de una prueba deseleccién de personal puede tener elefectodeaumentarla produc-
tividad incluso en un grado pequenio, el aumento enla productividad redituara afiocon
afio y puede traducirse en millones de délares de incremento en las ganancias. Yen un
contexto clinico, no podria ponerse ningtin precio a una prueba que tiene el efecto de
salvar mas vidas del suicidio u homicidio sila prueba pudiera proporcionar una preci-
sidn predictiva superior a las pruebas existentes con respecto a tales actos. Por desgra-
cia, las dificultades inherentes en la elaboracién de dichas pruebas son numerosas y
multifacéticas (véase Mulvey y Lidz, 1984; Murphy, 1984; Petrie y Chamberlain, 1985).
Los juicios de la validez relacionada con un criterio, sea concurrente 0 predictiva,
se basan en dos tipos de evidencia estadistica: el coeficiente de validez y los datos de
expectativa.
El coeficiente de validez El coeficiente de validez es un coeficiente de correlacién que
Proporciona una medida de la relacién entre las puntuaciones de prueba y las pun-
tuaciones en la medida criterio. El coeficiente de correlacién calculado a partir de una
puntuaci6n (0 clasificacién) en una prueba psicodiagnéstica y la puntuaciéon (0 clasi-
ficaci6n) criterio asignada por psicodiagnosticadores es un ejemplo de un coeficiente
de validez. Normalmente, se usa el coeficiente de correlacién de Pearson para deter-
minar la validez entre las dos medidas. Sin embargo, dependiendo de variables como
el tipo de datos, el tamafio de la muestra y la forma de la distribucién, podrian usarse
otros coeficientes de correlacién. Por ejemplo, al examinar jerarquizaciones hechas
194 Parte 2: La ciencia de la medicién psicolégica
por uno mismo del desempefio en algiin trabajo con las jerarquizaciones hechas por
supervisores laborales, se emplearia la formula para la correlaci6n de orden de jerar-
quia rho de Spearman.
Como el coeficiente de confiabilidad y otras medidas de correlacién, el coeficiente
de validez es afectado por la restriccién o inflacién del rango. Y, como en otros estu-
dios correlacionales, una cuestidn clave es si el rango de puntuaciones empleado es
apropiado para el objetivo del andlisis correlacional. En situaciones donde, por ejem-
plo, ha ocurrido una disminucion en el ntimero de sujetos en el transcurso del estu-
dio, el coeficiente de validez puede ser afectado en forma adversa. Para ilustrar esto,
supéngase que un psicélogo clinico que trabaja en la sala de emergencias psiquiatri-
cas de un hospital municipal ha elaborado una prueba nueva Ilamada.“Inventario de
Clasificacién Psicodiagnéstica Muy Breve” (ICPMB). El psicélogo plantea la hipdtesis
de que la puntuacién o clasificacién de un paciente en esta prueba (hipotética) sera
predictiva del diagnéstico en la grafica del paciente siete dias después del dia en que
se le aplicd. Debido a que sélo toma un minuto o dos aplicarla (en verdad es muy
breve), a todas las personas que se presentan en la sala de emergencias psiquiatricas
(o que son Ilevadas a ella) se les aplica la prueba como parte de un estudio de valida-
cién. El estudio se lleva a cabo durante un mes, al final del cual se calcula un coeficien-
te de validez estadisticamente significativo describiendo la relacion entre la puntuacién
ICPMB y el diagnéstico criterio. ;El psicélogo deberia acudir de inmediato a la oficina
de un editor de pruebas con el ICPMB en mano?
No necesariamente, al menos no hasta que se hayan analizado los efectos de la
disminucién, si es que hay alguna, en la muestra. Los hallazgos impresionantes del
ICPMB bien podrian ser un artefacto de dicha disminuci6n, y podrian interpretarse con
més precisién como un reflejo del hecho de que el ICPMB es un pronosticador preciso
del diagnéstico psiquiatrico sélo para condiciones que se encuentran en el rango me-
dio de la psicopatologia; puede ser que uno no sea capaz de decir a partir del disefio de
este estudio qué tan buen pronosticador es el ICPMB en los rangos extremos. Aqui esta
por qué: si la sala de emergencias psiquidtricas del hospital municipal en el que se
realizé el estudio es tipico como otros, los pacientes menos trastornados habran sido
dados de alta después de un dia o dos, y por consiguiente seran eliminados de la mues-
tra. Puede esperarse que la disminucién de la muestra no s6lo ocurra con respecto a los
pacientes menos trastornados sino también en el otro extremo; muchos de los pacien-
tes con trastornos severos habran sido transferidos a un hospital estatal antes de que
transcurran siete dias a partir del momento de su admisi6n inicial. Debido a que los
datos para los sujetos restantes s6lo representan el rango medio de la amplia gama de
tipos psicodiagnésticos que pudieran encontrarse en una sala de emergencias psiquia-
trica, es probable que la medida reportada de la validez del ICPMB sea reducida?
El problema del rango restringido puede ocurrir a través de un proceso de
autoseleccién en la muestra empleada para el estudio de validaci6n. Por tanto, por
ejemplo, sila prueba pretende medir algo tan técnico o peligroso como la aptitud para
combatir incendios en un barco petrolero, bien puede ser que las tinicas personas que
respondan aun anuncio para el puesto de bombero en un barco petrolero sean aque-
llas que en realidad estén muy calificadas para el puesto; por consiguiente, esperaria-
mos que el rango de la distribucién de puntuaciones en alguna prueba de aptitud
para combatir incendios en un barco petrolero sea restringido. Para puestos menos
técnicos o peligrosos, un factor de autoseleccién podria estar operando si quien elabo-
3 Una exposicién mas detallada de la influencia en los coeficientes de correlacién de 1) la restriccién del
rango y 2) la combinacién de datos de grupos diferentes puede encontrarse en Allen y Yen (1979, pp. 34-36).
Capitulo 6: Validez 195
ra de la prueba selecciona a un grupo de empleados recién contratadospara exami-
narlos (con la esperanza de que se dispondra de medidas criterio para este grupo en
alguna fecha subsecuente). Sin embargo, debido a que es probable que los empleados
recién contratados ya hayan pasado por alguna valoracién formal o informal en el
proceso de ser contratados, hay una buena probabilidad de que la capacidad entre
este grupo sera mayor que la capacidad para hacer el trabajo entre una muestra aleatoria
de aspirantes a empleos ordinarios. En consecuencia, las puntuaciones en la medida
criterio que es aplicada posteriormente tenderén a ser superiores que las puntuacio-
nes en la medida criterio obtenida de una muestra aleatoria de aspirantes a empleos
ordinarios; planteado de otra manera, las puntuaciones tendran un rango restringido.
Mientras que es responsabilidad de quien elabora la prueba reportar datos de
validacién en el manual de la prueba, es responsabilidad de los administradores de la
prueba leer con cuidado la descripcién del estudio de validacion y valorar la adecua-
cién de la prueba para sus propdsitos especificos. ;Cudles fueron las caracteristicas de
la muestra usada en el estudio de validacién? ;Cémo se equiparan estas caracteristi-
cas con las personas para quienes se esta contemplando una aplicacién de la prueba?
éAlgunas subpruebas de una prueba son mas apropiadas para un propésito especifi-
co de la prueba que la prueba misma?
Qué tan alto deberia ser un coeficiente de validez para que un administrador oun
elaborador de pruebas infieran que la pruebaes valida? No hay reglas para determinar
el rango minimo aceptable de un coeficiente de validez. De hecho, Cronbach y Gleser
(1965) advirtieroncontrael establecimiento de tales reglas. Afirmaron que los coeficientes
de validez no necesitan ser tan elevados que permitan al administrador de la prueba
tomar decisiones precisas dentro del contexto tinico en el que se est4 usando una prue-
ba. En esencia, el coeficiente de validez deberia ser lobastante alto para que conduzcaa
laidentificacién y diferenciacién de personas que responderan la prueba con respectoa
un atributo o atributos deseados, como empleados que es probable que sean mas pro-
ductivos, oficiales de policia que es menos probable que usen mal sus armas y estudian-
tes que es mas probable que sean exitosos en un curso de estudio particular.
Validez incremental Los administradores de pruebas implicados en la prediccién de
algun criterio a partir de puntuaciones de prueba a menudo estén interesados en la
utilidad de pronosticadores multiples. El valor de incluir mds de un pronosticador
depende de un par de factores. Primero, por supuesto, cada medida que se est4 usan-
do como pronosticador deberia tener validez predictiva relacionada con un criterio.
Segundo, los pronosticadores adicionales deberian poseer validez incremental, defini-
da como el grado en que un pronosticador adicional explica algo de la medida criterio
que no estaba explicado por los otros pronosti¢adores.
La validez incremental puede ser usada cuando se predice algo como el éxito aca-
démico en la universidad. El promedio de calificaciones al final del primer afio puede
emplearse como una medida de éxito académico. Un estudio de pronosticadores po-
tenciales del promedio de calificaciones puede revelar que el tiempo pasado en la bi-
blioteca y el dedicado al estudio se correlacionan altamente con el promedio de
calificaciones, y la cantidad de horas de suefio que le‘permite tener a uno un compafie-
ro de dormitorio durante periodos de examen se correlaciona con el promedio de cali-
ficaciones en un menor grado. ;Cudl es la forma mas precisa pero mas eficiente de
predecir el promedio de calificaciones? Un enfoque, que emplea los principios de la
validez incremental, es comenzar con el mejor pronosticador, el pronosticador que se
correlaciona de manera mas alta con el promedio de calificaciones. Este puede ser el
tiempo dedicado al estudio. Entonces, usando técnicas de regresi6n multiple, uno ana-
196 Parte 2: La ciencia de la medicién psicologica
lizaria la utilidad de los otros pronosticadores. Aun cuando el tiempo pasado en la
biblioteca se correlaciona de manera alta con el promedio de calificaciones, puede no
poseer validez incremental si se superpone demasiado con el primer pronosticador, el
tiempo dedicado al estudio. Dicho de otra manera, si el tiempo dedicado al estudio y el
pasado en la biblioteca se correlacionan de manera tan alta entre si que reflejan en
esencia lo mismo, entonces sdlo uno de ellos necesita incluirse como pronosticador;
incluir ambos proporcionaria poca informacién nueva sobre uno solo. En contraste,
uno puede encontrar que la cantidad de suefio que le permite tener a uno un compatie-
ro de dormitorio durante los examenes tiene buena validez incremental debido a que
refleja un aspecto diferente de la preparacién para los ex4menes (descansar) que el
primer pronosticador (estudiar). La validez incremental se ha empleado para mejorar
la prediccién del desempenfio laboral para los mecdnicos del Cuerpo de Marina (Carey,
1994) y la prediccién del abuso infantil (Murphy-Berman, 1994). En ambos casos, las
medidas pronosticadoras se incluyeron sdlo si demostraban que podian explicar algo
de la medida criterio que no se conocia ya a partir de los otros pronosticadores.
Informaciénesperada Lainformacién esperada proporciona una fuente deinformacién
que puede usarse para valorar la validez relacionada con un criterio de una prueba.
Usando una puntuacién obtenida en alguna prueba o medida, las tablas de expectativa
ilustran la probabilidad de que quien responde la prueba obtendra una puntuaci6n
dentro de algtin intervalo de puntuaciones en una medida criterio; un intervalo que
puede verse como “aprobatorio”, “aceptable”, etc. Una tabla de expectativa muestra el
porcentaje de personas dentro de los intervalos de puntuacién de prueba especificados
que de manera subsecuente fueron colocados en diversas categorias del criterio (por
ejemplo, colocados en la categoria “aprobado” o en la categoria “reprobado”). Una ta~
bla de expectativa puede crearse a partir de una grafica de dispersién de acuerdo con
los pasos enumerados en la figura 6.2. Una tabla de expectativa mostrando la relacién
entre puntuaciones en una subprueba de la Prueba Diferencial de Aptitud (Differential
Aptitude Test; DAT) y las calificaciones del curso de historia estadounidense para nifios
de undécimo grado se presenta en la figura 6.2. Puede verse que de los estudiantes que
obtuvieron puntuaciones entre 40 y 60, 83% obtuvo 80 o mas en ese curso.
Para ilustrar c6mo podria usar una tabla de expectativa un funcionario de perso-
nal corporativo, supéngase que con base en varias puntuaciones de prueba y entre-
vistas personales, expertos en personal estimaron a todos los aspirantes para un puesto
de trabajo manual que implicaba trabajo a destajo como “excelente”, “muy bueno”,
“promedio”, “por debajo del promedio” y “malo”. En este ejemplo, entonces, la pun-
tuacién de prueba en realidad es una estimacién hecha por expertos en personal con
base en varias puntuaciones de prueba y una entrevista personal. Supongamos ade-
mas que debido a una escasez severa de mano de obra en esa época, todos los aspiran-
tes fueron contratados (un suefio convertido en realidad para un investigador
interesado en Ilevar a cabo un estudio de validacién con respecto a la validez del
procedimiento de evaluacién). Los supervisores de piso que ignoraban la puntuacion
compuesta obtenida por los trabajadores recién contratados proporcionan la medida
criterio en este estudio de validacién; de manera especifica, estimaciones del desem-
pefio de cada empleado: “satisfactorio” o “insatisfactorio”. La figura 6.3 es la grdfica de
expectativa resultante, o representacién grafica de una tabla de expectativa. Puede ver-
se que de todos los aspirantes estimados de manera original como “excelentes”, 94%
fueron estimados “satisfactorios”en el trabajo. Por el contrario, entre los aspirantes
estimados de manera original como “malos”, s6lo 17% fueron estimados “satisfacto-
rios” en el trabajo. En general, esta grafica de expectativa nos dice que entre mayor es
Capitulo 6: Validez 197

100
(2) (17) (54)
2
@
eS 1 8 28
~~
y 90
§ (7) (24) (29) (29)
5
a 2 10 14 15,
sg
& 80
& 67 | (9) (46) (17)
a 2
a 7 24 22 9
°
g 70 a
= @7) (a5) 8)
g
wo
3 1 6 } 4
8
Go 60
g
=
5 4
0
10 20 30 40 50 60
Puntuaciones crudas en Uso del Lenguaje de las Pruebas
Diferenciales de Aptitudes
() porcentaje de puntos por celda
Figura 6.2 :
Siete pasos para hacer una tabla de expectativa
Fuente: Tomado de Manual of Differential Aptitude Tests: Fifth Edition, Forms § & T. Derechos reservados © 1973, 1974 por The Psychological
Corporation. Reproducido con autorizacién. odes los derechos reservados. “Differential Aptitude Tests” y “DAT” son marcas registradas de The
Psychological Corporation.
1. Trace una grdfica de dispersion de tal modo que cada punto en la grdfica represente una combinacion
particular de puntuacién de la prueba y puntuacién criterio. El criterio deberd encontrar en el eje Y.
2. Trace una cuadricula de tal forma que resuman el niimero de personas que obtuvieron puntuaciones
dentro de un intervalo particular.
3. Cuente el ntimero de puntos en cada celda (n,) como se muestra en la figura.
4, Cuente el ntimero total de puntos dentro de cada intervalo vertical (N,). Este ntimero representa el
nuimero de personas que obtuvieron puntuaciones dentro de un interval. particular de puntuacién de
la prueba.
5. Convierta cada frecuencia de celda en un porcentaje (n,/N,). Esto representa el porcentaje de
personas que obtienen una combinacién de puntuacion de prueba y puntuacion criterio particular.
Escriba los porcentajes en las celdas. Enciérrelos entre paréntesis para distinguirlos de las frecuencias.
6. En una hoja separada, cree encabezados y subencabezados de tabla y copie los porcentajes en las
tablas de celda apropiadas como se muestra en el cuadro 6.2. Tenga cuidado de incluir los porcentajes
en las tablas de celda correctas. (Nétese que es facil cometer un error en esta etapa debido a que los
porcentajes de personas dentro de intervalos de puntuacion particulares se deben incluir de manera
horizontal en la tabla y vertical en la grafica de dispersion.)
7. Silo desea, incluya el ntimero y el porcentaje de casos por intervalo de puntuaciones de la prueba. Si
el ntimero de casos en cualquiera de las celdas es muy pequefio, es mas probable que flucttie en graficas
subsecuentes. Si los tamafios de las celdas son pequeiios, el administrador podria crear menos celdas o
acumular datos durante varios afios.
198 Parte 2: La ciencia de la medici6n psicolégica
Cuadro 6.2
Puntuaciones de la subprueba de Uso del Lenguaje del DAT y calificacién en historia
estadounidense para 171 nifios de undécimo grado (mostrando el porcentaje de estudiantes
que obtuvieron calificaciones del curso en el intervalo mostrado)
ee Casos por intervalo de
Intervalo de calificacion en.el curso puntuacién de prueba

Puntuacién de prueba 0-69 70-79 ° 80-89 90-100 N, %
40 y superior V7 29 54 52 100
30-39 8 46 29 7 48
100
20-29 15 59 24 2 4) 100
debajo de 20 37 57 7 30
101*

*El total suma mds de 100% debido al redondeo.
la estimacién inicial, es mayor la probabilidad de éxito en el trabajo. Planteado
de otra
manera, nos dice que entre menor es la estimacién inicial, es mayor la probabilidad
de
fracaso en el trabajo. La compaiiia que experimenté con un sistema de estimaci6n asi
podria esperar de manera razonable mejorar su productividad usando este sistema
de estimacién. De manera especitica, los aspirantes al empleo que obtuvieran estima-
ciones de “promedio” o superiores serian los-unicos aspirantes contratados.
Las tablas que pudieran usarse como un auxiliar para los directores de personal en
sus laborés de toma de decisiones fueron publicadas por H. C. Taylor y J. T. Russell
en Journal of Applied Psychology en 1939. Conocidas por los nombres de sus autores, las
tablas Taylor-Russell proporcionan una estimacion de la extension en la queincluir una
prueba particular enel sistema deseleccién mej orard laseleccién. De manera mas esp
e-
cifica, las tablas proporcionan una estimacin del porcentaje de empleados contratados
por el uso de una prueba particular que seran exitosos en sus trabajos, dadas diferent
es
combinaciones de tres variables: la validez de la prueba; larazén de seleccién usaday la
tasa base, o la proporcion de personas empleadas en la actualidad én puestos similares
al puesto vacante que son consideradas exitosas. El valor asignado para la validez de
la
prueba es el coeficiente de validez calculado. La razén de seleccién es un valor numéri
-
co que refleja la relaci6n entre el ntimero de personas que se contratan y el numer
o dis-
ponible para contratacion. Por ejemplo, si hay 50 puestos y 100 aspirantes, lara
zén de
selecciénes 50/100, 0.50. Latasabasees unindicio del “promedio debateo”
actualdela
oficina de personal usando cualesquiera técnicas empleadasenlaactualidad. Por
ejem-
plo, si una empresa emplea 25 programadores de computadoras y 20 son conside
rados
exitosos, la tasa base seria .80. Con conocimiento del coeficiente de valide
z de una prue-
ba particular junto con la razén de selecci6n, la referencia a las tablas Taylor-
Russell le
proporcionaria al funcionario de personal una estimacién de cuanto mej
oraré la selec-
cién con el uso de la prueba sobre los métodos existentes.
Se presenta una tabla Taylor-Russell en el cuadro 6.3. Esta tabla es para la tasa b
ase
de .60, lo que significa que 60% de los contratados bajo el sistema existente
son exitosos
en su trabajo. En forma descendente del lado izquierdo'se encuentran l
os coeficientes
de validez para una prueba que podria ser usada para ayudar a sel
eccionar emplea-
dos. A lo largo de la parte superior estén las diversas razones de sele
ccién. Reflejan la
proporcién de las personas que solicitan empleo que seran contratadas.
Si se introduce
una prueba nueva para ayudar a seleccionar empleados en uria situacion
con una ra-
z6n de seleccién de .20, y sila prueba nueva tiene un coeficiente de validez
predictiva
de .55, la tabla muestra que la tasa base se incrementard a .8
8. Esto significa que, en
lugar de que se espere que 60% de los empleados se desempeie con
éxito, puede espe-
Capitulo 6: Validez 199

Estimaciones Producci6n satisfactoria Producci6n insatisfactoria
Excelente
Muy buena
Promedio Debajo del promedio
Mala
Figura 6.3
Estimaciones de prueba y desempeiio en el trabajo
(Fuente: The Psychological Corporation}
rarse que un total de 88% lo haga. Cuando las razones de seleccion son bajas, como
cuando sdlo 5% de los aspirantes serd contratado, aun las pruebas con coeficientes de
validez bajos, como .15, pueden dar como resultado tasas base mejoradas.
Una limitacién inherente en el uso de los cuadros Taylor-Russell es que la relacién
entre el pronosticador (la prueba) y el criterio (la estimacién del desempefio en el traba-
jo) debe ser lineal. Por ejemplo, si hay algun punto en el que el desempefo en el trabajo
se estabilice, sin importar qué tan alta sea la puntuaci6n que se obtiene en la prueba,
seria inapropiado usar las tablas Taylor-Russell. Otra limitacién inherente en el uso de
las tablas Taylor-Russell es.el problema potencial de tener que identificar una puntua-
ci6n criterio que separe alos empleados “exitosos” de aquellos “sin éxito”. Este proble-
ma se evité en un conjunto de tablas alternativas (Ni aylory Shine, 1965) que proporcionan
un indicio dela diferencia en as puntuaciones criterio promedio para el grupo seleccio-
nado comparado conel grupo original. El uso de las tablas Naylor-Shine implica obte-
ner.la diferencia entre-lasmedias de los grupos seleccionado y no seleccionado para
obtener un indice de lo que la prueba (o alguna otra herramienta de evaluacién) est4
agregando a procedimientos ya establecidos. Tanto las tablas Taylor-Russell como las
Naylor-Shine pueden ayudar ajuzgarla utilidad de una prueba particular, las primeras
determinando el incremento sobre procedimientos actuales y las ultimas el incremento
en la puntuacién promedio en alguna medida criterio. Con ambas tablas, el coeficiente
de validez usado debe obtenerse por medio de procedimientos de validacién concu-
rrente, un hecho que no es sorprendente debidoa que se obtiene con respecto aemplea-
dos actuales contratados por el proceso de seleccién en el momento del estudio.
: Silas decisiones de contratacién sélo se tomaran con base en variables como la
validez de una prueba deempleoy larazén de seleccién prevaleciente, entonces tablas
como las ofrecidas por Taylor y Russell y Naylor y Shine serian usadas en forma amplia
en la actualidad. El hecho es que muchas otras clases de variables podrian entrar en las
decisiones de contratacién (por ejemplo, posicién minoritaria, salud fisica o mental
general del aspirante o uso de farmacos por parte de este ultimo). Dadas las muchas
variables que pueden entrar en una decision de contratacion, o de otra indole, ;qué uso
tiene una prueba determinada en el proceso de decisién? Después de la publicacién de
las tablas Taylor-Russell, comenzaron a aparecer varios articulos probando formas de
determinar qué tan apropiado es el uso de una prueba determinada con respecto a
diferentes tipos de procedimientos de evaluacién (Brogden, 1946, 1949; Smith, 1948), y
comenzé abundar una literatura que abordaba la teoria de la utilidad de las pruebas.
También durante este periodo, estadisticos como Wald (1947, 1950) estuvieron implica-
200 Parte 2: La ciencia de la medicién psicolégica
Cuadro 6.3
Cuadro Taylor-Russell para una tasa base de .60
Raz6n de seleccién

Validez .05 10 20 30 40 50 60 70 80 90 95
(p,,)
00 60 60 60 60 60 60 60 60 60 60 60
05 64 63 63 62 62 62 61 61 61 60 60
10 68 67 65 64 64 63 63 62 61 61 60
Sei 70 68 67 66 65 64 63 62 61 61
20 15 13 a 69 67 66 65 64 63 62 61
Oe. als 76 ae 7m 69 68 66 65 63 62 61
30 sane? 79 76 23 a 69 68 £6 64 62 61
35 85 82 Te JE 73 wal 69 67 65 63 62
40 88 85 81 28 75 3 70 68 66 63 62
45 90 87 83 80 7 74 7 63 86 64 62
S0sa:-.98 90 86 £2 79 76 2B 70 67 64 62
oO ero 92 88 84 81 78 1 W 68 64 62
60 96 94 90 87 83 80 18 23 69 65 63
65 98 96 92 89 85 82 78 74 70 65 63
70 99 7 94 3 87 84 80 75 nN 66 63
Tae od 99 96 $3 90.86 81 77 n 66 63
80 1.00 99 98 95 92 88 83 78 72 66 63
85 1.00 = 1.00 99 97 ogee 79] 86 80 73 66 63
90° 100 1,00" 1:00 99 97 94 88 82 74 67 63
95 100 100 or 00 == 1100 89 97 82 84 75 67 63
1.00 1.00 1.00) 1,00 1.00 1.00 1.00 1.00.86 15 67 63

Fuente: Taylor y Russell (1939)
dos en la identificacién de reglas estadisticas para desarrollar un andlisis secuencial de
un problema que condujeran a una decisién optima; habia nacido la teoria de la deci-
sion y seria aplicada para responder interrogantes respecto a la utilidad de las pruebas
psicoldgicas.
Teoria de las decisiones y utilidad de las pruebas Quiza la aplicacién citada con mas
frecuencia de la teorfa dela decisién estadistica al campo de las pruebas psicolégicas es
la obra de Cronbach y Gleser, Psychological Tests and Personnel Decisions, aunque se pu-
blicaron después otras obras (no tan completas como la de Cronbach y Gleser) en esta
area (por ejemplo, Darlington y Stauffer, 1966; Dunnette, 1963; Mahoney y England,
1965;Rorer et al., 1966). Laidea de aplicar la teoria de la decision estadistica a cuestiones
de utilidad de las pruebas era atractiva y prometedora desde el punto de vista concep-
tual, y un libro de texto de la época que es una autoridad refleja el gran entusiasmo con
el que se recibié este matrimonio de empresas:
El enfoque basico de la teoria de la decision para la seleccién y la colocacién [...] tiene
varias ventajas sobre el enfoque mas clasico basado en el modelo de correlacién [...]
No hay duda de que es un modelo més general y mejor para manejar esta clase de
tarea de decisién, y predecimos que en el futuro los problemas de seleccién y coloca-
cién serdn tratados en este contexto con més frecuencia; quiza hasta la exclusién final
del modelo correlativo mas estereotipado (Blum y Naylor, 1968, p. 58).
Planteado en forma general, Cronbach y Gleser (1965) presentaron 1) una clasifi-
cacién de problemas de decisién, 2) varias estrategias de seleccién que varian desde
procesos de una sola etapa hasta andlisis secuenciales, 3) un andlisis cuantitativo de la
Capitulo 6: Validez 201
ACERCAMIENTO
Tasa basal y validez predictiva
P:: el propésito de valorar la validez predictiva de una
prueba, puede aplicarse una prueba dirigida de un atributo
particular a una muestra de sujetos de investigacién en la
que aproximadamente la mitad de los sujetos posee o
exhibe el atributo al que se dirige y la otra mitad no. En lo
subsecuente pueden surgir preguntas sobre lo apropiado
del uso de una prueba asf, en la que la tasa base de la
ocurrencia del atributo al que se dirige en la poblacion que
se estd examinando es considerablemente menor que
50%. Estas interrogantes surgen, por ejemplo, con
respecto al uso de una prueba llamada Inventario de Abuso
Infantil Potencial (Child Abuse Potential Inventory; car;
Milner, 1986).
El cap fue disefiado para ser un auxiliar de exploracidn
en la identificacién de adultos con alto riesgo de cometer
abuso ffsico con nifios (Caliso y Milner, 1994; Hart, 1989;
Melton, 1989; Milner, 1991; Milner et a/, 1986: Murphy-
Berman, 1994). Una puntuaci6n alta en el cap, en especial
en combinacion con evidencia confirmatoria de otras
fuentes, podria incitar al usuario de la prueba a sondear
mas a fondo con respecto a la historia, o intenciones
actuales, de quien responde la prueba respecto al abuso
infantil. Otro uso del CAP es una medida de resultados en
programas disefiados para prevenir el abuso fisico de los
nifios (Milner, 1989). Como tal, a los participantes se les
aplicarfa el CaP al entrar al programa y de nuevo al salir.
La investigacién de validez predictiva realizada con el
CaP ha “demostrado un indice de aciertos extrafio
(alrededor de 90%) en la discriminacion de los abusivos de
los no abusivos™ (Melton y Limber, 1989, p. 1231). Pero
como ha seflalado el autor del cap, “el indice de aciertos
de 90% reportado fue determinado en estudios que usaron
grupos que consistfan en cantidades iguales de abusivos y
de no abusivos que por disefio contienen tasas base de
50% que son dptimas para propésitas de clasificacion”
(Milner, 1991, p. 80). Por tanto, conforme disminuye la tasa
base para el abuso infantil, se incrementaré el nmero de
falsos positivos en el grupo indicado como abusivo,
mientras disminuye el ndmero de falsos negativos en el
grupo indicado como no abusivo. Si estos hechos
relacionados con las tasas base y la validez predictiva no
son conocidos y apreciados por el usuario de la prueba,

existe un potencial para el mal uso de pruebas como el
CAP.
La tasa base para el abuso infantil en la poblacién
general es de alrededor de 2-3% anual (Finkelhor y Dziuba-
Leatherman, 1994). Esta tasa base es relativamente baja
para la tasa base de 50% que prevalecié en los estudios
de validez predictiva con el cap. Por consiguiente, este
hecho debe considerarse en cualquier uso del caP con
miembros de la poblacién general.
Con estos antecedentes, considérese un estudio
realizado por Milner et a/., (1986) con 220 adultos,
incluyendo 110 abusadores y 110 no abusadores conocidos.
Todos los sujetos completaron el cary se calificé la prueba.
Un total de 82.7% de los abusadores y 88.2% de los no
abusadores fueron clasificados en forma correcta usando el
cap (cuadro 1). Descendiendo por las columnas
del cuadro 1, nétese quede los 110 abusadores conocidos,
19 fueron clasificados en forma incorrecta como no
abusadores. De los 110 no abusadares conocidos,
13 fueron identificados en forma incorrecta como
abusadores. Por supuesto, en la mayor parte de las
aplicaciones del cap, uno no sabria si la persona que se
esta examinando era un abusador de nifios real; es
probable que ésa serfa la razon para la aplicacién de la
prueba. Para comprender los errores que se cometerian,
observe de nuevo el cuadro 1, pero esta vez a lo largo de las
filas. Cuando el CaP indica que una persona es una
abusadora, el hallazgo es correcto 87.5% de las veces (91
de 104 casos). Cuando el car indica que una persona no es
una abusadora, es correcto 83.6% de las veces (97 de 116
casos).
EI panorama cambia en forma draméatica, sin embargo,
en un ambiente de tasa baja. Para los propésitos de este
ejemplo, supongamos que el abuso fisico infantil ocurre en
5% de la poblacidn. En un estudio hipotéticc, examinamos a
1 000 personas usando el cap. Debido a que el abuso fisico
infantil ocurre en 5% de la poblacién, esperariamos que 50
0 mas de los que respondieron la prueba sean abusadores.
Y digamos ademas que al igual que en el estudio de Milner
etal., 82.7% de los abusadores y 88.2% de los no
abusadores son identificados en forma correcta en nuestro
estudio (cuadro 2). Descendiendo por las columnas en el

relacion entre la utilidad de la prueba, la razé6n de seleccién, el costo del programa de
prueba y el valor esperado del resultado y 4) una recomendacién de que en algunos
casos los requerimientos del trabajo sean adecuados a la capacidad del solicitante en
lugar de a la inversa (un concepto al que se refieren como “tratamiento adaptativo”):
202 Parte 2: La ciencia de la medici6n psicolégica

Cuadro 1
Aplicacién del cap en una poblacién con una tasa
base alta de abuso infantil
Situacién real
Abusador No abusador Totales de fila
Los resultados de! cap indican:
Abusador Sl eS 104
No abusador 19 97 116
Totales
de columna 110 110 220
Cuadro 2
Aplicacion del cap en una poblacién con una tasa
base baja de abuso infantil
Situacién real
Abusador No abusador Totales de fila
Los resultados del cap indican:
Abusador M1 112 153
No abusador g 838 847
Totales
de columna 50 950 1000

cuadro 2, si 82.7% de los abusadores son identificados en
forma correcta, 41 seran identificados como abusadores y
los nueve restantes como no abusadores. Si la prueba tiene
un indice de precisién de 88.2% para no abusadores, 838 de
los no abusadores seran identificados en forma correcta y
los restantes 112 como abusadores.
Ahora obsérvese de nuevo el cuadro 2, esta vez a lo
largo de las filas. Si la puntuaci6n en el cap indica que el
individuo es un abusador, es probable que sea incorrecto.
La mayorfa de las personas (73.2% de ellas, en este
ejemplo) con puntuaciones CAP que indiquen que son
abusadoras en realidad no lo son. Esta imprecisidn es
producto por completo de trabajar con una muestra de tasa
base baja. Incluso si el CAP fuera més preciso, debido a que
el abuso es un fendmeno de tasa base baja, utilizar los
resultados de la prueba para identificar abusadores
todavia daria como resultado que muchos abusadores
identificados fueran clasificados en forma errénea.
Planteado de otra manera, cuando la poblacién que no
comete abusos es mucho mayor que la poblacidn que sf lo
hace, las probabilidades son que la mayor parte de los
etrores se cometeran al clasificar a la poblacidn que no
comete abusos.
Coléquese en el lugar del juez o el jurado que se entera
de un caso de abuso fisico infantil. Un psicdlogo atestigua
que el CAP, que tiene un Indice de precisidn de 85-90%,
indica que el acusado es un abusador fisico. El psicdélogo
intenta una explicacion de las tasas base de la poblacin y
la posibilidad de error. Aun asf, qué podria perdurar en su
mente del testimonio del psicdlogo? Muchas personas
razonarian que, si el CAP es correcto mas de 85% de las
veces, y si el acusado es /dentificado como un abusador de
nifios, debe haber al menos una probabilidad de 85% de
que el acusado sea un abusadar de nifios. Esta conclusion,
como ahora lo sabe, seria incorrecta y podria dar como
resultado que se cometiera una injusticia (Melton y Limber,
1989).
Este ejemplo ilustra que debe respetarse el uso que
pretende darle a una prueba quien la elabora. Carecer de
cualquier evidencia psicométrica irresistible para desviarse
del uso pretendido por el elaborador de la prueba, tales
desviaciones pueden dar como resultado un dafio a quien
responde la prueba. El ejemplo sirve ademas como un
recordatorio de que cuando se recopilan datos sobre la
precision y la consistencia de una prueba, los datos se
recopilan usando un muestreo de personas de una
poblacién particular. Las conclusiones extraidas de esos
datos psicométricos s6lo son aplicables a grupos de
personas de una poblacidn similar.
Joel Milner, el autor del cap, ha exhortado a los
administradores de la prueba tomen en cuenta que es
inapropiado usar alguna prueba psicoldégica aislada como
un criterio de diagndstico. Milner (1991) nos recuerda que
“los datos de multiples fuentes, como varias pruebas,
entrevistas con el cliente, entrevistas colaterales,
observaciones directas e historias de caso deberian
emplearse para tomar decisiones respecto al abuso infantil
y su tratamiento" (p. 81).

Antes de ilustrar la teorfa de la decisién en accién, definiremos en forma breve, y
en forma un poco vaga, cinco términos encontrados con frecuencia en las exposicio-
nes de la teoria de la decisién aplicada a las pruebas y la medicién psicoldégica: tasa
base, indice de aciertos, indice de fallas, falso positivo y falso negativo.
Capitulo 6: Validez 203
Una fasa base puede definirse como el grado en que un rasgo, comportamiento, ca-
racteristica o atributo particular existe en la poblacién (expresado como una propor-
cion). Como se ilustra en el Acercamiento de este capitulo, debe darse una consideracién
debida a la tasa base de un atributo basado en la muestra de personas que se estd estu-
diando en la investigaci6n de validez predictiva, contra la tasa base del mismo atributo
enla poblaci6n total. En lenguaje psicométrico, un indice de aciertos puede definirse como
la proporcién de personas que una prueba identifica con precisién como poseedoras 0
que exhiben un rasgo, comportamiento, caracteristica o atributo particular. Por ejem-
plo, el “indice de aciertos” podria referirse a la proporcién de personas que se predice
con precisién que son capaces de desempefiar un trabajo en un nivel de licenciatura, ola
proporcion de pacientes neurolégicos en quienes se identifica con precisién que tienen
un tumor cerebral. Deigual modo, un indice de fallas puede definirse comola proporcién
de personas en las que una prueba falla en identificar como que tienen, ono tienen, una
caracteristica o atributo particular; una falla equivale a una predicci6n imprecisa. La
categoria de “fallas” puede subdividirse mas. Un falso positivo es una falla en la cual la
prueba predijo que quien la respondié posee la caracteristica 0 atributo particular que
se esta midiendo. Un falso negativo es una falla en la cual la prueba predijo que quien la
respondié no posee la caracteristica 0 atributo particular que se est4 midiendo.
Suponga que elaboré un procedimiento de medicion al que llam6 Prueba de Va-
por (PV), la cual fue disefiada para determinar si sujetos vivos y en buenas condicio-
nes estaban respirando en efecto. El procedimiento para la PV implica hacer que el
examinador sostenga un espejo bajo la nariz y boca del sujeto por un minuto o mas y
observe si el aliento del sujeto empafia el espejo. Digamos que se administré la PV a
100 estudiantes de introduccion a la psicologia y se concluyé que 89 estaban, de he-
cho, respirando (mientras se considera que 11, con base en la PV, no estan respirando).
éLa PV es unabuena prueba? Es obvio que no. Debido a que la tasa base es 100% de la
poblacién (viva y en buenas condiciones), en realidad ni siquiera necesitamos una
prueba para medir la caracteristica “respirando”, y si por alguna raz6n necesitdramos
un procedimiento de medici6n, es probable que no usariamos uno que fuera impreci-
so en aproximadamente 11% de los casos. Es obvio que una prueba carece de valor si
el indice de aciertos es mayor sin ser usada; una medida del valor de una prueba se
encuentra en el grado en que su uso mejora el indice de aciertos que existe sin su uso.
Como una simple ilustracién de la teoria de la decisién aplicada a las pruebas,
supOngase que una prueba es administrada a un grupo de 100 solicitantes de empleo,
y se aplica alguna puntuacién limitrofe para distinguir a los solicitantes que serén
contratados (aspirantes que se ha juzgado que han aprobado la prueba) de los aspi-
rantes cuya solicitud de empleo seré rechazada (aspirantes que se hajuzgado que han
reprobado la prueba). Y supéngase ademas que se aplicaré alguna medida criterio un
tiempo después para asegurarse de que la persona recién contratada actué correcta-
mente; si la persona recién contratada fue considerada un éxito o un fracaso en el
trabajo. En tal situacién, sila prueba es un pronosticador perfecto (si su coeficiente de
validez es igual a 1), pueden identificarse dos tipos de resultados distintos: 1) algunos
aspirantes obtendran puntuaciones iguales o mayores que la puntuacién limitrofe en
la prueba y seran exitosos en el trabajo y 2) algunos aspirantes obtendrén puntuacio-
nes por debajo de la puntuacién limitrofe y no serdn exitosos en el trabajo. Pero debi-
do a que pocas pruebas de empleo, si es que alguna, son pronosticadores perfectos,
también son posibles otros dos tipos de resultados: 3) algunos aspirantes obtendran
puntuaciones iguales o mayores que la puntuacién limitrofe, seran contratados y fa-
laran en el trabajo (el criterio) y 4) algunos aspirantes que obtuvieron puntuaciones
por debajo de la puntuacién limitrofe y no fueron contratados podrian haber sido
204 Parte 2: La ciencia de la medicién psicolégica
exitosos. Las personas que fallan en el grupo 3 podrian clasificarse como “falsos posi-
tivos” y aquellas que caen en el grupo 4 podrian clasificarse como “falsos negativos”.
En esta ilustracién, la sola légica nos dice que si la raz6n de seleccién es, digamos,
del 90% (nueve de diez aspirantes seran contratados), es probable que la puntuacién
limitrofe se haya establecido mas baja que si la razén de seleccion es de 5% (sélo cinco
de los 100 aspirantes serén contratados). Ademas, si la razén de seleccién es de 90%,
es una buena suposici6n que el ntimero de falsos positivos (personas contratadas que
fallaran en la medida criterio) sera mayor que en un caso donde la razén de seleccién
es de 5%. A la inversa, si la razon de seleccién es sdlo de 5%, es una buena suposicién
que el ntimero de falsos negativos (personas no contratadas que podrian haber tenido
éxito en la medida criterio) sera mayor que en el caso donde la raz6n de seleccién
es de 90%. La teoria de la decisién proporciona lineamientos para establecer pun-
tuaciones limitrofes éptimas. Al establecer dichas puntuaciones, con frecuencia se to-
ma en cuenta la gravedad relativa de tomar decisiones de seleccién de falsos positivos
o falsos negativos. Por tanto, por ejemplo, es una politica prudente para un funciona-
rio de personal de una aerolinea establecer puntuaciones limitrofes en pruebas para
pilotos que podrian dar como resultado un falso negativo (un piloto que en verdad
esta capacitado que es rechazado) en oposicién a una puntuacién limitrofe que permi-
tirfa-‘un falso positivo (la contratacién de un piloto que en realidad no esta capaci-
tado).
En las manos de investigadores muy experimentados, los principios de la teoria
de la decisién aplicados a problemas de utilidad de la prueba han conducido a algu-
nos hallazgos informativos e impresionantes. Por ejemplo, Schmidt, Hunter, McKenzie
y Muldrow (1979) demostraron en délares y centavos cémo la utilidad de un progra-
ma de seleccién de una compaiiia (y el coeficiente de validez de las pruebas usadas en
€se programa) puede desempenar una funcién critica en la rentabilidad de la compa-
fia. Centrandose en la poblacién de programadores de computadoras de un patrén,
estos investigadores pidieron a los supervisores que estimaran, en délares, el valor de
los buenos, promedio y malos programadores. Esta informacién se us6 junto con otra,
incluyendo estos hechos: 1) cada afio el patron contrataba 600 programadores nue-
vos, 2) el programador promedio permanecia en el empleo durante unos diez afios, 3)
la Prueba de Aptitud de Programador en uso en ese entonces como parte del proceso
de contratacién tenia un coeficiente de validez de .76, 4) cuesta alrededor de 10 ddla-
res por aspirante aplicar la prueba y 5) el patrén tenia en la actualidad un excedente
de 4 000 programadores a su servicio.
Schmidt e¢ al. (1979) hicieron varios cdlculos usando valores diferentes para algu-
nas de las variables. Por ejemplo, sabiendo que algunas de las pruebas usadas con
anterioridad.en el proceso de contrataci6n tenian coeficientes de validez que variaban
de .00 a 50, variaron el valor del coeficiente de validez de la prueba (junto con otros
factores como diferentes razones de seleccién que habian estado en efecto) y examina-
ron la eficiencia relativa de las diversas condiciones. Entre sus hallazgos estaba el
hecho de que la razén de seleccién y_el proceso de seleccién existentes proporciona-
ban una gran ganancia en eficiencia sobre una situacién anterior (cuando la razon de
seleccién era de 5% y el coeficiente de validez de la prueba usada en la contratacién
era igual a .50), una ganancia igual a casi 6 millones de délares al afio. Multiplicado
por, digamos, diez afios, nos da 60 millones de délares. La razén-de seleccién y el
proceso de selecci6n existentes proporcionaron una ganancia atin mayor en eficiencia
sobre una situacién existente con anterioridad en la que la prueba no tenia validez en
absoluto y la razon de seleccién era .80; aqui se estimé que, en un afio, la ganancia en
eficiencia era igual a mas de 97 millones de délares.
Capitulo 6: Validez 205
Por cierto, el patr6n en el estudio anterior era el gobierno de Estados Unidos.
Hunter y Schmidt (1981) aplicaron el mismo tipo de andlisis a la fuerza laboral nacio-
nal e hicieron un argumento irresistible con respecto a la relaci6n critica entre pruebas
y procedimientos de medicidn validos y la productividad nacional estadounidense.
En un estudio subsecuente, Schmidt, Hunter y sus colegas encontraron que resulta-
rian incrementos considerables en la produccién laboral o reducciones en los costos
de némina con el uso de medidas de capacidad cognoscitiva validas en lugar de pro-
cedimientos que no incluyeran pruebas (Schmidt et al., 1986).
Los patrones estan reacios a usar estrategias basadas en la teoria de la decisién en
sus practicas de contratacién debido a la complejidad de su aplicacién y al peligro de
enfrentar demandas legales (Algera et al., 1984; Dunnette y Borman, 1979; Guion, 1967;
Wiggins, 1973). Por tanto, aunque los‘enfoques de la teoria de la decisién para la eva-
luaci6n pueden ser una gran promesa, ésta todavia no se ha cumplido.
Validez de constructo
La validez del constructo es un juicio de lo apropiado de las inferencias extraidas de las
puntuaciones de prueba respecto a posiciones individuales en una variable llamada
“constructo”. Un constructo es una idea cientifica informada elaborada 0 construida para
describir 0 explicar el comportamiento. “Inteligencia” es un constructo que puede
invocarse para describir por qué un estudiante se desempefia bien en la escuela. “An-
siedad” es un constructo que puede emplearse para describir por qué un paciente psi-
quiatrico va y viene por la habitacién. Otros ejemplos de constructos

Contenido elegido para ti

54 pag.

Psicotécnica Pedagógica: Fundamentos e Importância

UNAM

102 pag.

Elaboracion-validez-y-confiabilidad-del-cuestionario-de-tipos-de-personalidad--en-una-poblacion-de-estudiantes-universitarios

tests psicologicos y entrevistas revista - Saydi Herrera

12 pag.

Validez de una Prueba - Ronald Jay Cohen y Mark E (6) Swerdlik - Capítulo 6 del Libro (2) - Carmen Ramirez

Outros

Más contenidos de este tema

Contenido elegido para ti

Psicotécnica Pedagógica: Fundamentos e Importância

Elaboracion-validez-y-confiabilidad-del-cuestionario-de-tipos-de-personalidad--en-una-poblacion-de-estudiantes-universitarios

tests psicologicos y entrevistas revista - Saydi Herrera

Evaluacion-psicologica-a-traves-de-un-instrumento-psicometrico-digital

psicotecnia - Viajeros MX

Preguntas de este disciplina

III.5. VALIDEZ DE LA PRUEBA (ÍNDICE DE VALIDEZ). Una prueba es válida cuando mide lo que pretende medir. La validez de una prueba supone la existen...

Una de las más trabajosas argumentaciones de Cohen aparece en el Capítulo 2 de su libro. Su estrategia consiste en socavar la credibilidad de la te...

¿Cuál es el capítulo del Código Civil y Comercial que establece una regulación general para la “Extinción, modificación y adecuación del contrato”?...