Logo Studenta

Validez de una Prueba - Ronald Jay Cohen y Mark E (6) Swerdlik - Capítulo 6 del Libro (2) - Carmen Ramirez

¡Este material tiene más páginas!

Vista previa del material en texto

CARLOS F. RIEGO CABRAL . BIBOTECA PeRsgua 
CAPITULO 
Validez 
E el lenguaje cotidiano, decimos que algo es valido si es sélido, significativo o esta 
bien fundado en principios 0 evidencia. Por ejemplo, hablamos de una teoria valida, 
un argumento valido o una razén valida. En terminologia legal, los abogados dicen 
que algo es valido si es “ejecutado con las formalidades apropiadas” (Black, 1979), 
como un contrato valido y un testamento valido. En cada uno de estos casos, las per- 
sonas hacen juicios basados en evidencia de la significacién o la veracidad de algo. 
Del mismo modo, en el lenguaje de la evaluacién psicologica, validez es un término 
usado conjuntamente con la significaci6n de una puntuacién de prueba, lo que en 
verdad significa la puntuacién de la prueba. 
El concepto de validez 
Planteado en forma sucinta, la palabra validez cuando se aplicaa una prueba se refiere 
a un juicio concerniente a lo bien que mide de hecho una prueba lo que pretende 
medir. De manera mas especifica, es un juicio basado en evidencia sobre lo apropiado 
de las inferencias extraidas de las puntuaciones de prueba.!Una inferencia es un resul- 
tado légico o deduccién en un proceso de razonamiento. Las caracterizaciones de la 
validez de las pruebas y las puntuaciones de prueba son expresadas con frecuencia 
con términos como “aceptable” o “débil”, reflejando un juicio de lo adecuadamente 
que se esta midiendo en realidad el atributo para cuya medicién’estaba disefada la 
prueba. En un juicio de validez hay inherente un juicio de utilidad. Un psicometrista 
respetado incluso definié la validez como lo “titil desde el punto de vista cientifico” 
que es un instrumento de medicién (Nunnally, 1978, p. 86). 
Validacion es el proceso de recopilacién y valoracion de la evidencia de validez. 
Tanto quien elabora la prueba como el administrador de la misma pueden desempe- 
far una funcion en la validacién de una prueba para un propésito especifico. Es res- 
ponsabilidad del elaborador de la prueba suministrar evidencia de la validez en el 
‘Recuérdese del capitulo 1 que la palabra prueba se usa en el sentido mas amplio posible; por consiguiente, 
puede aplicarse también a procedimientos de medicién y procesos que, estrictamente hablando, no se de- 
nominarian en forma coloquial “pruebas”. 
184
 
manual de la misma. En ocasiones puede ser apropiado para los administradores de 
la prueba realizar sus propios estudios de validacién con los grupos de personas que 
responderan la prueba. Estos estudios de validaci6n “local” son necesarios cuando el 
usuario de la prueba planea alterar de alguna manera el formato, instrucciones, len- 
guaje o contenido de la prueba (como cambiar la prueba escrita a una forma Braille). 
Los estudios de validacién local también serian apropiados cuando la prueba sera 
usada con una poblacién de personas que responderdn la prueba que difiere de algu- 
na manera significativa de la poblacidn en la que fue estandarizada. 
jComo se procede a valorar la validez de una prueba? Un prerrequisito para abor- 
dar esta cuestién es el desarrollo de una conceptualizacién mas precisa de validez. 
Una forma de conceptualizar la validez se ha dado con respecto a la siguiente taxono- 
mia de tres categorias: 
a validez de contenido 
a validez relacionada con un criterio 
a validez de constructo 
Es claro que esta perspectiva de la validez, a la que hace referencia Guion (1980) 
como la perspectiva “trinitaria”, es la que prevalece en el campo de la psicologia en la 
actualidad y lo ha sido al menos desde la década de 1950. En consecuencia, las res- 
puestas a preguntas sobre los métodos para determinar la validez de una prueba tien- 
den a ser expresadas con términos como “estrategias de validacién de contenido”, 
“estrategias de validacién relacionadas con un criterio” y “estrategias de validacién 
de constructo”. También hay referencias a otras categorias, como “validez predictiva” 
y “validez concurrente”, pero estos dos términos tienden a hundirse bajo la categoria 
mas general de “validez relacionada con un criterio”. 
Dentro del contexto de la taxonomia de tres categorias, la validez de una prueba 
puede evaluarse 1) examinando a fondo su contenido, 2) relacionando las puntuacio- 
nes obtenidas en la prueba con otras puntuaciones de prueba u otras medidas y 3) rea- 
lizando un anilisis general no sélo de la forma en que las puntuaciones de la prueba se 
relacionan con otras puntuaciones de prueba y medidas sino también en la forma en 
que pueden entenderse dentro de algtin marco teérico para comprender el constructo 
al que la prueba est disefiada a medir. Estos tres enfoques para la evaluacién de la va- 
lidez no son mutuamente excluyentes; cada uno deberd considerarse como un tipo de 
evidencia que, con otras, contribuye a un juicio de la validez de la prueba. Los tres tipos 
deevidencia de validez proporcionan un panorama unificado dela validez de una prue- 
ba, aunque un administrador de pruebas puede no necesitar conocer los tres tipos de 
evidencia de validez. Dependiendo del uso que se le vaya a dar a la prueba, uno u otro 
de estos tres tipos de evidencia de validez puede no ser tan relevante como el siguiente. 
Algunos autores han expresado preocupaciones respecto a la conceptualizaci6én 
trinitaria tradicional de validez (Landy, 1986; Messick, 1995). Messick, por ejemplo, 
condené este enfoque como fragmentado e incompleto. Pidié una perspectiva unita- 
ria de la validez, una que tome en cuenta todo desde las implicaciones de las puntua- 
ciones de prueba en funcién de valores sociales hasta las consecuencias del uso de la 
prueba. Messick describié la validez como un “valor social sobresaliente” que “asu- 
me una funcién tanto cientifica como politica que por ningtin medio se cumple con un 
simple coeficiente de correlacién entre las puntuaciones de prueba y un pretendido 
criterio (es decir, la validez clasica relacionada con un criterio) o por juicios expertos 
de que el contenido de la prueba es relevante para el uso propuesto de la prueba (es 
decir, validez de contenido tradicional)” (1995, p. 742). Conforme aprende mas sobre 
la “validez clasica relacionada con un criterio”, la “validez de contenido tradicional” 
Capitulo 6: Validez 185
y otras conceptualizaciones tradicionales de validez, estara en una mejor posicién 
para valorar su utilidad general, asi como el grado en que dichas conceptualizaciones 
representan valores y juicios sociales. Y hablando de valores y juicios sociales, comen- 
zaremos con una mirada a una variedad de validez que ha “recibido poca atencién, y 
atin menos respeto, de los examinadores de la validez del constructo de las pruebas y 
medidas psicolégicas” (Bornstein et al., 1994, p. 363). Como caracterizan en forma 
acertada Bornstein et al. (1994), es la “Rodney Dangerfield de las variables psicométri- 
cas” (p. 363). Es la validez aparente. 
Validez aparente 
La validez aparente se relaciona més con lo que la prueba parece medir que con lo que 
en realidad mide. La validez aparente es un juicio concerniente a lo relevantes 
que parecen ser los reactivos de la prueba. Planteado de otra forma, si una prueba 
parece medir en forma clara lo que pretende medir “a primera vista”, podria decirse 
que tiene una validez aparente alta. Una prueba de personalidad por escrito denomi- 
nada “La Prueba de Introversién/Extroversién” con reactivos que preguntan a quie- 
nes la responden si han actuado de una manera introvertida o extrovertida en 
situaciones particulares sera percibida como una prueba con validez aparente alta por 
quienes la responden. Por otra parte, una prueba de personalidad en la que a quienes 
la responden se les hacen preguntas sobre una variedad de manchas de tinta puede 
ser percibida por lo general como una prueba con validez aparente baja; sin duda 
muchos de quienes la responden se preguntarian cémo diablos lo que dicen que vie- 
ron en las manchas de tinta tiene algo quever en realidad con la personalidad. 
En contraste con los juicios concernientes a la confiabilidad de una prueba yala 
validez de contenido, constructo o relacionada con un criterio de una prueba, los jui- 
cios concernientes a la validez aparente de una prueba son considerados con fre- 
cuencia desde la perspectiva de quien responde la prueba en oposicién a la del admi- 
nistrador de la prueba. Es concebible que la falta de validez aparente podria contri- 
buir a una falta de confianza con respecto a la efectividad percibida de la prueba, con 
una disminucién consecuente en la motivacién de quien la responde para hacer su 
mejor esfuerzo. Ademés, los padres pueden objetar el que sus hijos sean examinados 
con dicho instrumento. Su preocupacién podria derivarse de una creencia de que di- 
cha prueba dara como resultado conclusiones invélidas. Una prueba en realidad pue- 
de ser muy relevante y «itil en un contexto particular, pero sino es percibida como tal 
por los examinandos, pueden resultar consecuencias negativas (que pueden variar 
desde una actitud negativa para responder la prueba hasta una demanda legal). Des- 
de la perspectiva del administrador de la prueba, la validez aparente también puede 
ser importante ya que contribuye (o deja de contribuir) a la confianza del administra- 
dor en la prueba. Por consiguiente podemos concluir que la validez aparente puede 
tener valor de rp. (relaciones publicas) tanto para quienes responden la prueba como 
para los usuarios de la prueba. Sin embargo, la validez aparente de una prueba, la 
simple apariencia de validez, no es una base aceptable para hacer inferencias inter- 
pretativas a partir de las puntuaciones de la prueba (APA, 1974, p. 26). 
Validez de contenido 
La validez de contenido describe un juicio concerniente a lo adecuado del muestreo que 
hace una prueba del comportamiento representativo del universo de comportamien- 
186 Parte 2: La ciencia de la medicién psicolégica
to del que la prueba estaba disefiada para tomar una muestra. Por ejemplo, el univer- 
so de comportamiento denominado como “asertivo” es muy amplio. Una prueba de 
asertividad escrita de contenido valido seria una que fuera representativa de manera 
adecuada de estas situaciones de rango tan amplio. Podriamos esperar que dicha prue- 
ba contendria reactivos que hicieran un muestreo de situaciones hipotéticas en el ho- 
gar (como si quien responde tiene dificultad para dar a conocer sus opiniones a otros 
miembros de la familia), en el trabajo (como si quien responde tiene dificultad para 
hacer que sus subordinados hagan lo que se requiere de ellos) y en situaciones socia- 
les (como si quien responde regresaria un corte de carne que no estuviera cocido en el 
término que él pidié en un restaurante de Lujo). 
Con respecto a las pruebas de rendimiento educativo, se acostumbra considerar a 
una prueba como una medida con contenido valido cuando la proporcién de material 
cubierto por la prueba se aproxima a la proporcién de material cubierto en el curso. 
Un examen final acumulativo sobre introduccion a la estadistica se consideraria con 
un contenido valido sila proporcin y tipo de problemas de introduccién a la estadis- 
tica en la prueba se aproxima a la proporcién y tipo de problemas de introduccién a la 
estadistica presentados en el curso. 
Las primeras etapas de una prueba que se esta elaborando para su uso en el salon 
de clases, ya sea en un salon de clases 0 aquellas que se realizan a lo largo del estado 
o de la nacién, generalmente implican una investigacién que explora el universo de 
objetivos de instruccién posibles para el curso. Se incluyen entre las muchas fuentes 
posibles de informacién sobre dichos objetivos los programas de estudio del curso, 
los libros de texto, los maestros, los especialistas que elaboran los planes de estudio 
y los profesores y supervisores que capacitan a los maestros en el 4rea tematica parti- 
cular. De la informacion reunida (junto con el juicio del elaborador de 1a prueba), 
surge un proyecto para la estructura de la prueba, un proyecto que representa la cul- 
minacion de esfuerzos disefiados para obtener una muestra adecuada del universo de 
areas de contenido que podrian ser susceptibles de muestreo en una prueba asi? 
Para que una prueba de empleo tenga un contenido valido, éste debe ser una 
muestra representativa de las habilidades relacionadas con el trabajo requeridas para 
el empleo. Una técnica usada con frecuencia para hacer proyectos de las areas de 
contenido que se van a abarcar en ciertos tipos de pruebas de empleo es la observa- 
cién. El elaborador de la prueba observara a veteranos exitosos en ese trabajo, notara 
las conductas necesarias para el éxito y disefiard la prueba para incluir una muestra 
representativa de dichas conductas. Esos mismos trabajadores (al igual que sus su- 
pervisores y otros) pueden ser Ilamados después para actuar como expertos 0 jueces 
para estimar el grado en que el contenido de la prueba es una muestra representativa 
de las habilidades relacionadas que se requieren en el trabajo. Lo que sigue es un 
método para cuantificar el grado de acuerdo entre dichos evaluadores. 
La cuantificaci6n de la validez de contenido 
La medicién de la validez de contenido es importante en escenarios laborales, donde 
las pruebas usadas para contratar y promover personas son examinadas en forma me- 
ticulosa respecto a su relevancia para el trabajo. Recuérdese del capitulo 2 que los tribu- 
2La aplicacién del concepto de proyecto y elaboracion de proyectos no se limita, por supuesto, a las pruebas 
de rendimiento. La elaboracién de proyectos puede ser usada en el disefio de una prueba de personalidad, 
una medida de actitud o cualquier otra prueba, empleando en ocasiones los juicios de expertos 
en el campo. 
Capitulo 6: Validez 187
nales a menudo requieren evidencia de que las pruebas de empleo estan relacionadas 
con el trabajo. Es probable que en parte en respuesta a esta presion legal, y sin duda 
también por una preocupacion por la calidad de las pruebas de empleo, se han creado 
métodos para cuantificar la validez de contenido. Uno de estos métodos fue elaborado 
por Lawshe (1975), quien propuso una formula simple para cuantificar el grado de 
consenso pidiendo a un grupo de expertos que determinen la validez de contenido 
de una prueba de empleo. Este método se ha usado para evaluar muchas pruebas rela- 
cionadas con el empleo, tan diversas como valoraciones de la capacitacion de policias 
(Ford y Wroten, 1984) y medidas del comportamiento laboral de los asistentes psiquia- 
tricos (Distefano et al., 1983). El método también puede aplicarse a otras situaciones que 
tequieran que un grupo de expertos emita algtin juicio, como enel examen dela validez 
de contenido de pruebas de rendimiento matematico (Crocker et al., 1988). 
Sin tener en cuenta la aplicacién especifica, el enfoque de Lawshe (1975) para la 
cuantificacion de la validez de contenido incluye a un grupo de jueces. Cada miembro 
del jurado responde a la siguiente pregunta para cada uno de varios reactivos: “La 
habilidad o conocimiento medido por este reactivo es 
@ esencial 
a util pero no esencial 
B nonecesaria 
para el desempenio del trabajo?” (p. 567). Para cada reactivo, se anota el ntimero de 
miembros del jurado que afirma que el reactivo es esencial. De acuerdo con Lawshe, 
si mas de la mitad de los miembros del jurado indica que un reactivo es esencial, ese 
reactivo tiene al menos alguna validez de contenido. Existen niveles mayores de vali- 
dez de contenido conforme cantidades mayores de expertos concuerdan en que un 
reactivo particular es esencial. Usando estas suposiciones, Lawshe desarrollé una 
férmula denominada razén de validez de contenido: 
n,-N/2 
N/2 
donde CVR = razén de validez de contenido, n, = numero de expertos que indican 
“esencial” y N = nimero total de expertos. Suponiendo que un jurado consiste de diez 
expertos, los siguientestres ejemplos ilustran el significado de la CVR cuando es ne- 
gativa, cero y positiva. 
CVR= 
1. CVR negativa: cuando menos de la mitad de los expertos indica “esencial”, la 
CVR es negativa. Supéngase que cuatro de diez expertos indicaron “esencial”: 
4-(10/2) | 
10/2 
CVR= 
2. CVR cero: cuando exactamente la mitad de los expertos indica “esencial”, la 
CVR es cero: 
see ae 
10/2 
3. CVR positiva: cuando més de la mitad pero no todos los expertos indican 
“esencial”, la CVR varia entre .00 y .99. Supéngase que nueve de diez indicaron 
“esencial”: 
CVR 0 
_ 9- (10/2) _ 
10/2 
CVR .80 
188 Parte 2: La ciencia de la medici6n psicolégica
Cuadro 6.1 Nimero de expertos Valor minimo 
 
Valores minimos de la razon de validez de 5 99 
contenido para asegurar que es improbable 6 99 
que el acuerdo se deba al azar 7 99 
8 15 
g 18 
10 62 
11 59 
12 96 
13 04 
14 51 
15 Ag 
20 42 
25 Bs 
30 og 
35 31 
40 -2g 
 
Puente: Lawshe (1975) 
Al validar una prueba, se calcula la razén de validez de contenido para cada 
reactivo. Lawshe (1975) recomienda que si la cantidad de acuerdo observado tiene 
una probabilidad de mas de 5% de ocurrir al azar, el reactivo deberia eliminarse. Los 
valores minimos de la CVR correspondientes a este nivel de 5% se presentan en el 
cuadro 6.1. En el caso en que haya diez expertos, un reactivo necesitaria una CVR 
minima de .62. En nuestro tercer ejemplo (aquel en que nueve de diez expertos con- 
cordaron), la CVR de .80 es significativa; por tanto el reactivo podria conservarse. En 
lo subsecuente, en nuestra exposicién de la validez con base en criterios, nuestra 
atenci6én cambia a un indice de validez que no se basa en el contenido de la prueba, 
sino en las puntuaciones. Primero, alguna perspectiva sobre la cultura y su relacién 
con la validez de una prueba. 
La cultura y lo relativo a la validez de la prueba 
Las pruebas a menudo se consideran ya sea como validas o invalidas. Una prueba de 
historia, por ejemplo, mide o no mide con precisién un hecho histérico. Sin embargo, 
también es cierto que lo que constituye un hecho histérico depende en algunos casos 
de quién esta escribiendo la historia. Considérese, por ejemplo, un evento de los mas 
trascendentales en la historia del mundo, uno que sirvi6 como un catalizador para la 
primera guerra mundial. El archiduque Francisco Fernando fue asesinado el 28 de 
junio de 1914 por un serbio llamado Gavrilo Princip (figura 6.1). Ahora piense en 
cémo responderia el siguiente reactivo de opcién multiple en una prueba de historia: 
Gavrilo Princip fue 
a) un poeta. 
b) un héroe. 
c) un terrorista. 
d) un nacionalista. 
€) todo lo anterior. 
“ae 
Para varios libros de texto en la regién bosnia del mundo, la opcién “e”, —eso es, 
todo lo anterior—, es la respuesta “correcta”. De acuerdo con Hedges (1997), los libros 
Capitulo 6: Validez 189
 
Figura 6.1 
Relatividad cultural, historia y validez de la prueba 
El austrohtingaro Francisco Fernando y su esposa Sofia fueron retratados (izquierda) cuando salian del 
Ayuntamiento de Sarajevo el 28 de junio de 1914. Momentos después, Fernando seria asesinado por 
Gavrilo Princip, mostrado bajo custodia a la derecha. El asesinato sirvidé como un catalizador para la 
primera guerra mundial y se expone y analiza en los libros de texto de historia en todos los idiomas del 
mundo. Pero las descripciones del asesino Princip en esos libros de texto, y en los reactivos de las 
pruebas de capacidad basadas en esas descripciones, varian como una funcion de la cultura. 
de texto en 4reas de Bosnia y Herzegovina que son controladas por diferentes grupos 
étnicos imparten caracterizaciones muy variadas del asesino. En la regién del pais 
controlada por los serbios, los libros de texto de historia, y es de suponerse que tam- 
bién las pruebas elaboradas para medir el aprendizaje de los estudiantes, consideran 
a Princip como un “héroe y poeta”. Por el contrario, los estudiantes croatas leen que 
Princip fue un asesino entrenado para cometer un acto terrorista. A los musulmanes 
en la region se les ensefia que Princip fue un nacionalista cuya hazafia encendié los 
disturbios antiserbios. 
Por increible que pueda parecerles a los occidentales, a los estudiantes en Bosnia 
y Herzegovina se les ensefian en la actualidad diferentes versiones de historia, arte y 
lenguaje dependiendo de su origen étnico. Esta situaci6n ilustra con un relieve marca- 
do la influencia de la cultura en lo que se ensefia a los estudiantes, al igual que en 
aspectos de la construcci6n, calificacion, interpretacién y validacién de pruebas. La 
influencia de la cultura se extiende por tanto a juicios concernientes a la validez de 
pruebas y reactivos de pruebas. Pueden observarse diferencias en los juicios concer- 
nientes a la validez de las pruebas y de los reactivos de pruebas de un pais a otro a lo 
largo del mundo y, en algunos casos, incluso de un salon de clases a otro. Lo que se 
considera una prueba de historia valida en un salon de clases no sera considerada asi 
en otro. Es mas, las interpretaciones hechas con base en las respuestas de quien res- 
ponde la prueba variaran como una funcién de la cultura. Asi, por ejemplo, los estu- 
diantes croatas en Bosnia que seleccionen la opcién “b” (héroe) para el reactivo de 
prueba anterior pueden hacer algo mas que disminuir sus puntuaciones en la prueba 
190 Parte 2: La ciencia de la medicién psicologica 
Fo
to
gr
af
ia
s 
de
 
Un
it
ed
 
Pr
es
s 
In
te
rn
de historia; pueden atraerse un escrutinio indeseable, si no es que una investigacion 
formal, respecto a sus lealtades politicas. Estos escenarios dan nuevo significado al 
término “politicamente correcto” en su aplicacién a las pruebas, de los reactivos y las 
respuestas de quienes las responden. 
La regién bosnia dificilmente es tinica en este sentido. Considérese en este contex- 
to un segmento del programa 60 Minutes titulado “Brother Against Brother”, transmi- 
tido por primera vez el 7 de diciembre de 1997. El corresponsal Ed Bradley reporto el 
caso de un profesor palestino que incluia preguntas respecto a la corrupcion guberna- 
mental en un examen. La autoridad palestina respondié interrogando, confinando y 
torturando al profesor, todo por el interés de mantener la “validez de contenido” apro- 
bada por el gobierno en los exA4menes universitarios. 
Validez relativa al criterio 
La validez relativa al criterio es un juicio respecto a lo adecuado que puede ser el uso de 
una puntuacién de prueba para inferir la posicién mas probable del individuo en 
alguna medida de interés, siendo la medida de interés el criterio. Dos tipos de eviden- 
cia de validez se incluyen bajo el encabezado de “validez con base en criterios”. La 
validez concurrente es la forma de validezrelacionada con un criterio que es un indice 
del grado en que una puntuacién de prueba se relaciona con alguna medida criterio 
obtenida al mismo tiempo (en forma concurrente). La validez predictiva es la forma de 
validez relacionada con un criterio que es un indice del grado en que una puntuacion 
de prueba predice alguna medida criterio. Antes de que expongamos cada uno de 
estos tipos de evidencia de validez en detalle, parece apropiado plantear (y respon- 
der) una interrogante importante. 
éQué es un criterio? 
Un criterio puede definirse en forma amplia como la norma contra la cual es valorada 
una prueba o una puntuacién de prueba. Desde el punto de vista operativo, un crite- 
tio puede ser casi cualquier cosa: “desempefio del piloto al volar un Boeing 767”, 
“calificacion en el examen de Peinados Avanzados”, “nitimero de dias pasados en 
hospitalizacién psiquidtrica’”. En resumen, no hay reglas inflexibles para lo que consti- 
tuye un criterio; puede ser un comportamiento especifico o un grupo de comporta- 
mientos, una puntuacién de prueba, una cantidad de tiempo, una estimacion, un 
diagnéstico psiquiatrico, un costo de capacitacién, un indice de ausentismo, un indicede intoxicacién alcohélica, etc. Pero aunque un criterio puede ser casi cualquier cosa, 
de manera ideal es confiable, relevante, valido y no esta contaminado. 
Caracteristicas de un criterio Como las puntuaciones de prueba, las puntuaciones cri- 
terio deben ser confiables. La confiabilidad del criterio y la confiabilidad de la prueba 
limitan cada una la magnitud del coeficiente de validez de acuerdo con la siguiente 
relacién tedrica: 
Pe aNA(E )(r,,) 
xy xx 
Aqui, Tye el coeficiente de validez (la correlacién entre la prueba y el criterio), r,, es la 
confiabilidad de la prueba y r,, es la confiabilidad del criterio. La formula se lee como 
sigue: el coeficiente de validez es menor 0 igual que la raiz cuadrada del coeficiente de 
confiabilidad de la prueba multiplicado por el coeficiente de confiabilidad del criterio. 
Capitulo 6: Validez 191
También es relevante un criterio adecuado. Es de esperar, por ejemplo, que una 
prueba que pretende decirnos algo sobre la aptitud de un individuo para una carrera 
en psicologia se haya validado usando alguna especie de criterio que incluya datos 
obtenidos de psicélogos. 
Una medida criterio adecuada también debe ser valida para el propésito para el 
que se esta usando. Si una prueba (X) se est4 usando como el criterio para validar una 
segunda prueba (Y), entonces debe existir evidencia de que la prueba X es valida. Si el 
criterio usado es una estimacién hecha por un juez o por un grupo de expertos, enton- 
ces debe existir evidencia de que la estimacién es valida. Si, por ejemplo, un manual de 
prueba para una prueba diagnéstica de personalidad reporté que la prueba habia sido 
validada usando un criterio de “diagnésticos hechos por un grupo de expertos galar- 
donados en psicodiagnéstico”, el administrador dela prueba podria desear investigar 
mas a fondo, ya sea leyendo en el manual o escribiéndole al editor de la prueba, respec- 
toa variables como 1) las definiciones especificas de términos y categorias diagnésticas, 
2) lanaturaleza precisa de los antecedentes, capacitacién y experiencia del “grupo de 
expertos galardonados” y 3) la naturaleza y extension del contacto fuera de la prueba 
de los miembros del grupo de expertos con los sujetos diagnosticados. 
De manera ideal, un criterio tampoco est4 contaminado. La contaminacién del crite- 
vio es el término aplicad » a una situacién donde la medida criterio en si se ha basado, 
al menos en parte, en medidas de prediccién. Supéngase que acabamos de completar 
un estudio de la precisién con la que una prueba llamada MMPI predijo diagnésticos 
psiquiatricos en la poblacién psiquiatrica del sistema de hospitales estatales de 
Minnesota. En este estudio, quien leva a cabo el pronéstico es el MMPI y el criterio es 
el diagndstico psiquidtrico que existe en el expediente del paciente. Supongamos ade- 
mas que, mientras estamos en el proceso de anilisis de nuestros datos, alguien nos 
intorma que el diagnéstico para cada paciente en el sistema de hospitales estatales de 
Minnesota fue determinado, al menos en parte, por una puntuacién de prueba del 
MMPI. ;Aun deberiamos proseguir con nuestro analisis? La respuesta, por supuesto, 
es no; debido a que la medida pronosticadora ha contaminado a la medida criterio, 
seria de poco valor averiguar que, en esencia, quien lleva a cabo el pronéstico en 
efecto puede predecirse a si mismo. 
Validez concurrente 
Si las puntuaciones de prueba se obtienen mds o menos al mismo tiempo que las 
medidas criterio, las medidas de la relacién entre las puntuaciones de prueba y el 
criterio proporcionan evidencia de validez concurrente. Las declaraciones de validez 
concurrente indican el grado en que las puntuaciones de prueba pueden ser usadas 
para estimar la posicién presente de un individuo en un criterio. Si, por ejemplo, las 
puntuaciones (o clasificaciones) hechas con base en una prueba de psicodiagnéstico 
fueran a ser validadas contra un criterio de pacientes psiquidtricos ya diagnosticados, 
el proceso seria uno de validacién concurrente. En general, una vez que se ha estable- 
cido la validez de la inferencia de las puntuaciones de prueba, la prueba puede pro- 
porcionar una forma més rapida y menos costosa para ofrecer un diagnéstico o una 
decision de clasificacion. Una prueba con una validez concurrente demostrada en 
forma satisfactoria puede por tanto ser muy atractiva para usuarios futuros porque 
ofrece el potencial de ahorrar dinero y tiempo profesional; qué administrador, por 
ejemplo, no preferiria usar una prueba escrita barata si pudiera obtener los mismos 
resultados con esta prueba que por medio del uso de personal de salud mental muy 
192 Parte 2: La ciencia de la medicién psicolégica
capacitado (quienes podrian dedicar su tiempo en forma més eficiente y valiosa ha- 
ciendo otras cosas, como realizando investigaci6n o terapia)? 
En ocasiones se explora la validez concurrente de una prueba particular (a la que 
llamaremos prueba A para los propésitos de este ejemplo) con respecto a la forma en 
que se compara con otra prueba (a la que llamaremos prueba B). En tales estudios, la 
investigaci6n anterior ha demostrado en forma satisfactoria la validez de la prueba B 
y la pregunta de interés se vuelve “;Qué tan bien se compara la prueba A con la prue- 
ba B?” Aqui, la prueba B se usa como lo que se conoce como el “criterio de valida- 
cién”. En algunos estudios, la prueba A es ya sea una prueba nueva o una prueba que 
se esté usando para algtin propésito nuevo, quiza con una poblacién nueva. En el 
ejemplo de un estudio de validez concurrente que sigue, un grupo de investigadores 
exploré si una prueba que habia sido validada para su uso con adultos podria ser 
usada con adolescentes. 
El Inventario de Depresién Beck (Beck Depression Inventory; BDI; Beck et al., 1961, 
1979; Beck y Steer, 1993) y su revisién, el Inventario de Depresion Beck-II (BDI-II; Beck 
et al., 1996) son medidas de informe personal usadas para identificar sintomas de 
depresi6on y cuantificar su gravedad. E] BDI-II es una de varias pruebas elaboradas por 
Aaron Beck y sus colegas (véase la Instantdnea de un elaborador de pruebas de este capi- 
tulo). Aunque el BDI se habia usado en forma amplia con adultos, se plantearon inte- 
rrogantes respecto a lo apropiado de su uso con adolescentes. Ambrosini et al. (1991) 
realizaron un estudio de validez concurrente para explorar la utilidad del BDI con 
adolescentes. También buscaban determinar si la prueba podia diferenciar con éxito a 
pacientes con depresién de aquellos sin depresién en una poblacién de pacientes ex- 
ternos adolescentes. Los diagndésticos generados con la administracién concurrente 
de un instrumento validado antes para su uso con adolescentes (la Lista de Trastornos 
Afectivos y Esquizofrenia de Kiddie; Kiddie-Schedule for Affective Disorders and 
Schizophrenia) se usaron como los validadores criterio. Los resultados sugiricron que 
el BDI es valido para ser usado con adolescentes. 
Ahora dirigiremos nuestra atencién a otra forma de validez de criterio, una en la 
que la medida criterio no se obtiene en forma concurrente sino en algtiin momento 
futuro. 
Validez predictiva 
Las puntuaciones de prueba pueden obtenerse en un momento y las medidas criterio 
obtenerse en un momento futuro, después de que ha tenido lugar algiin evento inter- 
medio (como una capacitacién, experiencia, terapia, medicacién o tan sélo el paso del 
tiempo). Las medidas de la relacién entre las puntuaciones de prueba y una medida 
criterio obtenida en un momento futuro proporcionan un indicio de la validez predictiva 
de la prueba; es decir, con cudnta precisién las puntuaciones de la prueba predicen 
alguna medida criterio. Las medidas de la relacién entre las pruebas de admision a la 
universidad y el promedio de calificaciones al final del primer afio, por ejemplo, pro- 
porcionan evidencia de la validez predictiva de las pruebas de admisi6n. 
En escenarios donde podrian emplearse pruebas, como una agenciade colocacio- 
nes, una oficina de admisiones a la universidad o la oficina de un alcaide, la validez 
predictiva alta de una prueba puede ser un auxiliar muy util para quienes toman deci- 
siones para seleccionara estudiantes exitosos, trabajadores productivoso convictos que 
son buenos prospectos para salir bajo palabra. El que un resultado de pruebasea valioso 
paratomaruna decisién depende delobien que los resultados mejoren las decisiones de 
seleccién sobre aquellas decisiones tomadas sin conocimiento de los resultados de la 
Capitulo 6: Validez 193
> INSTANTANEA DE UN ELABORADOR DE PRUEBA 
Aaron T. Beck, M.D. 
Prueba de Autoconcepto de Beck 
Escala de Actitud Disfuncional 
Escala de Autonomia Sociotrépica 
"L: elaboracién de pruebas psicolégicas requiere de mucha 
paciencia. Los reactivos rara vez pueden redactarse sin 
sutrir una revisién extensa. Tienen que realizarse 
numerosas pruebas piloto antes de que surja un 
instrumento aceptable. Aun entonces, lo adecuado de tal 
instrumento es efimero, debido a la continua redefinicion 
de las constelaciones especificas que constituyen ciertos 
sindromes psiquiatricos. Quien elabora las pruebas debe 
estar siempre vigilante de que su instrumento refleje lo 
que los pacientes estan experimentando en la actualidad... 
Se aconseja a los futuros elaboradores de pruebas que 
pidan a los que responden descripciones literales de 
cualesquier constructos psicolégicos que deseen evaluar. 
EI proceso de elaboracion de la prueba es una tarea 
tediosa, que requiere de mucha paciencia y resistencia. No 
hay una edicién final de una prueba: siempre aguarda la 
siguiente version.” 
 
Pruebas elaboradas: 
Inventario de Ansiedad de Beck 
Inventario de Depresién de Beck 
Escala de Desesperanza de Beck 
af mea Extractado del Test Developer Profile publicada en Cohen (1999) y en Escala para Ideacién Suicida de Beck Internet en wuw.mayfieldpub.com/psychtesting. 
 
prueba. En unescenario industrial donde el volumen de produccién es importante, siel 
uso de una prueba deseleccién de personal puede tener elefectodeaumentarla produc- 
tividad incluso en un grado pequenio, el aumento enla productividad redituara afiocon 
afio y puede traducirse en millones de délares de incremento en las ganancias. Yen un 
contexto clinico, no podria ponerse ningtin precio a una prueba que tiene el efecto de 
salvar mas vidas del suicidio u homicidio sila prueba pudiera proporcionar una preci- 
sidn predictiva superior a las pruebas existentes con respecto a tales actos. Por desgra- 
cia, las dificultades inherentes en la elaboracién de dichas pruebas son numerosas y 
multifacéticas (véase Mulvey y Lidz, 1984; Murphy, 1984; Petrie y Chamberlain, 1985). 
Los juicios de la validez relacionada con un criterio, sea concurrente 0 predictiva, 
se basan en dos tipos de evidencia estadistica: el coeficiente de validez y los datos de 
expectativa. 
El coeficiente de validez El coeficiente de validez es un coeficiente de correlacién que 
Proporciona una medida de la relacién entre las puntuaciones de prueba y las pun- 
tuaciones en la medida criterio. El coeficiente de correlacién calculado a partir de una 
puntuaci6n (0 clasificacién) en una prueba psicodiagnéstica y la puntuaciéon (0 clasi- 
ficaci6n) criterio asignada por psicodiagnosticadores es un ejemplo de un coeficiente 
de validez. Normalmente, se usa el coeficiente de correlacién de Pearson para deter- 
minar la validez entre las dos medidas. Sin embargo, dependiendo de variables como 
el tipo de datos, el tamafio de la muestra y la forma de la distribucién, podrian usarse 
otros coeficientes de correlacién. Por ejemplo, al examinar jerarquizaciones hechas 
194 Parte 2: La ciencia de la medicién psicolégica
por uno mismo del desempefio en algiin trabajo con las jerarquizaciones hechas por 
supervisores laborales, se emplearia la formula para la correlaci6n de orden de jerar- 
quia rho de Spearman. 
Como el coeficiente de confiabilidad y otras medidas de correlacién, el coeficiente 
de validez es afectado por la restriccién o inflacién del rango. Y, como en otros estu- 
dios correlacionales, una cuestidn clave es si el rango de puntuaciones empleado es 
apropiado para el objetivo del andlisis correlacional. En situaciones donde, por ejem- 
plo, ha ocurrido una disminucion en el ntimero de sujetos en el transcurso del estu- 
dio, el coeficiente de validez puede ser afectado en forma adversa. Para ilustrar esto, 
supéngase que un psicélogo clinico que trabaja en la sala de emergencias psiquiatri- 
cas de un hospital municipal ha elaborado una prueba nueva Ilamada.“Inventario de 
Clasificacién Psicodiagnéstica Muy Breve” (ICPMB). El psicélogo plantea la hipdtesis 
de que la puntuacién o clasificacién de un paciente en esta prueba (hipotética) sera 
predictiva del diagnéstico en la grafica del paciente siete dias después del dia en que 
se le aplicd. Debido a que sélo toma un minuto o dos aplicarla (en verdad es muy 
breve), a todas las personas que se presentan en la sala de emergencias psiquiatricas 
(o que son Ilevadas a ella) se les aplica la prueba como parte de un estudio de valida- 
cién. El estudio se lleva a cabo durante un mes, al final del cual se calcula un coeficien- 
te de validez estadisticamente significativo describiendo la relacion entre la puntuacién 
ICPMB y el diagnéstico criterio. ;El psicélogo deberia acudir de inmediato a la oficina 
de un editor de pruebas con el ICPMB en mano? 
No necesariamente, al menos no hasta que se hayan analizado los efectos de la 
disminucién, si es que hay alguna, en la muestra. Los hallazgos impresionantes del 
ICPMB bien podrian ser un artefacto de dicha disminuci6n, y podrian interpretarse con 
més precisién como un reflejo del hecho de que el ICPMB es un pronosticador preciso 
del diagnéstico psiquiatrico sélo para condiciones que se encuentran en el rango me- 
dio de la psicopatologia; puede ser que uno no sea capaz de decir a partir del disefio de 
este estudio qué tan buen pronosticador es el ICPMB en los rangos extremos. Aqui esta 
por qué: si la sala de emergencias psiquidtricas del hospital municipal en el que se 
realizé el estudio es tipico como otros, los pacientes menos trastornados habran sido 
dados de alta después de un dia o dos, y por consiguiente seran eliminados de la mues- 
tra. Puede esperarse que la disminucién de la muestra no s6lo ocurra con respecto a los 
pacientes menos trastornados sino también en el otro extremo; muchos de los pacien- 
tes con trastornos severos habran sido transferidos a un hospital estatal antes de que 
transcurran siete dias a partir del momento de su admisi6n inicial. Debido a que los 
datos para los sujetos restantes s6lo representan el rango medio de la amplia gama de 
tipos psicodiagnésticos que pudieran encontrarse en una sala de emergencias psiquia- 
trica, es probable que la medida reportada de la validez del ICPMB sea reducida? 
El problema del rango restringido puede ocurrir a través de un proceso de 
autoseleccién en la muestra empleada para el estudio de validaci6n. Por tanto, por 
ejemplo, sila prueba pretende medir algo tan técnico o peligroso como la aptitud para 
combatir incendios en un barco petrolero, bien puede ser que las tinicas personas que 
respondan aun anuncio para el puesto de bombero en un barco petrolero sean aque- 
llas que en realidad estén muy calificadas para el puesto; por consiguiente, esperaria- 
mos que el rango de la distribucién de puntuaciones en alguna prueba de aptitud 
para combatir incendios en un barco petrolero sea restringido. Para puestos menos 
técnicos o peligrosos, un factor de autoseleccién podria estar operando si quien elabo- 
3 Una exposicién mas detallada de la influencia en los coeficientes de correlacién de 1) la restriccién del 
rango y 2) la combinacién de datos de grupos diferentes puede encontrarse en Allen y Yen (1979, pp. 34-36). 
Capitulo 6: Validez 195
ra de la prueba selecciona a un grupo de empleados recién contratadospara exami- 
narlos (con la esperanza de que se dispondra de medidas criterio para este grupo en 
alguna fecha subsecuente). Sin embargo, debido a que es probable que los empleados 
recién contratados ya hayan pasado por alguna valoracién formal o informal en el 
proceso de ser contratados, hay una buena probabilidad de que la capacidad entre 
este grupo sera mayor que la capacidad para hacer el trabajo entre una muestra aleatoria 
de aspirantes a empleos ordinarios. En consecuencia, las puntuaciones en la medida 
criterio que es aplicada posteriormente tenderén a ser superiores que las puntuacio- 
nes en la medida criterio obtenida de una muestra aleatoria de aspirantes a empleos 
ordinarios; planteado de otra manera, las puntuaciones tendran un rango restringido. 
Mientras que es responsabilidad de quien elabora la prueba reportar datos de 
validacién en el manual de la prueba, es responsabilidad de los administradores de la 
prueba leer con cuidado la descripcién del estudio de validacion y valorar la adecua- 
cién de la prueba para sus propdsitos especificos. ;Cudles fueron las caracteristicas de 
la muestra usada en el estudio de validacién? ;Cémo se equiparan estas caracteristi- 
cas con las personas para quienes se esta contemplando una aplicacién de la prueba? 
éAlgunas subpruebas de una prueba son mas apropiadas para un propésito especifi- 
co de la prueba que la prueba misma? 
Qué tan alto deberia ser un coeficiente de validez para que un administrador oun 
elaborador de pruebas infieran que la pruebaes valida? No hay reglas para determinar 
el rango minimo aceptable de un coeficiente de validez. De hecho, Cronbach y Gleser 
(1965) advirtieroncontrael establecimiento de tales reglas. Afirmaron que los coeficientes 
de validez no necesitan ser tan elevados que permitan al administrador de la prueba 
tomar decisiones precisas dentro del contexto tinico en el que se est4 usando una prue- 
ba. En esencia, el coeficiente de validez deberia ser lobastante alto para que conduzcaa 
laidentificacién y diferenciacién de personas que responderan la prueba con respectoa 
un atributo o atributos deseados, como empleados que es probable que sean mas pro- 
ductivos, oficiales de policia que es menos probable que usen mal sus armas y estudian- 
tes que es mas probable que sean exitosos en un curso de estudio particular. 
Validez incremental Los administradores de pruebas implicados en la prediccién de 
algun criterio a partir de puntuaciones de prueba a menudo estén interesados en la 
utilidad de pronosticadores multiples. El valor de incluir mds de un pronosticador 
depende de un par de factores. Primero, por supuesto, cada medida que se est4 usan- 
do como pronosticador deberia tener validez predictiva relacionada con un criterio. 
Segundo, los pronosticadores adicionales deberian poseer validez incremental, defini- 
da como el grado en que un pronosticador adicional explica algo de la medida criterio 
que no estaba explicado por los otros pronosti¢adores. 
La validez incremental puede ser usada cuando se predice algo como el éxito aca- 
démico en la universidad. El promedio de calificaciones al final del primer afio puede 
emplearse como una medida de éxito académico. Un estudio de pronosticadores po- 
tenciales del promedio de calificaciones puede revelar que el tiempo pasado en la bi- 
blioteca y el dedicado al estudio se correlacionan altamente con el promedio de 
calificaciones, y la cantidad de horas de suefio que le‘permite tener a uno un compafie- 
ro de dormitorio durante periodos de examen se correlaciona con el promedio de cali- 
ficaciones en un menor grado. ;Cudl es la forma mas precisa pero mas eficiente de 
predecir el promedio de calificaciones? Un enfoque, que emplea los principios de la 
validez incremental, es comenzar con el mejor pronosticador, el pronosticador que se 
correlaciona de manera mas alta con el promedio de calificaciones. Este puede ser el 
tiempo dedicado al estudio. Entonces, usando técnicas de regresi6n multiple, uno ana- 
196 Parte 2: La ciencia de la medicién psicologica
lizaria la utilidad de los otros pronosticadores. Aun cuando el tiempo pasado en la 
biblioteca se correlaciona de manera alta con el promedio de calificaciones, puede no 
poseer validez incremental si se superpone demasiado con el primer pronosticador, el 
tiempo dedicado al estudio. Dicho de otra manera, si el tiempo dedicado al estudio y el 
pasado en la biblioteca se correlacionan de manera tan alta entre si que reflejan en 
esencia lo mismo, entonces sdlo uno de ellos necesita incluirse como pronosticador; 
incluir ambos proporcionaria poca informacién nueva sobre uno solo. En contraste, 
uno puede encontrar que la cantidad de suefio que le permite tener a uno un compatie- 
ro de dormitorio durante los examenes tiene buena validez incremental debido a que 
refleja un aspecto diferente de la preparacién para los ex4menes (descansar) que el 
primer pronosticador (estudiar). La validez incremental se ha empleado para mejorar 
la prediccién del desempenfio laboral para los mecdnicos del Cuerpo de Marina (Carey, 
1994) y la prediccién del abuso infantil (Murphy-Berman, 1994). En ambos casos, las 
medidas pronosticadoras se incluyeron sdlo si demostraban que podian explicar algo 
de la medida criterio que no se conocia ya a partir de los otros pronosticadores. 
Informaciénesperada Lainformacién esperada proporciona una fuente deinformacién 
que puede usarse para valorar la validez relacionada con un criterio de una prueba. 
Usando una puntuacién obtenida en alguna prueba o medida, las tablas de expectativa 
ilustran la probabilidad de que quien responde la prueba obtendra una puntuaci6n 
dentro de algtin intervalo de puntuaciones en una medida criterio; un intervalo que 
puede verse como “aprobatorio”, “aceptable”, etc. Una tabla de expectativa muestra el 
porcentaje de personas dentro de los intervalos de puntuacién de prueba especificados 
que de manera subsecuente fueron colocados en diversas categorias del criterio (por 
ejemplo, colocados en la categoria “aprobado” o en la categoria “reprobado”). Una ta~ 
bla de expectativa puede crearse a partir de una grafica de dispersién de acuerdo con 
los pasos enumerados en la figura 6.2. Una tabla de expectativa mostrando la relacién 
entre puntuaciones en una subprueba de la Prueba Diferencial de Aptitud (Differential 
Aptitude Test; DAT) y las calificaciones del curso de historia estadounidense para nifios 
de undécimo grado se presenta en la figura 6.2. Puede verse que de los estudiantes que 
obtuvieron puntuaciones entre 40 y 60, 83% obtuvo 80 o mas en ese curso. 
Para ilustrar c6mo podria usar una tabla de expectativa un funcionario de perso- 
nal corporativo, supéngase que con base en varias puntuaciones de prueba y entre- 
vistas personales, expertos en personal estimaron a todos los aspirantes para un puesto 
de trabajo manual que implicaba trabajo a destajo como “excelente”, “muy bueno”, 
“promedio”, “por debajo del promedio” y “malo”. En este ejemplo, entonces, la pun- 
tuacién de prueba en realidad es una estimacién hecha por expertos en personal con 
base en varias puntuaciones de prueba y una entrevista personal. Supongamos ade- 
mas que debido a una escasez severa de mano de obra en esa época, todos los aspiran- 
tes fueron contratados (un suefio convertido en realidad para un investigador 
interesado en Ilevar a cabo un estudio de validacién con respecto a la validez del 
procedimiento de evaluacién). Los supervisores de piso que ignoraban la puntuacion 
compuesta obtenida por los trabajadores recién contratados proporcionan la medida 
criterio en este estudio de validacién; de manera especifica, estimaciones del desem- 
pefio de cada empleado: “satisfactorio” o “insatisfactorio”. La figura 6.3 es la grdfica de 
expectativa resultante, o representacién grafica de una tabla de expectativa. Puede ver- 
se que de todos los aspirantes estimados de manera original como “excelentes”, 94% 
fueron estimados “satisfactorios”en el trabajo. Por el contrario, entre los aspirantes 
estimados de manera original como “malos”, s6lo 17% fueron estimados “satisfacto- 
rios” en el trabajo. En general, esta grafica de expectativa nos dice que entre mayor es 
Capitulo 6: Validez 197
 
 
 
 
 
 
100 
(2) (17) (54) 
2 
@ 
eS 1 8 28 
~~ 
y 90 
§ (7) (24) (29) (29) 
5 
a 2 10 14 15, 
sg 
& 80 
& 67 | (9) (46) (17) 
a 2 
a 7 24 22 9 
° 
g 70 a 
= @7) (a5) 8) 
g 
wo 
3 1 6 } 4 
8 
Go 60 
g 
= 
5 4 
0 
10 20 30 40 50 60 
Puntuaciones crudas en Uso del Lenguaje de las Pruebas 
Diferenciales de Aptitudes 
() porcentaje de puntos por celda 
Figura 6.2 : 
Siete pasos para hacer una tabla de expectativa 
Fuente: Tomado de Manual of Differential Aptitude Tests: Fifth Edition, Forms § & T. Derechos reservados © 1973, 1974 por The Psychological 
Corporation. Reproducido con autorizacién. odes los derechos reservados. “Differential Aptitude Tests” y “DAT” son marcas registradas de The 
Psychological Corporation. 
1. Trace una grdfica de dispersion de tal modo que cada punto en la grdfica represente una combinacion 
particular de puntuacién de la prueba y puntuacién criterio. El criterio deberd encontrar en el eje Y. 
2. Trace una cuadricula de tal forma que resuman el niimero de personas que obtuvieron puntuaciones 
dentro de un intervalo particular. 
3. Cuente el ntimero de puntos en cada celda (n,) como se muestra en la figura. 
4, Cuente el ntimero total de puntos dentro de cada intervalo vertical (N,). Este ntimero representa el 
nuimero de personas que obtuvieron puntuaciones dentro de un interval. particular de puntuacién de 
la prueba. 
5. Convierta cada frecuencia de celda en un porcentaje (n,/N,). Esto representa el porcentaje de 
personas que obtienen una combinacién de puntuacion de prueba y puntuacion criterio particular. 
Escriba los porcentajes en las celdas. Enciérrelos entre paréntesis para distinguirlos de las frecuencias. 
6. En una hoja separada, cree encabezados y subencabezados de tabla y copie los porcentajes en las 
tablas de celda apropiadas como se muestra en el cuadro 6.2. Tenga cuidado de incluir los porcentajes 
en las tablas de celda correctas. (Nétese que es facil cometer un error en esta etapa debido a que los 
porcentajes de personas dentro de intervalos de puntuacion particulares se deben incluir de manera 
horizontal en la tabla y vertical en la grafica de dispersion.) 
7. Silo desea, incluya el ntimero y el porcentaje de casos por intervalo de puntuaciones de la prueba. Si 
el ntimero de casos en cualquiera de las celdas es muy pequefio, es mas probable que flucttie en graficas 
subsecuentes. Si los tamafios de las celdas son pequeiios, el administrador podria crear menos celdas o 
acumular datos durante varios afios. 
198 Parte 2: La ciencia de la medici6n psicolégica
Cuadro 6.2 
Puntuaciones de la subprueba de Uso del Lenguaje del DAT y calificacién en historia 
estadounidense para 171 nifios de undécimo grado (mostrando el porcentaje de estudiantes 
que obtuvieron calificaciones del curso en el intervalo mostrado) 
ee Casos por intervalo de 
Intervalo de calificacion en.el curso puntuacién de prueba 
 
 
Puntuacién de prueba 0-69 70-79 ° 80-89 90-100 N, % 
40 y superior V7 29 54 52 100 
30-39 8 46 29 7 48 
100 
20-29 15 59 24 2 4) 100 
debajo de 20 37 57 7 30 
101* 
 
*El total suma mds de 100% debido al redondeo. 
la estimacién inicial, es mayor la probabilidad de éxito en el trabajo. Planteado 
de otra 
manera, nos dice que entre menor es la estimacién inicial, es mayor la probabilidad 
de 
fracaso en el trabajo. La compaiiia que experimenté con un sistema de estimaci6n asi 
podria esperar de manera razonable mejorar su productividad usando este sistema 
de estimacién. De manera especitica, los aspirantes al empleo que obtuvieran estima- 
ciones de “promedio” o superiores serian los-unicos aspirantes contratados. 
Las tablas que pudieran usarse como un auxiliar para los directores de personal en 
sus laborés de toma de decisiones fueron publicadas por H. C. Taylor y J. T. Russell 
en Journal of Applied Psychology en 1939. Conocidas por los nombres de sus autores, las 
tablas Taylor-Russell proporcionan una estimacion de la extension en la queincluir una 
prueba particular enel sistema deseleccién mej orard laseleccién. De manera mas esp
e- 
cifica, las tablas proporcionan una estimacin del porcentaje de empleados contratados 
por el uso de una prueba particular que seran exitosos en sus trabajos, dadas diferent
es 
combinaciones de tres variables: la validez de la prueba; larazén de seleccién usaday la 
tasa base, o la proporcion de personas empleadas en la actualidad én puestos similares 
al puesto vacante que son consideradas exitosas. El valor asignado para la validez de
la 
prueba es el coeficiente de validez calculado. La razén de seleccién es un valor numéri
- 
co que refleja la relaci6n entre el ntimero de personas que se contratan y el numer
o dis- 
ponible para contratacion. Por ejemplo, si hay 50 puestos y 100 aspirantes, lara
zén de 
selecciénes 50/100, 0.50. Latasabasees unindicio del “promedio debateo” 
actualdela 
oficina de personal usando cualesquiera técnicas empleadasenlaactualidad. Por
 ejem- 
plo, si una empresa emplea 25 programadores de computadoras y 20 son conside
rados 
exitosos, la tasa base seria .80. Con conocimiento del coeficiente de valide
z de una prue- 
ba particular junto con la razén de selecci6n, la referencia a las tablas Taylor-
Russell le 
proporcionaria al funcionario de personal una estimacién de cuanto mej
oraré la selec- 
cién con el uso de la prueba sobre los métodos existentes. 
Se presenta una tabla Taylor-Russell en el cuadro 6.3. Esta tabla es para la tasa b
ase 
de .60, lo que significa que 60% de los contratados bajo el sistema existente
 son exitosos 
en su trabajo. En forma descendente del lado izquierdo'se encuentran l
os coeficientes 
de validez para una prueba que podria ser usada para ayudar a sel
eccionar emplea- 
dos. A lo largo de la parte superior estén las diversas razones de sele
ccién. Reflejan la 
proporcién de las personas que solicitan empleo que seran contratadas. 
Si se introduce 
una prueba nueva para ayudar a seleccionar empleados en uria situacion
 con una ra- 
z6n de seleccién de .20, y sila prueba nueva tiene un coeficiente de validez 
predictiva 
de .55, la tabla muestra que la tasa base se incrementard a .8
8. Esto significa que, en 
lugar de que se espere que 60% de los empleados se desempeie con 
éxito, puede espe- 
Capitulo 6: Validez 199 
 
Estimaciones Producci6n satisfactoria Producci6n insatisfactoria 
Excelente 
Muy buena 
Promedio Debajo del promedio 
Mala 
Figura 6.3 
Estimaciones de prueba y desempeiio en el trabajo 
(Fuente: The Psychological Corporation} 
rarse que un total de 88% lo haga. Cuando las razones de seleccion son bajas, como 
cuando sdlo 5% de los aspirantes serd contratado, aun las pruebas con coeficientes de 
validez bajos, como .15, pueden dar como resultado tasas base mejoradas. 
Una limitacién inherente en el uso de los cuadros Taylor-Russell es que la relacién 
entre el pronosticador (la prueba) y el criterio (la estimacién del desempefio en el traba- 
jo) debe ser lineal. Por ejemplo, si hay algun punto en el que el desempefo en el trabajo 
se estabilice, sin importar qué tan alta sea la puntuaci6n que se obtiene en la prueba, 
seria inapropiado usar las tablas Taylor-Russell. Otra limitacién inherente en el uso de 
las tablas Taylor-Russell es.el problema potencial de tener que identificar una puntua- 
ci6n criterio que separe alos empleados “exitosos” de aquellos “sin éxito”. Este proble- 
ma se evité en un conjunto de tablas alternativas (Ni aylory Shine, 1965) que proporcionan 
un indicio dela diferencia en as puntuaciones criterio promedio para el grupo seleccio- 
nado comparado conel grupo original. El uso de las tablas Naylor-Shine implica obte- 
ner.la diferencia entre-lasmedias de los grupos seleccionado y no seleccionado para 
obtener un indice de lo que la prueba (o alguna otra herramienta de evaluacién) est4 
agregando a procedimientos ya establecidos. Tanto las tablas Taylor-Russell como las 
Naylor-Shine pueden ayudar ajuzgarla utilidad de una prueba particular, las primeras 
determinando el incremento sobre procedimientos actuales y las ultimas el incremento 
en la puntuacién promedio en alguna medida criterio. Con ambas tablas, el coeficiente 
de validez usado debe obtenerse por medio de procedimientos de validacién concu- 
rrente, un hecho que no es sorprendente debidoa que se obtiene con respecto aemplea- 
dos actuales contratados por el proceso de seleccién en el momento del estudio. 
: Silas decisiones de contratacién sélo se tomaran con base en variables como la 
validez de una prueba deempleoy larazén de seleccién prevaleciente, entonces tablas 
como las ofrecidas por Taylor y Russell y Naylor y Shine serian usadas en forma amplia 
en la actualidad. El hecho es que muchas otras clases de variables podrian entrar en las 
decisiones de contratacién (por ejemplo, posicién minoritaria, salud fisica o mental 
general del aspirante o uso de farmacos por parte de este ultimo). Dadas las muchas 
variables que pueden entrar en una decision de contratacion, o de otra indole, ;qué uso 
tiene una prueba determinada en el proceso de decisién? Después de la publicacién de 
las tablas Taylor-Russell, comenzaron a aparecer varios articulos probando formas de 
determinar qué tan apropiado es el uso de una prueba determinada con respecto a 
diferentes tipos de procedimientos de evaluacién (Brogden, 1946, 1949; Smith, 1948), y 
comenzé abundar una literatura que abordaba la teoria de la utilidad de las pruebas. 
También durante este periodo, estadisticos como Wald (1947, 1950) estuvieron implica- 
200 Parte 2: La ciencia de la medicién psicolégica
Cuadro 6.3 
Cuadro Taylor-Russell para una tasa base de .60 
Raz6n de seleccién 
 
 
Validez .05 10 20 30 40 50 60 70 80 90 95 
(p,,) 
00 60 60 60 60 60 60 60 60 60 60 60 
05 64 63 63 62 62 62 61 61 61 60 60 
10 68 67 65 64 64 63 63 62 61 61 60 
Sei 70 68 67 66 65 64 63 62 61 61 
20 15 13 a 69 67 66 65 64 63 62 61 
Oe. als 76 ae 7m 69 68 66 65 63 62 61 
30 sane? 79 76 23 a 69 68 £6 64 62 61 
35 85 82 Te JE 73 wal 69 67 65 63 62 
40 88 85 81 28 75 3 70 68 66 63 62 
45 90 87 83 80 7 74 7 63 86 64 62 
S0sa:-.98 90 86 £2 79 76 2B 70 67 64 62 
oO ero 92 88 84 81 78 1 W 68 64 62 
60 96 94 90 87 83 80 18 23 69 65 63 
65 98 96 92 89 85 82 78 74 70 65 63 
70 99 7 94 3 87 84 80 75 nN 66 63 
Tae od 99 96 $3 90.86 81 77 n 66 63 
80 1.00 99 98 95 92 88 83 78 72 66 63 
85 1.00 = 1.00 99 97 ogee 79] 86 80 73 66 63 
90° 100 1,00" 1:00 99 97 94 88 82 74 67 63 
95 100 100 or 00 == 1100 89 97 82 84 75 67 63 
1.00 1.00 1.00) 1,00 1.00 1.00 1.00 1.00.86 15 67 63 
 
Fuente: Taylor y Russell (1939) 
dos en la identificacién de reglas estadisticas para desarrollar un andlisis secuencial de 
un problema que condujeran a una decisién optima; habia nacido la teoria de la deci- 
sion y seria aplicada para responder interrogantes respecto a la utilidad de las pruebas 
psicoldgicas. 
Teoria de las decisiones y utilidad de las pruebas Quiza la aplicacién citada con mas 
frecuencia de la teorfa dela decisién estadistica al campo de las pruebas psicolégicas es 
la obra de Cronbach y Gleser, Psychological Tests and Personnel Decisions, aunque se pu- 
blicaron después otras obras (no tan completas como la de Cronbach y Gleser) en esta 
area (por ejemplo, Darlington y Stauffer, 1966; Dunnette, 1963; Mahoney y England, 
1965;Rorer et al., 1966). Laidea de aplicar la teoria de la decision estadistica a cuestiones 
de utilidad de las pruebas era atractiva y prometedora desde el punto de vista concep- 
tual, y un libro de texto de la época que es una autoridad refleja el gran entusiasmo con 
el que se recibié este matrimonio de empresas: 
El enfoque basico de la teoria de la decision para la seleccién y la colocacién [...] tiene 
varias ventajas sobre el enfoque mas clasico basado en el modelo de correlacién [...] 
No hay duda de que es un modelo més general y mejor para manejar esta clase de 
tarea de decisién, y predecimos que en el futuro los problemas de seleccién y coloca- 
cién serdn tratados en este contexto con més frecuencia; quiza hasta la exclusién final 
del modelo correlativo mas estereotipado (Blum y Naylor, 1968, p. 58). 
Planteado en forma general, Cronbach y Gleser (1965) presentaron 1) una clasifi- 
cacién de problemas de decisién, 2) varias estrategias de seleccién que varian desde 
procesos de una sola etapa hasta andlisis secuenciales, 3) un andlisis cuantitativo de la 
Capitulo 6: Validez 201
ACERCAMIENTO 
Tasa basal y validez predictiva 
P:: el propésito de valorar la validez predictiva de una 
prueba, puede aplicarse una prueba dirigida de un atributo 
particular a una muestra de sujetos de investigacién en la 
que aproximadamente la mitad de los sujetos posee o 
exhibe el atributo al que se dirige y la otra mitad no. En lo 
subsecuente pueden surgir preguntas sobre lo apropiado 
del uso de una prueba asf, en la que la tasa base de la 
ocurrencia del atributo al que se dirige en la poblacion que 
se estd examinando es considerablemente menor que 
50%. Estas interrogantes surgen, por ejemplo, con 
respecto al uso de una prueba llamada Inventario de Abuso 
Infantil Potencial (Child Abuse Potential Inventory; car; 
Milner, 1986). 
El cap fue disefiado para ser un auxiliar de exploracidn 
en la identificacién de adultos con alto riesgo de cometer 
abuso ffsico con nifios (Caliso y Milner, 1994; Hart, 1989; 
Melton, 1989; Milner, 1991; Milner et a/, 1986: Murphy- 
Berman, 1994). Una puntuaci6n alta en el cap, en especial 
en combinacion con evidencia confirmatoria de otras 
fuentes, podria incitar al usuario de la prueba a sondear 
mas a fondo con respecto a la historia, o intenciones 
actuales, de quien responde la prueba respecto al abuso 
infantil. Otro uso del CAP es una medida de resultados en 
programas disefiados para prevenir el abuso fisico de los 
nifios (Milner, 1989). Como tal, a los participantes se les 
aplicarfa el CaP al entrar al programa y de nuevo al salir. 
La investigacién de validez predictiva realizada con el 
CaP ha “demostrado un indice de aciertos extrafio 
(alrededor de 90%) en la discriminacion de los abusivos de 
los no abusivos™ (Melton y Limber, 1989, p. 1231). Pero 
como ha seflalado el autor del cap, “el indice de aciertos 
de 90% reportado fue determinado en estudios que usaron 
grupos que consistfan en cantidades iguales de abusivos y 
de no abusivos que por disefio contienen tasas base de 
50% que son dptimas para propésitas de clasificacion” 
(Milner, 1991, p. 80). Por tanto, conforme disminuye la tasa 
base para el abuso infantil, se incrementaré el nmero de 
falsos positivos en el grupo indicado como abusivo, 
mientras disminuye el ndmero de falsos negativos en el 
grupo indicado como no abusivo. Si estos hechos 
relacionados con las tasas base y la validez predictiva no 
son conocidos y apreciados por el usuario de la prueba, 
 
existe un potencial para el mal uso de pruebas como el 
CAP. 
La tasa base para el abuso infantil en la poblacién 
general es de alrededor de 2-3% anual (Finkelhor y Dziuba- 
Leatherman, 1994). Esta tasa base es relativamente baja 
para la tasa base de 50% que prevalecié en los estudios 
de validez predictiva con el cap. Por consiguiente, este 
hecho debe considerarse en cualquier uso del caP con 
miembros de la poblacién general. 
Con estos antecedentes, considérese un estudio 
realizado por Milner et a/., (1986) con 220 adultos, 
incluyendo 110 abusadores y 110 no abusadores conocidos. 
Todos los sujetos completaron el cary se calificé la prueba. 
Un total de 82.7% de los abusadores y 88.2% de los no 
abusadores fueron clasificados en forma correcta usando el 
cap (cuadro 1). Descendiendo por las columnas 
del cuadro 1, nétese quede los 110 abusadores conocidos, 
19 fueron clasificados en forma incorrecta como no 
abusadores. De los 110 no abusadares conocidos, 
13 fueron identificados en forma incorrecta como 
abusadores. Por supuesto, en la mayor parte de las 
aplicaciones del cap, uno no sabria si la persona que se 
esta examinando era un abusador de nifios real; es 
probable que ésa serfa la razon para la aplicacién de la 
prueba. Para comprender los errores que se cometerian, 
observe de nuevo el cuadro 1, pero esta vez a lo largo de las 
filas. Cuando el CaP indica que una persona es una 
abusadora, el hallazgo es correcto 87.5% de las veces (91 
de 104 casos). Cuando el car indica que una persona no es 
una abusadora, es correcto 83.6% de las veces (97 de 116 
casos). 
EI panorama cambia en forma draméatica, sin embargo, 
en un ambiente de tasa baja. Para los propésitos de este 
ejemplo, supongamos que el abuso fisico infantil ocurre en 
5% de la poblacidn. En un estudio hipotéticc, examinamos a 
1 000 personas usando el cap. Debido a que el abuso fisico 
infantil ocurre en 5% de la poblacién, esperariamos que 50 
0 mas de los que respondieron la prueba sean abusadores. 
Y digamos ademas que al igual que en el estudio de Milner 
etal., 82.7% de los abusadores y 88.2% de los no 
abusadores son identificados en forma correcta en nuestro 
estudio (cuadro 2). Descendiendo por las columnas en el 
 
relacion entre la utilidad de la prueba, la razé6n de seleccién, el costo del programa de 
prueba y el valor esperado del resultado y 4) una recomendacién de que en algunos 
casos los requerimientos del trabajo sean adecuados a la capacidad del solicitante en 
lugar de a la inversa (un concepto al que se refieren como “tratamiento adaptativo”): 
202 Parte 2: La ciencia de la medici6n psicolégica
 
 
Cuadro 1 
Aplicacién del cap en una poblacién con una tasa 
base alta de abuso infantil 
Situacién real 
Abusador No abusador Totales de fila 
Los resultados de! cap indican: 
Abusador Sl eS 104 
No abusador 19 97 116 
Totales 
de columna 110 110 220 
Cuadro 2 
Aplicacion del cap en una poblacién con una tasa 
base baja de abuso infantil 
Situacién real 
Abusador No abusador Totales de fila 
Los resultados del cap indican: 
Abusador M1 112 153 
No abusador g 838 847 
Totales 
de columna 50 950 1000 
 
cuadro 2, si 82.7% de los abusadores son identificados en 
forma correcta, 41 seran identificados como abusadores y 
los nueve restantes como no abusadores. Si la prueba tiene 
un indice de precisién de 88.2% para no abusadores, 838 de 
los no abusadores seran identificados en forma correcta y 
los restantes 112 como abusadores. 
Ahora obsérvese de nuevo el cuadro 2, esta vez a lo 
largo de las filas. Si la puntuaci6n en el cap indica que el 
individuo es un abusador, es probable que sea incorrecto. 
La mayorfa de las personas (73.2% de ellas, en este 
ejemplo) con puntuaciones CAP que indiquen que son 
abusadoras en realidad no lo son. Esta imprecisidn es 
producto por completo de trabajar con una muestra de tasa 
base baja. Incluso si el CAP fuera més preciso, debido a que 
el abuso es un fendmeno de tasa base baja, utilizar los 
resultados de la prueba para identificar abusadores 
todavia daria como resultado que muchos abusadores 
identificados fueran clasificados en forma errénea. 
Planteado de otra manera, cuando la poblacién que no 
comete abusos es mucho mayor que la poblacidn que sf lo 
hace, las probabilidades son que la mayor parte de los 
etrores se cometeran al clasificar a la poblacidn que no 
comete abusos. 
Coléquese en el lugar del juez o el jurado que se entera 
de un caso de abuso fisico infantil. Un psicdlogo atestigua 
que el CAP, que tiene un Indice de precisidn de 85-90%, 
indica que el acusado es un abusador fisico. El psicdélogo 
intenta una explicacion de las tasas base de la poblacin y 
la posibilidad de error. Aun asf, qué podria perdurar en su 
mente del testimonio del psicdlogo? Muchas personas 
razonarian que, si el CAP es correcto mas de 85% de las 
veces, y si el acusado es /dentificado como un abusador de 
nifios, debe haber al menos una probabilidad de 85% de 
que el acusado sea un abusadar de nifios. Esta conclusion, 
como ahora lo sabe, seria incorrecta y podria dar como 
resultado que se cometiera una injusticia (Melton y Limber, 
1989). 
Este ejemplo ilustra que debe respetarse el uso que 
pretende darle a una prueba quien la elabora. Carecer de 
cualquier evidencia psicométrica irresistible para desviarse 
del uso pretendido por el elaborador de la prueba, tales 
desviaciones pueden dar como resultado un dafio a quien 
responde la prueba. El ejemplo sirve ademas como un 
recordatorio de que cuando se recopilan datos sobre la 
precision y la consistencia de una prueba, los datos se 
recopilan usando un muestreo de personas de una 
poblacién particular. Las conclusiones extraidas de esos 
datos psicométricos s6lo son aplicables a grupos de 
personas de una poblacidn similar. 
Joel Milner, el autor del cap, ha exhortado a los 
administradores de la prueba tomen en cuenta que es 
inapropiado usar alguna prueba psicoldégica aislada como 
un criterio de diagndstico. Milner (1991) nos recuerda que 
“los datos de multiples fuentes, como varias pruebas, 
entrevistas con el cliente, entrevistas colaterales, 
observaciones directas e historias de caso deberian 
emplearse para tomar decisiones respecto al abuso infantil 
y su tratamiento" (p. 81). 
 
Antes de ilustrar la teorfa de la decisién en accién, definiremos en forma breve, y 
en forma un poco vaga, cinco términos encontrados con frecuencia en las exposicio- 
nes de la teoria de la decisién aplicada a las pruebas y la medicién psicoldégica: tasa 
base, indice de aciertos, indice de fallas, falso positivo y falso negativo. 
Capitulo 6: Validez 203
Una fasa base puede definirse como el grado en que un rasgo, comportamiento, ca- 
racteristica o atributo particular existe en la poblacién (expresado como una propor- 
cion). Como se ilustra en el Acercamiento de este capitulo, debe darse una consideracién 
debida a la tasa base de un atributo basado en la muestra de personas que se estd estu- 
diando en la investigaci6n de validez predictiva, contra la tasa base del mismo atributo 
enla poblaci6n total. En lenguaje psicométrico, un indice de aciertos puede definirse como 
la proporcién de personas que una prueba identifica con precisién como poseedoras 0 
que exhiben un rasgo, comportamiento, caracteristica o atributo particular. Por ejem- 
plo, el “indice de aciertos” podria referirse a la proporcién de personas que se predice 
con precisién que son capaces de desempefiar un trabajo en un nivel de licenciatura, ola 
proporcion de pacientes neurolégicos en quienes se identifica con precisién que tienen 
un tumor cerebral. Deigual modo, un indice de fallas puede definirse comola proporcién 
de personas en las que una prueba falla en identificar como que tienen, ono tienen, una 
caracteristica o atributo particular; una falla equivale a una predicci6n imprecisa. La 
categoria de “fallas” puede subdividirse mas. Un falso positivo es una falla en la cual la 
prueba predijo que quien la respondié posee la caracteristica 0 atributo particular que 
se esta midiendo. Un falso negativo es una falla en la cual la prueba predijo que quien la 
respondié no posee la caracteristica 0 atributo particular que se est4 midiendo. 
Suponga que elaboré un procedimiento de medicion al que llam6 Prueba de Va- 
por (PV), la cual fue disefiada para determinar si sujetos vivos y en buenas condicio- 
nes estaban respirando en efecto. El procedimiento para la PV implica hacer que el 
examinador sostenga un espejo bajo la nariz y boca del sujeto por un minuto o mas y 
observe si el aliento del sujeto empafia el espejo. Digamos que se administré la PV a 
100 estudiantes de introduccion a la psicologia y se concluyé que 89 estaban, de he- 
cho, respirando (mientras se considera que 11, con base en la PV, no estan respirando). 
éLa PV es unabuena prueba? Es obvio que no. Debido a que la tasa base es 100% de la 
poblacién (viva y en buenas condiciones), en realidad ni siquiera necesitamos una 
prueba para medir la caracteristica “respirando”, y si por alguna raz6n necesitdramos 
un procedimiento de medici6n, es probable que no usariamos uno que fuera impreci- 
so en aproximadamente 11% de los casos. Es obvio que una prueba carece de valor si 
el indice de aciertos es mayor sin ser usada; una medida del valor de una prueba se 
encuentra en el grado en que su uso mejora el indice de aciertos que existe sin su uso. 
Como una simple ilustracién de la teoria de la decisién aplicada a las pruebas, 
supOngase que una prueba es administrada a un grupo de 100 solicitantes de empleo, 
y se aplica alguna puntuacién limitrofe para distinguir a los solicitantes que serén 
contratados (aspirantes que se ha juzgado que han aprobado la prueba) de los aspi- 
rantes cuya solicitud de empleo seré rechazada (aspirantes que se hajuzgado que han 
reprobado la prueba). Y supéngase ademas que se aplicaré alguna medida criterio un 
tiempo después para asegurarse de que la persona recién contratada actué correcta- 
mente; si la persona recién contratada fue considerada un éxito o un fracaso en el 
trabajo. En tal situacién, sila prueba es un pronosticador perfecto (si su coeficiente de 
validez es igual a 1), pueden identificarse dos tipos de resultados distintos: 1) algunos 
aspirantes obtendran puntuaciones iguales o mayores que la puntuacién limitrofe en 
la prueba y seran exitosos en el trabajo y 2) algunos aspirantes obtendrén puntuacio- 
nes por debajo de la puntuacién limitrofe y no serdn exitosos en el trabajo. Pero debi- 
do a que pocas pruebas de empleo, si es que alguna, son pronosticadores perfectos, 
también son posibles otros dos tipos de resultados: 3) algunos aspirantes obtendran 
puntuaciones iguales o mayores que la puntuacién limitrofe, seran contratados y fa- 
laran en el trabajo (el criterio) y 4) algunos aspirantes que obtuvieron puntuaciones 
por debajo de la puntuacién limitrofe y no fueron contratados podrian haber sido 
204 Parte 2: La ciencia de la medicién psicolégica
exitosos. Las personas que fallan en el grupo 3 podrian clasificarse como “falsos posi- 
tivos” y aquellas que caen en el grupo 4 podrian clasificarse como “falsos negativos”. 
En esta ilustracién, la sola légica nos dice que si la raz6n de seleccién es, digamos, 
del 90% (nueve de diez aspirantes seran contratados), es probable que la puntuacién 
limitrofe se haya establecido mas baja que si la razén de seleccion es de 5% (sélo cinco 
de los 100 aspirantes serén contratados). Ademas, si la razén de seleccién es de 90%, 
es una buena suposici6n que el ntimero de falsos positivos (personas contratadas que 
fallaran en la medida criterio) sera mayor que en un caso donde la razén de seleccién 
es de 5%. A la inversa, si la razon de seleccién es sdlo de 5%, es una buena suposicién 
que el ntimero de falsos negativos (personas no contratadas que podrian haber tenido 
éxito en la medida criterio) sera mayor que en el caso donde la raz6n de seleccién 
es de 90%. La teoria de la decisién proporciona lineamientos para establecer pun- 
tuaciones limitrofes éptimas. Al establecer dichas puntuaciones, con frecuencia se to- 
ma en cuenta la gravedad relativa de tomar decisiones de seleccién de falsos positivos 
o falsos negativos. Por tanto, por ejemplo, es una politica prudente para un funciona- 
rio de personal de una aerolinea establecer puntuaciones limitrofes en pruebas para 
pilotos que podrian dar como resultado un falso negativo (un piloto que en verdad 
esta capacitado que es rechazado) en oposicién a una puntuacién limitrofe que permi- 
tirfa-‘un falso positivo (la contratacién de un piloto que en realidad no esta capaci- 
tado). 
En las manos de investigadores muy experimentados, los principios de la teoria 
de la decisién aplicados a problemas de utilidad de la prueba han conducido a algu- 
nos hallazgos informativos e impresionantes. Por ejemplo, Schmidt, Hunter, McKenzie 
y Muldrow (1979) demostraron en délares y centavos cémo la utilidad de un progra- 
ma de seleccién de una compaiiia (y el coeficiente de validez de las pruebas usadas en 
€se programa) puede desempenar una funcién critica en la rentabilidad de la compa- 
fia. Centrandose en la poblacién de programadores de computadoras de un patrén, 
estos investigadores pidieron a los supervisores que estimaran, en délares, el valor de 
los buenos, promedio y malos programadores. Esta informacién se us6 junto con otra, 
incluyendo estos hechos: 1) cada afio el patron contrataba 600 programadores nue- 
vos, 2) el programador promedio permanecia en el empleo durante unos diez afios, 3) 
la Prueba de Aptitud de Programador en uso en ese entonces como parte del proceso 
de contratacién tenia un coeficiente de validez de .76, 4) cuesta alrededor de 10 ddla- 
res por aspirante aplicar la prueba y 5) el patrén tenia en la actualidad un excedente 
de 4 000 programadores a su servicio. 
Schmidt e¢ al. (1979) hicieron varios cdlculos usando valores diferentes para algu- 
nas de las variables. Por ejemplo, sabiendo que algunas de las pruebas usadas con 
anterioridad.en el proceso de contrataci6n tenian coeficientes de validez que variaban 
de .00 a 50, variaron el valor del coeficiente de validez de la prueba (junto con otros 
factores como diferentes razones de seleccién que habian estado en efecto) y examina- 
ron la eficiencia relativa de las diversas condiciones. Entre sus hallazgos estaba el 
hecho de que la razén de seleccién y_el proceso de seleccién existentes proporciona- 
ban una gran ganancia en eficiencia sobre una situacién anterior (cuando la razon de 
seleccién era de 5% y el coeficiente de validez de la prueba usada en la contratacién 
era igual a .50), una ganancia igual a casi 6 millones de délares al afio. Multiplicado 
por, digamos, diez afios, nos da 60 millones de délares. La razén-de seleccién y el 
proceso de selecci6n existentes proporcionaron una ganancia atin mayor en eficiencia 
sobre una situacién existente con anterioridad en la que la prueba no tenia validez en 
absoluto y la razon de seleccién era .80; aqui se estimé que, en un afio, la ganancia en 
eficiencia era igual a mas de 97 millones de délares. 
Capitulo 6: Validez 205
Por cierto, el patr6n en el estudio anterior era el gobierno de Estados Unidos. 
Hunter y Schmidt (1981) aplicaron el mismo tipo de andlisis a la fuerza laboral nacio- 
nal e hicieron un argumento irresistible con respecto a la relaci6n critica entre pruebas 
y procedimientos de medicidn validos y la productividad nacional estadounidense. 
En un estudio subsecuente, Schmidt, Hunter y sus colegas encontraron que resulta- 
rian incrementos considerables en la produccién laboral o reducciones en los costos 
de némina con el uso de medidas de capacidad cognoscitiva validas en lugar de pro- 
cedimientos que no incluyeran pruebas (Schmidt et al., 1986). 
Los patrones estan reacios a usar estrategias basadas en la teoria de la decisién en 
sus practicas de contratacién debido a la complejidad de su aplicacién y al peligro de 
enfrentar demandas legales (Algera et al., 1984; Dunnette y Borman, 1979; Guion, 1967; 
Wiggins, 1973). Por tanto, aunque los‘enfoques de la teoria de la decisién para la eva- 
luaci6n pueden ser una gran promesa, ésta todavia no se ha cumplido. 
Validez de constructo 
La validez del constructo es un juicio de lo apropiado de las inferencias extraidas de las 
puntuaciones de prueba respecto a posiciones individuales en una variable llamada 
“constructo”. Un constructo es una idea cientifica informada elaborada 0 construida para 
describir 0 explicar el comportamiento. “Inteligencia” es un constructo que puede 
invocarse para describir por qué un estudiante se desempefia bien en la escuela. “An- 
siedad” es un constructo que puede emplearse para describir por qué un paciente psi- 
quiatrico va y viene por la habitacién. Otros ejemplos de constructos

Más contenidos de este tema