Vista previa del material en texto
CARLOS F. RIEGO CABRAL . BIBOTECA PeRsgua CAPITULO Validez E el lenguaje cotidiano, decimos que algo es valido si es sélido, significativo o esta bien fundado en principios 0 evidencia. Por ejemplo, hablamos de una teoria valida, un argumento valido o una razén valida. En terminologia legal, los abogados dicen que algo es valido si es “ejecutado con las formalidades apropiadas” (Black, 1979), como un contrato valido y un testamento valido. En cada uno de estos casos, las per- sonas hacen juicios basados en evidencia de la significacién o la veracidad de algo. Del mismo modo, en el lenguaje de la evaluacién psicologica, validez es un término usado conjuntamente con la significaci6n de una puntuacién de prueba, lo que en verdad significa la puntuacién de la prueba. El concepto de validez Planteado en forma sucinta, la palabra validez cuando se aplicaa una prueba se refiere a un juicio concerniente a lo bien que mide de hecho una prueba lo que pretende medir. De manera mas especifica, es un juicio basado en evidencia sobre lo apropiado de las inferencias extraidas de las puntuaciones de prueba.!Una inferencia es un resul- tado légico o deduccién en un proceso de razonamiento. Las caracterizaciones de la validez de las pruebas y las puntuaciones de prueba son expresadas con frecuencia con términos como “aceptable” o “débil”, reflejando un juicio de lo adecuadamente que se esta midiendo en realidad el atributo para cuya medicién’estaba disefada la prueba. En un juicio de validez hay inherente un juicio de utilidad. Un psicometrista respetado incluso definié la validez como lo “titil desde el punto de vista cientifico” que es un instrumento de medicién (Nunnally, 1978, p. 86). Validacion es el proceso de recopilacién y valoracion de la evidencia de validez. Tanto quien elabora la prueba como el administrador de la misma pueden desempe- far una funcion en la validacién de una prueba para un propésito especifico. Es res- ponsabilidad del elaborador de la prueba suministrar evidencia de la validez en el ‘Recuérdese del capitulo 1 que la palabra prueba se usa en el sentido mas amplio posible; por consiguiente, puede aplicarse también a procedimientos de medicién y procesos que, estrictamente hablando, no se de- nominarian en forma coloquial “pruebas”. 184 manual de la misma. En ocasiones puede ser apropiado para los administradores de la prueba realizar sus propios estudios de validacién con los grupos de personas que responderan la prueba. Estos estudios de validaci6n “local” son necesarios cuando el usuario de la prueba planea alterar de alguna manera el formato, instrucciones, len- guaje o contenido de la prueba (como cambiar la prueba escrita a una forma Braille). Los estudios de validacién local también serian apropiados cuando la prueba sera usada con una poblacién de personas que responderdn la prueba que difiere de algu- na manera significativa de la poblacidn en la que fue estandarizada. jComo se procede a valorar la validez de una prueba? Un prerrequisito para abor- dar esta cuestién es el desarrollo de una conceptualizacién mas precisa de validez. Una forma de conceptualizar la validez se ha dado con respecto a la siguiente taxono- mia de tres categorias: a validez de contenido a validez relacionada con un criterio a validez de constructo Es claro que esta perspectiva de la validez, a la que hace referencia Guion (1980) como la perspectiva “trinitaria”, es la que prevalece en el campo de la psicologia en la actualidad y lo ha sido al menos desde la década de 1950. En consecuencia, las res- puestas a preguntas sobre los métodos para determinar la validez de una prueba tien- den a ser expresadas con términos como “estrategias de validacién de contenido”, “estrategias de validacién relacionadas con un criterio” y “estrategias de validacién de constructo”. También hay referencias a otras categorias, como “validez predictiva” y “validez concurrente”, pero estos dos términos tienden a hundirse bajo la categoria mas general de “validez relacionada con un criterio”. Dentro del contexto de la taxonomia de tres categorias, la validez de una prueba puede evaluarse 1) examinando a fondo su contenido, 2) relacionando las puntuacio- nes obtenidas en la prueba con otras puntuaciones de prueba u otras medidas y 3) rea- lizando un anilisis general no sélo de la forma en que las puntuaciones de la prueba se relacionan con otras puntuaciones de prueba y medidas sino también en la forma en que pueden entenderse dentro de algtin marco teérico para comprender el constructo al que la prueba est disefiada a medir. Estos tres enfoques para la evaluacién de la va- lidez no son mutuamente excluyentes; cada uno deberd considerarse como un tipo de evidencia que, con otras, contribuye a un juicio de la validez de la prueba. Los tres tipos deevidencia de validez proporcionan un panorama unificado dela validez de una prue- ba, aunque un administrador de pruebas puede no necesitar conocer los tres tipos de evidencia de validez. Dependiendo del uso que se le vaya a dar a la prueba, uno u otro de estos tres tipos de evidencia de validez puede no ser tan relevante como el siguiente. Algunos autores han expresado preocupaciones respecto a la conceptualizaci6én trinitaria tradicional de validez (Landy, 1986; Messick, 1995). Messick, por ejemplo, condené este enfoque como fragmentado e incompleto. Pidié una perspectiva unita- ria de la validez, una que tome en cuenta todo desde las implicaciones de las puntua- ciones de prueba en funcién de valores sociales hasta las consecuencias del uso de la prueba. Messick describié la validez como un “valor social sobresaliente” que “asu- me una funcién tanto cientifica como politica que por ningtin medio se cumple con un simple coeficiente de correlacién entre las puntuaciones de prueba y un pretendido criterio (es decir, la validez clasica relacionada con un criterio) o por juicios expertos de que el contenido de la prueba es relevante para el uso propuesto de la prueba (es decir, validez de contenido tradicional)” (1995, p. 742). Conforme aprende mas sobre la “validez clasica relacionada con un criterio”, la “validez de contenido tradicional” Capitulo 6: Validez 185 y otras conceptualizaciones tradicionales de validez, estara en una mejor posicién para valorar su utilidad general, asi como el grado en que dichas conceptualizaciones representan valores y juicios sociales. Y hablando de valores y juicios sociales, comen- zaremos con una mirada a una variedad de validez que ha “recibido poca atencién, y atin menos respeto, de los examinadores de la validez del constructo de las pruebas y medidas psicolégicas” (Bornstein et al., 1994, p. 363). Como caracterizan en forma acertada Bornstein et al. (1994), es la “Rodney Dangerfield de las variables psicométri- cas” (p. 363). Es la validez aparente. Validez aparente La validez aparente se relaciona més con lo que la prueba parece medir que con lo que en realidad mide. La validez aparente es un juicio concerniente a lo relevantes que parecen ser los reactivos de la prueba. Planteado de otra forma, si una prueba parece medir en forma clara lo que pretende medir “a primera vista”, podria decirse que tiene una validez aparente alta. Una prueba de personalidad por escrito denomi- nada “La Prueba de Introversién/Extroversién” con reactivos que preguntan a quie- nes la responden si han actuado de una manera introvertida o extrovertida en situaciones particulares sera percibida como una prueba con validez aparente alta por quienes la responden. Por otra parte, una prueba de personalidad en la que a quienes la responden se les hacen preguntas sobre una variedad de manchas de tinta puede ser percibida por lo general como una prueba con validez aparente baja; sin duda muchos de quienes la responden se preguntarian cémo diablos lo que dicen que vie- ron en las manchas de tinta tiene algo quever en realidad con la personalidad. En contraste con los juicios concernientes a la confiabilidad de una prueba yala validez de contenido, constructo o relacionada con un criterio de una prueba, los jui- cios concernientes a la validez aparente de una prueba son considerados con fre- cuencia desde la perspectiva de quien responde la prueba en oposicién a la del admi- nistrador de la prueba. Es concebible que la falta de validez aparente podria contri- buir a una falta de confianza con respecto a la efectividad percibida de la prueba, con una disminucién consecuente en la motivacién de quien la responde para hacer su mejor esfuerzo. Ademés, los padres pueden objetar el que sus hijos sean examinados con dicho instrumento. Su preocupacién podria derivarse de una creencia de que di- cha prueba dara como resultado conclusiones invélidas. Una prueba en realidad pue- de ser muy relevante y «itil en un contexto particular, pero sino es percibida como tal por los examinandos, pueden resultar consecuencias negativas (que pueden variar desde una actitud negativa para responder la prueba hasta una demanda legal). Des- de la perspectiva del administrador de la prueba, la validez aparente también puede ser importante ya que contribuye (o deja de contribuir) a la confianza del administra- dor en la prueba. Por consiguiente podemos concluir que la validez aparente puede tener valor de rp. (relaciones publicas) tanto para quienes responden la prueba como para los usuarios de la prueba. Sin embargo, la validez aparente de una prueba, la simple apariencia de validez, no es una base aceptable para hacer inferencias inter- pretativas a partir de las puntuaciones de la prueba (APA, 1974, p. 26). Validez de contenido La validez de contenido describe un juicio concerniente a lo adecuado del muestreo que hace una prueba del comportamiento representativo del universo de comportamien- 186 Parte 2: La ciencia de la medicién psicolégica to del que la prueba estaba disefiada para tomar una muestra. Por ejemplo, el univer- so de comportamiento denominado como “asertivo” es muy amplio. Una prueba de asertividad escrita de contenido valido seria una que fuera representativa de manera adecuada de estas situaciones de rango tan amplio. Podriamos esperar que dicha prue- ba contendria reactivos que hicieran un muestreo de situaciones hipotéticas en el ho- gar (como si quien responde tiene dificultad para dar a conocer sus opiniones a otros miembros de la familia), en el trabajo (como si quien responde tiene dificultad para hacer que sus subordinados hagan lo que se requiere de ellos) y en situaciones socia- les (como si quien responde regresaria un corte de carne que no estuviera cocido en el término que él pidié en un restaurante de Lujo). Con respecto a las pruebas de rendimiento educativo, se acostumbra considerar a una prueba como una medida con contenido valido cuando la proporcién de material cubierto por la prueba se aproxima a la proporcién de material cubierto en el curso. Un examen final acumulativo sobre introduccion a la estadistica se consideraria con un contenido valido sila proporcin y tipo de problemas de introduccién a la estadis- tica en la prueba se aproxima a la proporcién y tipo de problemas de introduccién a la estadistica presentados en el curso. Las primeras etapas de una prueba que se esta elaborando para su uso en el salon de clases, ya sea en un salon de clases 0 aquellas que se realizan a lo largo del estado o de la nacién, generalmente implican una investigacién que explora el universo de objetivos de instruccién posibles para el curso. Se incluyen entre las muchas fuentes posibles de informacién sobre dichos objetivos los programas de estudio del curso, los libros de texto, los maestros, los especialistas que elaboran los planes de estudio y los profesores y supervisores que capacitan a los maestros en el 4rea tematica parti- cular. De la informacion reunida (junto con el juicio del elaborador de 1a prueba), surge un proyecto para la estructura de la prueba, un proyecto que representa la cul- minacion de esfuerzos disefiados para obtener una muestra adecuada del universo de areas de contenido que podrian ser susceptibles de muestreo en una prueba asi? Para que una prueba de empleo tenga un contenido valido, éste debe ser una muestra representativa de las habilidades relacionadas con el trabajo requeridas para el empleo. Una técnica usada con frecuencia para hacer proyectos de las areas de contenido que se van a abarcar en ciertos tipos de pruebas de empleo es la observa- cién. El elaborador de la prueba observara a veteranos exitosos en ese trabajo, notara las conductas necesarias para el éxito y disefiard la prueba para incluir una muestra representativa de dichas conductas. Esos mismos trabajadores (al igual que sus su- pervisores y otros) pueden ser Ilamados después para actuar como expertos 0 jueces para estimar el grado en que el contenido de la prueba es una muestra representativa de las habilidades relacionadas que se requieren en el trabajo. Lo que sigue es un método para cuantificar el grado de acuerdo entre dichos evaluadores. La cuantificaci6n de la validez de contenido La medicién de la validez de contenido es importante en escenarios laborales, donde las pruebas usadas para contratar y promover personas son examinadas en forma me- ticulosa respecto a su relevancia para el trabajo. Recuérdese del capitulo 2 que los tribu- 2La aplicacién del concepto de proyecto y elaboracion de proyectos no se limita, por supuesto, a las pruebas de rendimiento. La elaboracién de proyectos puede ser usada en el disefio de una prueba de personalidad, una medida de actitud o cualquier otra prueba, empleando en ocasiones los juicios de expertos en el campo. Capitulo 6: Validez 187 nales a menudo requieren evidencia de que las pruebas de empleo estan relacionadas con el trabajo. Es probable que en parte en respuesta a esta presion legal, y sin duda también por una preocupacion por la calidad de las pruebas de empleo, se han creado métodos para cuantificar la validez de contenido. Uno de estos métodos fue elaborado por Lawshe (1975), quien propuso una formula simple para cuantificar el grado de consenso pidiendo a un grupo de expertos que determinen la validez de contenido de una prueba de empleo. Este método se ha usado para evaluar muchas pruebas rela- cionadas con el empleo, tan diversas como valoraciones de la capacitacion de policias (Ford y Wroten, 1984) y medidas del comportamiento laboral de los asistentes psiquia- tricos (Distefano et al., 1983). El método también puede aplicarse a otras situaciones que tequieran que un grupo de expertos emita algtin juicio, como enel examen dela validez de contenido de pruebas de rendimiento matematico (Crocker et al., 1988). Sin tener en cuenta la aplicacién especifica, el enfoque de Lawshe (1975) para la cuantificacion de la validez de contenido incluye a un grupo de jueces. Cada miembro del jurado responde a la siguiente pregunta para cada uno de varios reactivos: “La habilidad o conocimiento medido por este reactivo es @ esencial a util pero no esencial B nonecesaria para el desempenio del trabajo?” (p. 567). Para cada reactivo, se anota el ntimero de miembros del jurado que afirma que el reactivo es esencial. De acuerdo con Lawshe, si mas de la mitad de los miembros del jurado indica que un reactivo es esencial, ese reactivo tiene al menos alguna validez de contenido. Existen niveles mayores de vali- dez de contenido conforme cantidades mayores de expertos concuerdan en que un reactivo particular es esencial. Usando estas suposiciones, Lawshe desarrollé una férmula denominada razén de validez de contenido: n,-N/2 N/2 donde CVR = razén de validez de contenido, n, = numero de expertos que indican “esencial” y N = nimero total de expertos. Suponiendo que un jurado consiste de diez expertos, los siguientestres ejemplos ilustran el significado de la CVR cuando es ne- gativa, cero y positiva. CVR= 1. CVR negativa: cuando menos de la mitad de los expertos indica “esencial”, la CVR es negativa. Supéngase que cuatro de diez expertos indicaron “esencial”: 4-(10/2) | 10/2 CVR= 2. CVR cero: cuando exactamente la mitad de los expertos indica “esencial”, la CVR es cero: see ae 10/2 3. CVR positiva: cuando més de la mitad pero no todos los expertos indican “esencial”, la CVR varia entre .00 y .99. Supéngase que nueve de diez indicaron “esencial”: CVR 0 _ 9- (10/2) _ 10/2 CVR .80 188 Parte 2: La ciencia de la medici6n psicolégica Cuadro 6.1 Nimero de expertos Valor minimo Valores minimos de la razon de validez de 5 99 contenido para asegurar que es improbable 6 99 que el acuerdo se deba al azar 7 99 8 15 g 18 10 62 11 59 12 96 13 04 14 51 15 Ag 20 42 25 Bs 30 og 35 31 40 -2g Puente: Lawshe (1975) Al validar una prueba, se calcula la razén de validez de contenido para cada reactivo. Lawshe (1975) recomienda que si la cantidad de acuerdo observado tiene una probabilidad de mas de 5% de ocurrir al azar, el reactivo deberia eliminarse. Los valores minimos de la CVR correspondientes a este nivel de 5% se presentan en el cuadro 6.1. En el caso en que haya diez expertos, un reactivo necesitaria una CVR minima de .62. En nuestro tercer ejemplo (aquel en que nueve de diez expertos con- cordaron), la CVR de .80 es significativa; por tanto el reactivo podria conservarse. En lo subsecuente, en nuestra exposicién de la validez con base en criterios, nuestra atenci6én cambia a un indice de validez que no se basa en el contenido de la prueba, sino en las puntuaciones. Primero, alguna perspectiva sobre la cultura y su relacién con la validez de una prueba. La cultura y lo relativo a la validez de la prueba Las pruebas a menudo se consideran ya sea como validas o invalidas. Una prueba de historia, por ejemplo, mide o no mide con precisién un hecho histérico. Sin embargo, también es cierto que lo que constituye un hecho histérico depende en algunos casos de quién esta escribiendo la historia. Considérese, por ejemplo, un evento de los mas trascendentales en la historia del mundo, uno que sirvi6 como un catalizador para la primera guerra mundial. El archiduque Francisco Fernando fue asesinado el 28 de junio de 1914 por un serbio llamado Gavrilo Princip (figura 6.1). Ahora piense en cémo responderia el siguiente reactivo de opcién multiple en una prueba de historia: Gavrilo Princip fue a) un poeta. b) un héroe. c) un terrorista. d) un nacionalista. €) todo lo anterior. “ae Para varios libros de texto en la regién bosnia del mundo, la opcién “e”, —eso es, todo lo anterior—, es la respuesta “correcta”. De acuerdo con Hedges (1997), los libros Capitulo 6: Validez 189 Figura 6.1 Relatividad cultural, historia y validez de la prueba El austrohtingaro Francisco Fernando y su esposa Sofia fueron retratados (izquierda) cuando salian del Ayuntamiento de Sarajevo el 28 de junio de 1914. Momentos después, Fernando seria asesinado por Gavrilo Princip, mostrado bajo custodia a la derecha. El asesinato sirvidé como un catalizador para la primera guerra mundial y se expone y analiza en los libros de texto de historia en todos los idiomas del mundo. Pero las descripciones del asesino Princip en esos libros de texto, y en los reactivos de las pruebas de capacidad basadas en esas descripciones, varian como una funcion de la cultura. de texto en 4reas de Bosnia y Herzegovina que son controladas por diferentes grupos étnicos imparten caracterizaciones muy variadas del asesino. En la regién del pais controlada por los serbios, los libros de texto de historia, y es de suponerse que tam- bién las pruebas elaboradas para medir el aprendizaje de los estudiantes, consideran a Princip como un “héroe y poeta”. Por el contrario, los estudiantes croatas leen que Princip fue un asesino entrenado para cometer un acto terrorista. A los musulmanes en la region se les ensefia que Princip fue un nacionalista cuya hazafia encendié los disturbios antiserbios. Por increible que pueda parecerles a los occidentales, a los estudiantes en Bosnia y Herzegovina se les ensefian en la actualidad diferentes versiones de historia, arte y lenguaje dependiendo de su origen étnico. Esta situaci6n ilustra con un relieve marca- do la influencia de la cultura en lo que se ensefia a los estudiantes, al igual que en aspectos de la construcci6n, calificacion, interpretacién y validacién de pruebas. La influencia de la cultura se extiende por tanto a juicios concernientes a la validez de pruebas y reactivos de pruebas. Pueden observarse diferencias en los juicios concer- nientes a la validez de las pruebas y de los reactivos de pruebas de un pais a otro a lo largo del mundo y, en algunos casos, incluso de un salon de clases a otro. Lo que se considera una prueba de historia valida en un salon de clases no sera considerada asi en otro. Es mas, las interpretaciones hechas con base en las respuestas de quien res- ponde la prueba variaran como una funcién de la cultura. Asi, por ejemplo, los estu- diantes croatas en Bosnia que seleccionen la opcién “b” (héroe) para el reactivo de prueba anterior pueden hacer algo mas que disminuir sus puntuaciones en la prueba 190 Parte 2: La ciencia de la medicién psicologica Fo to gr af ia s de Un it ed Pr es s In te rn de historia; pueden atraerse un escrutinio indeseable, si no es que una investigacion formal, respecto a sus lealtades politicas. Estos escenarios dan nuevo significado al término “politicamente correcto” en su aplicacién a las pruebas, de los reactivos y las respuestas de quienes las responden. La regién bosnia dificilmente es tinica en este sentido. Considérese en este contex- to un segmento del programa 60 Minutes titulado “Brother Against Brother”, transmi- tido por primera vez el 7 de diciembre de 1997. El corresponsal Ed Bradley reporto el caso de un profesor palestino que incluia preguntas respecto a la corrupcion guberna- mental en un examen. La autoridad palestina respondié interrogando, confinando y torturando al profesor, todo por el interés de mantener la “validez de contenido” apro- bada por el gobierno en los exA4menes universitarios. Validez relativa al criterio La validez relativa al criterio es un juicio respecto a lo adecuado que puede ser el uso de una puntuacién de prueba para inferir la posicién mas probable del individuo en alguna medida de interés, siendo la medida de interés el criterio. Dos tipos de eviden- cia de validez se incluyen bajo el encabezado de “validez con base en criterios”. La validez concurrente es la forma de validezrelacionada con un criterio que es un indice del grado en que una puntuacién de prueba se relaciona con alguna medida criterio obtenida al mismo tiempo (en forma concurrente). La validez predictiva es la forma de validez relacionada con un criterio que es un indice del grado en que una puntuacion de prueba predice alguna medida criterio. Antes de que expongamos cada uno de estos tipos de evidencia de validez en detalle, parece apropiado plantear (y respon- der) una interrogante importante. éQué es un criterio? Un criterio puede definirse en forma amplia como la norma contra la cual es valorada una prueba o una puntuacién de prueba. Desde el punto de vista operativo, un crite- tio puede ser casi cualquier cosa: “desempefio del piloto al volar un Boeing 767”, “calificacion en el examen de Peinados Avanzados”, “nitimero de dias pasados en hospitalizacién psiquidtrica’”. En resumen, no hay reglas inflexibles para lo que consti- tuye un criterio; puede ser un comportamiento especifico o un grupo de comporta- mientos, una puntuacién de prueba, una cantidad de tiempo, una estimacion, un diagnéstico psiquiatrico, un costo de capacitacién, un indice de ausentismo, un indicede intoxicacién alcohélica, etc. Pero aunque un criterio puede ser casi cualquier cosa, de manera ideal es confiable, relevante, valido y no esta contaminado. Caracteristicas de un criterio Como las puntuaciones de prueba, las puntuaciones cri- terio deben ser confiables. La confiabilidad del criterio y la confiabilidad de la prueba limitan cada una la magnitud del coeficiente de validez de acuerdo con la siguiente relacién tedrica: Pe aNA(E )(r,,) xy xx Aqui, Tye el coeficiente de validez (la correlacién entre la prueba y el criterio), r,, es la confiabilidad de la prueba y r,, es la confiabilidad del criterio. La formula se lee como sigue: el coeficiente de validez es menor 0 igual que la raiz cuadrada del coeficiente de confiabilidad de la prueba multiplicado por el coeficiente de confiabilidad del criterio. Capitulo 6: Validez 191 También es relevante un criterio adecuado. Es de esperar, por ejemplo, que una prueba que pretende decirnos algo sobre la aptitud de un individuo para una carrera en psicologia se haya validado usando alguna especie de criterio que incluya datos obtenidos de psicélogos. Una medida criterio adecuada también debe ser valida para el propésito para el que se esta usando. Si una prueba (X) se est4 usando como el criterio para validar una segunda prueba (Y), entonces debe existir evidencia de que la prueba X es valida. Si el criterio usado es una estimacién hecha por un juez o por un grupo de expertos, enton- ces debe existir evidencia de que la estimacién es valida. Si, por ejemplo, un manual de prueba para una prueba diagnéstica de personalidad reporté que la prueba habia sido validada usando un criterio de “diagnésticos hechos por un grupo de expertos galar- donados en psicodiagnéstico”, el administrador dela prueba podria desear investigar mas a fondo, ya sea leyendo en el manual o escribiéndole al editor de la prueba, respec- toa variables como 1) las definiciones especificas de términos y categorias diagnésticas, 2) lanaturaleza precisa de los antecedentes, capacitacién y experiencia del “grupo de expertos galardonados” y 3) la naturaleza y extension del contacto fuera de la prueba de los miembros del grupo de expertos con los sujetos diagnosticados. De manera ideal, un criterio tampoco est4 contaminado. La contaminacién del crite- vio es el término aplicad » a una situacién donde la medida criterio en si se ha basado, al menos en parte, en medidas de prediccién. Supéngase que acabamos de completar un estudio de la precisién con la que una prueba llamada MMPI predijo diagnésticos psiquiatricos en la poblacién psiquiatrica del sistema de hospitales estatales de Minnesota. En este estudio, quien leva a cabo el pronéstico es el MMPI y el criterio es el diagndstico psiquidtrico que existe en el expediente del paciente. Supongamos ade- mas que, mientras estamos en el proceso de anilisis de nuestros datos, alguien nos intorma que el diagnéstico para cada paciente en el sistema de hospitales estatales de Minnesota fue determinado, al menos en parte, por una puntuacién de prueba del MMPI. ;Aun deberiamos proseguir con nuestro analisis? La respuesta, por supuesto, es no; debido a que la medida pronosticadora ha contaminado a la medida criterio, seria de poco valor averiguar que, en esencia, quien lleva a cabo el pronéstico en efecto puede predecirse a si mismo. Validez concurrente Si las puntuaciones de prueba se obtienen mds o menos al mismo tiempo que las medidas criterio, las medidas de la relacién entre las puntuaciones de prueba y el criterio proporcionan evidencia de validez concurrente. Las declaraciones de validez concurrente indican el grado en que las puntuaciones de prueba pueden ser usadas para estimar la posicién presente de un individuo en un criterio. Si, por ejemplo, las puntuaciones (o clasificaciones) hechas con base en una prueba de psicodiagnéstico fueran a ser validadas contra un criterio de pacientes psiquidtricos ya diagnosticados, el proceso seria uno de validacién concurrente. En general, una vez que se ha estable- cido la validez de la inferencia de las puntuaciones de prueba, la prueba puede pro- porcionar una forma més rapida y menos costosa para ofrecer un diagnéstico o una decision de clasificacion. Una prueba con una validez concurrente demostrada en forma satisfactoria puede por tanto ser muy atractiva para usuarios futuros porque ofrece el potencial de ahorrar dinero y tiempo profesional; qué administrador, por ejemplo, no preferiria usar una prueba escrita barata si pudiera obtener los mismos resultados con esta prueba que por medio del uso de personal de salud mental muy 192 Parte 2: La ciencia de la medicién psicolégica capacitado (quienes podrian dedicar su tiempo en forma més eficiente y valiosa ha- ciendo otras cosas, como realizando investigaci6n o terapia)? En ocasiones se explora la validez concurrente de una prueba particular (a la que llamaremos prueba A para los propésitos de este ejemplo) con respecto a la forma en que se compara con otra prueba (a la que llamaremos prueba B). En tales estudios, la investigaci6n anterior ha demostrado en forma satisfactoria la validez de la prueba B y la pregunta de interés se vuelve “;Qué tan bien se compara la prueba A con la prue- ba B?” Aqui, la prueba B se usa como lo que se conoce como el “criterio de valida- cién”. En algunos estudios, la prueba A es ya sea una prueba nueva o una prueba que se esté usando para algtin propésito nuevo, quiza con una poblacién nueva. En el ejemplo de un estudio de validez concurrente que sigue, un grupo de investigadores exploré si una prueba que habia sido validada para su uso con adultos podria ser usada con adolescentes. El Inventario de Depresién Beck (Beck Depression Inventory; BDI; Beck et al., 1961, 1979; Beck y Steer, 1993) y su revisién, el Inventario de Depresion Beck-II (BDI-II; Beck et al., 1996) son medidas de informe personal usadas para identificar sintomas de depresi6on y cuantificar su gravedad. E] BDI-II es una de varias pruebas elaboradas por Aaron Beck y sus colegas (véase la Instantdnea de un elaborador de pruebas de este capi- tulo). Aunque el BDI se habia usado en forma amplia con adultos, se plantearon inte- rrogantes respecto a lo apropiado de su uso con adolescentes. Ambrosini et al. (1991) realizaron un estudio de validez concurrente para explorar la utilidad del BDI con adolescentes. También buscaban determinar si la prueba podia diferenciar con éxito a pacientes con depresién de aquellos sin depresién en una poblacién de pacientes ex- ternos adolescentes. Los diagndésticos generados con la administracién concurrente de un instrumento validado antes para su uso con adolescentes (la Lista de Trastornos Afectivos y Esquizofrenia de Kiddie; Kiddie-Schedule for Affective Disorders and Schizophrenia) se usaron como los validadores criterio. Los resultados sugiricron que el BDI es valido para ser usado con adolescentes. Ahora dirigiremos nuestra atencién a otra forma de validez de criterio, una en la que la medida criterio no se obtiene en forma concurrente sino en algtiin momento futuro. Validez predictiva Las puntuaciones de prueba pueden obtenerse en un momento y las medidas criterio obtenerse en un momento futuro, después de que ha tenido lugar algiin evento inter- medio (como una capacitacién, experiencia, terapia, medicacién o tan sélo el paso del tiempo). Las medidas de la relacién entre las puntuaciones de prueba y una medida criterio obtenida en un momento futuro proporcionan un indicio de la validez predictiva de la prueba; es decir, con cudnta precisién las puntuaciones de la prueba predicen alguna medida criterio. Las medidas de la relacién entre las pruebas de admision a la universidad y el promedio de calificaciones al final del primer afio, por ejemplo, pro- porcionan evidencia de la validez predictiva de las pruebas de admisi6n. En escenarios donde podrian emplearse pruebas, como una agenciade colocacio- nes, una oficina de admisiones a la universidad o la oficina de un alcaide, la validez predictiva alta de una prueba puede ser un auxiliar muy util para quienes toman deci- siones para seleccionara estudiantes exitosos, trabajadores productivoso convictos que son buenos prospectos para salir bajo palabra. El que un resultado de pruebasea valioso paratomaruna decisién depende delobien que los resultados mejoren las decisiones de seleccién sobre aquellas decisiones tomadas sin conocimiento de los resultados de la Capitulo 6: Validez 193 > INSTANTANEA DE UN ELABORADOR DE PRUEBA Aaron T. Beck, M.D. Prueba de Autoconcepto de Beck Escala de Actitud Disfuncional Escala de Autonomia Sociotrépica "L: elaboracién de pruebas psicolégicas requiere de mucha paciencia. Los reactivos rara vez pueden redactarse sin sutrir una revisién extensa. Tienen que realizarse numerosas pruebas piloto antes de que surja un instrumento aceptable. Aun entonces, lo adecuado de tal instrumento es efimero, debido a la continua redefinicion de las constelaciones especificas que constituyen ciertos sindromes psiquiatricos. Quien elabora las pruebas debe estar siempre vigilante de que su instrumento refleje lo que los pacientes estan experimentando en la actualidad... Se aconseja a los futuros elaboradores de pruebas que pidan a los que responden descripciones literales de cualesquier constructos psicolégicos que deseen evaluar. EI proceso de elaboracion de la prueba es una tarea tediosa, que requiere de mucha paciencia y resistencia. No hay una edicién final de una prueba: siempre aguarda la siguiente version.” Pruebas elaboradas: Inventario de Ansiedad de Beck Inventario de Depresién de Beck Escala de Desesperanza de Beck af mea Extractado del Test Developer Profile publicada en Cohen (1999) y en Escala para Ideacién Suicida de Beck Internet en wuw.mayfieldpub.com/psychtesting. prueba. En unescenario industrial donde el volumen de produccién es importante, siel uso de una prueba deseleccién de personal puede tener elefectodeaumentarla produc- tividad incluso en un grado pequenio, el aumento enla productividad redituara afiocon afio y puede traducirse en millones de délares de incremento en las ganancias. Yen un contexto clinico, no podria ponerse ningtin precio a una prueba que tiene el efecto de salvar mas vidas del suicidio u homicidio sila prueba pudiera proporcionar una preci- sidn predictiva superior a las pruebas existentes con respecto a tales actos. Por desgra- cia, las dificultades inherentes en la elaboracién de dichas pruebas son numerosas y multifacéticas (véase Mulvey y Lidz, 1984; Murphy, 1984; Petrie y Chamberlain, 1985). Los juicios de la validez relacionada con un criterio, sea concurrente 0 predictiva, se basan en dos tipos de evidencia estadistica: el coeficiente de validez y los datos de expectativa. El coeficiente de validez El coeficiente de validez es un coeficiente de correlacién que Proporciona una medida de la relacién entre las puntuaciones de prueba y las pun- tuaciones en la medida criterio. El coeficiente de correlacién calculado a partir de una puntuaci6n (0 clasificacién) en una prueba psicodiagnéstica y la puntuaciéon (0 clasi- ficaci6n) criterio asignada por psicodiagnosticadores es un ejemplo de un coeficiente de validez. Normalmente, se usa el coeficiente de correlacién de Pearson para deter- minar la validez entre las dos medidas. Sin embargo, dependiendo de variables como el tipo de datos, el tamafio de la muestra y la forma de la distribucién, podrian usarse otros coeficientes de correlacién. Por ejemplo, al examinar jerarquizaciones hechas 194 Parte 2: La ciencia de la medicién psicolégica por uno mismo del desempefio en algiin trabajo con las jerarquizaciones hechas por supervisores laborales, se emplearia la formula para la correlaci6n de orden de jerar- quia rho de Spearman. Como el coeficiente de confiabilidad y otras medidas de correlacién, el coeficiente de validez es afectado por la restriccién o inflacién del rango. Y, como en otros estu- dios correlacionales, una cuestidn clave es si el rango de puntuaciones empleado es apropiado para el objetivo del andlisis correlacional. En situaciones donde, por ejem- plo, ha ocurrido una disminucion en el ntimero de sujetos en el transcurso del estu- dio, el coeficiente de validez puede ser afectado en forma adversa. Para ilustrar esto, supéngase que un psicélogo clinico que trabaja en la sala de emergencias psiquiatri- cas de un hospital municipal ha elaborado una prueba nueva Ilamada.“Inventario de Clasificacién Psicodiagnéstica Muy Breve” (ICPMB). El psicélogo plantea la hipdtesis de que la puntuacién o clasificacién de un paciente en esta prueba (hipotética) sera predictiva del diagnéstico en la grafica del paciente siete dias después del dia en que se le aplicd. Debido a que sélo toma un minuto o dos aplicarla (en verdad es muy breve), a todas las personas que se presentan en la sala de emergencias psiquiatricas (o que son Ilevadas a ella) se les aplica la prueba como parte de un estudio de valida- cién. El estudio se lleva a cabo durante un mes, al final del cual se calcula un coeficien- te de validez estadisticamente significativo describiendo la relacion entre la puntuacién ICPMB y el diagnéstico criterio. ;El psicélogo deberia acudir de inmediato a la oficina de un editor de pruebas con el ICPMB en mano? No necesariamente, al menos no hasta que se hayan analizado los efectos de la disminucién, si es que hay alguna, en la muestra. Los hallazgos impresionantes del ICPMB bien podrian ser un artefacto de dicha disminuci6n, y podrian interpretarse con més precisién como un reflejo del hecho de que el ICPMB es un pronosticador preciso del diagnéstico psiquiatrico sélo para condiciones que se encuentran en el rango me- dio de la psicopatologia; puede ser que uno no sea capaz de decir a partir del disefio de este estudio qué tan buen pronosticador es el ICPMB en los rangos extremos. Aqui esta por qué: si la sala de emergencias psiquidtricas del hospital municipal en el que se realizé el estudio es tipico como otros, los pacientes menos trastornados habran sido dados de alta después de un dia o dos, y por consiguiente seran eliminados de la mues- tra. Puede esperarse que la disminucién de la muestra no s6lo ocurra con respecto a los pacientes menos trastornados sino también en el otro extremo; muchos de los pacien- tes con trastornos severos habran sido transferidos a un hospital estatal antes de que transcurran siete dias a partir del momento de su admisi6n inicial. Debido a que los datos para los sujetos restantes s6lo representan el rango medio de la amplia gama de tipos psicodiagnésticos que pudieran encontrarse en una sala de emergencias psiquia- trica, es probable que la medida reportada de la validez del ICPMB sea reducida? El problema del rango restringido puede ocurrir a través de un proceso de autoseleccién en la muestra empleada para el estudio de validaci6n. Por tanto, por ejemplo, sila prueba pretende medir algo tan técnico o peligroso como la aptitud para combatir incendios en un barco petrolero, bien puede ser que las tinicas personas que respondan aun anuncio para el puesto de bombero en un barco petrolero sean aque- llas que en realidad estén muy calificadas para el puesto; por consiguiente, esperaria- mos que el rango de la distribucién de puntuaciones en alguna prueba de aptitud para combatir incendios en un barco petrolero sea restringido. Para puestos menos técnicos o peligrosos, un factor de autoseleccién podria estar operando si quien elabo- 3 Una exposicién mas detallada de la influencia en los coeficientes de correlacién de 1) la restriccién del rango y 2) la combinacién de datos de grupos diferentes puede encontrarse en Allen y Yen (1979, pp. 34-36). Capitulo 6: Validez 195 ra de la prueba selecciona a un grupo de empleados recién contratadospara exami- narlos (con la esperanza de que se dispondra de medidas criterio para este grupo en alguna fecha subsecuente). Sin embargo, debido a que es probable que los empleados recién contratados ya hayan pasado por alguna valoracién formal o informal en el proceso de ser contratados, hay una buena probabilidad de que la capacidad entre este grupo sera mayor que la capacidad para hacer el trabajo entre una muestra aleatoria de aspirantes a empleos ordinarios. En consecuencia, las puntuaciones en la medida criterio que es aplicada posteriormente tenderén a ser superiores que las puntuacio- nes en la medida criterio obtenida de una muestra aleatoria de aspirantes a empleos ordinarios; planteado de otra manera, las puntuaciones tendran un rango restringido. Mientras que es responsabilidad de quien elabora la prueba reportar datos de validacién en el manual de la prueba, es responsabilidad de los administradores de la prueba leer con cuidado la descripcién del estudio de validacion y valorar la adecua- cién de la prueba para sus propdsitos especificos. ;Cudles fueron las caracteristicas de la muestra usada en el estudio de validacién? ;Cémo se equiparan estas caracteristi- cas con las personas para quienes se esta contemplando una aplicacién de la prueba? éAlgunas subpruebas de una prueba son mas apropiadas para un propésito especifi- co de la prueba que la prueba misma? Qué tan alto deberia ser un coeficiente de validez para que un administrador oun elaborador de pruebas infieran que la pruebaes valida? No hay reglas para determinar el rango minimo aceptable de un coeficiente de validez. De hecho, Cronbach y Gleser (1965) advirtieroncontrael establecimiento de tales reglas. Afirmaron que los coeficientes de validez no necesitan ser tan elevados que permitan al administrador de la prueba tomar decisiones precisas dentro del contexto tinico en el que se est4 usando una prue- ba. En esencia, el coeficiente de validez deberia ser lobastante alto para que conduzcaa laidentificacién y diferenciacién de personas que responderan la prueba con respectoa un atributo o atributos deseados, como empleados que es probable que sean mas pro- ductivos, oficiales de policia que es menos probable que usen mal sus armas y estudian- tes que es mas probable que sean exitosos en un curso de estudio particular. Validez incremental Los administradores de pruebas implicados en la prediccién de algun criterio a partir de puntuaciones de prueba a menudo estén interesados en la utilidad de pronosticadores multiples. El valor de incluir mds de un pronosticador depende de un par de factores. Primero, por supuesto, cada medida que se est4 usan- do como pronosticador deberia tener validez predictiva relacionada con un criterio. Segundo, los pronosticadores adicionales deberian poseer validez incremental, defini- da como el grado en que un pronosticador adicional explica algo de la medida criterio que no estaba explicado por los otros pronosti¢adores. La validez incremental puede ser usada cuando se predice algo como el éxito aca- démico en la universidad. El promedio de calificaciones al final del primer afio puede emplearse como una medida de éxito académico. Un estudio de pronosticadores po- tenciales del promedio de calificaciones puede revelar que el tiempo pasado en la bi- blioteca y el dedicado al estudio se correlacionan altamente con el promedio de calificaciones, y la cantidad de horas de suefio que le‘permite tener a uno un compafie- ro de dormitorio durante periodos de examen se correlaciona con el promedio de cali- ficaciones en un menor grado. ;Cudl es la forma mas precisa pero mas eficiente de predecir el promedio de calificaciones? Un enfoque, que emplea los principios de la validez incremental, es comenzar con el mejor pronosticador, el pronosticador que se correlaciona de manera mas alta con el promedio de calificaciones. Este puede ser el tiempo dedicado al estudio. Entonces, usando técnicas de regresi6n multiple, uno ana- 196 Parte 2: La ciencia de la medicién psicologica lizaria la utilidad de los otros pronosticadores. Aun cuando el tiempo pasado en la biblioteca se correlaciona de manera alta con el promedio de calificaciones, puede no poseer validez incremental si se superpone demasiado con el primer pronosticador, el tiempo dedicado al estudio. Dicho de otra manera, si el tiempo dedicado al estudio y el pasado en la biblioteca se correlacionan de manera tan alta entre si que reflejan en esencia lo mismo, entonces sdlo uno de ellos necesita incluirse como pronosticador; incluir ambos proporcionaria poca informacién nueva sobre uno solo. En contraste, uno puede encontrar que la cantidad de suefio que le permite tener a uno un compatie- ro de dormitorio durante los examenes tiene buena validez incremental debido a que refleja un aspecto diferente de la preparacién para los ex4menes (descansar) que el primer pronosticador (estudiar). La validez incremental se ha empleado para mejorar la prediccién del desempenfio laboral para los mecdnicos del Cuerpo de Marina (Carey, 1994) y la prediccién del abuso infantil (Murphy-Berman, 1994). En ambos casos, las medidas pronosticadoras se incluyeron sdlo si demostraban que podian explicar algo de la medida criterio que no se conocia ya a partir de los otros pronosticadores. Informaciénesperada Lainformacién esperada proporciona una fuente deinformacién que puede usarse para valorar la validez relacionada con un criterio de una prueba. Usando una puntuacién obtenida en alguna prueba o medida, las tablas de expectativa ilustran la probabilidad de que quien responde la prueba obtendra una puntuaci6n dentro de algtin intervalo de puntuaciones en una medida criterio; un intervalo que puede verse como “aprobatorio”, “aceptable”, etc. Una tabla de expectativa muestra el porcentaje de personas dentro de los intervalos de puntuacién de prueba especificados que de manera subsecuente fueron colocados en diversas categorias del criterio (por ejemplo, colocados en la categoria “aprobado” o en la categoria “reprobado”). Una ta~ bla de expectativa puede crearse a partir de una grafica de dispersién de acuerdo con los pasos enumerados en la figura 6.2. Una tabla de expectativa mostrando la relacién entre puntuaciones en una subprueba de la Prueba Diferencial de Aptitud (Differential Aptitude Test; DAT) y las calificaciones del curso de historia estadounidense para nifios de undécimo grado se presenta en la figura 6.2. Puede verse que de los estudiantes que obtuvieron puntuaciones entre 40 y 60, 83% obtuvo 80 o mas en ese curso. Para ilustrar c6mo podria usar una tabla de expectativa un funcionario de perso- nal corporativo, supéngase que con base en varias puntuaciones de prueba y entre- vistas personales, expertos en personal estimaron a todos los aspirantes para un puesto de trabajo manual que implicaba trabajo a destajo como “excelente”, “muy bueno”, “promedio”, “por debajo del promedio” y “malo”. En este ejemplo, entonces, la pun- tuacién de prueba en realidad es una estimacién hecha por expertos en personal con base en varias puntuaciones de prueba y una entrevista personal. Supongamos ade- mas que debido a una escasez severa de mano de obra en esa época, todos los aspiran- tes fueron contratados (un suefio convertido en realidad para un investigador interesado en Ilevar a cabo un estudio de validacién con respecto a la validez del procedimiento de evaluacién). Los supervisores de piso que ignoraban la puntuacion compuesta obtenida por los trabajadores recién contratados proporcionan la medida criterio en este estudio de validacién; de manera especifica, estimaciones del desem- pefio de cada empleado: “satisfactorio” o “insatisfactorio”. La figura 6.3 es la grdfica de expectativa resultante, o representacién grafica de una tabla de expectativa. Puede ver- se que de todos los aspirantes estimados de manera original como “excelentes”, 94% fueron estimados “satisfactorios”en el trabajo. Por el contrario, entre los aspirantes estimados de manera original como “malos”, s6lo 17% fueron estimados “satisfacto- rios” en el trabajo. En general, esta grafica de expectativa nos dice que entre mayor es Capitulo 6: Validez 197 100 (2) (17) (54) 2 @ eS 1 8 28 ~~ y 90 § (7) (24) (29) (29) 5 a 2 10 14 15, sg & 80 & 67 | (9) (46) (17) a 2 a 7 24 22 9 ° g 70 a = @7) (a5) 8) g wo 3 1 6 } 4 8 Go 60 g = 5 4 0 10 20 30 40 50 60 Puntuaciones crudas en Uso del Lenguaje de las Pruebas Diferenciales de Aptitudes () porcentaje de puntos por celda Figura 6.2 : Siete pasos para hacer una tabla de expectativa Fuente: Tomado de Manual of Differential Aptitude Tests: Fifth Edition, Forms § & T. Derechos reservados © 1973, 1974 por The Psychological Corporation. Reproducido con autorizacién. odes los derechos reservados. “Differential Aptitude Tests” y “DAT” son marcas registradas de The Psychological Corporation. 1. Trace una grdfica de dispersion de tal modo que cada punto en la grdfica represente una combinacion particular de puntuacién de la prueba y puntuacién criterio. El criterio deberd encontrar en el eje Y. 2. Trace una cuadricula de tal forma que resuman el niimero de personas que obtuvieron puntuaciones dentro de un intervalo particular. 3. Cuente el ntimero de puntos en cada celda (n,) como se muestra en la figura. 4, Cuente el ntimero total de puntos dentro de cada intervalo vertical (N,). Este ntimero representa el nuimero de personas que obtuvieron puntuaciones dentro de un interval. particular de puntuacién de la prueba. 5. Convierta cada frecuencia de celda en un porcentaje (n,/N,). Esto representa el porcentaje de personas que obtienen una combinacién de puntuacion de prueba y puntuacion criterio particular. Escriba los porcentajes en las celdas. Enciérrelos entre paréntesis para distinguirlos de las frecuencias. 6. En una hoja separada, cree encabezados y subencabezados de tabla y copie los porcentajes en las tablas de celda apropiadas como se muestra en el cuadro 6.2. Tenga cuidado de incluir los porcentajes en las tablas de celda correctas. (Nétese que es facil cometer un error en esta etapa debido a que los porcentajes de personas dentro de intervalos de puntuacion particulares se deben incluir de manera horizontal en la tabla y vertical en la grafica de dispersion.) 7. Silo desea, incluya el ntimero y el porcentaje de casos por intervalo de puntuaciones de la prueba. Si el ntimero de casos en cualquiera de las celdas es muy pequefio, es mas probable que flucttie en graficas subsecuentes. Si los tamafios de las celdas son pequeiios, el administrador podria crear menos celdas o acumular datos durante varios afios. 198 Parte 2: La ciencia de la medici6n psicolégica Cuadro 6.2 Puntuaciones de la subprueba de Uso del Lenguaje del DAT y calificacién en historia estadounidense para 171 nifios de undécimo grado (mostrando el porcentaje de estudiantes que obtuvieron calificaciones del curso en el intervalo mostrado) ee Casos por intervalo de Intervalo de calificacion en.el curso puntuacién de prueba Puntuacién de prueba 0-69 70-79 ° 80-89 90-100 N, % 40 y superior V7 29 54 52 100 30-39 8 46 29 7 48 100 20-29 15 59 24 2 4) 100 debajo de 20 37 57 7 30 101* *El total suma mds de 100% debido al redondeo. la estimacién inicial, es mayor la probabilidad de éxito en el trabajo. Planteado de otra manera, nos dice que entre menor es la estimacién inicial, es mayor la probabilidad de fracaso en el trabajo. La compaiiia que experimenté con un sistema de estimaci6n asi podria esperar de manera razonable mejorar su productividad usando este sistema de estimacién. De manera especitica, los aspirantes al empleo que obtuvieran estima- ciones de “promedio” o superiores serian los-unicos aspirantes contratados. Las tablas que pudieran usarse como un auxiliar para los directores de personal en sus laborés de toma de decisiones fueron publicadas por H. C. Taylor y J. T. Russell en Journal of Applied Psychology en 1939. Conocidas por los nombres de sus autores, las tablas Taylor-Russell proporcionan una estimacion de la extension en la queincluir una prueba particular enel sistema deseleccién mej orard laseleccién. De manera mas esp e- cifica, las tablas proporcionan una estimacin del porcentaje de empleados contratados por el uso de una prueba particular que seran exitosos en sus trabajos, dadas diferent es combinaciones de tres variables: la validez de la prueba; larazén de seleccién usaday la tasa base, o la proporcion de personas empleadas en la actualidad én puestos similares al puesto vacante que son consideradas exitosas. El valor asignado para la validez de la prueba es el coeficiente de validez calculado. La razén de seleccién es un valor numéri - co que refleja la relaci6n entre el ntimero de personas que se contratan y el numer o dis- ponible para contratacion. Por ejemplo, si hay 50 puestos y 100 aspirantes, lara zén de selecciénes 50/100, 0.50. Latasabasees unindicio del “promedio debateo” actualdela oficina de personal usando cualesquiera técnicas empleadasenlaactualidad. Por ejem- plo, si una empresa emplea 25 programadores de computadoras y 20 son conside rados exitosos, la tasa base seria .80. Con conocimiento del coeficiente de valide z de una prue- ba particular junto con la razén de selecci6n, la referencia a las tablas Taylor- Russell le proporcionaria al funcionario de personal una estimacién de cuanto mej oraré la selec- cién con el uso de la prueba sobre los métodos existentes. Se presenta una tabla Taylor-Russell en el cuadro 6.3. Esta tabla es para la tasa b ase de .60, lo que significa que 60% de los contratados bajo el sistema existente son exitosos en su trabajo. En forma descendente del lado izquierdo'se encuentran l os coeficientes de validez para una prueba que podria ser usada para ayudar a sel eccionar emplea- dos. A lo largo de la parte superior estén las diversas razones de sele ccién. Reflejan la proporcién de las personas que solicitan empleo que seran contratadas. Si se introduce una prueba nueva para ayudar a seleccionar empleados en uria situacion con una ra- z6n de seleccién de .20, y sila prueba nueva tiene un coeficiente de validez predictiva de .55, la tabla muestra que la tasa base se incrementard a .8 8. Esto significa que, en lugar de que se espere que 60% de los empleados se desempeie con éxito, puede espe- Capitulo 6: Validez 199 Estimaciones Producci6n satisfactoria Producci6n insatisfactoria Excelente Muy buena Promedio Debajo del promedio Mala Figura 6.3 Estimaciones de prueba y desempeiio en el trabajo (Fuente: The Psychological Corporation} rarse que un total de 88% lo haga. Cuando las razones de seleccion son bajas, como cuando sdlo 5% de los aspirantes serd contratado, aun las pruebas con coeficientes de validez bajos, como .15, pueden dar como resultado tasas base mejoradas. Una limitacién inherente en el uso de los cuadros Taylor-Russell es que la relacién entre el pronosticador (la prueba) y el criterio (la estimacién del desempefio en el traba- jo) debe ser lineal. Por ejemplo, si hay algun punto en el que el desempefo en el trabajo se estabilice, sin importar qué tan alta sea la puntuaci6n que se obtiene en la prueba, seria inapropiado usar las tablas Taylor-Russell. Otra limitacién inherente en el uso de las tablas Taylor-Russell es.el problema potencial de tener que identificar una puntua- ci6n criterio que separe alos empleados “exitosos” de aquellos “sin éxito”. Este proble- ma se evité en un conjunto de tablas alternativas (Ni aylory Shine, 1965) que proporcionan un indicio dela diferencia en as puntuaciones criterio promedio para el grupo seleccio- nado comparado conel grupo original. El uso de las tablas Naylor-Shine implica obte- ner.la diferencia entre-lasmedias de los grupos seleccionado y no seleccionado para obtener un indice de lo que la prueba (o alguna otra herramienta de evaluacién) est4 agregando a procedimientos ya establecidos. Tanto las tablas Taylor-Russell como las Naylor-Shine pueden ayudar ajuzgarla utilidad de una prueba particular, las primeras determinando el incremento sobre procedimientos actuales y las ultimas el incremento en la puntuacién promedio en alguna medida criterio. Con ambas tablas, el coeficiente de validez usado debe obtenerse por medio de procedimientos de validacién concu- rrente, un hecho que no es sorprendente debidoa que se obtiene con respecto aemplea- dos actuales contratados por el proceso de seleccién en el momento del estudio. : Silas decisiones de contratacién sélo se tomaran con base en variables como la validez de una prueba deempleoy larazén de seleccién prevaleciente, entonces tablas como las ofrecidas por Taylor y Russell y Naylor y Shine serian usadas en forma amplia en la actualidad. El hecho es que muchas otras clases de variables podrian entrar en las decisiones de contratacién (por ejemplo, posicién minoritaria, salud fisica o mental general del aspirante o uso de farmacos por parte de este ultimo). Dadas las muchas variables que pueden entrar en una decision de contratacion, o de otra indole, ;qué uso tiene una prueba determinada en el proceso de decisién? Después de la publicacién de las tablas Taylor-Russell, comenzaron a aparecer varios articulos probando formas de determinar qué tan apropiado es el uso de una prueba determinada con respecto a diferentes tipos de procedimientos de evaluacién (Brogden, 1946, 1949; Smith, 1948), y comenzé abundar una literatura que abordaba la teoria de la utilidad de las pruebas. También durante este periodo, estadisticos como Wald (1947, 1950) estuvieron implica- 200 Parte 2: La ciencia de la medicién psicolégica Cuadro 6.3 Cuadro Taylor-Russell para una tasa base de .60 Raz6n de seleccién Validez .05 10 20 30 40 50 60 70 80 90 95 (p,,) 00 60 60 60 60 60 60 60 60 60 60 60 05 64 63 63 62 62 62 61 61 61 60 60 10 68 67 65 64 64 63 63 62 61 61 60 Sei 70 68 67 66 65 64 63 62 61 61 20 15 13 a 69 67 66 65 64 63 62 61 Oe. als 76 ae 7m 69 68 66 65 63 62 61 30 sane? 79 76 23 a 69 68 £6 64 62 61 35 85 82 Te JE 73 wal 69 67 65 63 62 40 88 85 81 28 75 3 70 68 66 63 62 45 90 87 83 80 7 74 7 63 86 64 62 S0sa:-.98 90 86 £2 79 76 2B 70 67 64 62 oO ero 92 88 84 81 78 1 W 68 64 62 60 96 94 90 87 83 80 18 23 69 65 63 65 98 96 92 89 85 82 78 74 70 65 63 70 99 7 94 3 87 84 80 75 nN 66 63 Tae od 99 96 $3 90.86 81 77 n 66 63 80 1.00 99 98 95 92 88 83 78 72 66 63 85 1.00 = 1.00 99 97 ogee 79] 86 80 73 66 63 90° 100 1,00" 1:00 99 97 94 88 82 74 67 63 95 100 100 or 00 == 1100 89 97 82 84 75 67 63 1.00 1.00 1.00) 1,00 1.00 1.00 1.00 1.00.86 15 67 63 Fuente: Taylor y Russell (1939) dos en la identificacién de reglas estadisticas para desarrollar un andlisis secuencial de un problema que condujeran a una decisién optima; habia nacido la teoria de la deci- sion y seria aplicada para responder interrogantes respecto a la utilidad de las pruebas psicoldgicas. Teoria de las decisiones y utilidad de las pruebas Quiza la aplicacién citada con mas frecuencia de la teorfa dela decisién estadistica al campo de las pruebas psicolégicas es la obra de Cronbach y Gleser, Psychological Tests and Personnel Decisions, aunque se pu- blicaron después otras obras (no tan completas como la de Cronbach y Gleser) en esta area (por ejemplo, Darlington y Stauffer, 1966; Dunnette, 1963; Mahoney y England, 1965;Rorer et al., 1966). Laidea de aplicar la teoria de la decision estadistica a cuestiones de utilidad de las pruebas era atractiva y prometedora desde el punto de vista concep- tual, y un libro de texto de la época que es una autoridad refleja el gran entusiasmo con el que se recibié este matrimonio de empresas: El enfoque basico de la teoria de la decision para la seleccién y la colocacién [...] tiene varias ventajas sobre el enfoque mas clasico basado en el modelo de correlacién [...] No hay duda de que es un modelo més general y mejor para manejar esta clase de tarea de decisién, y predecimos que en el futuro los problemas de seleccién y coloca- cién serdn tratados en este contexto con més frecuencia; quiza hasta la exclusién final del modelo correlativo mas estereotipado (Blum y Naylor, 1968, p. 58). Planteado en forma general, Cronbach y Gleser (1965) presentaron 1) una clasifi- cacién de problemas de decisién, 2) varias estrategias de seleccién que varian desde procesos de una sola etapa hasta andlisis secuenciales, 3) un andlisis cuantitativo de la Capitulo 6: Validez 201 ACERCAMIENTO Tasa basal y validez predictiva P:: el propésito de valorar la validez predictiva de una prueba, puede aplicarse una prueba dirigida de un atributo particular a una muestra de sujetos de investigacién en la que aproximadamente la mitad de los sujetos posee o exhibe el atributo al que se dirige y la otra mitad no. En lo subsecuente pueden surgir preguntas sobre lo apropiado del uso de una prueba asf, en la que la tasa base de la ocurrencia del atributo al que se dirige en la poblacion que se estd examinando es considerablemente menor que 50%. Estas interrogantes surgen, por ejemplo, con respecto al uso de una prueba llamada Inventario de Abuso Infantil Potencial (Child Abuse Potential Inventory; car; Milner, 1986). El cap fue disefiado para ser un auxiliar de exploracidn en la identificacién de adultos con alto riesgo de cometer abuso ffsico con nifios (Caliso y Milner, 1994; Hart, 1989; Melton, 1989; Milner, 1991; Milner et a/, 1986: Murphy- Berman, 1994). Una puntuaci6n alta en el cap, en especial en combinacion con evidencia confirmatoria de otras fuentes, podria incitar al usuario de la prueba a sondear mas a fondo con respecto a la historia, o intenciones actuales, de quien responde la prueba respecto al abuso infantil. Otro uso del CAP es una medida de resultados en programas disefiados para prevenir el abuso fisico de los nifios (Milner, 1989). Como tal, a los participantes se les aplicarfa el CaP al entrar al programa y de nuevo al salir. La investigacién de validez predictiva realizada con el CaP ha “demostrado un indice de aciertos extrafio (alrededor de 90%) en la discriminacion de los abusivos de los no abusivos™ (Melton y Limber, 1989, p. 1231). Pero como ha seflalado el autor del cap, “el indice de aciertos de 90% reportado fue determinado en estudios que usaron grupos que consistfan en cantidades iguales de abusivos y de no abusivos que por disefio contienen tasas base de 50% que son dptimas para propésitas de clasificacion” (Milner, 1991, p. 80). Por tanto, conforme disminuye la tasa base para el abuso infantil, se incrementaré el nmero de falsos positivos en el grupo indicado como abusivo, mientras disminuye el ndmero de falsos negativos en el grupo indicado como no abusivo. Si estos hechos relacionados con las tasas base y la validez predictiva no son conocidos y apreciados por el usuario de la prueba, existe un potencial para el mal uso de pruebas como el CAP. La tasa base para el abuso infantil en la poblacién general es de alrededor de 2-3% anual (Finkelhor y Dziuba- Leatherman, 1994). Esta tasa base es relativamente baja para la tasa base de 50% que prevalecié en los estudios de validez predictiva con el cap. Por consiguiente, este hecho debe considerarse en cualquier uso del caP con miembros de la poblacién general. Con estos antecedentes, considérese un estudio realizado por Milner et a/., (1986) con 220 adultos, incluyendo 110 abusadores y 110 no abusadores conocidos. Todos los sujetos completaron el cary se calificé la prueba. Un total de 82.7% de los abusadores y 88.2% de los no abusadores fueron clasificados en forma correcta usando el cap (cuadro 1). Descendiendo por las columnas del cuadro 1, nétese quede los 110 abusadores conocidos, 19 fueron clasificados en forma incorrecta como no abusadores. De los 110 no abusadares conocidos, 13 fueron identificados en forma incorrecta como abusadores. Por supuesto, en la mayor parte de las aplicaciones del cap, uno no sabria si la persona que se esta examinando era un abusador de nifios real; es probable que ésa serfa la razon para la aplicacién de la prueba. Para comprender los errores que se cometerian, observe de nuevo el cuadro 1, pero esta vez a lo largo de las filas. Cuando el CaP indica que una persona es una abusadora, el hallazgo es correcto 87.5% de las veces (91 de 104 casos). Cuando el car indica que una persona no es una abusadora, es correcto 83.6% de las veces (97 de 116 casos). EI panorama cambia en forma draméatica, sin embargo, en un ambiente de tasa baja. Para los propésitos de este ejemplo, supongamos que el abuso fisico infantil ocurre en 5% de la poblacidn. En un estudio hipotéticc, examinamos a 1 000 personas usando el cap. Debido a que el abuso fisico infantil ocurre en 5% de la poblacién, esperariamos que 50 0 mas de los que respondieron la prueba sean abusadores. Y digamos ademas que al igual que en el estudio de Milner etal., 82.7% de los abusadores y 88.2% de los no abusadores son identificados en forma correcta en nuestro estudio (cuadro 2). Descendiendo por las columnas en el relacion entre la utilidad de la prueba, la razé6n de seleccién, el costo del programa de prueba y el valor esperado del resultado y 4) una recomendacién de que en algunos casos los requerimientos del trabajo sean adecuados a la capacidad del solicitante en lugar de a la inversa (un concepto al que se refieren como “tratamiento adaptativo”): 202 Parte 2: La ciencia de la medici6n psicolégica Cuadro 1 Aplicacién del cap en una poblacién con una tasa base alta de abuso infantil Situacién real Abusador No abusador Totales de fila Los resultados de! cap indican: Abusador Sl eS 104 No abusador 19 97 116 Totales de columna 110 110 220 Cuadro 2 Aplicacion del cap en una poblacién con una tasa base baja de abuso infantil Situacién real Abusador No abusador Totales de fila Los resultados del cap indican: Abusador M1 112 153 No abusador g 838 847 Totales de columna 50 950 1000 cuadro 2, si 82.7% de los abusadores son identificados en forma correcta, 41 seran identificados como abusadores y los nueve restantes como no abusadores. Si la prueba tiene un indice de precisién de 88.2% para no abusadores, 838 de los no abusadores seran identificados en forma correcta y los restantes 112 como abusadores. Ahora obsérvese de nuevo el cuadro 2, esta vez a lo largo de las filas. Si la puntuaci6n en el cap indica que el individuo es un abusador, es probable que sea incorrecto. La mayorfa de las personas (73.2% de ellas, en este ejemplo) con puntuaciones CAP que indiquen que son abusadoras en realidad no lo son. Esta imprecisidn es producto por completo de trabajar con una muestra de tasa base baja. Incluso si el CAP fuera més preciso, debido a que el abuso es un fendmeno de tasa base baja, utilizar los resultados de la prueba para identificar abusadores todavia daria como resultado que muchos abusadores identificados fueran clasificados en forma errénea. Planteado de otra manera, cuando la poblacién que no comete abusos es mucho mayor que la poblacidn que sf lo hace, las probabilidades son que la mayor parte de los etrores se cometeran al clasificar a la poblacidn que no comete abusos. Coléquese en el lugar del juez o el jurado que se entera de un caso de abuso fisico infantil. Un psicdlogo atestigua que el CAP, que tiene un Indice de precisidn de 85-90%, indica que el acusado es un abusador fisico. El psicdélogo intenta una explicacion de las tasas base de la poblacin y la posibilidad de error. Aun asf, qué podria perdurar en su mente del testimonio del psicdlogo? Muchas personas razonarian que, si el CAP es correcto mas de 85% de las veces, y si el acusado es /dentificado como un abusador de nifios, debe haber al menos una probabilidad de 85% de que el acusado sea un abusadar de nifios. Esta conclusion, como ahora lo sabe, seria incorrecta y podria dar como resultado que se cometiera una injusticia (Melton y Limber, 1989). Este ejemplo ilustra que debe respetarse el uso que pretende darle a una prueba quien la elabora. Carecer de cualquier evidencia psicométrica irresistible para desviarse del uso pretendido por el elaborador de la prueba, tales desviaciones pueden dar como resultado un dafio a quien responde la prueba. El ejemplo sirve ademas como un recordatorio de que cuando se recopilan datos sobre la precision y la consistencia de una prueba, los datos se recopilan usando un muestreo de personas de una poblacién particular. Las conclusiones extraidas de esos datos psicométricos s6lo son aplicables a grupos de personas de una poblacidn similar. Joel Milner, el autor del cap, ha exhortado a los administradores de la prueba tomen en cuenta que es inapropiado usar alguna prueba psicoldégica aislada como un criterio de diagndstico. Milner (1991) nos recuerda que “los datos de multiples fuentes, como varias pruebas, entrevistas con el cliente, entrevistas colaterales, observaciones directas e historias de caso deberian emplearse para tomar decisiones respecto al abuso infantil y su tratamiento" (p. 81). Antes de ilustrar la teorfa de la decisién en accién, definiremos en forma breve, y en forma un poco vaga, cinco términos encontrados con frecuencia en las exposicio- nes de la teoria de la decisién aplicada a las pruebas y la medicién psicoldégica: tasa base, indice de aciertos, indice de fallas, falso positivo y falso negativo. Capitulo 6: Validez 203 Una fasa base puede definirse como el grado en que un rasgo, comportamiento, ca- racteristica o atributo particular existe en la poblacién (expresado como una propor- cion). Como se ilustra en el Acercamiento de este capitulo, debe darse una consideracién debida a la tasa base de un atributo basado en la muestra de personas que se estd estu- diando en la investigaci6n de validez predictiva, contra la tasa base del mismo atributo enla poblaci6n total. En lenguaje psicométrico, un indice de aciertos puede definirse como la proporcién de personas que una prueba identifica con precisién como poseedoras 0 que exhiben un rasgo, comportamiento, caracteristica o atributo particular. Por ejem- plo, el “indice de aciertos” podria referirse a la proporcién de personas que se predice con precisién que son capaces de desempefiar un trabajo en un nivel de licenciatura, ola proporcion de pacientes neurolégicos en quienes se identifica con precisién que tienen un tumor cerebral. Deigual modo, un indice de fallas puede definirse comola proporcién de personas en las que una prueba falla en identificar como que tienen, ono tienen, una caracteristica o atributo particular; una falla equivale a una predicci6n imprecisa. La categoria de “fallas” puede subdividirse mas. Un falso positivo es una falla en la cual la prueba predijo que quien la respondié posee la caracteristica 0 atributo particular que se esta midiendo. Un falso negativo es una falla en la cual la prueba predijo que quien la respondié no posee la caracteristica 0 atributo particular que se est4 midiendo. Suponga que elaboré un procedimiento de medicion al que llam6 Prueba de Va- por (PV), la cual fue disefiada para determinar si sujetos vivos y en buenas condicio- nes estaban respirando en efecto. El procedimiento para la PV implica hacer que el examinador sostenga un espejo bajo la nariz y boca del sujeto por un minuto o mas y observe si el aliento del sujeto empafia el espejo. Digamos que se administré la PV a 100 estudiantes de introduccion a la psicologia y se concluyé que 89 estaban, de he- cho, respirando (mientras se considera que 11, con base en la PV, no estan respirando). éLa PV es unabuena prueba? Es obvio que no. Debido a que la tasa base es 100% de la poblacién (viva y en buenas condiciones), en realidad ni siquiera necesitamos una prueba para medir la caracteristica “respirando”, y si por alguna raz6n necesitdramos un procedimiento de medici6n, es probable que no usariamos uno que fuera impreci- so en aproximadamente 11% de los casos. Es obvio que una prueba carece de valor si el indice de aciertos es mayor sin ser usada; una medida del valor de una prueba se encuentra en el grado en que su uso mejora el indice de aciertos que existe sin su uso. Como una simple ilustracién de la teoria de la decisién aplicada a las pruebas, supOngase que una prueba es administrada a un grupo de 100 solicitantes de empleo, y se aplica alguna puntuacién limitrofe para distinguir a los solicitantes que serén contratados (aspirantes que se ha juzgado que han aprobado la prueba) de los aspi- rantes cuya solicitud de empleo seré rechazada (aspirantes que se hajuzgado que han reprobado la prueba). Y supéngase ademas que se aplicaré alguna medida criterio un tiempo después para asegurarse de que la persona recién contratada actué correcta- mente; si la persona recién contratada fue considerada un éxito o un fracaso en el trabajo. En tal situacién, sila prueba es un pronosticador perfecto (si su coeficiente de validez es igual a 1), pueden identificarse dos tipos de resultados distintos: 1) algunos aspirantes obtendran puntuaciones iguales o mayores que la puntuacién limitrofe en la prueba y seran exitosos en el trabajo y 2) algunos aspirantes obtendrén puntuacio- nes por debajo de la puntuacién limitrofe y no serdn exitosos en el trabajo. Pero debi- do a que pocas pruebas de empleo, si es que alguna, son pronosticadores perfectos, también son posibles otros dos tipos de resultados: 3) algunos aspirantes obtendran puntuaciones iguales o mayores que la puntuacién limitrofe, seran contratados y fa- laran en el trabajo (el criterio) y 4) algunos aspirantes que obtuvieron puntuaciones por debajo de la puntuacién limitrofe y no fueron contratados podrian haber sido 204 Parte 2: La ciencia de la medicién psicolégica exitosos. Las personas que fallan en el grupo 3 podrian clasificarse como “falsos posi- tivos” y aquellas que caen en el grupo 4 podrian clasificarse como “falsos negativos”. En esta ilustracién, la sola légica nos dice que si la raz6n de seleccién es, digamos, del 90% (nueve de diez aspirantes seran contratados), es probable que la puntuacién limitrofe se haya establecido mas baja que si la razén de seleccion es de 5% (sélo cinco de los 100 aspirantes serén contratados). Ademas, si la razén de seleccién es de 90%, es una buena suposici6n que el ntimero de falsos positivos (personas contratadas que fallaran en la medida criterio) sera mayor que en un caso donde la razén de seleccién es de 5%. A la inversa, si la razon de seleccién es sdlo de 5%, es una buena suposicién que el ntimero de falsos negativos (personas no contratadas que podrian haber tenido éxito en la medida criterio) sera mayor que en el caso donde la raz6n de seleccién es de 90%. La teoria de la decisién proporciona lineamientos para establecer pun- tuaciones limitrofes éptimas. Al establecer dichas puntuaciones, con frecuencia se to- ma en cuenta la gravedad relativa de tomar decisiones de seleccién de falsos positivos o falsos negativos. Por tanto, por ejemplo, es una politica prudente para un funciona- rio de personal de una aerolinea establecer puntuaciones limitrofes en pruebas para pilotos que podrian dar como resultado un falso negativo (un piloto que en verdad esta capacitado que es rechazado) en oposicién a una puntuacién limitrofe que permi- tirfa-‘un falso positivo (la contratacién de un piloto que en realidad no esta capaci- tado). En las manos de investigadores muy experimentados, los principios de la teoria de la decisién aplicados a problemas de utilidad de la prueba han conducido a algu- nos hallazgos informativos e impresionantes. Por ejemplo, Schmidt, Hunter, McKenzie y Muldrow (1979) demostraron en délares y centavos cémo la utilidad de un progra- ma de seleccién de una compaiiia (y el coeficiente de validez de las pruebas usadas en €se programa) puede desempenar una funcién critica en la rentabilidad de la compa- fia. Centrandose en la poblacién de programadores de computadoras de un patrén, estos investigadores pidieron a los supervisores que estimaran, en délares, el valor de los buenos, promedio y malos programadores. Esta informacién se us6 junto con otra, incluyendo estos hechos: 1) cada afio el patron contrataba 600 programadores nue- vos, 2) el programador promedio permanecia en el empleo durante unos diez afios, 3) la Prueba de Aptitud de Programador en uso en ese entonces como parte del proceso de contratacién tenia un coeficiente de validez de .76, 4) cuesta alrededor de 10 ddla- res por aspirante aplicar la prueba y 5) el patrén tenia en la actualidad un excedente de 4 000 programadores a su servicio. Schmidt e¢ al. (1979) hicieron varios cdlculos usando valores diferentes para algu- nas de las variables. Por ejemplo, sabiendo que algunas de las pruebas usadas con anterioridad.en el proceso de contrataci6n tenian coeficientes de validez que variaban de .00 a 50, variaron el valor del coeficiente de validez de la prueba (junto con otros factores como diferentes razones de seleccién que habian estado en efecto) y examina- ron la eficiencia relativa de las diversas condiciones. Entre sus hallazgos estaba el hecho de que la razén de seleccién y_el proceso de seleccién existentes proporciona- ban una gran ganancia en eficiencia sobre una situacién anterior (cuando la razon de seleccién era de 5% y el coeficiente de validez de la prueba usada en la contratacién era igual a .50), una ganancia igual a casi 6 millones de délares al afio. Multiplicado por, digamos, diez afios, nos da 60 millones de délares. La razén-de seleccién y el proceso de selecci6n existentes proporcionaron una ganancia atin mayor en eficiencia sobre una situacién existente con anterioridad en la que la prueba no tenia validez en absoluto y la razon de seleccién era .80; aqui se estimé que, en un afio, la ganancia en eficiencia era igual a mas de 97 millones de délares. Capitulo 6: Validez 205 Por cierto, el patr6n en el estudio anterior era el gobierno de Estados Unidos. Hunter y Schmidt (1981) aplicaron el mismo tipo de andlisis a la fuerza laboral nacio- nal e hicieron un argumento irresistible con respecto a la relaci6n critica entre pruebas y procedimientos de medicidn validos y la productividad nacional estadounidense. En un estudio subsecuente, Schmidt, Hunter y sus colegas encontraron que resulta- rian incrementos considerables en la produccién laboral o reducciones en los costos de némina con el uso de medidas de capacidad cognoscitiva validas en lugar de pro- cedimientos que no incluyeran pruebas (Schmidt et al., 1986). Los patrones estan reacios a usar estrategias basadas en la teoria de la decisién en sus practicas de contratacién debido a la complejidad de su aplicacién y al peligro de enfrentar demandas legales (Algera et al., 1984; Dunnette y Borman, 1979; Guion, 1967; Wiggins, 1973). Por tanto, aunque los‘enfoques de la teoria de la decisién para la eva- luaci6n pueden ser una gran promesa, ésta todavia no se ha cumplido. Validez de constructo La validez del constructo es un juicio de lo apropiado de las inferencias extraidas de las puntuaciones de prueba respecto a posiciones individuales en una variable llamada “constructo”. Un constructo es una idea cientifica informada elaborada 0 construida para describir 0 explicar el comportamiento. “Inteligencia” es un constructo que puede invocarse para describir por qué un estudiante se desempefia bien en la escuela. “An- siedad” es un constructo que puede emplearse para describir por qué un paciente psi- quiatrico va y viene por la habitacién. Otros ejemplos de constructos