Logo Studenta

7 Validez Unidad3_art1_aragon - meledh sd

¡Estudia con miles de materiales!

Vista previa del material en texto

MÓDULO 2202- EL MÉTODO EXPERIMENTAL EN PSICOLOGÍA 1 
 
Para profundizar en este tipo de contenidos consulte la obra: 
Aragón, B., L., E y Silva, R. A. y, (2002). Fundamentos Teóricos de la Evaluación Psicológica. Editorial Pax: 
México. 
 UNIDAD III VALIDEZ 
 
 
 
 
 
 
 
 
 
 
L e c t u r a 1 
 
Aragón, B., L., E y Silva, R. A. y, (2002). 
Fundamentos Teóricos de la Evaluación 
Psicológica. Editorial Pax: México. pp. 
45-56. 
 
VVAALLIIDDEEZZ .................................................................................................................................................... 11 
Validez del constructo ................................................ 2 
Validez referida al criterio .......................................... 3 
Validez de contenido .................................................. 4 
VVAALLIIDDEEZZ 
 
Determinar el significado de una medida se centra en el concepto de 
validez. En un sentido muy general, un instrumento de medición es 
valido si hace aquello para lo que esta concebido. La validez de un test 
concierne a lo que el test mide y a que tan bien lo hace; nos revela lo 
que podemos inferir de las puntuaciones del test. 
El estudio de la validez de un instrumento nos permite contestar si 
este es útil para medir cierto comportamiento; sin embargo, siempre 
debemos tener presente que lo validado no es el instrumento, sino la 
interpretación de los datos obtenidos por medio de un procedimiento 
especifico. Aunque según la definición de validez de un instrumento esta 
es referida típicamente a si la conducta mostrada en la situación de test 
es o no un reflejo de la conducta habitual del sujeto en situaciones 
naturales, hay otras metas de la validez igualmente importantes; la 
evaluación de la validez de un instrumento implica considerar también 
los siguientes aspectos: la adecuación con que mide la conducta sujeta 
a estudio, la capacidad para diagnosticar la conducta real de una 
persona, la sensibilidad para detectar el objetivo, la seguridad de las 
decisiones y la utilidad (Martínez, 1981). 
La validación requiere siempre investigaciones empíricas, y el tipo de 
datos necesario para ello depende de la clase de validez. La validez es 
una cuestión de grado (no se trata de una propiedad que existe o no) y 
la validación es un proceso continuo. La validez de un test no puede ser 
reportada en términos generales; tampoco es valido decir de ninguna 
prueba que posea una validez alta o baja en lo abstracto; su validez 
debe ser establecida con referencia al uso particular para el cual el test 
esta siendo considerado (Nunnally, 1970; Anastasi, 1988). 
Fundamentalmente, todos los procedimientos para determinar la 
validez de un test conciernen a las relaciones entre la ejecución en una 
prueba y otros hechos observables independientemente, acerca de las 
características de la conducta por considerar. Los métodos específicos 
empleados para investigar estas relaciones son numerosos y han sido 
descritos con varios nombres. Tradicionalmente, la validez ha sido 
 
UU NN II DD AA DD II II II .. 
 
Validez 
 
MÓDULO 2202- EL MÉTODO EXPERIMENTAL EN PSICOLOGÍA 2 
 
Para profundizar en este tipo de contenidos consulte la obra: 
Aragón, B., L., E y Silva, R. A. y, (2002). Fundamentos Teóricos de la Evaluación Psicológica. Editorial Pax: 
México. 
 UNIDAD III VALIDEZ 
tratada en la literatura con algunos de los tipos siguientes, establecidos 
en los Standards of the American Psychological Association (1966, 
citado por Nunnally, 1970; Martínez, 1981; Anastasi, 1988), según el tipo 
de test y el uso a que este destinado: 
 
a. Validez del constructo, analizada al investigar que cualidades o 
rasgos psicológicos mide un test, es decir, determina el grado en que 
algunos conceptos explicativos o constructos desarrollan los resultados 
del test. 
b. Validez relativa al criterio o empírica, que compara las 
puntuaciones de los tests o las predicciones derivadas de ellos con una 
variable externa (criterio), considerada una medida directa de la 
característica o conducta en cuestión. 
c. Validez del contenido, que valora hasta que punto es valido el 
contenido del test de una muestra representativa de la clase de situa-
ciones o problemas sobre los que llegaremos a las conclusiones. 
 
Históricamente, los evaluadores conductuales han criticado la 
metodología de evaluación tradicional debido a su limitada validez y 
utilidad; sin embargo, no es sino hasta recientemente cuando el interés 
por desarrollar métodos de evaluación conductual ha sido asociado al 
interés correspondiente por examinar las propiedades psicométricas 
pertinentes de los métodos diseñados. En parte, la carencia del énfasis 
en la explicación de medidas y el reporte de la validez de las pruebas 
conductuales es el resultado de la noción antigua de que cuando la 
conducta criterio es muestreada directamente, no hay necesidad de 
demostrar la validez, pues cabe suponer que no hay inferencias de los 
datos de la prueba; no obstante, este es un análisis inexacto de los usos 
de los datos en evaluación conductual. Ciertamente —excepto en raras 
circunstancias—, el evaluador conductual suele estar interesado en 
hacer algún número de inferencias basadas en las respuestas 
observadas durante la situación de prueba. Como mínimo, el proceso de 
evaluación supone o infiere que una muestra de conducta observada en 
un punto en el tiempo es comparable con la que podría ser observada en 
algún otro punto en el tiempo en condiciones un poco diferentes de 
aquellas en las cuales fueron obtenidas las puntuaciones de muestra 
(Linehan, 1980). 
Así, uno de los temas de interés fundamental en la evaluación 
conductual es precisamente el de la validación de las técnicas de 
evaluación. Los teóricos de la evaluación comenzaron a plantearse la 
cuestión de si todas estas técnicas desarrolladas en el marco teórico de 
la psicometría serian o no adecuadas para la evaluación conductual, 
diseñadas con esquemas teóricos totalmente distintos. Por una parte, los 
tests tradicionales han sido construidos para poner de manifiesto 
diferencias interindividuales, mientras que lo que interesa con los 
instrumentos de evaluación conductual es revelar diferencias intrasujeto, 
esto es, antes y después de un tratamiento (Martínez, 1981). 
Con el transcurso del tiempo y ya demostrada la aparente utilidad de 
los tratamientos derivados de la evaluación conductual, cabe plantear en 
este enfoque problemas metodológicos, formulándose diversas 
preguntas, como: ¿hasta qué punto podemos considerar eficaz el 
tratamiento?, ¿cuál es el mejor de varios tratamientos, teniendo en 
cuenta los resultados obtenidos?, ¿reflejan las diferencias entre las 
puntuaciones pretratamiento y postratarniento, cambios males en la 
conducta o simplemente errores de medida de los procedimientos 
utilizados en su obtención?, ¿son los instrumentos utilizados los 
adecuados para poner de relieve las conductas de interés? 
Evidentemente, cualquier instrumento de medición, cualquiera que sea 
el enfoque o sin importar a que disciplina pertenezca, debe presentar 
ciertas cualidades que demuestren su valor científico: su confiabilidad y 
su validez. En este sentido, tanto los instrumentos de medición 
procedentes de la evaluación tradicional como los construidos desde el 
enfoque conductual participan de la misma teoría de la medición. El 
asunto está en preguntarse cuáles procedimientos de obtención de la 
confiabilidad y la validez de un instrumento deben ser utilizados por uno 
u otro enfoque en la construcción de sus dispositivos de medida 
(Martínez, 1981). 
Para contestar la pregunta de qué tipo de validez corresponde según 
la orientación teórica en que hayamos construido un instrumento de 
medición, en seguida explicaremos más ampliamente los tres tipos de 
validez considerados. 
 
Validez del constructo 
 
En la medida en que una variable es abstracta en vez de concreta, 
decimosque es un constructo. Una variable así constituye literalmente 
un constructo, pues representa algo que el científico compone con su 
imaginación, algo que no existe como dimensión de conducta 
observable. La mayoría de los constructos están en el mismo caso: los 
límites del dominio de conductas observables relacionadas no son netos. 
La validez del constructo de una prueba es la extensión en la cual la 
MÓDULO 2202- EL MÉTODO EXPERIMENTAL EN PSICOLOGÍA 3 
 
Para profundizar en este tipo de contenidos consulte la obra: 
Aragón, B., L., E y Silva, R. A. y, (2002). Fundamentos Teóricos de la Evaluación Psicológica. Editorial Pax: 
México. 
 UNIDAD III VALIDEZ 
prueba dice medir un constructo o rasgo teórico. Todo constructo esta 
diseñado para explicar y organizar consistencias de respuestas y es 
derivado de relaciones establecidas entre medidas conductuales. La 
validez del constructo requiere la acumulación gradual de información de 
una variedad de fuentes. 
Cualquier dato que arroje luz sobre la naturaleza del rasgo 
considerado y de las condiciones que afectan su desarrollo y sus 
manifestaciones representa una evidencia apropiada para este tipo de 
validación (Nunnally, 1970; Anastasi, 1988). 
La validez del constructo esta' basada en el significado psicológico de 
la puntuación de una prueba y en la explicación teórica de una buena o 
mala ejecución en ella. Cuando el experto en medición indaga la validez 
de las construcciones hipotéticas de una prueba, desea saber que 
propiedades psicológicas y de otra índole pueden explicar la varianza de 
dicha prueba, esto es, procura explicar las diferencias individuales 
observadas en las puntuaciones de un instrumento de medición. Casi 
siempre le interesa más la propiedad que pretende medir que la prueba. 
No se trata simplemente de validar una prueba, sino que es preciso 
validar la teoría en la cual esta descansa (Kerlinger, 1985; Kirsch y 
Guthrie, 1980). 
Dado que la medición de constructos es una parte vital de la actividad 
científica, ¿cómo se establecen y validan esas medidas? En el proceso 
hay tres aspectos principales: a) especificar el domino de las conductas 
observables, b) determinar hasta que punto todas o algunas de esas 
conductas se correlacionan entre sí, y c) determinar si una, algunas o 
todas las medidas de tales variables actúan como si midieran el 
constructo (Nunnally, 1970). 
La prueba suficiente de la validez del constructo la constituye el 
hecho de que las medidas del constructo (trátese de una sola medida de 
conductas observables o de una combinación de ellas) se comportan 
como cabe esperar que lo hagan, por ejemplo: si suponemos que una 
medida determinada esta' relacionada con el constructo ansiedad, el 
sentido común ha de sugerir muchos resultados obtenibles mediante 
esta medida. Las puntuaciones mayores (mayor ansiedad) ocurren en el 
caso de: a) pacientes clasificados como neuróticos ansiosos con mayor 
probabilidad que en pacientes no catalogados como ansiosos; b) 
examinados en un experimento amenazados con un shock eléctrico y no 
en el caso de pacientes no amenazados, y c) estudiantes de doctorado 
antes de pasar su examen oral final mas que en el caso de estos 
después de que han aprobado su examen. Otro ejemplo: si creemos que 
determinada medida esta' relacionada con el constructo inteligencia, 
podríamos esperar que este correlacionada por lo menos 
moderadamente con las calificaciones escolares, con las evaluaciones 
de la inteligencia hechas por los profesores y con los niveles de 
realización profesional. Así sucede con todos los constructos: 
esperamos ciertas relaciones con otras variables y esperamos ciertos 
efectos en los experimentos controlados (Nunnally, 1970). En resumen, 
el propósito de la validez de constructo es validar la teoría subyacente al 
sistema de evaluación y a la medida misma; los constructos determinan 
que conductas han de seleccionarse para su observación. Un 
instrumento de medida estará ligado al sistema de constructos dentro del 
que fue construido y este tipo de validez nos indicara en que grado el 
instrumento de evaluación es una medida adecuada del constructo y en 
que medida las hipótesis derivadas de el pueden confirmarse mediante 
la utilización del instrumento en cuestión. 
 
Validez referida al criterio 
 
La validez referida al criterio o predictiva interviene cuando se utiliza 
un instrumento para estimar alguna forma importante de conducta, que 
recibe el nombre de criterio. Una vez obtenido el criterio, la validez de 
una función de predicción es determinada de manera directa y con 
mucha facilidad; consiste primordialmente en correlacionar las 
puntuaciones del test predictivo con las puntuaciones de la variable 
criterio. El tamaño de la correlación es una indicación directa de la 
magnitud de la validez (Nunnally, 1970). 
La validez referida al criterio valora el grado en que el instrumento de 
evaluación puede utilizarse para estimar la conducta de una persona en 
otras situaciones, sean concurrentes con la aplicación del test o futuras. 
Para este propósito, la ejecución en la prueba es comparada con un 
criterio, o sea, con una medida directa e independiente de lo que el test 
esta diseñado a predecir (Martínez, 1981; Anastasi, 1988). Existen en el 
mercado diferentes pruebas cuya meta es predecir a futuro el 
comportamiento de los evaluados, por ejemplo: pruebas utilizadas para 
predecir el éxito escolar, pruebas que predicen la mejor opción a seguir 
para la elección de carrera o pruebas que predicen aptitudes o madurez 
para distintas facetas del aprendizaje escolarizado básico. 
Lo que importa en este tipo de validez es la capacidad predictiva de 
la prueba y no aquello que mide; en pocas palabras, lo importante es el 
criterio y su valor de predicción. Es fácil hablar de correlacionar un test 
predictivo con su criterio, pero obtener un buen criterio puede ser más 
MÓDULO 2202- EL MÉTODO EXPERIMENTAL EN PSICOLOGÍA 4 
 
Para profundizar en este tipo de contenidos consulte la obra: 
Aragón, B., L., E y Silva, R. A. y, (2002). Fundamentos Teóricos de la Evaluación Psicológica. Editorial Pax: 
México. 
 UNIDAD III VALIDEZ 
difícil que lograr un test predictivo. En muchos casos, no disponemos de 
criterio alguno o aquellos con los que contamos adolecen de distintos 
defectos (Nunnally, 1970; Kerlinger, 1975). En resumen, la validez 
referida al criterio esta caracterizada por la predicción relacionada con 
un criterio externo y porque recurre a la comprobación del instrumento 
de medición, ya sea en el momento presente o en el futuro, 
comparándolo con algún resultado o medida. 
 
Validez de contenido 
 
Para algunos instrumentos, la validez depende, primordialmente, de 
la suficiencia con que mostramos un domino especifico de contenido. El 
test debe bastarse a si mismo para ser una medida adecuada de lo que 
suponemos que mide. 
La validez de contenido es la representatividad o adecuación 
muestral del contenido del instrumento de medición. Toda propiedad 
psicológica o pedagógica posee un universo teórico de contenido 
constituido por aquello que cabe afirmar u observar acerca de ella. La 
validez de contenido esta dada por la pregunta: ¿es la sustancia o el 
contenido de este instrumento de medición representativa del contenido 
o del universo del contenido de la propiedad por medir? (Kerlinger, 
1975). 
La validez de contenido incluye esencialmente el examen sistemático 
del contenido del test para determinar si cubre una muestra representa-
tiva del domino de conductas por medir. Como tal, la validez de conteni-
do ha sido requerida típicamente para pruebas de evaluación de aprove-
chamiento escolar y para medir que tan bien domina un individuo una 
habilidad específica (Linehan, 1980; Anastasi, 1988). 
Como suponemos que la conducta no es generalizada por medio de 
estímulos diferentes, una adecuada representación de factores de 
estímulos relevantes es necesaria para haceruna evaluación con validez 
de contenido, en la cual interesa si las condiciones en que la conducta 
de la persona es observada representan a aquellos conjuntos de 
condiciones a los cuales estamos interesados en generalizar. Por tanto, 
la principal contribución que aporta un instrumento de medida con 
validez de contenido es dar una data descripción del domino de 
conductas de interés (Linehan, 1980; Martínez, 1981). 
Así, el objetivo de la validez de contenido es demostrar que los 
reactivos del test son una muestra representativa de un universo. La 
validez de contenido está interesada en lo que examinamos y compara 
esto con una especificación previamente definida, mas que con alguna 
noción vaga en la mente de un experto (Hoste, 1981). El énfasis 
principal en la construcción de pruebas orientadas al contenido no esta 
en la evaluación e interpretación de las puntuaciones, sino en asegurar 
un muestreo cuidadoso de un dominio de contenido pertinente. Las 
normas principales que es necesario satisfacer para asegurar la validez 
de contenido son: a) un conjunto representativo de ítemes o reactivos, y 
b) métodos sensatos de construcción de la prueba. A menudo existe una 
imposibilidad lógica o real de muestrear el contenido; para asegurarnos 
de que los reactivos representen realmente la conducta por evaluar, es 
necesario tener un bosquejo muy detallado de las clases de cuestiones y 
problemas que debemos incluir (Nunnally, 1970). 
Denominemos U el universo de conductas que queremos evaluar. 
Una prueba de alta validez de contenido seria, en teoría, una muestra 
representativa de U. Si U consta de los subconjuntos A, B y C, toda 
muestra lo bastante amplia de U representara aproximadamente de igual 
forma a A, B y C; y así será satisfactoria la validez de contenido de la 
prueba. De este modo, la definición conceptual de una conducta debe 
especificar en detalle el universo o dominio de contenido conductual y 
sus estímulos asociados. Una vez que la definición conceptual ha sido 
determinada, un asunto de validación importante es si la muestra de los 
estímulos y las muestras observadas y registradas durante el 
procedimiento de medida es representativa del universo conductual que 
conceptualmente define a la conducta al respecto (Kerlinger, 1975; 
Linehan, 1980). 
Normalmente y por fortuna, es imposible extraer de manera aleatoria 
muestras de reactivos de un universo de contenido; tales universos solo 
existen en teoría. Si bien es posible y recomendable reunir varias colec-
ciones de reactivos, sobre todo en el ámbito del aprovechamiento, y 
extraer de ellas muestras aleatorias para someterlas a prueba, siempre 
quedara la duda de su validez de contenido por numerosos y buenos 
que sean los reactivos. Además, en la mayoría de las situaciones, el 
ejemplo simple de un muestreo al azar del contenido no es realista por 
una segunda razón: la selección del contenido suele implicar asuntos de 
valores. Habría que formular explícitamente los valores que intervinieron 
en la elaboración de una medida y señalar como estructuraron la 
formulación del plan del test y la construcción de los reactivos; además, 
la validez de contenido se vuelve algo compleja cuando intentamos 
asegurar que empleamos métodos razonables de construcción de la 
prueba (Nunnally, 1970; Kerlinger, 1975). 
En la construcción de pruebas orientadas al contenido, las inferencias 
MÓDULO 2202- EL MÉTODO EXPERIMENTAL EN PSICOLOGÍA 5 
 
Para profundizar en este tipo de contenidos consulte la obra: 
Aragón, B., L., E y Silva, R. A. y, (2002). Fundamentos Teóricos de la Evaluación Psicológica. Editorial Pax: 
México. 
 UNIDAD III VALIDEZ 
se hacen acerca de la pertinencia y la cobertura de un domino de 
contenido especifico. La precisión con que cierto domino y sus límites 
son definidos es derivada de la pertinencia del contenido elegido. El 
domino debe ser delineado suficientemente con el propósito de 
determinar que reactivos le pertenecen o no; también es importante 
evitar la tendencia a sobregeneralizar considerando el domino 
muestreado por la prueba, por ejemplo: con una prueba de elección 
múltiple de ortografía podemos medir la habilidad para reconocer 
palabras escritas correctas e incorrectas, pero no podemos suponer que 
tal prueba también mida la habilidad para escribir correctamente en un 
dictado, la frecuencia de errores en composiciones escritas, ni otros 
aspectos de la habilidad en ortografía (Lieberman y Michael, 1986; 
Anastasi, 1988). 
Aunque asegurar la validez de contenido suele conllevar problemas, 
inevitablemente este tipo de validez recae sobre todo en un juicio 
racional acerca de la suficiencia con que ha sido muestreado el 
contenido importante y de lo adecuado de la manera en que este fue 
expresado como reactivos del test; además, existen varios métodos para 
analizar los datos obtenidos mediante el test que han de proporcionar 
pruebas circunstanciales. Cabe esperar, por lo menos, un moderado 
nivel de coherencia interna entre los reactivos que forman parte de una 
prueba; así, estos deben tender a medir algo en común (Nunnally, 1970). 
Como Hoste (1981) menciona, uno de los problemas que pueden 
contribuir a la carencia de progreso en el estudio teórico de la validez del 
contenido es que no existe algún modo aceptable de cuantificarlo. No 
hay evidencia cuantitativa obtenible de la validez del contenido ni puede 
ser expresada como un coeficiente de validez. Aunque por el análisis de 
los resultados experimentales obtenemos indicios útiles, la validez de 
contenido recae sobre todo en demostrar la corrección del contenido y el 
modo en que es representado. Así, dada la carencia de instrumentos o 
índices estadísticos para su determinación, la validez de contenido ha de 
ser determinada por medio de procedimientos racionales en vez de 
empíricos. Ante la ausencia de medidas estadísticas, la validez de 
contenido es determinada por un examen cuidadoso por los 
procedimientos de construcción de la prueba. En la extensión con que el 
investigador siga los procedimientos justificados como requisitos para la 
validez del contenido y que el muestreo del universo original 
corresponda al universo de generalización, será probable encontrar las 
suposiciones de validez de contenido. 
De lo anterior deducimos que la validación del contenido es 
básicamente de criterio; debemos estudiar los reactivos de la prueba y 
ponderar su supuesta representatividad del universo, lo cual significa 
que debemos juzgar la supuesta relación de cada reactivo con la 
propiedad al respecto. Por lo general, otros jueces competentes han de 
ponderar el contenido de los reactivos. Si las circunstancias lo permiten, 
definiremos con claridad el universo del contenido, es decir, los jueces 
recibirán las instrucciones especificas para que emitan sus juicios y 
también serán comunicados con precisión de lo que van a juzgar; por 
tanto, es factible aplicar un método que agrupe juicios independientes 
(Kerlinger, 1975).La validez de contenido es construida en una prueba 
desde el principio, mediante la elección de reactivos apropiados. Las 
especificaciones de la prueba deben mostrar las áreas o temas de 
contenido por tratar, los objetivos o procesos instruccionales por probar y 
la importancia relativa de los temas y procesos individuales. Con base 
en ello, establecemos el numero de reactivos de cada clase a ser 
preparados en cada tema (Anastasi, 1988). 
En resumen, la validez de contenido proporciona una técnica adecua-
da para evaluar pruebas de aprovechamiento educativo y ocupacional y 
de medición de habilidades, a la vez que permite contestar dos pregun-
tas básicas para la validez de las pruebas: a) ¿incluye la prueba una 
muestra representativa de habilidades y conocimientos específicos?, y b) 
fiesta la ejecución en la prueba razonablemente libre de variables 
irrelevantes? 
Como menciona Martínez (1981), existen dos aspectos importantes y 
complementarios de la validez de contenidode un instrumento que 
debemos tener en cuenta: a) que el instrumento no incluya aspectos 
irrelevantes de la conducta de interés, y b) que el instrumento incluya 
aspectos importantes que definen el domino intelectual. 
Goldfried y D'Zurilla (1969; citados por Goldfried y Linehan, 1977; 
Martínez, 1981) proponen un procedimiento para el muestreo de los 
comportamientos de interés, a fin de justificar la validez de contenido del 
instrumento de evaluación. Las fases de este procedimiento son: 
 
a. Un análisis situacional, que supone un muestreo de las 
respuestas típicas en las que la conducta de interés tiene mayor 
probabilidad de ocurrencia. 
b. Una enumeración de la respuesta, que supone un muestreo de 
las respuestas típicas a cada situación determinada en la fase anterior. 
c. Una evaluación de las respuestas, la cual se realiza para juzgar 
cada respuesta determinada en la fase anterior respecto a su calidad; 
generalmente, estos juicios son emitidos por expertos, los cuales 
deberán juzgar la calidad de las respuestas en cuanto a su eficacia. 
MÓDULO 2202- EL MÉTODO EXPERIMENTAL EN PSICOLOGÍA 6 
 
Para profundizar en este tipo de contenidos consulte la obra: 
Aragón, B., L., E y Silva, R. A. y, (2002). Fundamentos Teóricos de la Evaluación Psicológica. Editorial Pax: 
México. 
 UNIDAD III VALIDEZ 
Este criterio de las tres etapas podemos utilizarlo para seleccionar los 
reactivos del instrumento de medición y para proporcionar criterios 
empíricamente derivados con el fin de puntear esa medición. Con 
cualquiera de los procedimientos que vayamos a seguir para construir 
instrumentos de evaluación con validez de contenido, conviene además 
tener en cuenta una serie de sugerencias que, si las seguimos, pueden 
mejorarla. Dichas sugerencias son (Martínez, 1981): 
 
a. La garantía de un buen instrumento no esta dada por el hecho de 
constar de un conjunto de buenos elementos, sino que es necesario 
considerar si ese conjunto es una muestra representativa de las 
conductas de interés. 
b. Deberán estar claramente recogidas las especificaciones de los 
objetivos de la evaluación. 
c. Debemos subdividir los objetivos iniciales. 
d. Es necesario establecer claramente los tipos de respuesta 
posibles para cada elemento o estímulo. 
e. Una vez especificadas las condiciones de los estímulos y 
respuestas, el constructor de un test deberá elegir una de las posibles 
definiciones de universo de conductas, que generara los elementos u 
observaciones por incluir en el instrumento. 
f. No es correcto sustituir un conjunto de tareas u observaciones 
por otras que guarden una elevada correlación con las primeras. Esto 
seria permisible solo en el enfoque de los tests normativos, centrados en 
las diferencias individuales. 
g. En evaluación conductual, además de estudiar y analizar las con-
ductas seleccionadas para la construcción del instrumento, es necesario 
tener presentes otros aspectos que afectaran la validez de contenido: 
tiempo en que se realizará la evaluación, duración de aquel, etcétera. 
h. Por último, una elevada validez aparente del instrumento de 
evaluación no es una prueba de la validez de contenido del mismo. Este 
es un hecho puesto de relieve con frecuencia en evaluación conductual; 
muchas veces, el instrumento de medida parece una muestra de una 
extensa variedad de situaciones, pero en realidad solo refleja intuiciones 
de los autores del instrumento. 
 
La validez aparente alude al grado en que un instrumento parece 
como si midiera aquello que pretendemos que mida. Tal validez se 
refiere a los juicios acerca del instrumento después de que este ha sido 
construido (Hoste, 1981); además, se centra en determinar si la 
evaluación luce adecuada a los propósitos para los cuales está 
diseñada; esta es probablemente la prueba más común de validez 
utilizada. Sin embargo, la validez del contenido no debe ser confundida 
con la validez aparente, la cual no es una validez en el sentido técnico, 
sino que alude a lo que superficialmente parece que mide y no a lo que 
el test en realidad mide. La validez aparente responde al requisito de si 
el test parece válido a quien va a tomarlo, al personal administrativo que 
decide su uso y a otros observadores técnicamente no entrenados. 
Aunque el uso común del termino validez en esta conexión puede crear 
confusiones, la validez aparente por si misma es una característica 
deseable de las pruebas. No es suficiente que una prueba sea 
objetivamente válida, sino también necesita validez aparente para que 
funcione de manera efectiva en situaciones prácticas. En contextos 
aplicados, la validez aparente está vinculada en cierta medida con las 
relaciones publicas; por ejemplo: los maestros utilizarán de mala gana 
un test de rendimiento, a menos que los ítemes tengan buen aspecto 
(Nunnally, 1970; Hoste, 1981; Anastasi, 1988).De lo anterior colegimos 
que la validez aparente puede ser mejorada si formulamos los reactivos 
de la prueba en términos que parezcan adecuados y plausibles en el 
ambiente particular donde tendrá aplicación la prueba (Anastasi, 1988). 
Por último, cabe mencionar, por la importancia que tiene para la 
validación de las medidas en general y en particular para la validez de 
contenido, la teoría de la generalización de Cronbach (1972, citado por 
Linehan, 1980; Martínez, 1981). La ciencia se distingue de las 
observaciones casuales en que intenta formular enunciados generales 
acerca de los acontecimientos naturales. La ciencia esencialmente 
intenta explicar todos los hechos naturales en función de un conjunto 
relativamente pequeño de principios. Tales principios son generalizables 
con amplitud, es decir, se cumplen sin importar la naturaleza de los 
objetos y otras circunstancias particulares. En la ciencia psicológica es 
buscada de modo semejante la generalidad de la explicación (Nunnally, 
1970). Esencialmente, la teoría de la generalización es un modo de 
reconceptualizar las cuestiones clásicas de confiabilidad y validez en 
términos de la generalización de puntuaciones mediante dominios o 
universos de interés. Un universo alude a la colección completa o total 
de medidas admisibles que pudieron haber sido hechas; a su vez, la 
puntuación observada en cualquier instrumento de evaluación es una 
estimación de la puntuación del universo, esto es, la puntuación que 
podríamos obtener si hubiéramos observado exhaustivamente, de 
manera hipotética, desde todas las condiciones admisibles dentro de ese 
universo. 
Con medidas que requieren validez de contenido, la probabilidad de 
MÓDULO 2202- EL MÉTODO EXPERIMENTAL EN PSICOLOGÍA 7 
 
Para profundizar en este tipo de contenidos consulte la obra: 
Aragón, B., L., E y Silva, R. A. y, (2002). Fundamentos Teóricos de la Evaluación Psicológica. Editorial Pax: 
México. 
 UNIDAD III VALIDEZ 
generalización esta relacionada con la corrección y amplitud con que el 
instrumento abarca el contenido que debe medir. Por tanto, en medidas 
que requieren validez del contenido, también es necesario ocuparse de 
la posibilidad de generalización; sin embargo, con tales medidas, la 
generalidad o representatividad de la amplitud del contenido se 
determina sobre todo por las opiniones de los expertos mas que por la 
experimentación (Nunnally, 1970). 
Cone (1977, citado por Linehan, 1980) ha listado las siguientes 
facetas de universo mediante las cuales suele ser de interés la 
generalización en la evaluación conductual: a) puntuaciones, b) tiempo, 
c) ambiente, d) método, e) reactivos (esto es, una clase de respuestas 
semejantes), y f) dimensión (esto es, una clase de respuestas 
diferentes). Por su parte Nelson (1977, citado por Linehan, 1980) ha 
argumentado que la generalización por medio de estas facetas no es 
una característica necesaria de procedimientos de evaluación 
conductual útiles y precisos, ni la carencia de generalización mediante 
una o la ausencia de una o más facetas un signo de invalidez. Sinembargo, sugiere que la ausencia de generalización puede ser atribuida 
a una falla para representar adecuadamente en el muestreo de la 
evaluación el universo conceptual a ser predicho. Por ejemplo, si los 
ambientes incluidos en la especificación del universo de interés no son 
muestreados durante la medición, el procedimiento de evaluación tendrá 
poca relevancia en ese universo. 
Así, en la construcción de instrumentos en la evaluación conductual, 
para garantizar validez de contenido debe haber un muestreo 
representativo de todos los ambientes, clases de respuesta, 
dimensiones, etcétera, esto es, un muestreo representativo de todas las 
facetas de interés. Por ende, es importante definir de manera precisa la 
habilidad que va a ser evaluada, diseñar una forma de ejercicios de 
prueba con los que esa habilidad pueda ser exhibida simple y 
eficientemente y acordar el nivel que será aceptado como indicador de 
competencia satisfactoria en esa habilidad; en otras palabras, el objetivo 
del test debe revelar claramente lo que mide el instrumento, el propósito 
para el que fue construido.

Continuar navegando