Logo Studenta

Interpretaciones de los puntajes de test en Psicologia

¡Estudia con miles de materiales!

Vista previa del material en texto

UNIDAD 5 
Interpretación de puntuaciones. 
5.1 Interpretación referida a normas. 
5.1.1 Concepto. 
Resultado inicial de un test: puntaje bruto, directo u original. Se obtiene por la sumatoria de las respuestas 
correctas o respuestas clave. 
En el caso de los Tests construidos sobre la TRI, esta puntuación original se denomina puntuación theta. 
Estas puntuaciones no se obtienen de la simple sumatoria de las respuestas a los ítems, sino que resultan de 
la interacción de las respuestas del examinado con las características de los reactivos. Varían de -4 a 4. 
 
En ambas teorías (TCT o TRI) las puntuaciones originales de los Tests son arbitrarias y no poseen un 
significado unívoco. 
El hecho de que las puntuaciones originales no sean suficientes para interpretar los resultados obedece a 
limitaciones de los Tests como instrumentos de medición como: 
 Carecen de cero absoluto 
 No poseen unidades de medida constantes. 
 
Los Tests que miden rasgos latentes (inteligencia o personalidad, por ejemplo) la estrategia usada para 
atribuir significado a las puntuaciones originales es comparar los resultados individuales con las 
puntuaciones del grupo de referencia en la misma prueba. 
Los puntajes originales individuales son comparados con la distribución de puntajes de uno o más grupos de 
referencia. 
Para realizar esta interpretación se requiere un proceso denominado estandarización que se desarrolla 
mediante las siguientes operaciones: 
a) Selección de una muestra representativa de la población meta para la cual se elaboró el instrumento 
(muestra de estandarización). 
b) Administración del test a esa muestra y registro de las puntuaciones originales de los individuos. 
c) Transformación de las puntuaciones originales en puntuaciones derivadas que indican la posición 
relativa de los puntajes directos individuales en relación con el grupo de referencia. 
 
El producto final de este proceso de estandarización son los baremos de un test. Tablas de equivalencia 
entre puntuaciones originarias y transformadas que permiten la comparación de los resultados individuales 
con los de un grupo de referencia. 
 
Los pasos a y c, requieren conocimientos específicos y se desarrollarán luego. 
Baremos: normas establecidas por convención para evaluar los méritos personales. Ambos términos 
(normas y baremos) poseen el mismo significado en este contexto. 
 
5.1.2 Muestra de estandarización. 
Quien se propone aplicar un test tendrá que decidir entre construir sus propias normas de interpretación de 
los puntajes (baremos) o usar los baremos elaborados por otro investigador. 
 
En el último caso se debe confirmar que los baremos estén actualizados y que la muestra de estandarización 
original sea semejante a la población meta de un test particular. 
Este archivo fue descargado de https://filadd.com
�
 FI
LA
DD
.CO
M
 
Si se opta por el uso de baremos, la muestra de estandarización original debería ser lo más parecida posible 
a la población de aplicación actual del test en características demográficas tales como sexo, edad, nivel 
educativo y nivel socioeconómico u otras variables relacionadas con el desempeño en el test. 
 
No debe confundirse la elaboración de un baremo con el proceso más complejo y comprensivo de 
adaptación de Tests, que no sólo implica poseer normas adecuadas sino replicar los estudios psicométricos 
esenciales del instrumento. 
 
Para construir baremos se debe disponer de una muestra representativa de la población que será evaluada 
por medio de un test. Los baremos nacionales son re costosos y difíciles de obtener. La APA diferencia tipos 
de baremos que pueden ser apropiados para el uso de un test dado: normas locales, regionales y específicas. 
Es de especial importancia que todos los baremos sean producto de un proceso de muestreo técnicamente 
riguroso. 
 
Cuando un test es susceptible de aplicación a grupos distintos existen diferencias significativas entre ellos en 
la variable medida por el test, deben elaborarse baremos separados de modo que cada persona pueda ser 
comparada con su verdadero grupo de referencia. Por ejemplo, el caso de los inventarios de intereses, en los 
que normalmente se presentan baremos diferenciados por sexo. 
 
Si se construye un baremo para interpretar los puntajes de un test, debe ser generado a partir de una 
muestra representativa de la población meta de evaluación. De otro modo puede conducir a 
interpretaciones equívocas y a errores considerables para el autoconocimiento de los individuos o la 
clasificación efectuada a partir de un test. 
 
Sin recursos humanos y económicos considerables es muy dificultoso construir baremos nacionales o 
regionales. Una alternativa factible es la de obtener normas específicas (de una institución, por ejemplo) o 
de utilidad local y para un grupo claramente definido. A su vez, los usuarios deben estar atentos a las 
situaciones en las cuales los baremos son menos apropiados para algunos grupos de individuos que para 
otros. 
 
Técnicas estadísticas para obtener muestras de estandarización: van desde el muestreo aleatorio simple 
hasta estrategias más sofisticadas como el muestreo aleatorio estratificado, que reduce al mínimo la 
posibilidad de seleccionar una muestra no representativa. En el muestreo aleatorio estratificado, la 
población meta es categorizada en una serie de variables (sexo, edad, etc) que se supone poseen relación 
con el constructo medido por un test y luego se seleccionan aleatoriamente submuestras proporcionales de 
cada uno de los estratos considerados. 
 
Actualización de los baremos: algunos autores recomiendan actualizarlos cada cinco años e inclusive antes si 
se presenta un cambio significativo. La actualización periódica de los baremos es un requisito básico para la 
validez de las interpretaciones de los puntajes de Tests referidos a normas. 
 
5.1.3 Métodos de transformación de puntuaciones. 
Este archivo fue descargado de https://filadd.com
�
 FI
LA
DD
.CO
M
Para interpretar comparativamente los resultados individuales de un test es necesario transformar las 
puntuaciones directas en otras derivadas. Las transformaciones para obtener estas puntuaciones derivadas 
pueden ser de dos clases: lineales y no lineales. 
 
Transformaciones lineales. 
Es lineal cuando se obtiene una nueva escala de medición que respeta las distancias entre las unidades de 
medida de la escala original. Un cambio en la puntuación de la escala original se corresponde directamente 
con el cambio de puntuación en la escala transformada. 
 
Las transformaciones lineales no alteran la distribución original de frecuencias de las puntuaciones. 
 
Las más usadas son las puntuaciones estándar o z. 
Puntuación estándar (z): Al transformar las puntuaciones originarias en puntaje z se obtiene una 
distribución que tiene la misma forma, pero una media y una desviación estándar diferentes a las de la 
distribución de las puntuaciones originarias. La media de las puntuaciones z es igual a 0 y la desviación 
estándar es igual a 1. 
 
Fórmula: 
X-M 
 Z= s 
La puntuación estándar de un sujeto es igual a su puntuación originaria (X) menos la media de las 
puntuaciones del grupo de referencia (M), dividido por la desviación estándar (s). 
Las puntuaciones estándar expresan la distancia del individuo a la media en función de la desviación 
estándar de la distribución. 
 
Las puntuaciones z pueden ser tanto negativas como positivas, y generalmente sus valores varían entre -
3,00 y 3,00. Debido a las dificultades que ocasiona la presencia de valores negativos y decimales, se suele 
proceder a una segunda transformación lineal, en la que se multiplica cada puntuación z por una nueva 
desviación estándar fijada arbitrariamente por el examinador y se suma luego a ese resultado un valor 
establecido para la media. 
La fórmula para obtener esta segunda transformación es: 
 
Z1=z.k + m 
 
Z1=puntuación transformada.z= puntuación estándar correspondiente a un individuo 
k= desviación estándar establecida por el examinador 
m=Media constante establecida por el examinador 
 
Hogan: fórmula alternativa para el cálculo directo de puntuaciones z1, sin necesidad de realizar dos 
transformaciones sucesivas: 
 
 
 
 
Este archivo fue descargado de https://filadd.com
�
 FI
LA
DD
.CO
M
La media y la desviación estándar son preestablecidas con la finalidad de facilitarla comparación con otros 
Tests que miden un mismo constructo. Los inventarios de personalidad usan frecuentemente una media de 
50 y una desviación estándar de 10. Los Tests de inteligencia usualmente usan una media de 100 y una 
desviación estándar de 15. 
 
Coeficiente de desviación: un caso especial de puntuación estándar, usado por las escalas de inteligencia de 
Wechsler, la media propuesta es 100 y la desviación estándar de 15. Un puntaje estándar de 100 define el 
desempeño de un individuo de inteligencia promedio. 
 
La mayoría de los examinadores usan adicionalmente una notación cualitativa para describir la inteligencia 
de un individuo. De este modo, un coeficiente de desviación de 130 o superior se considera como muy 
superior al promedio, de 90 a 109 como equivalente al promedio y de 70 o menos como muy inferior. 
 
Transformaciones no lineales. 
Asumen una distribución a priori que altera la forma de la distribución de los puntajes originales. Estas 
puntuaciones no pueden ser sumadas, promediadas o correlacionadas, puesto que no respetan las 
diferencias entre intervalos de la escala de medida original. Tienen la ventaja comparativa de resultar 
fácilmente comprensibles para personas sin conocimientos estadísticos especializados. Las dos más usuales 
son los percentiles y las puntuaciones estándar normalizadas. 
 
Percentiles. 
 
Expresan el porcentaje de personas, en un grupo de referencia, que queda por debajo de una puntuación 
original determinada. Un percentil es un punto en la escala de medición originaria que divide el total de 
observaciones en dos partes. 
 
Con los percentiles empezamos a contar desde abajo, a un percentil más bajo corresponde una posición más 
baja del individuo en el test. El percentil 50 corresponde a la mediana. El 25 se corresponde con el primer 
cuartil y el 75 con el tercer cuartil. Estos dos últimos suelen usarse como puntos de corte para indicar la 
magnitud relativamente elevada y baja de un atributo determinado. 
 
La fórmula de cálculo para datos no agrupados es la siguiente: 
 
 
 
 
 
 
Donde: 
 fa= Frecuencia acumulada hasta el puntaje original seleccionado 
 fp= Frecuencia propia del puntaje original seleccionado. 
 N= Número total de casos. 
 
Este archivo fue descargado de https://filadd.com
�
 FI
LA
DD
.CO
M
La facilidad de interpretación de los percentiles los hace especialmente atractivos. Pero tienen una 
desventaja considerable si se los compara con las transformaciones lineales. Debe recordarse que los 
percentiles operan en un nivel de medición ordinal y no intervalar, como los puntajes z. 
 
Puntuaciones estándar normalizadas (zn). 
 
Para facilitar la comparación de diferentes puntuaciones transformadas (puntajes z con percentiles, por 
ejemplo), se suele recurrir a transformaciones no lineales que modifican la forma de distribución de las 
puntuaciones originales, convirtiéndolas en una distribución normal. 
 
Distribución normal: un modelo estadístico que permite estimar probabilidades de ocurrencia de los 
diferentes valores de una variable pero que no se corresponde exactamente con ninguna forma de 
distribución de frecuencias real u observada. Se representa gráficamente por medio de la curva normal, en 
forma de campana. 
 
La curva es simétrica bilateralmente con un punto máximo hacia el centro de la distribución e indica, 
esencialmente, que el mayor número de casos se agrupa hacia el centro, disminuyendo gradualmente en 
ambas direcciones a medida que nos alejamos del centro de la distribución. 
 
El procedimiento empleado en este tipo de transformaciones no lineales se denomina normalización y las 
puntuaciones obtenidas mediante este proceso reciben el nombre de puntuación estándar normalizada. Algunos casos especiales son las denominadas “T” (en honor a Terman) con media de 50 y desviación 
estándar de 10, y las puntuaciones estaninas con media de 5 y una desviación estándar de 2. 
 
Estanina se basa en que las unidades de estas puntuaciones transformadas van de 1 a 9. Desventaja: el uso 
de un solo dígito puede sugerir diferencias significativas entre dos individuos cuando éstas no son tales. 
 
La transformación de puntuaciones originales a puntuaciones estándar normalizadas se realiza mediante el 
siguiente procedimiento: 
a. Estimar el percentil correspondiente a una puntuación original. 
b. Convertir ese percentil en una proporción. 
c. En el cuadro de áreas por debajo de la curva normal, ubicar la puntuación z debajo de la cual se 
encuentra esa proporción. 
d. Proceder al cálculo de la puntuación T u otra semejante mediante la ecuación: 
 
Z1=z.k + m 
 
Z1: puntuación estándar normalizada. 
Z: puntuación estándar correspondiente a un puntaje bruto determinado. 
K: desviación estándar (en el caso de los puntajes T es igual a 10). 
M: media (50 para puntuaciones T). 
 
Las puntuaciones T se distribuyen en un rango que va desde 20 a 80. No deben confundirse con los valores t 
de Student usados en las pruebas estadísticas de significación. 
 
Este archivo fue descargado de https://filadd.com
�
 FI
LA
DD
.CO
M
Las puntuaciones T también pueden obtenerse de manera más directa usando la fórmula de cálculo de z1, en 
este caso con una media de 50 y una desviación estándar de 10. Con este procedimiento no se altera la forma 
de la distribución de los puntajes originales. 
 
5.2 Otros métodos de interpretación de puntuaciones. 
 
5.2.1 Puntuaciones ipsativas. 
 
Estos puntajes se obtienen en Tests que usan un formato de ítems de elección forzada, donde el examinado 
debe seleccionar una opción de respuestas entre varias alternativas. Los ítems se califican de tal manera que 
la elección de una de las opciones de respuesta produce un incremento en la puntuación de una escala o 
dimensión medida y al mismo tiempo una disminución en el puntaje de otra de las escalas o dimensiones del test. Este tipo de puntuaciones muestra la fuerza “relativa” de las puntuaciones en lugar de la fuerza “absoluta” de las mismas. 
 Las puntuaciones finales de una escala ipsativa expresan un perfil de los “puntos” fuertes y débiles de un 
individuo sin compararlo con un grupo de referencia. Con este procedimiento, la deseabilidad social y los 
sesgos individuales de respuesta se controlan exitosamente. 
 
La interpretación ipsativa posee la limitación de obstaculizar la aplicación de algunos estadísticos usuales en 
psicometría debido a la falta de independencia de sus ítems. Otra dificultad es la resistencia que despiertan 
los ítems de elección forzada en muchos individuos. Registro de preferencias Kuder y Self-directed Search 
son Tests muy populares en contextos de orientación que usaban solamente puntuaciones ipsativas. 
 
5.2.2 Interpretación referida a criterio. 
Una forma alternativa de interpretación de las puntuaciones consiste en compararlas con un criterio de 
logro u objetivo a alcanzar, previamente especificado. 
 
Este tipo de interpretación de puntuaciones se denomina “interpretación referida a criterio o dominio” y los Tests que la usan “Tests con referencia a criterio o dominio”. Estos Tests presuponen que existe un área 
específica o dominio de conocimiento o habilidad que puede ser claramente definido y delimitado. 
 
Prueba referida a criterio: aquella que deliberadamente se construye para conducir a medidas directamente 
interpretables en términos de pautas específicas de desempeño las cuales se determinandefiniendo una 
clase o dominio de tareas que el individuo debe realizar. Se usan para evaluar la posición absoluta de un 
individuo con respecto a algún dominio de conductas previamente definido. 
En muchos dominios es dificultoso fijar con precisión objetivos específicos y, además, en varias ocasiones el 
establecimiento de un criterio de desempeño es bastante arbitrario. 
 
En los años 70 se comenzó a aplicar sistemáticamente este tipo de pruebas, en particular en la evaluación 
educativa. 
La evaluación en educación se realiza con diferentes fines, entre ellos: 
 Determinar la calidad de un sistema educativo. 
 Evaluar la adecuación de un currículo. 
 Evaluar los efectos de un programa de enseñanza. 
Este archivo fue descargado de https://filadd.com
�
 FI
LA
DD
.CO
M
 Evaluar el rendimiento de los estudiantes. 
 Seleccionar aspirantes a un curso o carrera. 
 
Esta evaluación comenzó como un medio para seleccionar alumnos y los Tests que más se usaron fueron los 
referidos a normas, cuyos resultados se interpretan en función de un grupo normativo o baremo. 
Posteriormente se construyeron Tests referidos a normas para ser aplicados con otros propósitos, tales 
como evaluar la calidad de un sistema educativo o el rendimiento académico. 
 
En los años 70 surge la necesidad de una evaluación diagnóstica previa de los individuos y, a posteriori, para 
verificar los cambios en los mismos como efecto de la aplicación de esos programas. Estas razones 
impulsaron el desarrollo de este enfoque alternativo en la interpretación de puntuaciones de Tests, donde 
no interesa tanto comparar al individuo con la población a la cual pertenece, sino medir cambios de cada 
individuo a lo largo del aprendizaje. 
 
La evaluación referida a criterio supone una filosofía diferente. La función esencial del maestro no es 
identificar a los mejores y peores alumnos sino tratar de que todos los estudiantes logren los objetivos 
relacionados con dominios de aprendizaje específicos. 
 
Los Tests con referencia a normas se basan en las diferencias individuales y, por lo tanto, tienen como 
objetivo principal la selección y la predicción. Los Tests con referencia a criterio intentan medir cambios en 
los propios individuos o grupos como efecto de una intervención educativa. Resultan más adecuados para 
fines de diagnóstico y prescripción de las experiencias de aprendizaje requeridas para asegurar el logro de 
determinados objetivos. 
 
Es más apropiado hablar de interpretación referida a normas y a criterio, puesto que la puntuación de un 
mismo test puede interpretarse de estas dos formas. 
 
Los Tests referidos a normas sugieren más bien cuánto han aprendido los individuos pero no esclarecen 
adecuadamente qué han aprendido. Las pruebas con referencia a criterio informan la posición absoluta de 
un sujeto en relación con un dominio conductual definido explícitamente. 
 
La interpretación referida a criterio es aplicable sólo en dominios específicos de contenido. El análisis de los 
resultados en este tipo de pruebas puede realizarse distinguiendo las habilidades o conductas en relación 
con un contenido temático que presentan mayor dificultad y las que son más fáciles de adquirir. 
 
Este archivo fue descargado de https://filadd.com
�
 FI
LA
DD
.CO
M

Continuar navegando