Interpretaciones de los puntajes de test en Psicologia

Psicología

•

Biológicas / Saúde

0

hm_gomez_92

10/9/2023

¡Estudia con miles de materiales!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Psicología

254.385 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

UNIDAD 5
Interpretación de puntuaciones.
5.1 Interpretación referida a normas.
5.1.1 Concepto.
Resultado inicial de un test: puntaje bruto, directo u original. Se obtiene por la sumatoria de las respuestas
correctas o respuestas clave.
En el caso de los Tests construidos sobre la TRI, esta puntuación original se denomina puntuación theta.
Estas puntuaciones no se obtienen de la simple sumatoria de las respuestas a los ítems, sino que resultan de
la interacción de las respuestas del examinado con las características de los reactivos. Varían de -4 a 4.

En ambas teorías (TCT o TRI) las puntuaciones originales de los Tests son arbitrarias y no poseen un
significado unívoco.
El hecho de que las puntuaciones originales no sean suficientes para interpretar los resultados obedece a
limitaciones de los Tests como instrumentos de medición como:
 Carecen de cero absoluto
 No poseen unidades de medida constantes.

Los Tests que miden rasgos latentes (inteligencia o personalidad, por ejemplo) la estrategia usada para
atribuir significado a las puntuaciones originales es comparar los resultados individuales con las
puntuaciones del grupo de referencia en la misma prueba.
Los puntajes originales individuales son comparados con la distribución de puntajes de uno o más grupos de
referencia.
Para realizar esta interpretación se requiere un proceso denominado estandarización que se desarrolla
mediante las siguientes operaciones:
a) Selección de una muestra representativa de la población meta para la cual se elaboró el instrumento
(muestra de estandarización).
b) Administración del test a esa muestra y registro de las puntuaciones originales de los individuos.
c) Transformación de las puntuaciones originales en puntuaciones derivadas que indican la posición
relativa de los puntajes directos individuales en relación con el grupo de referencia.

El producto final de este proceso de estandarización son los baremos de un test. Tablas de equivalencia
entre puntuaciones originarias y transformadas que permiten la comparación de los resultados individuales
con los de un grupo de referencia.

Los pasos a y c, requieren conocimientos específicos y se desarrollarán luego.
Baremos: normas establecidas por convención para evaluar los méritos personales. Ambos términos
(normas y baremos) poseen el mismo significado en este contexto.

5.1.2 Muestra de estandarización.
Quien se propone aplicar un test tendrá que decidir entre construir sus propias normas de interpretación de
los puntajes (baremos) o usar los baremos elaborados por otro investigador.

En el último caso se debe confirmar que los baremos estén actualizados y que la muestra de estandarización
original sea semejante a la población meta de un test particular.
Este archivo fue descargado de https://filadd.com
�
FI
LA
DD
.CO
M

Si se opta por el uso de baremos, la muestra de estandarización original debería ser lo más parecida posible
a la población de aplicación actual del test en características demográficas tales como sexo, edad, nivel
educativo y nivel socioeconómico u otras variables relacionadas con el desempeño en el test.

No debe confundirse la elaboración de un baremo con el proceso más complejo y comprensivo de
adaptación de Tests, que no sólo implica poseer normas adecuadas sino replicar los estudios psicométricos
esenciales del instrumento.

Para construir baremos se debe disponer de una muestra representativa de la población que será evaluada
por medio de un test. Los baremos nacionales son re costosos y difíciles de obtener. La APA diferencia tipos
de baremos que pueden ser apropiados para el uso de un test dado: normas locales, regionales y específicas.
Es de especial importancia que todos los baremos sean producto de un proceso de muestreo técnicamente
riguroso.

Cuando un test es susceptible de aplicación a grupos distintos existen diferencias significativas entre ellos en
la variable medida por el test, deben elaborarse baremos separados de modo que cada persona pueda ser
comparada con su verdadero grupo de referencia. Por ejemplo, el caso de los inventarios de intereses, en los
que normalmente se presentan baremos diferenciados por sexo.

Si se construye un baremo para interpretar los puntajes de un test, debe ser generado a partir de una
muestra representativa de la población meta de evaluación. De otro modo puede conducir a
interpretaciones equívocas y a errores considerables para el autoconocimiento de los individuos o la
clasificación efectuada a partir de un test.

Sin recursos humanos y económicos considerables es muy dificultoso construir baremos nacionales o
regionales. Una alternativa factible es la de obtener normas específicas (de una institución, por ejemplo) o
de utilidad local y para un grupo claramente definido. A su vez, los usuarios deben estar atentos a las
situaciones en las cuales los baremos son menos apropiados para algunos grupos de individuos que para
otros.

Técnicas estadísticas para obtener muestras de estandarización: van desde el muestreo aleatorio simple
hasta estrategias más sofisticadas como el muestreo aleatorio estratificado, que reduce al mínimo la
posibilidad de seleccionar una muestra no representativa. En el muestreo aleatorio estratificado, la
población meta es categorizada en una serie de variables (sexo, edad, etc) que se supone poseen relación
con el constructo medido por un test y luego se seleccionan aleatoriamente submuestras proporcionales de
cada uno de los estratos considerados.

Actualización de los baremos: algunos autores recomiendan actualizarlos cada cinco años e inclusive antes si
se presenta un cambio significativo. La actualización periódica de los baremos es un requisito básico para la
validez de las interpretaciones de los puntajes de Tests referidos a normas.

5.1.3 Métodos de transformación de puntuaciones.
Este archivo fue descargado de https://filadd.com
�
FI
LA
DD
.CO
M
Para interpretar comparativamente los resultados individuales de un test es necesario transformar las
puntuaciones directas en otras derivadas. Las transformaciones para obtener estas puntuaciones derivadas
pueden ser de dos clases: lineales y no lineales.

Transformaciones lineales.
Es lineal cuando se obtiene una nueva escala de medición que respeta las distancias entre las unidades de
medida de la escala original. Un cambio en la puntuación de la escala original se corresponde directamente
con el cambio de puntuación en la escala transformada.

Las transformaciones lineales no alteran la distribución original de frecuencias de las puntuaciones.

Las más usadas son las puntuaciones estándar o z.
Puntuación estándar (z): Al transformar las puntuaciones originarias en puntaje z se obtiene una
distribución que tiene la misma forma, pero una media y una desviación estándar diferentes a las de la
distribución de las puntuaciones originarias. La media de las puntuaciones z es igual a 0 y la desviación
estándar es igual a 1.

Fórmula:
X-M
Z= s
La puntuación estándar de un sujeto es igual a su puntuación originaria (X) menos la media de las
puntuaciones del grupo de referencia (M), dividido por la desviación estándar (s).
Las puntuaciones estándar expresan la distancia del individuo a la media en función de la desviación
estándar de la distribución.

Las puntuaciones z pueden ser tanto negativas como positivas, y generalmente sus valores varían entre -
3,00 y 3,00. Debido a las dificultades que ocasiona la presencia de valores negativos y decimales, se suele
proceder a una segunda transformación lineal, en la que se multiplica cada puntuación z por una nueva
desviación estándar fijada arbitrariamente por el examinador y se suma luego a ese resultado un valor
establecido para la media.
La fórmula para obtener esta segunda transformación es:

Z1=z.k + m

Z1=puntuación transformada.z= puntuación estándar correspondiente a un individuo
k= desviación estándar establecida por el examinador
m=Media constante establecida por el examinador

Hogan: fórmula alternativa para el cálculo directo de puntuaciones z1, sin necesidad de realizar dos
transformaciones sucesivas:

Este archivo fue descargado de https://filadd.com
�
FI
LA
DD
.CO
M
La media y la desviación estándar son preestablecidas con la finalidad de facilitarla comparación con otros
Tests que miden un mismo constructo. Los inventarios de personalidad usan frecuentemente una media de
50 y una desviación estándar de 10. Los Tests de inteligencia usualmente usan una media de 100 y una
desviación estándar de 15.

Coeficiente de desviación: un caso especial de puntuación estándar, usado por las escalas de inteligencia de
Wechsler, la media propuesta es 100 y la desviación estándar de 15. Un puntaje estándar de 100 define el
desempeño de un individuo de inteligencia promedio.

La mayoría de los examinadores usan adicionalmente una notación cualitativa para describir la inteligencia
de un individuo. De este modo, un coeficiente de desviación de 130 o superior se considera como muy
superior al promedio, de 90 a 109 como equivalente al promedio y de 70 o menos como muy inferior.

Transformaciones no lineales.
Asumen una distribución a priori que altera la forma de la distribución de los puntajes originales. Estas
puntuaciones no pueden ser sumadas, promediadas o correlacionadas, puesto que no respetan las
diferencias entre intervalos de la escala de medida original. Tienen la ventaja comparativa de resultar
fácilmente comprensibles para personas sin conocimientos estadísticos especializados. Las dos más usuales
son los percentiles y las puntuaciones estándar normalizadas.

Percentiles.

Expresan el porcentaje de personas, en un grupo de referencia, que queda por debajo de una puntuación
original determinada. Un percentil es un punto en la escala de medición originaria que divide el total de
observaciones en dos partes.

Con los percentiles empezamos a contar desde abajo, a un percentil más bajo corresponde una posición más
baja del individuo en el test. El percentil 50 corresponde a la mediana. El 25 se corresponde con el primer
cuartil y el 75 con el tercer cuartil. Estos dos últimos suelen usarse como puntos de corte para indicar la
magnitud relativamente elevada y baja de un atributo determinado.

La fórmula de cálculo para datos no agrupados es la siguiente:

Donde:
fa= Frecuencia acumulada hasta el puntaje original seleccionado
fp= Frecuencia propia del puntaje original seleccionado.
N= Número total de casos.

Este archivo fue descargado de https://filadd.com
�
FI
LA
DD
.CO
M
La facilidad de interpretación de los percentiles los hace especialmente atractivos. Pero tienen una
desventaja considerable si se los compara con las transformaciones lineales. Debe recordarse que los
percentiles operan en un nivel de medición ordinal y no intervalar, como los puntajes z.

Puntuaciones estándar normalizadas (zn).

Para facilitar la comparación de diferentes puntuaciones transformadas (puntajes z con percentiles, por
ejemplo), se suele recurrir a transformaciones no lineales que modifican la forma de distribución de las
puntuaciones originales, convirtiéndolas en una distribución normal.

Distribución normal: un modelo estadístico que permite estimar probabilidades de ocurrencia de los
diferentes valores de una variable pero que no se corresponde exactamente con ninguna forma de
distribución de frecuencias real u observada. Se representa gráficamente por medio de la curva normal, en
forma de campana.

La curva es simétrica bilateralmente con un punto máximo hacia el centro de la distribución e indica,
esencialmente, que el mayor número de casos se agrupa hacia el centro, disminuyendo gradualmente en
ambas direcciones a medida que nos alejamos del centro de la distribución.

El procedimiento empleado en este tipo de transformaciones no lineales se denomina normalización y las
puntuaciones obtenidas mediante este proceso reciben el nombre de puntuación estándar normalizada. Algunos casos especiales son las denominadas “T” (en honor a Terman) con media de 50 y desviación
estándar de 10, y las puntuaciones estaninas con media de 5 y una desviación estándar de 2.

Estanina se basa en que las unidades de estas puntuaciones transformadas van de 1 a 9. Desventaja: el uso
de un solo dígito puede sugerir diferencias significativas entre dos individuos cuando éstas no son tales.

La transformación de puntuaciones originales a puntuaciones estándar normalizadas se realiza mediante el
siguiente procedimiento:
a. Estimar el percentil correspondiente a una puntuación original.
b. Convertir ese percentil en una proporción.
c. En el cuadro de áreas por debajo de la curva normal, ubicar la puntuación z debajo de la cual se
encuentra esa proporción.
d. Proceder al cálculo de la puntuación T u otra semejante mediante la ecuación:

Z1=z.k + m

Z1: puntuación estándar normalizada.
Z: puntuación estándar correspondiente a un puntaje bruto determinado.
K: desviación estándar (en el caso de los puntajes T es igual a 10).
M: media (50 para puntuaciones T).

Las puntuaciones T se distribuyen en un rango que va desde 20 a 80. No deben confundirse con los valores t
de Student usados en las pruebas estadísticas de significación.

Este archivo fue descargado de https://filadd.com
�
FI
LA
DD
.CO
M
Las puntuaciones T también pueden obtenerse de manera más directa usando la fórmula de cálculo de z1, en
este caso con una media de 50 y una desviación estándar de 10. Con este procedimiento no se altera la forma
de la distribución de los puntajes originales.

5.2 Otros métodos de interpretación de puntuaciones.

5.2.1 Puntuaciones ipsativas.

Estos puntajes se obtienen en Tests que usan un formato de ítems de elección forzada, donde el examinado
debe seleccionar una opción de respuestas entre varias alternativas. Los ítems se califican de tal manera que
la elección de una de las opciones de respuesta produce un incremento en la puntuación de una escala o
dimensión medida y al mismo tiempo una disminución en el puntaje de otra de las escalas o dimensiones del test. Este tipo de puntuaciones muestra la fuerza “relativa” de las puntuaciones en lugar de la fuerza “absoluta” de las mismas.
Las puntuaciones finales de una escala ipsativa expresan un perfil de los “puntos” fuertes y débiles de un
individuo sin compararlo con un grupo de referencia. Con este procedimiento, la deseabilidad social y los
sesgos individuales de respuesta se controlan exitosamente.

La interpretación ipsativa posee la limitación de obstaculizar la aplicación de algunos estadísticos usuales en
psicometría debido a la falta de independencia de sus ítems. Otra dificultad es la resistencia que despiertan
los ítems de elección forzada en muchos individuos. Registro de preferencias Kuder y Self-directed Search
son Tests muy populares en contextos de orientación que usaban solamente puntuaciones ipsativas.

5.2.2 Interpretación referida a criterio.
Una forma alternativa de interpretación de las puntuaciones consiste en compararlas con un criterio de
logro u objetivo a alcanzar, previamente especificado.

Este tipo de interpretación de puntuaciones se denomina “interpretación referida a criterio o dominio” y los Tests que la usan “Tests con referencia a criterio o dominio”. Estos Tests presuponen que existe un área
específica o dominio de conocimiento o habilidad que puede ser claramente definido y delimitado.

Prueba referida a criterio: aquella que deliberadamente se construye para conducir a medidas directamente
interpretables en términos de pautas específicas de desempeño las cuales se determinandefiniendo una
clase o dominio de tareas que el individuo debe realizar. Se usan para evaluar la posición absoluta de un
individuo con respecto a algún dominio de conductas previamente definido.
En muchos dominios es dificultoso fijar con precisión objetivos específicos y, además, en varias ocasiones el
establecimiento de un criterio de desempeño es bastante arbitrario.

En los años 70 se comenzó a aplicar sistemáticamente este tipo de pruebas, en particular en la evaluación
educativa.
La evaluación en educación se realiza con diferentes fines, entre ellos:
 Determinar la calidad de un sistema educativo.
 Evaluar la adecuación de un currículo.
 Evaluar los efectos de un programa de enseñanza.
Este archivo fue descargado de https://filadd.com
�
FI
LA
DD
.CO
M
 Evaluar el rendimiento de los estudiantes.
 Seleccionar aspirantes a un curso o carrera.

Esta evaluación comenzó como un medio para seleccionar alumnos y los Tests que más se usaron fueron los
referidos a normas, cuyos resultados se interpretan en función de un grupo normativo o baremo.
Posteriormente se construyeron Tests referidos a normas para ser aplicados con otros propósitos, tales
como evaluar la calidad de un sistema educativo o el rendimiento académico.

En los años 70 surge la necesidad de una evaluación diagnóstica previa de los individuos y, a posteriori, para
verificar los cambios en los mismos como efecto de la aplicación de esos programas. Estas razones
impulsaron el desarrollo de este enfoque alternativo en la interpretación de puntuaciones de Tests, donde
no interesa tanto comparar al individuo con la población a la cual pertenece, sino medir cambios de cada
individuo a lo largo del aprendizaje.

La evaluación referida a criterio supone una filosofía diferente. La función esencial del maestro no es
identificar a los mejores y peores alumnos sino tratar de que todos los estudiantes logren los objetivos
relacionados con dominios de aprendizaje específicos.

Los Tests con referencia a normas se basan en las diferencias individuales y, por lo tanto, tienen como
objetivo principal la selección y la predicción. Los Tests con referencia a criterio intentan medir cambios en
los propios individuos o grupos como efecto de una intervención educativa. Resultan más adecuados para
fines de diagnóstico y prescripción de las experiencias de aprendizaje requeridas para asegurar el logro de
determinados objetivos.

Es más apropiado hablar de interpretación referida a normas y a criterio, puesto que la puntuación de un
mismo test puede interpretarse de estas dos formas.

Los Tests referidos a normas sugieren más bien cuánto han aprendido los individuos pero no esclarecen
adecuadamente qué han aprendido. Las pruebas con referencia a criterio informan la posición absoluta de
un sujeto en relación con un dominio conductual definido explícitamente.

La interpretación referida a criterio es aplicable sólo en dominios específicos de contenido. El análisis de los
resultados en este tipo de pruebas puede realizarse distinguiendo las habilidades o conductas en relación
con un contenido temático que presentan mayor dificultad y las que son más fáciles de adquirir.

Este archivo fue descargado de https://filadd.com
�
FI
LA
DD
.CO
M