Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNIDAD 5 Interpretación de puntuaciones. 5.1 Interpretación referida a normas. 5.1.1 Concepto. Resultado inicial de un test: puntaje bruto, directo u original. Se obtiene por la sumatoria de las respuestas correctas o respuestas clave. En el caso de los Tests construidos sobre la TRI, esta puntuación original se denomina puntuación theta. Estas puntuaciones no se obtienen de la simple sumatoria de las respuestas a los ítems, sino que resultan de la interacción de las respuestas del examinado con las características de los reactivos. Varían de -4 a 4. En ambas teorías (TCT o TRI) las puntuaciones originales de los Tests son arbitrarias y no poseen un significado unívoco. El hecho de que las puntuaciones originales no sean suficientes para interpretar los resultados obedece a limitaciones de los Tests como instrumentos de medición como: Carecen de cero absoluto No poseen unidades de medida constantes. Los Tests que miden rasgos latentes (inteligencia o personalidad, por ejemplo) la estrategia usada para atribuir significado a las puntuaciones originales es comparar los resultados individuales con las puntuaciones del grupo de referencia en la misma prueba. Los puntajes originales individuales son comparados con la distribución de puntajes de uno o más grupos de referencia. Para realizar esta interpretación se requiere un proceso denominado estandarización que se desarrolla mediante las siguientes operaciones: a) Selección de una muestra representativa de la población meta para la cual se elaboró el instrumento (muestra de estandarización). b) Administración del test a esa muestra y registro de las puntuaciones originales de los individuos. c) Transformación de las puntuaciones originales en puntuaciones derivadas que indican la posición relativa de los puntajes directos individuales en relación con el grupo de referencia. El producto final de este proceso de estandarización son los baremos de un test. Tablas de equivalencia entre puntuaciones originarias y transformadas que permiten la comparación de los resultados individuales con los de un grupo de referencia. Los pasos a y c, requieren conocimientos específicos y se desarrollarán luego. Baremos: normas establecidas por convención para evaluar los méritos personales. Ambos términos (normas y baremos) poseen el mismo significado en este contexto. 5.1.2 Muestra de estandarización. Quien se propone aplicar un test tendrá que decidir entre construir sus propias normas de interpretación de los puntajes (baremos) o usar los baremos elaborados por otro investigador. En el último caso se debe confirmar que los baremos estén actualizados y que la muestra de estandarización original sea semejante a la población meta de un test particular. Este archivo fue descargado de https://filadd.com � FI LA DD .CO M Si se opta por el uso de baremos, la muestra de estandarización original debería ser lo más parecida posible a la población de aplicación actual del test en características demográficas tales como sexo, edad, nivel educativo y nivel socioeconómico u otras variables relacionadas con el desempeño en el test. No debe confundirse la elaboración de un baremo con el proceso más complejo y comprensivo de adaptación de Tests, que no sólo implica poseer normas adecuadas sino replicar los estudios psicométricos esenciales del instrumento. Para construir baremos se debe disponer de una muestra representativa de la población que será evaluada por medio de un test. Los baremos nacionales son re costosos y difíciles de obtener. La APA diferencia tipos de baremos que pueden ser apropiados para el uso de un test dado: normas locales, regionales y específicas. Es de especial importancia que todos los baremos sean producto de un proceso de muestreo técnicamente riguroso. Cuando un test es susceptible de aplicación a grupos distintos existen diferencias significativas entre ellos en la variable medida por el test, deben elaborarse baremos separados de modo que cada persona pueda ser comparada con su verdadero grupo de referencia. Por ejemplo, el caso de los inventarios de intereses, en los que normalmente se presentan baremos diferenciados por sexo. Si se construye un baremo para interpretar los puntajes de un test, debe ser generado a partir de una muestra representativa de la población meta de evaluación. De otro modo puede conducir a interpretaciones equívocas y a errores considerables para el autoconocimiento de los individuos o la clasificación efectuada a partir de un test. Sin recursos humanos y económicos considerables es muy dificultoso construir baremos nacionales o regionales. Una alternativa factible es la de obtener normas específicas (de una institución, por ejemplo) o de utilidad local y para un grupo claramente definido. A su vez, los usuarios deben estar atentos a las situaciones en las cuales los baremos son menos apropiados para algunos grupos de individuos que para otros. Técnicas estadísticas para obtener muestras de estandarización: van desde el muestreo aleatorio simple hasta estrategias más sofisticadas como el muestreo aleatorio estratificado, que reduce al mínimo la posibilidad de seleccionar una muestra no representativa. En el muestreo aleatorio estratificado, la población meta es categorizada en una serie de variables (sexo, edad, etc) que se supone poseen relación con el constructo medido por un test y luego se seleccionan aleatoriamente submuestras proporcionales de cada uno de los estratos considerados. Actualización de los baremos: algunos autores recomiendan actualizarlos cada cinco años e inclusive antes si se presenta un cambio significativo. La actualización periódica de los baremos es un requisito básico para la validez de las interpretaciones de los puntajes de Tests referidos a normas. 5.1.3 Métodos de transformación de puntuaciones. Este archivo fue descargado de https://filadd.com � FI LA DD .CO M Para interpretar comparativamente los resultados individuales de un test es necesario transformar las puntuaciones directas en otras derivadas. Las transformaciones para obtener estas puntuaciones derivadas pueden ser de dos clases: lineales y no lineales. Transformaciones lineales. Es lineal cuando se obtiene una nueva escala de medición que respeta las distancias entre las unidades de medida de la escala original. Un cambio en la puntuación de la escala original se corresponde directamente con el cambio de puntuación en la escala transformada. Las transformaciones lineales no alteran la distribución original de frecuencias de las puntuaciones. Las más usadas son las puntuaciones estándar o z. Puntuación estándar (z): Al transformar las puntuaciones originarias en puntaje z se obtiene una distribución que tiene la misma forma, pero una media y una desviación estándar diferentes a las de la distribución de las puntuaciones originarias. La media de las puntuaciones z es igual a 0 y la desviación estándar es igual a 1. Fórmula: X-M Z= s La puntuación estándar de un sujeto es igual a su puntuación originaria (X) menos la media de las puntuaciones del grupo de referencia (M), dividido por la desviación estándar (s). Las puntuaciones estándar expresan la distancia del individuo a la media en función de la desviación estándar de la distribución. Las puntuaciones z pueden ser tanto negativas como positivas, y generalmente sus valores varían entre - 3,00 y 3,00. Debido a las dificultades que ocasiona la presencia de valores negativos y decimales, se suele proceder a una segunda transformación lineal, en la que se multiplica cada puntuación z por una nueva desviación estándar fijada arbitrariamente por el examinador y se suma luego a ese resultado un valor establecido para la media. La fórmula para obtener esta segunda transformación es: Z1=z.k + m Z1=puntuación transformada.z= puntuación estándar correspondiente a un individuo k= desviación estándar establecida por el examinador m=Media constante establecida por el examinador Hogan: fórmula alternativa para el cálculo directo de puntuaciones z1, sin necesidad de realizar dos transformaciones sucesivas: Este archivo fue descargado de https://filadd.com � FI LA DD .CO M La media y la desviación estándar son preestablecidas con la finalidad de facilitarla comparación con otros Tests que miden un mismo constructo. Los inventarios de personalidad usan frecuentemente una media de 50 y una desviación estándar de 10. Los Tests de inteligencia usualmente usan una media de 100 y una desviación estándar de 15. Coeficiente de desviación: un caso especial de puntuación estándar, usado por las escalas de inteligencia de Wechsler, la media propuesta es 100 y la desviación estándar de 15. Un puntaje estándar de 100 define el desempeño de un individuo de inteligencia promedio. La mayoría de los examinadores usan adicionalmente una notación cualitativa para describir la inteligencia de un individuo. De este modo, un coeficiente de desviación de 130 o superior se considera como muy superior al promedio, de 90 a 109 como equivalente al promedio y de 70 o menos como muy inferior. Transformaciones no lineales. Asumen una distribución a priori que altera la forma de la distribución de los puntajes originales. Estas puntuaciones no pueden ser sumadas, promediadas o correlacionadas, puesto que no respetan las diferencias entre intervalos de la escala de medida original. Tienen la ventaja comparativa de resultar fácilmente comprensibles para personas sin conocimientos estadísticos especializados. Las dos más usuales son los percentiles y las puntuaciones estándar normalizadas. Percentiles. Expresan el porcentaje de personas, en un grupo de referencia, que queda por debajo de una puntuación original determinada. Un percentil es un punto en la escala de medición originaria que divide el total de observaciones en dos partes. Con los percentiles empezamos a contar desde abajo, a un percentil más bajo corresponde una posición más baja del individuo en el test. El percentil 50 corresponde a la mediana. El 25 se corresponde con el primer cuartil y el 75 con el tercer cuartil. Estos dos últimos suelen usarse como puntos de corte para indicar la magnitud relativamente elevada y baja de un atributo determinado. La fórmula de cálculo para datos no agrupados es la siguiente: Donde: fa= Frecuencia acumulada hasta el puntaje original seleccionado fp= Frecuencia propia del puntaje original seleccionado. N= Número total de casos. Este archivo fue descargado de https://filadd.com � FI LA DD .CO M La facilidad de interpretación de los percentiles los hace especialmente atractivos. Pero tienen una desventaja considerable si se los compara con las transformaciones lineales. Debe recordarse que los percentiles operan en un nivel de medición ordinal y no intervalar, como los puntajes z. Puntuaciones estándar normalizadas (zn). Para facilitar la comparación de diferentes puntuaciones transformadas (puntajes z con percentiles, por ejemplo), se suele recurrir a transformaciones no lineales que modifican la forma de distribución de las puntuaciones originales, convirtiéndolas en una distribución normal. Distribución normal: un modelo estadístico que permite estimar probabilidades de ocurrencia de los diferentes valores de una variable pero que no se corresponde exactamente con ninguna forma de distribución de frecuencias real u observada. Se representa gráficamente por medio de la curva normal, en forma de campana. La curva es simétrica bilateralmente con un punto máximo hacia el centro de la distribución e indica, esencialmente, que el mayor número de casos se agrupa hacia el centro, disminuyendo gradualmente en ambas direcciones a medida que nos alejamos del centro de la distribución. El procedimiento empleado en este tipo de transformaciones no lineales se denomina normalización y las puntuaciones obtenidas mediante este proceso reciben el nombre de puntuación estándar normalizada. Algunos casos especiales son las denominadas “T” (en honor a Terman) con media de 50 y desviación estándar de 10, y las puntuaciones estaninas con media de 5 y una desviación estándar de 2. Estanina se basa en que las unidades de estas puntuaciones transformadas van de 1 a 9. Desventaja: el uso de un solo dígito puede sugerir diferencias significativas entre dos individuos cuando éstas no son tales. La transformación de puntuaciones originales a puntuaciones estándar normalizadas se realiza mediante el siguiente procedimiento: a. Estimar el percentil correspondiente a una puntuación original. b. Convertir ese percentil en una proporción. c. En el cuadro de áreas por debajo de la curva normal, ubicar la puntuación z debajo de la cual se encuentra esa proporción. d. Proceder al cálculo de la puntuación T u otra semejante mediante la ecuación: Z1=z.k + m Z1: puntuación estándar normalizada. Z: puntuación estándar correspondiente a un puntaje bruto determinado. K: desviación estándar (en el caso de los puntajes T es igual a 10). M: media (50 para puntuaciones T). Las puntuaciones T se distribuyen en un rango que va desde 20 a 80. No deben confundirse con los valores t de Student usados en las pruebas estadísticas de significación. Este archivo fue descargado de https://filadd.com � FI LA DD .CO M Las puntuaciones T también pueden obtenerse de manera más directa usando la fórmula de cálculo de z1, en este caso con una media de 50 y una desviación estándar de 10. Con este procedimiento no se altera la forma de la distribución de los puntajes originales. 5.2 Otros métodos de interpretación de puntuaciones. 5.2.1 Puntuaciones ipsativas. Estos puntajes se obtienen en Tests que usan un formato de ítems de elección forzada, donde el examinado debe seleccionar una opción de respuestas entre varias alternativas. Los ítems se califican de tal manera que la elección de una de las opciones de respuesta produce un incremento en la puntuación de una escala o dimensión medida y al mismo tiempo una disminución en el puntaje de otra de las escalas o dimensiones del test. Este tipo de puntuaciones muestra la fuerza “relativa” de las puntuaciones en lugar de la fuerza “absoluta” de las mismas. Las puntuaciones finales de una escala ipsativa expresan un perfil de los “puntos” fuertes y débiles de un individuo sin compararlo con un grupo de referencia. Con este procedimiento, la deseabilidad social y los sesgos individuales de respuesta se controlan exitosamente. La interpretación ipsativa posee la limitación de obstaculizar la aplicación de algunos estadísticos usuales en psicometría debido a la falta de independencia de sus ítems. Otra dificultad es la resistencia que despiertan los ítems de elección forzada en muchos individuos. Registro de preferencias Kuder y Self-directed Search son Tests muy populares en contextos de orientación que usaban solamente puntuaciones ipsativas. 5.2.2 Interpretación referida a criterio. Una forma alternativa de interpretación de las puntuaciones consiste en compararlas con un criterio de logro u objetivo a alcanzar, previamente especificado. Este tipo de interpretación de puntuaciones se denomina “interpretación referida a criterio o dominio” y los Tests que la usan “Tests con referencia a criterio o dominio”. Estos Tests presuponen que existe un área específica o dominio de conocimiento o habilidad que puede ser claramente definido y delimitado. Prueba referida a criterio: aquella que deliberadamente se construye para conducir a medidas directamente interpretables en términos de pautas específicas de desempeño las cuales se determinandefiniendo una clase o dominio de tareas que el individuo debe realizar. Se usan para evaluar la posición absoluta de un individuo con respecto a algún dominio de conductas previamente definido. En muchos dominios es dificultoso fijar con precisión objetivos específicos y, además, en varias ocasiones el establecimiento de un criterio de desempeño es bastante arbitrario. En los años 70 se comenzó a aplicar sistemáticamente este tipo de pruebas, en particular en la evaluación educativa. La evaluación en educación se realiza con diferentes fines, entre ellos: Determinar la calidad de un sistema educativo. Evaluar la adecuación de un currículo. Evaluar los efectos de un programa de enseñanza. Este archivo fue descargado de https://filadd.com � FI LA DD .CO M Evaluar el rendimiento de los estudiantes. Seleccionar aspirantes a un curso o carrera. Esta evaluación comenzó como un medio para seleccionar alumnos y los Tests que más se usaron fueron los referidos a normas, cuyos resultados se interpretan en función de un grupo normativo o baremo. Posteriormente se construyeron Tests referidos a normas para ser aplicados con otros propósitos, tales como evaluar la calidad de un sistema educativo o el rendimiento académico. En los años 70 surge la necesidad de una evaluación diagnóstica previa de los individuos y, a posteriori, para verificar los cambios en los mismos como efecto de la aplicación de esos programas. Estas razones impulsaron el desarrollo de este enfoque alternativo en la interpretación de puntuaciones de Tests, donde no interesa tanto comparar al individuo con la población a la cual pertenece, sino medir cambios de cada individuo a lo largo del aprendizaje. La evaluación referida a criterio supone una filosofía diferente. La función esencial del maestro no es identificar a los mejores y peores alumnos sino tratar de que todos los estudiantes logren los objetivos relacionados con dominios de aprendizaje específicos. Los Tests con referencia a normas se basan en las diferencias individuales y, por lo tanto, tienen como objetivo principal la selección y la predicción. Los Tests con referencia a criterio intentan medir cambios en los propios individuos o grupos como efecto de una intervención educativa. Resultan más adecuados para fines de diagnóstico y prescripción de las experiencias de aprendizaje requeridas para asegurar el logro de determinados objetivos. Es más apropiado hablar de interpretación referida a normas y a criterio, puesto que la puntuación de un mismo test puede interpretarse de estas dos formas. Los Tests referidos a normas sugieren más bien cuánto han aprendido los individuos pero no esclarecen adecuadamente qué han aprendido. Las pruebas con referencia a criterio informan la posición absoluta de un sujeto en relación con un dominio conductual definido explícitamente. La interpretación referida a criterio es aplicable sólo en dominios específicos de contenido. El análisis de los resultados en este tipo de pruebas puede realizarse distinguiendo las habilidades o conductas en relación con un contenido temático que presentan mayor dificultad y las que son más fáciles de adquirir. Este archivo fue descargado de https://filadd.com � FI LA DD .CO M
Compartir