Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
VALIDEZ IMPORTANTE: se emplea en la etapa definitiva de la prueba, pero en la validez de contenido se trabaja desde la conceptualización teórica. Validez en pruebas criteriales: Un test criterial se puede emplear para describir un dominio, o para estimar otra variable, el diseñador puede recurrir a tres tipos de enfoques de validación; validez de selección de dominio, validez descriptiva y validez funcional a)De selección de dominio: Tiene que ver con que el instrumento muestrea adecuadamente el universo a examinar, se afirma que alude fundamentalmente a la calidad con la que se delimita el dominio medido, con las especificaciones de la prueba y con la pertinencia de los reactivos preparados. Su constructor trabaja en ella desde el momento mismo de su conceptualización: 1. delimitar el dominio a examinar. 2. hacer que paneles de expertos examinen su tabla de especificaciones; 3. preparar los reactivos en función de ella. 4. solicitar que otro panel de expertos evalúe la congruencia de los ítems en relación con las especificaciones. 5. dar preponderancia a las evaluaciones cualitativas sobre las cuantitativas de los reactivos. Debe recurrir a recursos como la revisión de libros de textos, resúmenes, programas oficiales de las materias, manuales psiquiátricos, hallazgos empíricos, observación directa, sesiones de entrevistas, etc., con el fin de documentarse en el área que examinará. (tener una amplia producción bibliográfica del dominio a tratar) Además, debe seleccionar apropiadamente al panel de expertos que considerarán las especificaciones de la prueba e implementarán los juicios de congruencia de los ítems; mientras más numerosos y calificados académica y experiencialmente sean, mayores garantías se tendrá de que la prueba posee validez de selección de dominio. b) Validez descriptiva: c) Validez funcional: Para efectuar estimaciones hay que exponer evidencias de validez funcional. La estimación que se quiere efectuar con el instrumento determinará el tipo de estudio a realizar. Como quiera, es necesario diseñar el instrumento (predictor), especificar las medidas del criterio, administrar ambos instrumentos y asociar los puntajes obtenidos; si esa asociación es alta y significativa, se puede afirmar que el predictor (prueba criterial) puede usarse para hacer estimaciones en el criterio. IMPORTANTE: la misión fundamental de un test referido a criterio, es hacer descripciones sustanciales de una conducta, habilidad o aprendizaje. Tabla de expectación: Cuando se desea hacer calificaciones basada en estimaciones del comportamiento de los evaluados en situaciones diferentes a la prueba o en el futuro. (se emplea validez funcional, tabla de expectación) Cuando el objetivo es estimar, primero debe establecerse la validez funcional, manteniendo siempre en mente que las variables a predecirse deben expresarse en términos del rendimiento como, por ejemplo, número de piezas armadas, años de permanencia en un empleo, tipos de comportamientos delictivos, entre otros, ya que no debe perderse de vista la naturaleza de las pruebas referidas a un criterio, las cuales buscan principalmente describir dominios conductuales. Una vez garantizada la calidad de la prueba criterial para hacer la estimación, se podrá proceder al diseño de las tablas de expectación o a los conocidos niveles predictivos de ejecución. Las tablas de expectación es el recurso que se emplea en el contexto de las pruebas referidas a un criterio para hacer estimaciones. Se trata de una tabla de doble entrada, que cruza el comportamiento de un grupo de personas en la prueba criterial que se está diseñando, con el desempeño de ese mismo grupo de personas en la variable que se deberá estimar. IMPORTANTE: Las personas que conforman el llamado grupo de criterio, son quienes se tomarán las medidas en el predictor y en la variable a estimar Procedimiento: -‐Instrumento en construcción (ejemplo PM5 como predictor del rendimiento de 6to grado) -‐Establecer validez funcional (como se expuso arriba se debe, especificar las medidas con la cual yo cuantifico el criterio, luego seleccionar el grupo criterio en esto se administra ambos instrumentos y asociar los puntajes obtenidos, luego de la validación se procede a:) -‐Tabla de expectación donde los resultados se dividirán en categorías; y, finalmente se contará el número (o porcentaje) de personas en cada combinación o celda La estimación consiste en reportar el porcentaje de personas en las categorías de interés, permitiendo anticipar el desempeño en matemática de 6to grado de sujetos que aun no ha tomado este curso. IMPORTANTE: las calificaciones relacionadas con el rendimiento la ganancia consiste en poder anticipar el comportamiento de la persona con solo conocer su desempeño en el instrumento predictor. ANASTASI Y URBINA Una prueba es adecuada para sus propósitos, con la validez se demuestra una idea de las funciones psicológicas que mide, y en relación al uso que se pretende dar a la prueba. Medición de la relación: El cf. De validez es la correlación entre la puntuación de la prueba y la medida de criterio. Proporciona un índice numérico de la validez de la prueba. Los datos empleados al calcular cualquier cf de validez pueden expresarse en forma de tabla o gráfica de expectancia. Graficas de expectancia: muestran la probabilidadde que un individuo que obtiene cierta puntuación en la prueba obtenga un nivel especificado de desempeño en el de criterio. Si sabemos el resultado de un estudiante en la prueba de razonamiento numérico, podemos averiguar las posibilidades de que obtenga una puntuación particular en el curso de matemáticas de séptimo grado. NOTA: Cuando la prueba y las variables de criterio son continuas, puede aplicarse el cf de Pearson. Condiciones que afectan a los cf de validez: Resulta esencial especificar la naturaleza del grupo en el que se calculó el cf de validez. La misma prueba puede medir diferentes funciones cuando se aplica a individuos que difieren en edad, genero, ocupación etc, por ejemplo personas con distintos antecedentes pueden utilizar métodos de trabajo diferentes para resolver los mismos problemas de la prueba. Por lo tanto una prueba puede tener validez para predecir un criterio en una población y en otra no. EJEMPLO: Una dificultad que se encuentran en muestras de validación surge de la preselección, por ejemplo, una nueva prueba que se está validando para selección de personal puede aplicarse a un grupo de empleados recién contratados del que en algún momento se tendrán medidas de criterio del desempeño laboral. Sin embargo, es probable que estos empleados representen una selección superior de todos los que solicitaron el puesto, y, por ende, el rango del grupo en las calificaciones de la prueba y las medidas estará acortado en el extremo inferior de la distribución. Los cf de validez pueden cambiar con el tiempo debido a la selección de estándares cambiantes. Se debe tomar en cuenta para una interpretación adecuada del cf de validez, la forma de la relación entre la prueba y el criterio. El calculo del cf de Pearson supone que la relación es lineal y uniforme a lo largo de todo el rango Magnitud del cf de validez: La interpretación de un cf de validez debe tener en cuenta una serie de circunstancias concomitantes. Peo si debe ser lo bastante alta para ser estadísticamente significativo aceptable de los niveles de 01 y 05. En otras palabra, antes de sacar conclusiones acerca de la validez debe tenerse en cuenta que el cf de validez no se debe a fluctuaciones aleatorias del muestreo para una correlación en la población igual a cero El cf se interpreta de acuerdo al uso que pretende, si se desea predecir la calificación de criterio exacta de un individuo, como el promedio de calificaciones que obtendrá en la universidad, el cf de validez puede interpretarse en términos del error estándar de medición que es análogo al error de medición Error de medición: indica el margen de error que puede esperarse en la puntuación de un individuo como resultado de la poca confiabilidad de la prueba. De modo similar, el error de estimación muestra el margen de error que puede esperarse al predecir la calificación de criterio del individuo debido a la validez imperfecta de la prueba. MARTINEZ. LA VALIDEZ DE LOS TEST El concepto de validez y su evolución histórica Tradicionalmente se define como “el grado en que un test mide lo que pretende medir” Durante muchos años domino la visión pragmática, empírica e incluso ateórica por la perspectiva utilitaria de las aplicaciones de los test y el operacionalismo dominaban, por ejemplo Bingham define la validez en términos operaciones “la correlación entre las puntuaciones de un test y alguna otra medida objetiva de lo que el test pretende medir”. En este sentido fue el uso de la validez predictiva domino la psicometría en los años 50. Durante este mismo periodo se fue introduciendo la validez concurrente: buscar definición de clase Otra característica fue la aproximación correlacional fue el uso de criterios conductuales y la conceptualización de los criterios en términos de conductas observables. Luego de comprender que no todos los test son predictivos, se amplio el concepto de validez, definida como “el grado en que su contenido representa una muestra satisfactoria del dominio” apareciendo el concepto de validez de contenido. Finalmente se introduce el concepto de validez de constructo, la concepción teórica del constructo dicta la naturaleza de los datos a recoger para la validación y la interpretación de las puntuaciones, a su vez estos datos de validación servirán para aceptar o rechazar la teoría misma. En este sentido, la validez no puede expresarse en un coeficiente único, sino que requiere muchas líneas de investigación no todas cuantitativas. Todas las medidas que proporcionen datos que puedan considerarse expresiones comportamentales del constructo, incluyen tantos testes como criterios. Pueden usarse para validez de constructo. La validez de constructo tuvo un importante avance metodológico ofrecieron pruebas conceptuales y empíricas para la validación del constructo, basadas en medidas correlaciónales y diferenciando dos importantes de evidencia de la validez de constructo: v. Convergente y v. Divergente. La conclusión de los autores es que existe una única validez de constructo, “la validez de constructo es el concepto unificador de validez que integra consideraciones de contenido y de criterio, en un marco general para probar hipótesis racionales acerca de relaciones teóricamente relevantes. NOTA: La validez es una cuestiónde grado y no es definitiva, pudiendo ser modificada por nuevas evidencias, consecuencias sociales etc, la validación es un proceso continuo Cuando se desea medir una característica psicológica de los sujetos, en primer lugar se define esta y luego se establecen operaciones diseñadas para proporcionar descripciones cuantitativas del grado en que un individuo la posee o manifiesta. Una cuestión fundamental es el grado en que las propiedades medidas por dicho conjunto de operaciones se corresponden de hecho a las características definida y son apropiadas para las inferencias y acciones basadas en las puntuaciones de los test. Es necesario saber cuales son las consecuencias potenciales de la interpretación de las puntuaciones. Entonces, la perspectiva unificadora de la APA en relación a la validez es: “Refiere a la adecuación significación y utilidad de las inferencias especificas hechas a partir de las puntuaciones en los test Grado de evidencia empírica y teórica soportan la adecuación de las interpretaciones y acciones basadas en los test. Preguntar que el instrumento no es valido sino las puntuaciones derivadas en ella La validez es el grado de adecuación de las puntuaciones de un test para un uso particular, la validación de test es el proceso de acumulación de evidencias que soporten dichos usos e inferencias. Validez de contenido Adecuación muestral de los ítems de un test, en cuanto muestras de un dominio mas amplio de ítems representativos del constructo/conducta, el propósito de este estudio de validación será establecer el grado en que el conjunto. El objetivo es establecer el grado en el que un conjunto de ítems representa adecuadamente un dominio de conductas de interés especifico Para determinar si es una muestra relevante y representativa del dominio comportamental que se pretende medir Dificultad: Determinar que representa un muestreo adecuado de los ítems del dominio, debe ser importante que estén cubiertos todos sus aspectos, el dominio debe estar conceptualizado teóricamente antes de la construcción del test e incluirá todas las dimensiones y facetas. Dos aspectos importantes: Deben ser representativos y relevantes , los ítems del test deben ser relevantes para el uso que se dará de las puntuaciones y representativos del dominio de ítems de interés. Una puntuación es relevante para el uso pretendido cuando todos los ítems del test están dentro del dominio de interés. La representatividad. Los ítems constituyen una muestra representativa del universo o domino Procedimientos: 1. Definición del universo de observaciones admisibles 2. Identificación de expertos en dicho universo 3. Juicio de los expertos acerca del grado en que el contenido del instrumento es relevante y representativo de dicho universo, por medio de un procedimiento estructurado que permita emparejar los ítems del dominio 4. Un procedimiento para resumir los datos resultantes de la fase anterior En una primera fase se establecen las especificaciones del test, con los cuales se construirán los ítems. Estas especificaciones mostraran -‐Áreas de contenido que se deben cubrir -‐Objetivos instruccionales (test educativos) -‐Procesos que se evaluaran -‐Importancia relativa de los diferentes tópicas y procesos Es preciso tomar las siguientes practicas: 1) Se ponderaran o no los objetivos, categorías, etc?: Lo común es asumir que todos tienen el mismo peso, en los test académicos no sucede así no todos los objetivos tienen el mismo peso, en ocasiones se pide a jueces que asignen pesos a los distintos objetivos 2) Estructura de la tarea de emparejamiento ítems-‐objetivos: El procedimiento común es darle a los jueces una lista de objetivos y presentarles cada ítem, donde registrara en una escala del 1 al 5 para expresar el grado de ajuste, se calcula la media o la mediana para dar un resultado general 3) Aspectos del ítem que serán examinados: A los jueces se les presentan descripciones claras de las características de los ítems y del dominio que tiene que considerar (nivel de complejidad, modo de respuesta, proceso cognitivo etc) 4) Resumen de los resultados: Normalmente es mas importante la evaluación cualitativa que la cuantitativa en la validación de contenido, pero se han propuesto algunos índices cuantitativos para resumir la información de los jueces. a)Porcentaje de que ítems que se emparejan con los objetivos b)Porcentaje de ítems que se emparejan a objetivos con una elevada calificación media c)Correlación entre el peso dado al objetivo y el numero de ítems que miden al objetivo d)Índice de congruencia ítem-‐objetivo e)Porcentaje de objetivos no evaluados por ninguno de los ítems del test Problemas con la validación de contenido: Aunque es posible que todos los procedimientos se ajusten a los objetivos, estos pueden no representar adecuadamente el dominio de rendimiento para el que se escribió el test. Cronbach desarrollo el método de construcción duplicada La validez aparente no representa de forma alguna validez de contenido, se refiere a lo que superficialmente un test parece medir. En ocasiones no es deseable que el test tenga validez aparente, ya que pueden fácilmente intuir lo que pretende medire inducir un falseamiento en sus respuestas. La validez curricular se refiere al grado en que los ítems son relevantes para los objetivos del curriculum La validez instruccional indica si los profesores han proporcionado instrucción en los contenidos y destrezas por los ítems del test La validez referida a un criterio Concepto: Cuando se quiere hacer inferencias de las puntuaciones del test a la conducta del sujeto en algún criterio de rendimiento externo al propio test Criterio: suele ser una variable o característica de interés real ejemplo, rendimientos académicos, rendimientos laborales, duración o éxito de una terapia, predicción de una conducta de riesgo etc. El criterio es una medida directa e independiente de lo que el test intenta predecir o inferir. Por ejemplo para un test de aptitud mecánica el criterio puede ser el rendimiento posterior de los sujetos como maquinistas. El test solo interesa en la medida que sus puntuaciones correlacionen con el criterio y puedan considerarse un buen sustituto de este Antes de usar las puntuaciones del test para toma de decisiones, debe existir evidencia de que hay una relación entre las puntuaciones del test y las del criterio. Esta evidencia se obtiene a través del estudio de validación referida a un criterio. Procedimiento: 1. Identificar un criterio relevante y un método para medirlo 2. Identificar una muestra de sujeto representativa de la población en la que será usado el test 3. Administrar el test y obtener una puntuación para cada sujeto 4. Cuando hay datos disponibles del criterio en el momento en que se aplica el test, deja transcurrir un tiempo y recoger datos del criterio 5. Determinar el grado de la relación o asociación entre el test y el criterio La temporalidad del criterio: La evidencia relacionada al criterio suele considerarse desde dos perspectivas distintas, una en términos de relaciones predictivas y otras concurrentes, que inciden en el diseño de la recogida de los datos en cuanto al momento de recogida. La validez predictiva: se refiere al grado en que las puntuaciones del test predicen medidas del criterio tomadas posteriormente, es decir las conductas futuras del sujeto en el criterio. La validez concurrente: buscar en clase La adecuación de una u otra forma de relación depende de la función o propósito del test. Selección, clasificación, rendimiento en una materia etc. Podemos estar interesado en la seguridad con la que podemos estimar el grado en que un individuo poseyó un rasgo determinado en el pasado. Entonces seria validez postdictiva o retrospectiva Los problemas de la validez relativa al criterio: Los criterios deben cumplir una serie de requisitos,, como ser relevantes, fiables, libres de sesgos y distorsiones y fáciles de obtener Riesgos de la medición de los criterios, que son amenazas a la validez de constructo. 1. Sesgos en el criterio: Atribución inadecuada de pesos o ponderaciones” incluye problemas de contaminación con otros factores, varianza irrelevante para el constructo, desigualdad de las unidades de la escala, combinación inadecuada de subcriterios, se dan pesos positivos a elementos que deberían tener un pesos de cero, en la desigualdad de las unidades de la escala se asignan pesos diferentes a distintas partes del continuo del criterio, en la distorsión del criterio los pesos que reciben los distintos elementos no son adecuados, normalmente estos defectos afectan las correlaciones del test así como la fiabilidad 2. Criterios múltiples vs. Criterios únicos: 3. Validación del constructo de los criterios: Aboga por la validación de los constructos en los criterios, dando prioridad a las dimensiones criticas que diferencian entre buenos y malos rendimientos, así como la detección de variables moduladoras que intervienen en las relaciones predictor-‐criterio 4. Del cf. De validez a la utilidad en la toma de decisiones: la utilidad refiere a los beneficios relativos derivados de utilizar el test en la toma de decisiones, desde la utilidad se parte que distintos tipos de errores pueden tener distinta importancia en la toma de decisiones 5. Validez de criterio y sesgo en las decisiones: 6. Problemas de los estimadores del cf.validez: el cf. Presenta varios problemas ligadas a la naturaleza de la correlación. a. Fiablidad del predictor y del criterio: Bajos cf. De fiabilidad el test y del criterio rebajan los valores del cf. De validez. De hecho el valor máximo que puede alcanzar la correlación de una variable con otra es igual a su índice de fiabilidad b. Restricción del rango o reducción de la variabilidad c. Dicotomizaciones en el test, criterio o en ambos 7. Generalizacion de la validez: Procedimientos utilizados en la validación referida a un criterio: Existen diferentes procedimientos cuantitativos, la mayor parte se usa para tener estimaciones de la validez de un test son correlaciones. a. Un único test y predictor y un solo criterio: se utiliza correlación y regresión lineal simple, Cuando las puntuaciones en el criterio no son cuantitativas, se utilizara el cf. De correlacion adecuado según la naturaleza de las variables implicadas. b. Varios predictores y un solo criterio: Se utiliza regresión lineal multipley correlacion, cuando es una batería de test. Cuando hay multiples test predictores y un criterio cualitativo suele utilizarse el análisis discriminante. Si el criterio es dicotómico, se utiliza regresión logística c. Varios predictores cuantitativos y varios crierio cuantitativos: regresión lineal multivariante y correlacion canónica. Validación de constructo: Concepto: Los atributos psicológicos son constructo o conceptos hipotéticos que forman parte de las teorías que intentan explicar la conducta humana La validación de constructo entendida como las evidencias que apoyan que las conductas observables del test son indicadores del constructo. Validez nomológica demuestra que la teoría del constructo medido proporciona bases lógicas para establecer conexiones empircamente demostrables entre las puntuacuines del test y las medidas de otros constructos. La validez de constructo es la acumulación de evidencias que apoyan que la puntuación del test es una de sus manifestaciones. Cuando se establece la validez de constructo, pueden hacerse inferencias o interpretaciones del test. Procedimientos para la validación de constructo: Esta debe permitir especificar tanto de la estructura interna del mismo y su manifestación se manifiesta en indicadores como sus relaciones con otras variables, el proceso siempre se establecerá haciendo deducciones de la teoría y seguirán estas fases: 1. Formular una o mas hipótesis acerca de las relaciones entre los elementos del constructo, de este con otros constructos externos. Estas hipótesis estarán basadas en la teoría que fundamenta al constructo 2. Seleccionar ítems o test (indicadores observables) que representen manifestaciones concretas del constructo 3. Recogida de datos empíricos para poder poner a prueba las hipótesis 4. Establecer la consistencia entre los datos y las hipótesis y examinar hasta que punto los resultados podrían explicarse mediante explicaciones alternativas o hipótesis rivales La validación no es estática es un proceso continuo, ya que normalmente se van integrando nuevos constructos o relaciones con otros constructos de la teoría Los procedimientos usados en la validación de constructo: 1. Diferenciación entre grupos: Por ejemplo la diferenciación entre grupo de edades, se espera que las habilidades cognitivas aumenten con la edad, este criterio no es aplicable para constructo de personalidad dado que no cambian con la edad. En otras ocasiones la validación se basa en la aplicación de diseños experimentales, cuando la teoría del constructo especifica cambios en la posición en el constructo ligados a ciertas intervenciones. 2. Correlaciones con otras medidas del constructo: Se utilizan correlaciones entre un nuevo test y otros test ya validados como evidencia de que el nuevo test también se emplean a veces para demostrar que el test esta libre de factores irrelevantes 3. Análisis factorial Esta aproximación fue desarrollada como un medio de identificar rasgos psicológicos y es especialmente relevante para la validación de constructo, es una técnica estadística para analizar las intercorrelaciones entre los datos observables. Partiendo de encontrar un numero reducido de variables no observables denominadas factores, que explican la covariacion del conjunto original de las variables. Se buscan agrupaciones de los ítems predecibles desde la teoría. Las variaciones en las respuestas a ítems que van juntos, pueden atribuirse a variaciones entre los examinados en un factor latente, este factor que no es directamente observable puede considerarse un constructo definido por el conjunto particular de observaciones empíricas (los ítems) 4. Matrices multirasgo-‐multimetodo Para aplicar esta técnica se debe disponer de dos o mas modos de medir el constructo de interés. Se selecciona a una muestra a los que se les aplica todas las medidas y se presentan en forma de una matriz denominada matriz multimetodo-‐multirrasgo. Los diferentes cf. De correlacion de la matriz pueden clasificarse en uno de los tres tipos siguientes: a. Cf. De fiabilidad: correlaciones entre medidas del mismo constructo usando el mismo método de medida. b. Cf. De validez convergente: correlaciones entre medidas del mismo constructo usando diferentes métodos. Deben ser altas c. Cf. De validez divergente: correlaciones entre medidas de diferentes constructo, usando el mismo método de medida . serán bajas 5. Validación basada en la teoría de la generalizabilidad: 6. Contribuciones de la Psi. Cognitiva DIAPOSITIVAS VALIDEZ. Puede ocurrir en la medición: 1) Los ítems no cubran correctamente al constructo. 2) Que el instrumento sea sensible a captar otros aspectos que no son relevantes. Definiciones: Es la relación que existe entre el puntaje que se obtiene del instrumento y la cualidad que se cree que se está midiendo. ϖ Informa el grado en que la prueba mide aquello para lo que se diseñó. ϖ Demuestra que las puntuaciones arrojadas por el instrumento, son un indicador del rasgo o constructo que dice medir. ϖ En qué medida el uso que se pretende hacer con las puntuaciones está justificado. Exactitud=Validez Validez Se refiere al grado en el cual la TEORÍA y la EVIDENCIA soportan las Interpretaciones que se hacen de los puntajes obtenidos en el instrumento, de acuerdoa sus propósitos y usos (Estándares de la APA, 2014). ϖ Es la exactitud con que pueden hacerse medidas significativas y adecuadas con un determinado método de medición. ϖ Que tan apropiadas son las inferencias que pueden realizarse con base en los resultados derivados del instrumento. La Validez es una cuestión de grado, no se plantea como un todo o nada. Debe evitarse presentar resultados como válidos o inválidos. ES UN PROCESO, NO UNA ACCIÓN PUNTUAL Un Instrumento es Valido para un Propósito en particular. ⎫ Asignación a Programas Especiales de Entrenamiento. ⎫ Calificación Laboral. ⎫ Evaluación de Personalidad. Una prueba de Rendimiento en Matemática, podría tener como objetivos: ϖ Colocar al examinado en un programa de instrucción apropiado. ϖ Para aprobar bachillerato. ϖ Para ingresar a la Universidad. Proceso de acumulación de pruebas y evidencias que soporten los usos, propósitos e inferencias. Para cada objetivo debe demostrarse su validez Tipos vs. Evidencias Expresa el grado en que el conjunto de reactivos de un instrumento constituye una muestra representativa de los elementos del constructo que pretende evaluar Relevante: Los reactivos deben ser apropiados para los propósitos que se diseñó el instrumento. Se evalúa si el en está dentro del dominio conceptual de interés. Se debe evitar aspectos irrelevantes y ajenos al dominio teórico. Representativo: Se refiere al grado en que instrumento representa y mide adecuadamente el dominio tal como ha sido definido en la Tabla de Especificaciones o Esquema Descriptivo. Los reactivos deben reproducir los aspectos esenciales del constructo. Pasos de la Validez de Contenido 1. Revisar teoría de la variable 2. Construir la tabla de especificación 3. Expertos vivenciales y lingüísticos 4. Crear los ítems 5. Opinión de los expertos teóricos a.Evidencia de valiedz de contenido b. Analisis de ítems cualitativo 6. Informe de validez Validez Relacionada con el un Criterio: Se quiere extraer inferencias acerca de algunas conductas en situaciones reales y de importancia práctica. Incluye: V. Concurrente, predicitiva/empírica o estadística Es una variable o característica de interés real, que se espera sea estimada o sustituida por el Instrumento Predictor o Sustituto. Se establece de forma Conceptual y Operacional Cuidar: Relevante, Confiable, Contaminación, Ventajas Prácticas Ψ Índice de Rendimiento Académico Ψ Desempeño en un curso de formación especializado Ψ Actuaciones en el empleo Ψ Diagnóstico Psiquiátrico Ψ Resonancia Magnética Ψ Electroencefalograma Validez Concurrente: ϖ El propósito es determinar si los puntajes del instrumento psicométrico pueden sustituir la otra forma de evaluación (criterio). ϖ Los datos son tomados de forma simultánea y la evidencia de validez debe apuntar a verificar qué instrumento sustituye de manera efectiva al criterio. ϖ Interesa la relación entre las calificaciones del instrumento y los criterios. Procedimiento ϖ Necesidad de sustituir un instrumento. Beneficio. ϖ Tomar las medidas con el instrumento psicométrico a validar, se valida (X). ϖ Tomar medidas con el instrumento a sustituir (Y). ϖ Relacionar las medidas con un coeficiente de asociación o correlación correspondiente y obtener el coeficiente de validez r xy Validez Predictiva, Empírica o Estadística: ϖ Es aplicable cuando se construye un instrumento con la finalidad de estimar un criterio. ϖ Se espera que el instrumento en construcción tenga la efectividad para predecir una conducta en situaciones específicas (al Criterio). ϖ Es la precisión con que se puede estimar acerca de una característica que el individuo posea Procedimientos Coeficiente de Validez rxy (asociación o correlación entre el predictor(es) y el criterio(s)) Instrumentos Criteriales El puntaje suele ser expresado en un nivel de medida: Nominal u Ordinal Se aplica para estimar Tablas de Expectación Instrumentos Normativos El puntaje suele ser expresado en un nivel de medida de Intervalo. Para estimar se utiliza la Ecuación de la Línea recta. Regresión Simple Regresión Múltiple Regresión Logística Análisis Discriminante Evaluación de la Exactitud en la Toma de Decisiones ϖ Es una extensión de las tablas de expectación. ϖ Fue propuesta por Taylor y Russell. ϖ Permite analizar los efectos cuantitativos de las decisiones tomadas. ϖ Apropiada a pruebas de Selección, Certificación y Diagnóstico. Generalización de la Validez: ϖ Evalúa el grado en el cual la evidencia de validez basada en la relación test-‐criterio, puede ser generalizada en nueva situación sin necesidad de aplicar nuevos estudios de validación. ϖ Se utilizan estudios de metaanálisis, Metaanálisis El metaanálisis es el método estadístico utilizado en la revisión sistemática para integrar los resultados de los estudios incluidos y aumentar el poder estadístico de la investigación primaria Procedimientos: 1.Definir claramente la variable a estudiar. 2. Buscar en diversas fuentes todos los estudios confiables que tratan del tema. 3. Seleccionar los estudios y evaluar su calidad. .Recolectar los datos de cada estudio y presentarlos de forma clara. 5. Evaluar la heterogeneidad entre los estudios. 6. Calcular los resultados de cada estudio (y combinarlos, si fuera apropiado), estimándose el desempeño diagnóstico. 7. Evaluar el efecto de la variaciónde la validez de cada estudio en las estimativas de desempeño diagnóstico. 8. Interpretar los resultados, evaluándose el límite de generalización de la revisión y/o el metaanálisis, de acuerdo con las características de los examinados Validez de constructo Conexión lógica y empírica entre el instrumento y el constructo ¿Qué concepto teórico, subyacente a los datos observados, está realmente reflejado en el instrumento? Hasta qué punto los indicadores miden al constructo teórico. Integra toda la evidencia que permite la interpretación de las puntuaciones del instrumento Cuando el usuario del instrumento desea hacer inferencias acerca de conductas o atributos que pueden agruparse bajo la “etiqueta” de un constructo psicológico. VALIDEZ DE CONSTRUCTO 1. Evidencia basada en los Procesos de Respuestas. 2. Evidencia basada en la Estructura Interna. 3. Evidencia basada en la relación con otras variables: Convergente y Discriminante Evidencia basada en los Procesos de Respuestas Es un análisis teórico y empírico de los procesos de respuesta de los examinados. Consiste en conocer las estrategias de actuación, procesos y representaciones mentales de los evaluados cuando van a responder un item. Evidencia basada en los Procesos de Respuestas. Evidencia basada en la Estructura Interna. Métodos Factoriales: Evalúa el grado en que los items se corresponden con el constructo evaluado. Funcionamiento Diferencial de los Items: Evalúa cómo funcionan los items de acuerdo con las características de la población. Es utilizado en la TRI. MATRIZ MULTIRASGO Y MULTIMÉTODO. ϖ Es un diseño experimental propuesto por Campbell y Fiske (1959). ϖ La aplicación de la técnica requiere: 1) seleccionar dos o más formas de medir el constructo de interés. 2) identificar dos o más constructos que puedan medirse por los mismos métodos que el constructo de interés. 3) medir en una muestra de personas, todos los constructos con todos los métodos. Manipulaciones Experimentales ϖ Estudio de dos grupos contrastados. ϖ Diseño preexperimetal de pre postprueba con un solo grupo. ϖ Evidencia por cambios en el desarrollo: se utiliza por ejemplo Investigación longitudinal, de panel o Investigación transversal. Consecuencias de las pruebas Se deben revisar los valores y consecuencias sociales de las pruebas. ϖ Durante el proceso de validación se debe estudiar si los propósitos del instrumento tiene consecuencias apropiadas para los individuos o instituciones y evitar consecuencias sociales adversas. ϖ Una manera de realizarlo es a través del análisis del sesgo de los items. Normativas vs. Criteriales Contenido-‐Descriptiva Relacionada con un criterio (predictiva, concurrente) – Relacionada con un criterio (funcional, concurrente) De constructo-‐De selección de dominio ANALISIS FACTORIAL El Análisis Factorial es una técnica estadística multivariante que tiene como propósito definir la estructura subyacente (grupo homogéneo de variables) de un conjunto de datos, lo cual se logra reduciendo gran cantidad de información en un número pequeño de factores o componentes El análisis factorial es una técnica cuyo propósito es definir la estructura subyacente de un conjunto de datos, de tal manera que analiza la estructura de correlación entre las variables mediante la definición de una serie de dimensiones subyacentes llamadas Factores. Esto se realiza con un doble fin: el resumen y la reducción de los datos Permite saber qué rasgos teóricos (constructos, factores o componentes) se miden a través de las preguntas empíricamente formuladas (los items). Propósito principal es definir la estructura subyacente a un conjunto amplio de datos. Analiza la naturaleza de las intercorrelaciones entre las variables observadas e identifica una serie de dimensiones subyacentes comunes a las que se les denomina Factores o Componentes. Un factor Es una variable latente (constructo) no directamente observable que es producto de la combinación lineal de indicadores o variables observables. El AFE: Se desconoce la estructura que subyace al constructo. La estructura del constructo se define a posteriori. El Análisis Factorial Exploratorio (AFE) es una técnica exploratoria cuyo propósito es determinar el número apropiado de factores o componentes y descubrir cuáles variables son indicadores razonables de dichos factores. En el AFE no se especifican de antemano las relaciones entre las variables y número de factores o componentes El AFC: Se conoce la estructura que subyace al constructo. La estructura del constructo se define a priori En el Análisis Factorial Confirmatorio (AFC) se especifica de antemano el número de factores y la manera en la que se relacionan las variables. El AFC requiere de una sólida base teórica y empírica para guiar la especificación del número de factores y el patrón de relaciones de los factores El Análisis Factorial Confirmatorio (AFC) es un tipo de Modelo de Ecuación Estructural (SEM) que trata específicamente con modelos de medición, abordando las relaciones entre medidas observadas o indicadores y variables latentes o factores. En el AFC se cuenta con una hipótesis previa sobre la relación de los factores y también se tiene una hipótesis previa sobre el número y naturaleza de los factores. El AFC requiere de una sólida base teórica y empírica para guiar la especificación del número de factores y el patrón de relaciones de los factores.Diagrama Path o diagrama de trayectoria es un gráfico en el cual se representan las relaciones de interdependencia entre las variables latentes y observables. El Error de Medida (Ɛ) Hace alusión a la parte de la variabilidad de las respuestas de cada item que no puede ser explicada por el factor latente. Perspectivas del Error de Medida 1. Naturaleza del instrumento Tiende a explicar el error a partir de las características del instrumento o del reactivo Ej. Sesgos en las respuestas a los items. Los evaluados interpretan de diferentes maneras la redacción de uno o más items. 2. Naturaleza del concepto. Tiende a explicar el error en función del contenido de los items y del constructo. Ej. Parte del contenido del item que no es congruente con el constructo medido. Medición de un constructo abstracto. Supuestos: a. Normalidad multivariante b. Muestra recolectada de manera probabilística Aspectos a considerar: Tamaño de la muestra La teoría estadística en la que se basa los modelos de ecuaciones estructurales es de naturaleza asintótica. Muestras grandes incrementan la probabilidad de rechazar el modelo factorial y detectará significancia estadística en casos donde las diferencias sean triviales. No existe un consenso en los investigadores con relación al tamaño de la muestra necesario para que las estimaciones del modelo factorial sean confiables. La fiabilidad del modelo dependerá de su complejidad y de si se han efectuado modificaciones posteriores en el mismo En caso de que un modelo factorial no se ajuste a los datos, el investigador tiene la libertad de efectuar las modificaciones necesarias hasta lograr un ajuste satisfactorio. Fases del AFC 1.Modelo teorico o AFE 2.Especificacion del modelo 3.Identificación 4.Ajuste del modelo 5.interpretación 6.Reespecificación AFC. Medidas de la calidad del ajuste Permiten determinar si el modelo factorial propuesto se ajusta de manera satisfactoria o no a los datos. 1. Medidas absolutas del ajuste: evalúan el grado en que el modelo factorial propuesto reproduce los datos. Ratio de Verosimilitud de Chi-‐cuadrado (� � ): Evalúa la distancia que existe entre la matriz de datos observada y la matriz estimada por el modelo propuesto. Un modelo es apropiado cuando esta medida arroje un p-‐valor mayor que .05. Error de Aproximación Cuadrático Medio (RMSEA): es una medida que expresa la cantidad de variabilidad que no puede ser explicada por el modelo factorial por grado de libertad. El modelo factorial es apropiado cuando esta medida arroje un valor menor que .05. 2. Medidas de ajuste incremental: estas medidas de bondad del ajuste examinan el ajuste incremental del modelo factorial propuesto con un modelo nulo. Índice de Ajuste Comparativo (CFI): contrasta el � � de dos modelos factoriales, un modelo independiente donde las relaciones entre las variables son nulas y el modelo factorial propuesto. Medidas iguales o mayores que .90 son apropiadas. Índice Tucker-‐Lewis o Índice de Ajuste No Normado (TLI o NNFI): contrasta el modelo factorial propuesto con un modelo independiente. El modelo es apropiado cuando TLI arroje valores mayores o iguales que .90. Índice de Ajuste Normativo o Normado (NFI): contrasta el modelo factorial propuesto con un modelo independiente. El modelo factorial es apropiado cuando esta medida arroje un valor mayor o igual que .90. Índice Ajustado de Bondad del Ajuste (AGFI): evalúa la parsimonia del modelo factorial propuesto a través de la examinación del ajuste del modelo frente al número de coeficientes estimados necesarios para alcanzar ese nivel de ajuste. El modelo es apropiado cuando el AGFI arroje valores mayores o iguales que .90 3. Medidas de ajuste de la parsimonia: estimulan la simplicidad del modelo propuesto, poniendo en relación el ajuste logrado con el número de parámetros libres del modelo en cuestión. P Ratio: Índice de Ajuste Comparativo de Parsimonia (PCFI) e (Índice de Ajuste Normado de Parsimonia (PNFI): se emplean para determinar cuál de los modelos factoriales propuestos presume de una mayor parsimonia. El mejor modelo será el que posea los índices más altos. Índice de Criterio de Información de Akaike (AIC): se utiliza para comparar diferentes modelos y el mejor será aquél que tenga el índice AIC más bajo. AFE Se emplea en las etapas exploratoria y experimental de la construcción de la prueba. Es permisible que todas las variables carguen en todos los factores. No requiere de un modelo teórico, ya que no se conoce la estructura factorial del constructo que se mide. Expresa valores o coeficientes estandarizados, ya que parte del análisis de la matriz de correlaciones. AFC Se utiliza en la etapa definitiva de la construcción de la prueba, a fin de dotarla de validez de constructo. Las variables solo cargan o saturan en los factores especificados previamente. Precisa de la existencia de un modelo teórico articulado que sirva de base para la construcción de la estructura factorial de un constructo. Expresa, normalmente, valores o coeficientes no estandarizados, ya que analiza la matriz de varianzas covarianzas. KMO: La medida de adecuación muestral Kaiser-‐Meyer-‐Olkin (KMO) Es un coeficiente quecompara los coeficientes de correlación simple con los coeficientes de correlación parcial, debe tomar valores mayores 0,6. Lo que trata de medir este índice es que haya fuerte correlación simple entre las variables, por sí misma, y que además el efecto de dicha correlación entre dos variables no se deba a la influencia de las demás variables, que es lo que mide precisamente el coeficiente de correlacion parcial Barlett La prueba de Esfericidad de Bartlett Comprueba si la matriz de correlaciones es igual a una Matriz identidad (Ho), se buscan valores estadísticamente significativo, Se busca verificar si las correlaciones entre las variables son distintas de cero de modo significativo. Se basa en la distribución Chi-‐cuadrado donde valores altos llevan a rechazar la hipótesis nula. En cuyo caso no existirían correlaciones significativas entre las variables. Tipos de varianza VARIANZA COMÚN Varianza compartida por todas las variables en el análisis VARIANZA ESPECÍFICA Varianza que corresponde a un único tipo de variable VARIANZA DE ERROR Varianza asociada a los errores de medición o a un componente aleatorio en el fenómeno medido ANÁLISIS FACTORIAL COMÚN Plantea que existen factores subyacentes que reflejan qué es lo que las variables comparten en común. VARIANZA COMÚN O COMPARTIDA ANÁLISIS COMPONENTES PRINCIPALES Resumir la mayor parte de la información. El primer componente sería aquel que explica una mayor parte de la varianza total, el segundo factor sería aquel que explica la mayor parte de la varianza restante, y así sucesivamente. Matriz de componente Es la asociación entre variables originales y los componentes. Estos coeficientes reciben el nombre de pesos o cargas factoriales. Las cargas indican el peso de cada variable en cada componente. Lo ideal es que cada variable cargue alto en un componente y bajo en los demás. Mayor Carga mejor representada estará cada variable. ±0,30 Nivel Mínimo ± 0,40 Importantes ± 0,50 Significativas Se espera que carguen significativamente en un solo componente. Rotación Es un proceso de manipulación o ajuste de los ejes, que buscan obtener, a partir de la solución inicial, unos componentes cuya matriz de cargas factoriales los haga más fácilmente interpretables. De este modo lo que se quiere lograr es una solución factorial más sencilla y básicamente más significativa. Se redistribuye la varianza de los primeros componentes a los últimos para lograr una explicación más simple y teóricamente más significativo. Cambia la matriz factorial y cambia la varianza explicada por cada componente. NO cambia la varianza total explicada. Se espera que: 1)cada componente tenga unas pocas cargas factoriales altas y las otras próximas a cero; 2) cada variable (item) no esté saturando (correlacionando) más que en un componente; 3) no deban existir componente con la misma distribución, es decir, dos componentes distintos deben presentar distribuciones diferentes de cargas altas y bajas. Cada componente tendrá una correlación alta con un grupo de variables (items) y baja con el resto de variables. Examinando las características de las variables (items) de un grupo asociado a un determinado componente se pueden encontrar rasgos comunes que permitan identificar al componente y darle una denominación que responda a esos rasgos comunes. Matriz de componente rotados: La matriz nos indica qué variables (items) y cuánto saturan (correlacionan) en cada uno de los componentes encontrados. La saturación representa el peso de la variable (item) dentro del componente (o dimensión). Variables bipolares: cargan alto en una y cargan inverso en otra Variables complejas: cargan en dos componentes cercano Metodo de rotación ortogonal Quartimax Rota los factores iniciales de forma que una variable cargue alto sobre un factor y tan bajo como sea posible en otros. Produce un factor general grande Varimax Tiende a haber altas cargas factoriales (cercanas a +1 o -‐1) y algunas cercanas a 0, en cada componente Equimax: Intermedio Metodo de rotación oblicuo Oblimin: Permite la existencia de factores correlacionados, en lugar de mantener la independencia entre los factores rotados. Comunalidad Es la proporción de varianza con la que contribuye cada variable a la solución final. Es la proporción de varianza que puede ser explicada por el modelo factorial final. Se debe observar la comunalidad de cada variable para evaluar si alcanza niveles de explicación aceptable MAGNUSON. LA PREDICCIÓN Y SU GARANTÍA El error de estimación: Coeficiente de validez: asociación entre los puntajes predichos (criterio y predictor) a través de este podemos hacer predicciones, de esta manera mientras mas alto sea rxy=1 la predicción será mejor, es decir solo necesitamos el puntaje en x para poder predecir en y. Si la correlacion es rxy=0 no se podrá hacer una estimación será imprecisa a efectos del azar. Debe existir linealidad y homocedasticidad para poder hacer una estimación mediante una ecuación general (línea recta). La homocedasticidad supone para la correlacion producto momento de Pearson significa que la varianza de la distribución de los puntajes y, alrededor del puntaje predicho. Eeror estadndar de estimación: desviación estándar de la distribución probable de los puntajes y, alrededor delpuntaje predicho correspondiente a cada puntaje x. En este sentido la magnitud del error estándar de estimación depende de la desviación estándar de la distribución de la predicion y de la correlacion entre los puntajes predichos. El error estándar de predicción será menor en la medida que la correlacion entre los puntajes predichos sea alta, mientras que si la correlacion entre los puntajes predichos es baja el error será grande. Si suponemos homocedasticidad podemos realizar un intervalo dentro del cual podemos esperar que el puntaje de criterio caiga en un grado conocido para individuos con un puntaje predictor. El uso de los cf comunes de validez para interpretar el error estándar de estimación implica una relación lineal y homocedastica, entre los puntajes predictores y los puntajes de criterio. COEFICIENTE DE ALIENACION La desviación del error relativo, es decir la proporción de la desviaicon esttandar total que consiste de error estándar, correspondiente a un coeficiente de correlación dado. El valor del cf de validez debe considerar el uso que se le va a dar. EL COEFICIENTE DE VALIDEZ Y LA VARIANZA DE LOS PUNTAJES PREDICHOS El puntaje que un individuo obtiene en la variable y, puede dividirse en dos componentes: un puntaje predicho y un puntaje de error (la parte del puntaje que no puede predecirse a partir de la otra variable a causa d e la baja correlacion entre las variables). El cuadrado del coeficiente de correlacion expresa la proporción de varianza total de una de las distribuciones que puede predecirse a partir de la otra, el cuadrado del coeficiente de correlacion da la cantidad de la varianza que esta determinada por la relación con alguna otra variable, llamada coeficiente de determinación La parte de la varianza de la distribucion y que no puede ser predicha de la variable x, es decir, la varianza denotada es llamada varianza residual o varianza parcial. EL COEFICIENTE DE VALIDE Y LA VARIACION EN LOS PUNTAJES VERDADEROS DEL PREDICTOR: El efecto general de una restricción que lleva a una variación reducida de los puntajes verdaderos es una reducción del coeficiente de validez. El coeficiente de validez para una muestra en la que se ha hecho una restricción subestimara entonces la validez del instrumento, es decir, su capacidad de distinguir significativamente en la distribución total para la cual se supone que realmente discrimina.
Compartir