Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Balance y Perspectivas de Desarrollo para la Unidad de Medición de la Calidad Educativa del Ministerio de Educación de Perú Patricia Arregui , Santiago Cueto y José Rodríguez Diciembre del 2008 ÍNDICE Presentación .............................................................................................................................. 4 Capítulo 1 .................................................................................................................................. 5 Tendencias internacionales de las evaluaciones de los aprendizajes escolares ................... 5 1.1. Sobre los fines y opciones críticas que determinan las características principales de los sistemas de evaluación estandarizada de los logros de aprendizaje escolar ................. 5 1.2. Altas o bajas consecuencias ............................................................................................. 7 1.2.1. Evaluaciones de bajas (o ninguna) consecuencias ............................................. 8 1.2.2. Evaluaciones de altas consecuencias ................................................................ 10 1.2.3. Ejemplos de sistemas nacionales de evaluación ............................................... 13 1.3. Elementos comunes necesarios para evaluaciones nacionales de altas y bajas consecuencias .......................................................................................................................... 17 1.4. Evaluaciones internacionales de rendimiento escolar................................................. 20 1.5. Algunas conclusiones sobre las experiencias de evaluaciones nacionales e internacionales del rendimiento escolar ............................................................................... 23 Anexo del capítulo 1. .............................................................................................................. 25 Capítulo 2 ................................................................................................................................ 26 El desarrollo de la UMC ........................................................................................................ 26 2.1. Breve recuento del desarrollo de la Unidad de Medición de la Calidad Educativa .. 26 2.1.1. Los inicios .......................................................................................................... 26 2.1.2. La transición: el cambio de modelo de evaluación ............................................ 29 2.1.3. Consolidación institucional................................................................................ 31 2.2. La difusión de resultados ................................................................................................ 33 2.2.1. La difusión de resultados en los inicios (1994-98) ............................................ 33 2.2.2. La difusión de resultados durante la Transición y el cambio de modelo de evaluación (1998-2004) ............................................................................................... 35 2.2.3. La difusión de resultados durante la consolidación institucional (2004 en adelante) ....................................................................................................................... 37 2.3. Temas polémicos transversales a los tres períodos ...................................................... 38 2.4. Balance preliminar del desarrollo de actividades realizadas por la UMC ................ 40 Anexo 1 del capítulo 2. ........................................................................................................... 42 Anexo 2 del capítulo 2 ............................................................................................................ 47 Difusión de resultados – UMC .............................................................................................. 47 Capítulo 3 ................................................................................................................................ 52 Rediseño del Sistema de Evaluación del Rendimiento Estudiantil Preliminar ................ 52 3.1. Introducción: El Proyecto Educativo Nacional y la evaluación educativa ............... 52 3.2. Finalidad y objetivos, estrategia y principios de la UMC ........................................... 55 3.3. Principios para el trabajo de la UMC ........................................................................... 56 3.4. Estrategia general para el corto y mediano plazos ....................................................... 57 3.5. Mediciones: diseño y programación de las evaluaciones del rendimiento escolar .... 58 3.5.1. Modelos propuestos ............................................................................................ 59 3.5.1.1. Modelo A ......................................................................................................... 59 3.5.1.2. Modelo B ......................................................................................................... 64 3.6. Participación de la UMC en evaluaciones internacionales .......................................... 71 2 3.7. Estrategias de comunicación e involucramiento de la UMC en el desarrollo de políticas educativas ................................................................................................................. 72 3.8. Organización .................................................................................................................... 76 Capítulo 4 ................................................................................................................................ 77 Balance y perspectivas ........................................................................................................... 77 Referencias .............................................................................................................................. 80 3 Balance y Perspectivas de Desarrollo para la Unidad de Medición de la Calidad Educativa del Ministerio de Educación de Perú1 Patricia Arregui2, Santiago Cueto3 y José Rodríguez4 Diciembre del 2008 Presentación Desde 1996 la Unidad de Medición de la Calidad Educativa (UMC) del Ministerio de Educación ha venido administrando periódicamente evaluaciones nacionales de logros de aprendizaje en varias áreas curriculares a estudiantes de diversos grados de primaria y secundaria. También ha participado en tres evaluaciones internacionales de rendimiento5. Ha publicado reportes y difundido resultados de esas evaluaciones y guías para facilitar su utilización por parte de las escuelas como insumo para el planeamiento de actividades pedagógicas y de gestión escolar. Transcurrida más de una década de intensa, productiva y reconocida actividad, y en el marco de nuevas demandas y nuevos contextos para su accionar, la UMC ha considerado necesario y conveniente desarrollar un plan de desarrollo institucional de mediano plazo. Ha solicitado para ello la realización de una consultoría que le sirva de insumo para un proceso de reflexión al respecto. El propósito principal de esta consultoría es presentar alternativas a la UMC para su trabajo futuro desde el Ministerio y/o con otras instancias. Para ello, en este primer capítulo se hace un balance de las tendencias o alternativas de orientación de las evaluaciones nacionales e internacionales de logros de aprendizaje escolar en que están involucrados los países del continente. El segundo capítulo revisa de manera crítica las evaluaciones y el uso que diversos actores han dado a la información generada en el Perú por la misma UMC. El tercer capítulo contiene una propuesta, emergente de lo visto en los 2 primeros capítulos, para el desarrollo de la UMC. El cuarto capítulo contiene un breve resumen del presente informe. Es conveniente destacar que si bien inicialmente el trabajo de la UMC se planificó alrededor delas evaluaciones estandarizadas nacionales e internacionales del rendimiento escolar administradas a estudiantes matriculados en educación básica, a lo largo del tiempo se han ido adicionando algunas otras responsabilidades y pedidos. Estos han incluido la asesoría a diversas oficinas dentro del Ministerio de Educación, otros organismos del Estado y oficinas regionales de educación, pero también en algunos casos se ha asumido responsabilidades en áreas de evaluación como por ejemplo el concurso de selección de docentes. En el segundo y tercer capítulos se comenta más sobre el rango de actividades posibles para la UMC pero advertimos aquí nuestra postura respecto de que es importante acotarlo y no extenderlo más allá de lo que es posible hacer de manera adecuada dados los recursos disponibles y los plazos disponibles en cada caso. 1 Este documento fue elaborado por encargo de la UMC. 2 Investigadora Principal de GRADE. 3 Investigador Principal de GRADE. 4 Profesor Principal de la PUCP. 5 En este documento se utilizarán indistintamente los términos “rendimiento escolar”, “rendimiento estudiantil” y “logros de aprendizaje escolar”. 4 Capítulo 1 Tendencias internacionales de las evaluaciones de los aprendizajes escolares 1.1. Sobre los fines y opciones críticas que determinan las características principales de los sistemas de evaluación estandarizada de los logros de aprendizaje escolar Las características principales de los sistemas de evaluación estandarizada de los logros de aprendizaje escolar están – o deberían ser – definidas en función de las finalidades y los mecanismos a través de los cuales se busca alcanzar dichas finalidades. Es claro que todos los sistemas de evaluación tienen como objetivo general, de una u otra forma, contribuir con la mejora de los sistemas educativos, en particular en lo que se refiere a los aprendizajes de los estudiantes. En lo que suelen diferenciarse los sistemas de evaluación es en la manera como buscan contribuir con la mejora educativa, en particular, los mecanismos que usan para ello. Resulta muy ilustrativo observar que las diferentes finalidades de los sistemas de evaluación identificadas en por Ravela et al. (2001, p. 7) y luego ampliadas en Arregui (2001). Son 19 posibles finalidades de los sistemas de evaluación identificadas en las experiencias nacionales en los países de la región (ver Cuadro Nº 1). Aún cuando las anteriores fueron planteadas a inicios de la década, siguen teniendo vigencia cuando se analiza lo que efectivamente hacen los sistemas nacionales de evaluación. Nuestro propósito al incluirlos no es discutir cada uno en profundidad sino solo sugerir al lector un abanico de posibilidades para los sistemas de evaluación, enfatizando además que no se trata necesariamente de objetivos excluyentes. Más adelante se presenta una clasificación posible de estos sistemas, retomando algunos de los puntos mencionados arriba para discutirlos. Diversas publicaciones del Grupo de Trabajo sobre Estándares y Evaluación (GTEE) del PREAL6 han sostenido que en muchos países de la región que crearon sus sistemas de evaluación durante los años noventa fue insuficiente la reflexión inicial acerca de los fines específicos que se esperaba persiguieran dichos sistemas de evaluación y sobre las características técnicas que deberían tener los instrumentos para adecuarse a esos fines: Muchos países han trabajado a partir de un propósito general de informar sobre los resultados del sistema educativo para contribuir a su mejoramiento, pero sin diseñar una estrategia más específica. Por otra parte, es bastante común que las autoridades ministeriales comiencen a demandar, sobre la marcha, que las evaluaciones sirvan para nuevos propósitos o que aporten información para fines para los que no fueron diseñadas. (Ravela et al, 2001: 8) No llama mucho la atención, por lo tanto, que tras una primera etapa de instalación de capacidades y experiencia, casi todos los sistemas de evaluación hayan revisado sus objetivos y estrategias y considerado orientaciones alternativas para guiar su quehacer. Más adelante se presentan ejemplos de sistemas nacionales que muestran la diversidad y coincidencia en fines y procedimientos de los sistemas nacionales. 6 Ver http://www.preal.cl/Grupo2.asp?Id_Grupo=3. 5 http://www.preal.cl/Grupo2.asp?Id_Grupo=3 Cuadro 1.1. Finalidades diversas que pueden perseguir los sistemas de evaluación de logros de aprendizaje escolar (Arregui, 2001, pp. 7-8) 1. Informar a la opinión pública y generar una cultura social de la evaluación. 2. Contribuir a la generación de conocimiento, proporcionando insumos para la investigación aplicada sobre el funcionamiento de los sistemas educativos, las prácticas de enseñanza, el impacto de las variables sociales sobre el aprendizaje de los niños (también identificar los factores determinantes del logro) y los tipos de intervenciones más efectivos para mejorar los aprendizajes. 3. Construir un “mapa de situación” del sistema educativo con el fin de identificar áreas o unidades prioritarias de intervención y tipos de intervenciones necesarias, de manera de garantizar igualdad de oportunidades de aprendizaje y focalizar consecuentemente los recursos. 4. Comunicar valores y expectativas de logros. 5. Motivar mejoras y logros vía la comparación, competencia o emulación. 6. Alertar a la opinión pública sobre deficiencias en los resultados de los sistemas educativos y la necesidad de que se apoye intervenciones para su mejoramiento. 7. Identificar metas claras, mensurables y comunicables, centradas en los aprendizajes, para los esfuerzos de mejoramiento del sistema educativo, que faciliten la movilización y apoyo de la opinión pública y otros responsables. 8. Devolver información a las escuelas y maestros para que éstos examinen en detalle los resultados de su trabajo y mejoren sus prácticas pedagógicas. 9. Brindar a los padres de familia información que les permita evaluar y controlar la calidad de las escuelas. 10. Contribuir a establecer (o monitorear logro de) estándares de calidad para el sistema educativo. 11. Certificar el dominio de un núcleo de conocimientos y capacidades o competencias por parte de los alumnos que finalizan un determinado nivel de enseñanza. 12. Seleccionar u ordenar a los estudiantes (o a escuelas o jurisdicciones) para acreditar su elegibilidad para ciertos privilegios, acceso a programas o, incluso, sanciones. 13. Evaluar el impacto de políticas, innovaciones o programas específicos. 14. Retroalimentar el currículo y los planes de estudio. 15. Realizar estudios de tipo costo-beneficio, que orienten las decisiones para una distribución más eficiente y efectiva de recursos siempre escasos. 16. Contar con argumentos persuasivos para obtener mayores recursos del presupuesto público o proponer cambios en orientaciones generales del sistema educativo. 17. Demostrar el peso del factor docente en los aprendizajes e influir en la formación, capacitación y desempeño de los maestros. 18. Evaluar la productividad de los maestros a los efectos de establecer un sistema adecuado de incentivos. 19. Promover una responsabilización efectiva de todos o algunos de los actores involucrados en los procesos educativos, incluyendo a los propios alumnos. El Perú no es una excepción a lo anterior. Como se verá en el segundo capítulo, en el cual se analizará la trayectoria de la UMC desde su creación, su desarrollo ha requerido la confrontación de diversos dilemas que fueron apareciendo a lo largo de los años. Lo que se busca aquí es contribuir a la formulación de un plan de desarrollo de mediano plazo que conteste cuestiones tales como: ¿Qué áreas del currículo han de ser evaluadas, con qué frecuencia y en qué grados? ¿Qué y cuánto espacio debe darse a las evaluacionesinternacionales en el quehacer de la Unidad de Medición de la Calidad? 6 ¿Cuáles son los pros, contras y viabilidad de las evaluaciones censales y las muestrales? ¿Cuál es mejor forma de hacer llegar los resultados a diversos públicos objetivo, buscando maximizar su impacto en la mejora de la educación peruana? ¿Es posible para la UMC contar con la autonomía necesaria si está instalada dentro del Ministerio de Educación? ¿Conviene atar los resultados a algún tipo de consecuencia para autoridades, especialistas, docentes, alumnos? ¿Qué papel debe cumplir la UMC en la asesoría de otras unidades, dentro y fuera del Ministerio de Educación, con interés en la evaluación del rendimiento escolar? Varias de estas preguntas pueden quizás enmarcarse en una cuestión anterior, que es el lugar en que se pretende colocar al sistema de evaluación en una suerte de continuo que se mueve entre la responsabilización (accountability), o altas consecuencias, y el apoyo formativo al mejoramiento, o bajas consecuencias. En el primer modelo se usan los resultados de las evaluaciones para tomar decisiones que afectan a los individuos, instituciones y/o sistemas evaluados de maneras predefinidas; en el segundo se usa la información de las evaluaciones para mejorar la calidad de insumos y procesos educativos, esperando que estos tengan un impacto en los resultados, pero sin tomar decisiones de altas consecuencias en base a los resultados. Si bien ambos modelos podrían ser vistos como complementarios, paralelos y atendibles con un mismo sistema, en la práctica (y desde la teoría educativa), a menudo han sido percibidos como antagónicos e incompatibles, aunque ciertamente en ambos se busca la mejora de los rendimientos de los estudiantes. Se podría afirmar sin embargo que en la actualidad en varios países de la región se está dando consideración al grado en que los sistemas de evaluación pueden y deben servirse de ambos modelos. Más adelante se discute con mayor detalle este tema. Si bien en el Perú el enfoque adoptado hasta el momento ha sido de bajas consecuencias, no se puede soslayar el hecho de que efectivamente – y como se verá más adelante – existen actualmente propuestas, presiones de diversos actores y medidas concretas que inducen a moverse hacia un sistema de altas consecuencias. En la siguiente sección se describen algunas de las características principales de cada uno de estos dos modelos y presentan ejemplos de algunos sistemas de evaluación de otros países7. 1.2. Altas o bajas consecuencias Todos los sistemas de evaluación buscan, de una u otra forma, generar información para mejorar los sistemas educativos. Sin embargo, la manera como buscan contribuir con la mejora no es la misma. Los sistemas usan diferentes diseños y una forma de diferenciarlos es de acuerdo a los mecanismos que utilizan para inducir ciertos comportamientos entre los distintos actores del sistema educativo que contribuyan a mejorar los sistemas educativos. Los sistemas de altas consecuencias usan un sistema de incentivos a través del cual se busca inducir el mejor desempeño de los actores directamente vinculados a los procesos educativos y sus resultados. Para ello en el sistema de incentivos se señalan metas de rendimiento específicas y se anuncian consecuencias positivas por lograrlos o negativas en caso contrario. Por oposición, los sistemas de bajas consecuencias no cuentan con un sistema de incentivos que penalice o premie a los agentes pero buscan que diversos actores usen la información para 7 La presentación de ejemplos es bastante corta; para una discusión en mayor profundidad de diferentes modelos ver por ejemplo Arregui y McLauchlan (2005) y Ferrer (2006b). 7 mejorar la calidad de los insumos y procesos educativos, anticipando que estos tendrán consecuencias positivas sobre el rendimiento escolar. A continuación una breve descripción de ambos modelos, empezando por el segundo. 1.2.1. Evaluaciones de bajas (o ninguna) consecuencias Entre los sistemas con bajas consecuencias hay una familia de diseños distintos. Todos miden los logros de aprendizaje, pero no todos evalúan con la misma profundidad ni cobertura los aprendizajes, ni evalúan el contexto y las condiciones en las que se dan los aprendizajes de la misma forma. Tampoco son homogéneos en cuanto a la información que brindan ni en el público al que se dirigen. Estos sistemas buscan principalmente conocer los logros de aprendizaje de los estudiantes. Para ello suelen hacer mediciones detalladas de los logros que los estudiantes deberían haber logrado en un momento determinado de su escolaridad (por lo general al final de determinados grados o años de estudios que representen hitos de transición, como podrían serlo los distintos ciclos de la educación básica). La base de estos análisis es a menudo el currículo. Muchos de los sistemas de evaluación de este tipo hacen las mediciones en muestras de escuelas y de estudiantes, aunque algunos sistemas de bajas consecuencias han realizado evaluaciones censales. El uso que se da a estas evaluaciones es principalmente formativo, es decir, se busca retroalimentar los procesos de gestión pedagógica escolar de manera de inducir respuestas orientadas a obtener mejores resultados. Así, por ejemplo, los resultados son presentados a escala nacional y regional y se reportan resultados globales en un área (por ejemplo matemática, lenguaje, ciencias naturales y ciencias sociales) y desagregados por algunas de las principales unidades del currículo (por ejemplo competencias del currículo de matemática). El propósito de estos reportes es que algunos actores utilicen la información y la incorporen en sus planes de trabajo. Entre los principales actores, que aquí llamaremos clave por su importancia para modificar las prácticas y resultados educativos desde su gestión inmediata, están miembros del Gobierno, como por ejemplo congresistas, diversas autoridades del Ministerio de Educación y del Ministerio de Economía y Finanzas, especialistas a cargo de capacitación o formación de docentes y directores, y autores de textos escolares y editoriales a cargo de su publicación. Adicionalmente, estos resultados se reportan a la prensa, de modo que se movilice a la opinión pública en la búsqueda de mejores resultados8. Otro grupo de interés son los investigadores, que a menudo analizan los logros de aprendizaje de los estudiantes cruzándolo con características individuales, familiares y de sus centros educativos, con el propósito principal de estimar asociaciones para acumular conocimiento, además que luego sus resultados pudieran ser considerados para el desarrollo de políticas. Finalmente se encuentran representantes de organismos nacionales e internacionales que procuran estos resultados para reportar la situación del país y en ocasiones sugerir o planificar acciones o programas (por ejemplo diseño de programas con poblaciones específicas o seguimiento de las metas de algún programa internacional, como por ejemplo Educación para Todos). Estas evaluaciones, cuando son de gran detalle, requieren alta sofisticación técnica en la elaboración de instrumentos. Así por ejemplo, para capturar los logros de aprendizaje no solo 8 La prensa, sin embargo, suele requerir información sobre resultados globales que sean “noticia” (por ejemplo porcentaje que logra un nivel satisfactorio en determinada competencia) y no el detalle de resultados que podría ser de utilidad para otras audiencias. 8 en un área (p. e. matemática) sino en las diferentes competencias al interior de matemática, se requiere un gran número de ítems que den validez de contenido al instrumento. Dado que es imposible administrar demasiados ítems a cada estudiante se recurre a procedimientos técnicos, como por ejemplo la rotación de ítems entre estudiantes. Así, cadaestudiante resuelve solo algunos de los ítems necesarios para evaluar una competencia, pero todos los estudiantes en su conjunto resuelven todos los ítems de manera que hay ítems que son compartidos por subgrupos de estudiantes. Con esta información es posible estimar la probabilidad de cada estudiante de contestar todos los ítems aún cuando en la práctica no lo haya hecho. Ello se hace estimando la habilidad de los estudiantes en los ítems que efectivamente respondió, para extrapolarla a los que no respondió. Usualmente no se considera necesario administrar estas pruebas de manera censal sino que se administran a una muestra de estudiantes que permita luego tener representatividad para los estratos de interés (por ejemplo, el país y las regiones políticas, realizando luego otras desagregaciones como urbano-rurales, hombres-mujeres y escuelas públicas-privadas). Se podría argumentar que las mediciones que se obtienen de cada estudiante (e incluso de cada escuela) son imprecisas, debido a que se le evalúa con solo algunos de los ítems (y a la escuela con sólo la población de estudiantes de un aula de cada grado y rara vez en más de un aula). Ya que, por definición, mientras más evaluaciones válidas y confiables estén disponibles para cada individuo y cada escuela, mayor será la precisión de la medición, el contar con mediciones de solo algunos estudiantes en una sola ocasión hace en primera instancia objetable el “devolver” resultados a nivel de individuo y escuela. Sin embargo, visto que las personas que participan en una evaluación tienen derecho a la información, en muchos países se devuelve información de la evaluación. En estos reportes a menudo se presentan los resultados de la escuela, e inclusive de los estudiantes, y de escuelas similares (de hecho se ha empezado a hacer esto en el Perú recientemente). Cuando se devuelven resultados es importante hacer explícitas las limitaciones de la evaluación. En otras palabras, una medición de un individuo (o escuela) con un instrumento en una oportunidad siempre puede tener errores (por ejemplo ese día el estudiante se sintió mal por algún motivo o la escuela tuvo una asistencia por debajo de lo normal). Estos errores de estudiantes o escuelas individuales no son tan relevantes a nivel de la muestra pues el conjunto de instrumentos administrados se anulan, permitiendo estimar promedios para un grupo que representa a una población dentro de márgenes de error muestral conocidos y tolerables. Las evaluaciones de bajas consecuencias, sumadas a análisis de los factores asociados al rendimiento y estudios cualitativos sobre la relación entre ciertos procesos pedagógicos o de gestión institucional y los resultados, pueden generar no sólo ricos y estimulantes informes sobre lo que los alumnos han aprendido, sino valiosas pistas para la acción de mejoramiento. De hecho hay sistemas educativos, como el brasileño (ver más abajo), que tienen una larga tradición en este sentido. Las críticas principales de los sistemas de bajas consecuencias aluden al escaso uso que varios de los actores clave dan a la información. El supuesto fundamental del modelo de bajas consecuencias es que si se genera información interesante, los actores clave la buscarán y utilizarán de diversas formas para mejorar su labor. Tal hecho no suele ocurrir, ni en el Perú ni en otros países. La responsabilidad podría estar en los que producen la información, que por lo general han encontrado difícil presentar los resultados en formas relevantes para las diversas audiencias, exagerando tal vez en la presentación de información técnica que no 9 debería constituir el fin sino solo el medio9. El poco uso de la información también podría ser explicado por la formación de muchos de estos actores, que a menudo no están acostumbrados a revisar informes con información estadística como la que suelen contener los reportes de resultados. Pero no se puede descartar que sin importar lo que se haga los actores clave que se quiere influenciar –por ejemplo, las autoridades, los especialistas, los formadores de docentes y los editores de textos- no usen información a menos que sea de utilidad inmediata para ellos. En este contexto, los modelos de accountability sí acarrean consecuencias que casi hacen obligatoria la consulta de resultados a los actores interesados, como se verá a continuación. 1.2.2. Evaluaciones de altas consecuencias En las evaluaciones de altas consecuencias, al igual que las de bajas consecuencias, lo que se evalúa es el dominio por parte de los estudiantes de un cierto cuerpo de conocimientos. En lo que se diferencian fundamentalmente es en el uso de los resultados. En altas consecuencias los resultados de las pruebas son empleados para definir consecuencias individualizadas para los docentes, directivos, estudiantes o incluso autoridades educativas. Por lo general los sistemas de altas consecuencias no buscan tener resultados muy detallados por competencias, como los que se procuran en las evaluaciones de bajas consecuencias, sino solo saber si los estudiantes han logrado un cierto nivel de aprendizajes. Por tanto, en el diseño de las pruebas de este tipo de evaluación, no se suelen emplear complejidades técnicas mayores, como por ejemplo el uso de formas rotadas mencionado antes para evaluaciones de bajas consecuencias.10 Las decisiones que se toman en base a estas pruebas pueden involucrar a uno o varios de los actores: estudiantes, docentes (individualmente o como grupo en una escuela), directivos de escuela y/o el centro educativo en su conjunto, llegando incluso a consecuencias para autoridades educativas regionales11. En cuanto a los estudiantes, los principales usos con altas consecuencias son de 3 tipos. Primero, determinar a partir de los resultados si los estudiantes se pueden graduar de un cierto nivel educativo. Segundo, usar los resultados de las pruebas para calificar al estudiante interesado en ingresar a la universidad u otro centro de estudios superiores. En este caso los resultados de las pruebas pueden ser el único factor o uno entre varios usados en la evaluación para el ingreso. Tercero, usar los resultados de la evaluación para identificar instituciones o estudiantes y proporcionarles ayuda adicional (por ejemplo apoyo en los temas fallidos) o premiar a los estudiantes de mejor rendimiento (con premios que pueden ser reconocimientos públicos o incluso dinero). En cualquiera de estos casos, es posible también que se envíe los resultados a los padres de los estudiantes. Con relación a los docentes, los principales usos con consecuencias son tres. Primero, usar los puntajes para decidir si los estudiantes a cargo del docente han aprendido el material en evaluación y a partir de esto premiar a los docentes con estudiantes con mejores logros (en 9 Hay que reconocer sin embargo que los informes más recientes de evaluación en muchos casos han dejado de lado la sofisticación técnica, que aparece en informes especializados, para focalizarse en la transmisión de los principales mensajes con base en los resultados. 10 Los motivos para no tener evaluaciones demasiado complejas en sistemas de altas consecuencias tendrían que ver principalmente con la alta demanda de energía y tiempo por parte del personal en planificar censos estudiantiles, versus las evaluaciones muestrales que se suelen hacer en evaluaciones de bajas consecuencias. En todo caso, en principio sí se podrían hacer evaluaciones complejas de rendimiento escolar en sistemas de altas consecuencias si se contara con recursos, humanos, económicos y de tiempo, suficientes. 11 Para una revisión de la experiencia en América Latina ver Mizala y Romaguera (2004). 10 este caso el premio puede ser al docente individualmente, por ejemplo en dinero o promoción en el escalafón magisterial, y/o al grupo de docentes en una escuela). Segundo, identificar losdocentes que deben ser puestos en observación debido a los bajos logros de sus estudiantes (y eventualmente, de repetirse la situación, incluso retirarlos del sistema). Tercero, usar los resultados de los estudiantes para forzar a algunos docentes a pasar por sesiones de capacitación en las áreas de bajos resultados, evaluando luego si los estudiantes mejoran sus resultados (en caso negativo se les podría dejar ir del sistema). En cuanto a los directivos y las escuelas en su conjunto, los usos con consecuencias principalmente son dos. Primero, reconocer públicamente y/o premiar a las escuelas cuyos estudiantes han obtenido mejores logros. Esto se puede hacer publicando los resultados en medios de comunicación masiva (buscando de esta forma que los padres de familia pongan presión sobre las escuelas de bajos logros o eviten matricular a sus hijos en ellas, buscando así que eventualmente las de más bajos logros mejoren o cierren por falta de matrícula). Segundo, declarar en emergencia a las escuelas con bajos resultados, cerrándolas o renovando a su personal directivo y/o docente. Esto a menudo se hace luego de reiteradas mediciones que arrojan bajos logros. Los principales interesados en un sistema de altas consecuencias son evidentemente los que pueden beneficiarse o perjudicarse a partir de los resultados: estudiantes (y sus padres y madres), docentes y directivos escolares. También tienen interés en el sistema los funcionarios del Ministerio de Educación a cargo de políticas de aprendizaje, capacitación y formación docente y desarrollo de textos escolares, que en principio se espera busquen adecuar sus prácticas para promover el logro de los incentivos trazados. Estos resultados también son de interés para la prensa, pero al igual que en bajas consecuencias a menudo lo que se busca es el titular de periódico (por ejemplo qué porcentaje de estudiantes, docentes o escuelas lograron el incentivo previsto o cómo se compara con años anteriores). Finalmente los investigadores educacionales tienen interés en la data que se genera, para por ejemplo analizar patrones de conducta de los estudiantes y los docentes que se relacionan con el logro de los incentivos. Un sistema de altas consecuencias se basa en general en la idea de accountability (políticas de rendición de cuentas o responsabilización). La idea principal es que, en el caso de los docentes y directivos escolares, ellos deben sentirse responsables y dar prioridad al aprendizaje de los estudiantes. Si no se logran los resultados previstos con los estudiantes, que deben estar claramente definidos, se deben tomar decisiones que prioricen su logro (por ejemplo dejar ir a los docentes con estudiantes con bajos rendimiento y reemplazarlos por otros que logren mejores resultados). El nivel de apoyo profesional a los docentes que participen en el sistema, para ayudarlos a que logren consecuencias positivas, debería ser parte del modelo aunque no siempre lo es. El modelo de altas consecuencias es el dominante en la actualidad en varios países desarrollados, como por ejemplo los Estados Unidos. Pero es importante considerar que en estos países muchos de los requerimientos para su funcionamiento (por ejemplo infraestructura y materiales en las escuelas, apoyo nutricional y de salud para los estudiantes) están bastante logrados, sino totalmente cubiertos. Los docentes en las escuelas en los países desarrollados usualmente han pasado por centros de formación acreditados, han aprobado exámenes de certificación profesional y tienen oportunidades de participar frecuentemente en programas de actualización. Para su aplicación en países en desarrollo como el Perú se debe considerar que el Estado debería ser el primero en asumir la responsabilidad de proveer 11 condiciones adecuadas tanto a los estudiantes como a los docentes, directores y escuelas para que se puedan gestar procesos educativos de calidad que contribuyan a garantizar la consecución de los logros esperados. Así, estudiantes que viven en pobreza (con carencias nutricionales y de salud, que deben trabajar, etc.), que asisten a instituciones educativas con infraestructura y materiales precarios (sin baños ni electricidad, sin suficientes textos ni laboratorios, etc.) y con docentes que aún cuando han terminado toda su educación en instituciones del Estado no logran demostrar competencia en los temas que deben enseñar, difícilmente lograrán las metas planteadas. El esquema de accountability en países desarrollados se basa en algunos supuestos que en países en desarrollo difícilmente se cumplen: los docentes son profesionales competentes (y si no lo son tienen recursos personales y financieros para desarrollarse) y lo que necesitan es que se les diga con claridad qué metas deben lograr, se les ofrezcan incentivos suficientemente atractivos por lograrlas, y que sus organizaciones participen en la definición de las mismas. Dado esto se espera que los docentes y directivos reorienten sus esfuerzos al logro de las metas planteadas. Estos supuestos seguramente se cumplen con algunos profesores del sistema educativo peruano, pero en la mayoría de casos no pareciera ser el caso. El sistema de altas consecuencias ha sido criticado por diversos motivos. Por un lado, por la baja confiabilidad y validez de algunas mediciones y, por otro lado, por generar consecuencias negativas no anticipadas. En cuanto a problemas de confiabilidad y validez, la crítica principal ha sido que para efectivamente poder medir el progreso de los estudiantes y atribuírselo a la escuela es necesario contar con varias mediciones (v. gr. pruebas) de los mismos estudiantes a lo largo del tiempo. La medición y comparación de resultados de pruebas aplicadas en el mismo grado en diferentes años, es decir con diferentes estudiantes, podría reflejar cambios en la composición social, cultural y económica del grupo de estudiantes12, y no solo un resultado atribuible a la escuela. Informes como el de McCaffrey et al. (2003) han concluido, en base a la investigación existente, que actualmente no se justifica el uso de pruebas para decisiones de altas consecuencias, dadas las limitaciones técnicas mencionadas antes. Además se ha observado a menudo que la velocidad de aprendizaje de los estudiantes es mayor en estudiantes de alto nivel socioeconómico, lo cual llevaría a atribuir a la escuela logros que están más vinculados a los estudiantes. La mejor alternativa sería mediciones repetidas de los mismos estudiantes a través del tiempo comparando los logros de estudiantes de contextos socioeconómicos y tipos de escuelas similares y dando incentivos dentro de grupos comparables13. En las evaluaciones de altas consecuencias se deben aplicar las pruebas a todos los estudiantes de todos los grados y en todas las áreas currciculares, pues las consecuencias deben ser uniformes. Es inaplicable el uso de muestras que sí es posible emplear en un sistema de bajas consecuencias. En la práctica, sin embargo, las evaluaciones repetidas de los mismos estudiantes en años sucesivos de manera censal son poco comunes pues son costosas y difíciles de planificar y se recurre a menudo a evaluaciones censales de estudiantes en el mismo grado, diferentes promociones de estudiantes, en años sucesivos. 12 Algo que observan con frecuencia los docentes respecto a diferentes “promociones” de alumnos. 13 Con esta discusión no se quiere sugerir que en modelos de bajas consecuencias las pruebas no están exentas de problemas de validez y confiabilidad. En todo caso hay una diferencia importante pues en los modelos de bajas consecuencias se busca reportar resultados principalmente a nivel de grupos de escuelas. En ese sentido, los errores de medición pueden ser tolerados pues en el resultado agregado los errores positivos y negativos tienden a cancelarse. En cambio, en pruebas de altas consecuencias es de la mayor importancia tener estimaciones precisas a nivel individual(del estudiante o la escuela) pues en base a ello se van a tomar decisiones que les competen. 12 Hay un segundo grupo de críticas al modelo, en el sentido que el ofrecimiento de incentivos a corto o mediano plazo genera consecuencias negativas. Esto por que el incentivo debe ser atractivo para que funcione, motivando en los docentes conductas diferentes para maximizar las probabilidades de lograrlo. Así, por ejemplo, dado que por consideraciones prácticas las evaluaciones de altas consecuencias a menudo se hacen solamente en lenguaje y matemática, los docentes priorizan estas áreas, descuidando otras previstas en el currículo (como arte, educación física, ciencias o ciencias sociales), llevando en alguna medida a una visión degradada de la educación en un sentido pleno. La alternativa sería incluir todos estos componentes en evaluaciones de altas consecuencias, pero construir instrumentos válidos y confiables en un área es una tarea compleja que se multiplicaría con el número de áreas a evaluar. Otro posible problema es que los incentivos por logros de aprendizaje podrían llevar a prácticas selectivas y hasta discriminatorias en las escuelas. Así, los docentes harían todo lo posible por incorporar en la evaluación a estudiantes que ayuden al logro de metas y dejarían de lado a los que se prevé tendrían bajos rendimientos (por ejemplo con lengua materna indígena, relativamente pobres o con alguna discapacidad). Uno podría anticipar estas situaciones y tomar solamente datos de valor agregado (es decir de los mismos estudiantes en años diferentes), pero de hecho siempre van a haber estudiantes que falten a las evaluaciones y es difícil determinar en qué medida esto es una práctica selectiva de los docentes. Otra consecuencia negativa relacionada a la anterior es que los docentes podrían concentrar sus esfuerzos de enseñanza en los estudiantes que en el aula rinden mejor, buscando mejorar el promedio pero aumentando la dispersión de puntajes dentro del aula, dejando de lado a algunos que por sus bajos logros no “justificarían” la inversión de tiempo del docente. Todavía hay poca investigación empírica sobre estos temas, pero parecerían haber indicios en el sentido indicado14. 1.2.3. Ejemplos de sistemas nacionales de evaluación A continuación se presentan algunos ejemplos de sistemas nacionales de evaluación. Los primeros podrían ser clasificados como de bajas consecuencias, mientras que los siguientes mixtos y de altas consecuencias (las clasificaciones son solo referenciales y han sido hechas por los autores). Uruguay (bajas consecuencias) El Observatorio de la Educación, que es parte de la Administración Nacional de Educación Pública (ANEP15), presenta datos sobre el sistema, como por ejemplo cobertura, recursos y resultados de los estudiantes en pruebas de logros. Las pruebas se han administrado en varios niveles, desde inicial hasta secundaria. Uno de los aspectos importantes del sistema uruguayo es que han publicado los promedios de los resultados de los estudiantes indicando el tipo de establecimiento al que asisten y el contexto sociocultural promedio. Esto se hace para evitar comparaciones “injustas” o inadecuadas, que atribuyan a la escuela éxitos o fracasos (v. gr. no es lo mismo educar a estudiantes de alto y bajo nivel socioeconómico). La mayor parte de las pruebas han sido administradas a muestras de escuelas y estudiantes, aunque más 14 Por ejemplo en el sistema de altas consecuencias del estado de Florida, concentrado en lenguaje y matemática, los docentes parecerían haber descuidado la enseñanza de ciencias, hasta que se incluyeron evaluaciones de estas con altas consecuencias (Walter Secada, profesor de la Universidad de Miami, comunicación personal). 15 Ver http://www.anep.edu.uy/observatorio/. 13 http://www.anep.edu.uy/observatorio/ recientemente se han hecho evaluaciones censales. Luego de administrar las pruebas –i.e. los cuadernillos con los ítems-, estas son distribuidas entre los docentes y directivos de todos los centros educativos (aun los que no participaron en la evaluación) de modo que puedan utilizar los instrumentos y analizar los resultados para mejorar las prácticas educativas locales. También se reparte de manera confidencial los resultados de cada centro al director, presentando los promedios de centros educativos comparables. El propósito es que los directivos utilicen la información para generar mejoras locales, pero sin presión de los padres, la prensa u otros actores (visto que es un sistema de bajas consecuencias). El Observatorio se encarga de coordinar la participación de Uruguay en evaluaciones internacionales (como SERCE y PISA, ver abajo). Es interesante que de manera específica hayan realizado análisis adicionales de los resultados de Uruguay y países de similares características en PISA, de modo que se exploren implicancias de políticas adicionales y adecuadas al país (cosa que han hecho también otros países de la región, como México y Brasil). Brasil (mixto) En este país las evaluaciones están a cargo del Instituto Nacional de Investigaciones Educativas (INEP16 por sus siglas en portugués), que es un organismo público autónomo vinculado al Ministerio de Educación. El INEP se encarga del recojo de datos educativos de diverso tipo para producir informes que pudieran servir para el desarrollo de políticas públicas. Sus actividades incluyen el Censo Escolar (realizado anualmente), el Censo de Educación Superior (también anual), el Sistema Nacional de Evaluación de la Educación Superior (incluyendo instituciones, carreras y estudiantes), el Examen Nacional para Certificación de Competencias de Jóvenes y Adultos (ENCCEJA), la Provinha Brasil, el Examen Nacional de Enseñanza Media (ENEM) y el Sistema Nacional de Evaluación de Educación Básica (SAEB). La Provinha Brasil mide alfabetización luego de un año de escolaridad. El ENEM es una prueba individual en la que participan voluntariamente los estudiantes al finalizar la enseñanza media. Su objetivo es dar información sobre las competencias y habilidades adquiridas, de modo que el estudiante pueda utilizarla con fines de postular a trabajos o estudios superiores. Para la educación básica existen dos pruebas: el SAEB y la Prova Brasil. La primera es muestral y se aplica desde 1990 cada dos años para medir los logros en matemática y lengua portuguesa en 4º y 8º grados de básica y 3º de enseñanza media. La Prova Brasil empezó a aplicarse recién en el 2005 y el 2007 de manera censal a los estudiantes de cuarto y octavo grados de educación básica y el tercer año de educación media de las escuelas públicas en áreas urbanas que tienen más de 20 estudiantes en esos grados. Se usa para un seguimiento más individualizado de escuelas y estudiantes y es relativamente nueva. Si bien algunos resultados de las pruebas de Brasil se pueden usar para altas consecuencias (como por ejemplo los resultados de las pruebas ENEM, para postular a universidades o trabajos), como también algunas pruebas subnacionales que se están aplicando en Minas Gerais o, más recientemente, en Sao Paulo, las hemos clasificado como de orientación mixta porque también se da prioridad a presentar resultados que luego pudieran utilizar diversos actores de forma diversa. La cantidad de información técnica y publicaciones disponibles en el portal del INEP es probablemente la más completa de América Latina, constituyéndose sin duda en un referente para lo que se podría hacer en el Perú. Lo anterior no quita una tendencia reciente en varios estados de Brasil por usar resultados de pruebas para definir políticas de 16 Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira; ver http://www.inep.gov.br/. 14 http://www.inep.gov.br/ responsabilización o accountability(vinculadas principalmente a estímulos o castigos a centros educativos o maestros; por ejemplo en Minas Gerais, Sao Paulo y Río de Janeiro). México (mixto) El sistema mexicano también podría ser descrito como mixto, pues combina evaluaciones de altas y bajas consecuencias. En México están, por un lado, las pruebas que administra la Dirección General de Evaluación de Políticas de la Secretaría de Educación Pública17. Estas pruebas, denominadas ENLACE (Evaluación Nacional del Logro Académico de Centros Escolares), se usan como parte del puntaje para la promoción de los docentes de los alumnos evaluados en el Programa Nacional de Carrera Magisterial. La carrera está orientada a docentes de preescolar, primaria y secundaria. El objetivo de las pruebas es llegar a diagnósticos de estudiantes y centros educativos. Es interesante destacar también que los padres o estudiantes pueden consultar sus resultados en el portal de ENLACE. En segundo lugar están las pruebas que administra el CENEVAL (Centro Nacional de Evaluación para la Educación Superior18). Estas pruebas se orientan principalmente a la admisión a centros de educación superior y certificación para egreso de la licenciatura (estos en diversas áreas especializadas). Finalmente están las pruebas y actividades del Instituto Nacional para la Evaluación de la Educación (INEE19). Este instituto fue creado el 2002 y al igual que el INEP de Brasil es un organismo público autónomo. Las evaluaciones que organiza, la principal es EXCALE (Exámenes para la Calidad y el Logro Educativo), se hacen en base a muestras de estudiantes de primaria y secundaria en español, matemática, ciencias sociales y ciencias naturales. Recientemente también presentaron un reporte de una evaluación con estudiantes de educación inicial. Anualmente producen un informe de la calidad de la educación básica en México. El INEE se encarga también de coordinar la participación de México en estudios internacionales. El portal del INEE contiene información técnica y publicaciones así como bases de datos de las evaluaciones realizadas que constituyen un importante referente a considerar para el desarrollo de actividades en el Perú; por ejemplo tiene un explorador que permite ver resultados en lenguaje y matemática20. En México varios estados tienen su propio sistema de evaluación; el caso más notable posiblemente sea Nuevo León, que participó autónomamente en la evaluación SERCE. Al revisar las diversas instituciones y evaluaciones organizadas en el marco del sistema educativo mexicano se tiene por un lado una impresión positiva de lo mucho que se ha avanzado y por otro una de cierta descoordinación entre instancias que, como la SEP, CENEVAL y el INEE, tal vez debieran fusionarse en una sola o coordinar actividades más estrechamente de lo que parecería ocurrir al leer sus respectivos portales. Estados Unidos (altas consecuencias) En los EEUU hay una tendencia creciente a usar evaluaciones con altas consecuencias. Estas se inspiraron en una convicción de muchos funcionarios de que el logro de los estudiantes norteamericanos era muy bajo y la solución eran políticas y programas de accountability (US Department of Education, 2008). Estos se organizaron alrededor de la legislación de No Child 17 Ver http://www.snee.sep.gob.mx/. 18 Ver http://www.ceneval.org.mx/portalceneval/index.php. 19 Ver http://www.inee.edu.mx/. 20 Ver http://www.inee.edu.mx/explorador/. 15 http://www.snee.sep.gob.mx/ http://www.ceneval.org.mx/portalceneval/index.php http://www.inee.edu.mx/ http://www.inee.edu.mx/explorador/ Left Behind21 (NCLB), aprobada por el presidente Bush el 2002. Los cuatro principios de la ley son: responsabilización (accountability) por resultados, brindar posibilidades para que los padres puedan transferir a sus hijos de escuelas con bajos resultados, más control local y flexibilidad por parte de los estados y distritos escolares para asignar recursos, y un énfasis en implementar lo que funcione bien de acuerdo a investigaciones científicas. La ley exige que los estados que esperan recibir financiamiento federal para sus programas educativos apliquen evaluaciones de aprendizajes fundamentales a todos los estudiantes en ciertos grados y reporten públicamente los resultados (en la actualidad 32 de los 50 estados han recibido aprobación completa de sus planes de NCLB). No establece estándares nacionales, ya que el marco legal norteamericano favorece el control local y descentralizado de las escuelas. Así, los estados, en el uso de su autonomía, han empleado diversos mecanismos para implementar esta legislación. En algunos casos, como Tennessee, se han usado mediciones repetidas de los estudiantes; otros, como el sistema de Dallas, recogen datos socioeconómicos y culturales sobre los estudiantes y sus familias y ajustan los puntajes antes de hacer comparaciones entre distintos grupos. Las consecuencias de los bajos logros estudiantiles son diversas en diferentes estados, llegando incluso al despido de docentes y directivos y cierre de centros educativos. La determinación de progreso se hace a veces con evaluaciones diseñadas por el estado o el sistema educativo en una ciudad. Los Estados Unidos cuentan además con una evaluación estandarizada nacional (National Assessment of Educational Progress, NAEP22) que permite hacer comparaciones en el tiempo. Actualmente hay una gran discusión en los EEUU, pues muchos consideran que las evaluaciones repetidas de los estudiantes en unas cuantas materias, promovida por NCLB, han llevado a efectos perversos para la educación en un sentido pleno, mientras que otros consideran que han llevado a cambios positivos, como por ejemplo búsqueda de mayor capacitación por parte de los docentes. Seguramente hay algo de verdad en ambas afirmaciones. Hay abundante información que sugiere la dificultad de establecer modelos de altas consecuencias válidos; Brown (2008) por ejemplo ha reportado que el modelo para asignar premios a escuelas en Carolina del Norte tenía muy poca validez pues no era explicativo del rendimiento de los estudiantes. A partir de esto sugirió incorporar en el modelo variables como nivel socioeconómico de los padres, pero aún con estas inclusiones el modelo de incentivos sugerido tuvo un pobre poder explicativo del rendimiento estudiantil. La definición operacional de modelos de altas consecuencias es sin duda un tema complejo que se seguirá investigando en años próximos. Chile (altas consecuencias) Existen evaluaciones de rendimiento escolar en este país desde inicios de los años 80. El sistema, denominado Sistema de Medición de la Calidad de la Educación (SIMCE)23, tiene varios propósitos. Por un lado se busca reportar los resultados de las escuelas a los padres de familia, que de esta forma podrían elegir a las mejores para matricular a sus hijos. Este mecanismo de competencia ha sido fuertemente criticado pues aparentemente no habría llevado a mejoras globales en el rendimiento de los estudiantes sino solo a una mayor segmentación, al darse cierta migración de los estudiantes de mayor nivel socioeconómico a 21 Se podría traducir como Qué ningún niño se quede atrás; ver http://www.ed.gov/nclb/landing.jhtml o http://www.ecs.org/html/issue.asp?issueid=195. 22 NAEP es conocida como “la libreta de notas del país” e incluye evaluaciones de matemática, lectura, ciencias, escritura, arte, cívica, economía, geografía e historia de los EE. UU. Ver http://nces.ed.gov/nationsreportcard/. 23 Ver www.simce.cl. 16 http://www.ed.gov/nclb/landing.jhtml http://www.ecs.org/html/issue.asp?issueid=195 http://nces.ed.gov/nationsreportcard/ http://www.simce.cl/ las escuelas con reportes de mejor rendimiento24 y al haberse documentado que serían más bien las escuelas las que están seleccionando a sus estudiantes, de manera de poder usufructuarde los incentivos que brinda el sistema25. Por otro lado, los resultados de las evaluaciones, junto con otros indicadores de la escuela, son usados para otorgar incentivos a todos los docentes (SNED26); de esta forma se busca evitar la competencia entre docentes individuales y en cambio favorecer el trabajo en equipo. Finalmente se usan los resultados para identificar las escuelas con menor rendimiento y programar ayudas especiales. Recientemente también han empezado a enfatizar el trabajo con docentes, discutiendo los resultados pedagógicamente (v. gr. explicando lo que los estudiantes saben y pueden hacer). Esta acción va en línea con las recomendaciones del informe OCDE mencionado antes. 1.3. Elementos comunes necesarios para evaluaciones nacionales de altas y bajas consecuencias Como se señaló al inicio de este capítulo, y al margen de las características de “altas” o “bajas” consecuencias por las que pueda haber optado un sistema, existen otros elementos sobre los cuales deben posicionarse todos ellos. En la literatura y descripción de procedimientos técnicos a menudo se encuentran los siguientes temas como relevantes para el desarrollo de evaluaciones. Estándares educativos El tema de estándares es amplio y no pretendemos agotarlo aquí27. Los estándares se refieren en general a ciertas características deseables. En educación a menudo se distinguen 3 tipos de estándares: de contenido, de desempeño y de procesos educativos. Los estándares de contenido se utilizan, principalmente, para especificar los contenidos o competencias que se deberían enseñar en determinados niveles de escolaridad. En el Perú, lo más cercano a ello es el currículo nacional vigente y sus indicadores de logro, aunque se podría argumentar que ni los procedimientos seguidos para su construcción, ni la rigurosidad de las expectativas que encierra, ni su grado de alineamiento con otros instrumentos de política educativa, justifica que se les pueda considerar como verdaderos estándares de contenido. Los estándares de desempeño, por su parte, definen dominios sobre los contenidos introduciendo operacionalizaciones más precisas sobre cuán bien deberían los estudiantes poder hacer aquello que se espera pueden hacer con lo que aprenden. En el Perú lo más cercano a estos estándares son los desempeños clasificados como “satisfactorios” en las evaluaciones nacionales realizadas por la UMC. Finalmente, los estándares de procesos educativos establecen ciertos criterios generales acerca de cómo deberían promoverse los aprendizajes de los estudiantes. El currículo nacional tiene pautas respecto de cómo debería darse la interacción de estudiantes y docentes en el aula, con participación activa de los primeros. De hecho la literatura y experiencia internacional sugieren que es conveniente que los estándares se desarrollen en un proceso compartido por múltiples actores, de modo que luego estos sean aceptados. Los elementos mencionados arriba – los contenidos del currículo 24 Ver, por ejemplo, el informe de OCDE sobre el sistema educativo chileno (www.mineduc.cl/biblio/documento/texto_libro_ocde1.pdf) o estudio de Elacqua y Fábrega (2004). 25 Esta sería una de las razones por las cuales se intenta estimar el grado de “selectividad“ de las escuelas antes de asignar algunos incentivos, o se procurará incentivar la diversificación de alumnados vía los subsidios preferenciales actualmente en debate en el Congreso chileno. 26 Sistema Nacional de Evaluación del Desempeño; ver http://www.sned.cl/. 27 Para mayores detalles sugerimos Ferrer (2006a). 17 http://www.mineduc.cl/biblio/documento/texto_libro_ocde1.pdf http://www.sned.cl/ nacional, los niveles de desempeño de las pruebas nacionales y las orientaciones pedagógicas del currículo – podrían servir como puntos de partida para el desarrollo de estándares. Este es sin duda un tema pendiente en la agenda educativa del Perú que tiene importantes consecuencias sobre el trabajo de la UMC. Normas versus criterios Los primeros modelos de evaluación educativa en América Latina, incluyendo el Perú, se basaron en la definición de normas. Esta tradición de evaluación proviene de la psicología, donde a menudo muchos atributos no tienen un criterio de dominio absoluto sino que definen si un sujeto tiene mayores o menores niveles en el objeto de evaluación que sus pares. Así, muchas evaluaciones iniciales en educación en América Latina fueron normativas, buscando que los estudiantes tuvieran una distribución de puntajes más o menos normal alrededor de un promedio de 50% del puntaje total posible. Rápidamente los educadores se dieron cuenta que tal modelo era limitado pues en evaluación educativa se requiere poder definir si los estudiantes se ubican por encima o debajo de puntajes de corte definidos de manera absoluta y no relativa (por ejemplo satisfactorio o no satisfactorio). Así, en la actualidad el modelo dominante en evaluación educativa es de criterios, que requiere definiciones detalladas del objeto de conocimiento (contenidas en documentos técnicos como el marco de evaluación y especificaciones de prueba), alineadas con un cierto cuerpo de conocimientos (por ejemplo el currículo) e incluye puntos de corte para diferentes niveles de rendimiento28. Comparaciones de desempeño a lo largo del tiempo: Esta es una práctica fundamental para entender cómo el sistema educativo puede o no estar promoviendo mejoras en los aprendizajes y brechas entre grupos de estudiantes. Lamentablemente en el Perú, como en muchos otros países, todavía no se ha podido implementar medidas técnicas que garanticen la posibilidad de hacer comparaciones intertemporales de los resultados de aprendizaje. Los motivos por los que no se cuenta con comparaciones temporales posiblemente tengan que ver con una todavía incipiente capacidad técnica de los equipos nacionales. Otros sistemas educativos en los cuales la evaluación es ya parte de su cultura institucional, tienen una larga tradición de comparaciones de rendimiento a través del tiempo (como por ejemplo NAEP en los Estados Unidos ha hecho comparaciones de rendimiento por más de 30 años). Áreas de rendimiento evaluadas Si bien potencialmente se podrían planificar evaluaciones en un mayor número de áreas del currículo, usualmente los sistemas nacionales priorizan lenguaje (principalmente comprensión de lectura) y matemática, al considerárseles pilares del currículo y claves para comprender otras áreas y progresar entre grados. En las evaluaciones de bajas consecuencias suele haber una mayor tendencia a incluir otros temas, como ciencias sociales y ciencias naturales. Otras áreas relevantes para un desarrollo integral de una persona o grupo, como educación física, artes, música e historia, suelen tener menos evaluaciones, por razones de costos (financieros y de tiempo necesario tanto para desarrollarlas, aplicarlas, analizarlas y utilizarlas) tanto como por la convicción de que la comprensión lectora y el dominio del lenguaje y del razonamiento matemático y científico son capacidades fundamentales sin las cuales otros aprendizajes no pueden lograrse. 28 Para una mayor discusión sobre el tema ver Esquivel (2001). 18 Tipos de ítems en la evaluación Crecientemente la teoría educativa ha enfatizado la importancia de evaluar a los estudiantes de diversas maneras, de modo que se refleje que los estudiantes tienen habilidades que no dependen de un tipo único de ítem. Así, las evaluaciones tradicionales, que usualmente usaban solo ítems de opción múltiple, han sido dejadas de lado para incluir junto a este tipo de ítem otros como respuestas cortas, respuestas largas (con o sin justificación), evaluación de escritura y expresión oral, evaluación del desempeño del estudiante en grupos para la solución de problemas concretos y otros en una tendenciahacia la “evaluación auténtica” (es decir vinculada estrechamente a situaciones que el estudiante podría encontrar cotidianamente). El costo y complejidad logística de formas variadas de ítems de hecho las hacen menos probables en evaluaciones censales (típicas de altas consecuencias) que en evaluaciones muestrales (típicas de sistemas de bajas consecuencias y evaluaciones internacionales). Evaluaciones en lengua materna indígena Tendencias pedagógicas contemporáneas sugieren la importancia de aprender a leer y escribir en lengua materna. En países como el Perú, con una lengua dominante pero muchas lenguas indígenas, esto ha llevado a evaluaciones en lengua indígena y en lengua dominante como segunda lengua. Los ejemplos de este tipo de evaluaciones son escasos en la región pero comunes en Europa, ahí donde convivan varias etnias y lenguas. En muchos países de América Latina, incluyendo el Perú, hay dificultades para llevar adelante evaluaciones bilingües como por ejemplo la falta de estandarización escrita de las lenguas indígenas y la variación de una misma lengua entre regiones. Marcos Institucionales para las unidades de evaluación Como se vio antes, diferentes modelos institucionales para asumir las evaluaciones, pero siempre con presencia o representación del Estado. Así por ejemplo, hay modelos basados en el Ministerio de Educación, donde existe una oficina especializada en a medición de los rendimientos o de la calidad educativa (por ejemplo Chile). Otros modelos delegan o contratan, desde los ministerios de educación, la responsabilidad de la evaluación a una oficina externa (por ejemplo Guatemala29), que se encarga del diseño de la evaluación y reporte de resultados, pero siempre en coordinación con el Ministerio. Este último modelo parece ser cada vez menos frecuente en la región. Finalmente, más recientemente se han empezado a crear oficinas públicas autónomas especializadas en evaluación; es el caso de por ejemplo Brasil y México. Cada sistema tiene pros y contras. Las oficinas dentro del Ministerio podrían facilitar la comunicación con otras unidades de la misma dependencia, que de hecho deberían ser algunos de los principales interesados. Un punto en contra de este arreglo es que mantener la oficina dentro del Ministerio la puede hacer más proclive a la influencia de presiones políticas, que en algunos casos se pueden oponer a la transparencia de la información. Las oficinas públicas autónomas deberían tener relativa mayor autonomía política pero justamente por esto sus resultados podrían tener menor impacto en el desarrollo de políticas educativas. También es interesante mencionar que más allá de las oficinas 29 Entre 1997 y 2001 el Programa Nacional de Evaluación del Rendimiento Escolar (PRONERE) estuvo a cargo de la Universidad del Valle de Guatemala; sin embargo desde el 2005 el Ministerio de Educación volvió a asumir la tarea, creando el Sistema Nacional de Evaluación e Investigación Educativa (SINEIE; ver www.mineduc.gob.gt/sineie/index.asp). De hecho el sistema chileno inicialmente estuvo asociado a una institución externa y luego pasó al Ministerio. 19 http://www.mineduc.gob.gt/sineie/index.asp nacionales, en muchos países (sobre todo con sistemas descentralizados) se encuentran oficinas regionales que conducen sus propias evaluaciones para fines distintos que los de la oficina nacional; es el caso por ejemplo de varios estados en Brasil con evaluaciones de altas consecuencias y México con estados que deciden participar autónomamente en evaluaciones internacionales (como PISA y LLECE; ver más adelante). Factores asociados al rendimiento escolar: el controvertido tema de la causalidad Una de las preocupaciones centrales en la investigación aplicada en ciencias sociales y en particular en las aplicaciones a los temas educativos, es la identificación de variables y mecanismos que contribuyan a explicar los resultados educativos y, en particular, los aprendizajes de los estudiantes. Estas variables y mecanismos pueden, eventualmente, ser empleados en el diseño de programas y políticas para mejorar los resultados de los procesos educativos. En las ciencias sociales, al menos desde un enfoque cuantitativo, los diseños experimentales han sido los preferidos para establecer relaciones de causalidad. En estos diseños experimentales un grupo de estudiantes (o escuelas) son asignados aleatoriamente a la condición de tratamiento (cualquiera que esta sea, por ejemplo introducir un nuevo método de enseñanza), y otro grupo funciona como control (que seguiría con la condición regular de aprendizaje). La asignación aleatoria cumpliría la función de equiparar a los grupos en las características de entrada (siempre y cuando el número de unidades asignado a cada grupo sea grande, por ejemplo 30 por grupo o más). Hay otros diseños para explorar relaciones de causalidad, como por ejemplo las mediciones repetidas de estudiantes que han pasado por diversas experiencias escolares. Sin embargo, los análisis multivariados30 que se suelen hacer en los sistemas de evaluación estandarizados del rendimiento escolar no usan un diseño experimental, longitudinal ni otros más afines a modelos causales explicativos. Lo que se suele hacer es analizar asociaciones entre el rendimiento, medido en un solo momento, con características del estudiante, su familia y su centro educativo. Pensamos que en general estos análisis de una sola evaluación deberían ser considerados principalmente como asociaciones que lleven a nuevos estudios y no estrictas asociaciones de causalidad. El problema principal para asignar causalidad en estos estudios es cómo aislar el efecto de la escuela del efecto de los estudiantes y sus familias, que podrían haber elegido ciertas escuelas y por tanto ellos ser las variables explicativas. Esto se denomina en la literatura “autoselección”31. 1.4. Evaluaciones internacionales de rendimiento escolar Desde los años 60, instituciones como la IEA32 han realizado evaluaciones de rendimiento de los escolares. Si bien lo que se quiere saber y el uso que se ha dado a los resultados ha ido 30 Casi todos, sino todos los sistemas de evaluación, incluyen en alguna de sus evaluaciones estandarizadas la recolección de un amplio conjunto de información de insumos, procesos y contexto. Se suele administrar cuestionarios a diferentes actores (v. gr. estudiantes y sus padres, docentes y directores) y fichas de observación escolar para analizar la relación entre estas características y el rendimiento. 31 Si bien es cierto que en las últimas dos décadas han aparecido diversos métodos estadísticos para intentar solucionar el problema de autoselección, como por ejemplo apareamiento (matching) o uso de variables instrumentales, desde una perspectiva más rigurosa sugerimos tomar incluso estos resultados como asociaciones, aunque ciertamente más cercanas de dar una explicación causal que una correlación. Por otro lado, los análisis jerárquico multinivel (HLM), tan populares recientemente en educación, no solucionan el problema de autoselección aunque sí contribuyen a mejorar las estimaciones de error estándar al dividirlo en diferentes niveles (típicamente del estudiante y su familia, del aula, de la escuela y la comunidad). 32 International Association for the Evaluation of Educational Achievement; ver http://www.iea.nl/. 20 http://www.iea.nl/ cambiando con el tiempo, bien se podría decir que el propósito principal de estas evaluaciones es el conocimiento detallado de lo que los estudiantes en diferentes países saben y pueden hacer y el uso ha sido en todos los casos de bajas consecuencia para los países participantes (aún cuando sus repercusiones, sobre todo a través de la difusión que da la prensa a resultados, a menudo considerados catastróficos, pudieran ser grandes para el sistema, porejemplo desprestigiando la profesión docente). Más allá de las intenciones con que se han realizado estas evaluaciones, es claro que las repercusiones que han tenido han sido principalmente para ubicar el rendimiento de los estudiantes de cada país en un cierto lugar del ranking internacional (lo que a menudo se ha denominado “carrera de caballos”). Si bien los especialistas a menudo han criticado este uso, los medios se han encargado de resaltarlos y al hacerlo se ha logrado mucha repercusión en la opinión pública. En el siguiente cuadro se presentan algunas de las principales evaluaciones internacionales vigentes actualmente y la participación del Perú en ellas. Los informes internacionales contienen información bastante detallada del rendimiento de los estudiantes en áreas específicas. Para manejar la variedad de contenidos resultante es necesario tener un número y variedad de ítems considerable, por lo que en general recurren a formatos de formas rotadas (tal como fueron descritos antes). Más allá de los valiosos informes pedagógicos, existen también informes de variables asociadas al rendimiento, que provienen de cuestionarios y fichas administradas a estudiantes, sus docentes y directores y las características del centro educativo (son pocas las que incluyen también encuestas a padres de familia; las de LLECE son una excepción). Además de la red de LLECE para América Latina, existe una para países del sur y este de África que ha completado dos evaluaciones del rendimiento escolar33. 33 Southern and Eastern Africa Consortium for Monitoring Eucational Quality (ver http://www.sacmeq.org/.) 21 http://www.sacmeq.org/ Cuadro 1.2. Características de las principales evaluaciones internacionales del rendimiento escolar Nombre Institución que la organiza Objeto de evaluación Años en que se ha administrado Participación del Perú Laboratorio Latinoamericano de Evaluación de la Calidad Educativa (LLECE)34 UNESCO Rendimiento en comprensión de lectura, matemática y ciencias en estudiantes de varios grados de primaria 1997 y 2006 En las dos Progress in International Reading Literacy Study (PIRLS) IEA Comprensión de lectura en estudiantes de cuarto grado 1997 y 2006 Nunca Trends in International Mathematics and Sciences Study (TIMSS) IEA Matemática y ciencias en varios grados de primaria y secundaria 1995, 1999, 2003 y 2007 Nunca Programme for International Student Assessment (PISA)35 OCDE Habilidades en comprensión de lectura, matemática y ciencias en estudiantes de 15 años matriculados en educación secundaria. 2000, 2003 y 2006 (2009) En 2001(PISA Plus) y se prevé nuevamente en el 2009 International Civic and Citizenship Education Study (ICCS) IEA Conocimientos y habilidades en educación cívica y ciudadana en estudiantes de 8º grado 1999 (2009) Nunca Al igual que con las evaluaciones nacionales de bajas consecuencias, las evaluaciones internacionales, al menos en el caso peruano, han tenido poco uso. Así, en nuestro país las evaluaciones internacionales han tenido repercusión en tanto la prensa ha resaltado el bajo rendimiento de nuestros estudiantes. Incluso algunos lectores poco precavidos han dicho y repetido información falsa36. Los informes de resultados y de factores asociados contienen información detallada relevante que podría llevar a repensar instrumentos pedagógicos fundamentales como la formación y capacitación docente, los materiales educativos (principalmente los textos) y el currículo mismo, así como usar los estándares de desempeño internacionales para comunicar a diferentes audiencias en el Perú qué nivel de exigencia es requerido para considerar que un estudiante tiene un rendimiento satisfactorio. Por otro lado, participar en evaluaciones de alto nivel técnico como PISA ha tenido un importante efecto en la especialización del personal técnico de la UMC, que ha logrado incorporar algunos de los procedimientos considerados “estados del arte” en evaluación a las pruebas y procedimientos en el Perú. 34 Ver http://llece.unesco.cl/esp/. 35 Ver http://www.pisa.oecd.org/pages/0,2987,en_32252351_32235731_1_1_1_1_1,00.html. 36 Por ejemplo algunos analistas han dicho y repetido que en la primera evaluación LLECE solo resultamos por encima de Haití, cuando este país no participó en la evaluación; otros que nuestros estudiantes son los de más bajo rendimiento mundial cuando en realidad la evaluación PISA incluyó principalmente a estudiantes de países industrializados. Nada de esto es para negar los bajos resultados de los estudiantes peruanos, confirmados en cuanta evaluación nacional e internacional se ha hecho, sino para sugerir que los interesantes datos producidos por la UMC deben ser interpretados con rigurosidad. 22 http://llece.unesco.cl/esp/ http://www.pisa.oecd.org/pages/0,2987,en_32252351_32235731_1_1_1_1_1,00.html A pesar de que no está dirigida a estudiantes, es interesante resaltar el estudio de la IEA sobre Profesores de Matemática37. Se trata de un estudio dirigido a entender cómo se preparan los docentes de matemática para enseñar en primaria y los primeros grados de primaria en diversos países. Este estudio está actualmente en curso y por tanto no podríamos participar, pero puede estar anunciando una tendencia hacia analizar de manera comparativa un factor fundamental en el aprendizaje de los estudiantes, como es el docente y sus prácticas en el aula. Estudios como el mencionado pueden aportar a comprender cómo aprenden los estudiantes en el aula, llevando así a sugerencias de política para la formulación de textos escolares, la formación y capacitación docente y la supervisión de docentes en las escuelas, por mencionar algunas posibles aplicaciones. Es importante notar que varios de los anteriores estudios tienen previstas nuevas rondas de evaluación para los próximos años, en las que el Perú podría participar, siempre y cuando esta participación fuera coherente con sus planes de desarrollo educativo38. 1.5. Algunas conclusiones sobre las experiencias de evaluaciones nacionales e internacionales del rendimiento escolar Se ha convertido casi en un lugar común decir que los indicadores tradicionales de cantidad en educación, vinculados principalmente a matrícula, repetición y deserción, se han convertido en insuficientes para describir las características de los sistemas educativos latinoamericanos, ahora que la cobertura (al menos en primaria) es bastante alta. La preocupación internacional de países y organismos internacionales (ver por ejemplo Vegas y Petrow, 2008) es por la calidad educativa, reflejada principalmente en puntajes en pruebas estandarizadas de rendimiento administradas a los estudiantes. Así, las pruebas se han convertido de manera creciente en un indicador necesario para describir muchos sistemas; cómo se deberían utilizar los resultados para mejorar la calidad educativa es un tema en debate. Como se ha intentado reflejar en el presente informe, no hay respuestas unívocas y los temas en discusión han ido enfocados de diferente manera entre países, e incluso hay grandes variaciones en algunos casos al interior de un mismo país39. Como se ha sugerido arriba, muchos países han intentado, con mayor o menor consistencia, integrar diferentes componentes en sistemas de evaluación que respondan a algunos de los principales retos en cada país, pero al leer las experiencias internacionales uno queda con la sensación de que no se trata de modelos acabados sino en constante revisión. En un contexto de generalización de la presencia de evaluaciones estandarizadas de rendimiento escolar en toda la región, se nota el inicio de una suerte de confluencia entre los sistemas más orientados hacia la “responsabilización” y las altas consecuencias y aquéllos más orientados hacia el diagnóstico
Compartir