Logo Studenta

INF2008-Informe-sistema-evaluacion-para-UMC

¡Este material tiene más páginas!

Vista previa del material en texto

Balance y Perspectivas de Desarrollo para la 
Unidad de Medición de la Calidad Educativa 
del Ministerio de Educación de Perú 
 
 
 
 
 
 
 
 
 
 
 
Patricia Arregui , Santiago Cueto y José Rodríguez 
 
 
 
Diciembre del 2008 
 
 
ÍNDICE 
 
Presentación .............................................................................................................................. 4 
Capítulo 1 .................................................................................................................................. 5 
Tendencias internacionales de las evaluaciones de los aprendizajes escolares ................... 5 
1.1. Sobre los fines y opciones críticas que determinan las características principales de 
los sistemas de evaluación estandarizada de los logros de aprendizaje escolar ................. 5 
1.2. Altas o bajas consecuencias ............................................................................................. 7 
1.2.1. Evaluaciones de bajas (o ninguna) consecuencias ............................................. 8 
1.2.2. Evaluaciones de altas consecuencias ................................................................ 10 
1.2.3. Ejemplos de sistemas nacionales de evaluación ............................................... 13 
1.3. Elementos comunes necesarios para evaluaciones nacionales de altas y bajas 
consecuencias .......................................................................................................................... 17 
1.4. Evaluaciones internacionales de rendimiento escolar................................................. 20 
1.5. Algunas conclusiones sobre las experiencias de evaluaciones nacionales e 
internacionales del rendimiento escolar ............................................................................... 23 
Anexo del capítulo 1. .............................................................................................................. 25 
Capítulo 2 ................................................................................................................................ 26 
El desarrollo de la UMC ........................................................................................................ 26 
2.1. Breve recuento del desarrollo de la Unidad de Medición de la Calidad Educativa .. 26 
2.1.1. Los inicios .......................................................................................................... 26 
2.1.2. La transición: el cambio de modelo de evaluación ............................................ 29 
2.1.3. Consolidación institucional................................................................................ 31 
2.2. La difusión de resultados ................................................................................................ 33 
2.2.1. La difusión de resultados en los inicios (1994-98) ............................................ 33 
2.2.2. La difusión de resultados durante la Transición y el cambio de modelo de 
evaluación (1998-2004) ............................................................................................... 35 
2.2.3. La difusión de resultados durante la consolidación institucional (2004 en 
adelante) ....................................................................................................................... 37 
2.3. Temas polémicos transversales a los tres períodos ...................................................... 38 
2.4. Balance preliminar del desarrollo de actividades realizadas por la UMC ................ 40 
Anexo 1 del capítulo 2. ........................................................................................................... 42 
Anexo 2 del capítulo 2 ............................................................................................................ 47 
Difusión de resultados – UMC .............................................................................................. 47 
Capítulo 3 ................................................................................................................................ 52 
Rediseño del Sistema de Evaluación del Rendimiento Estudiantil Preliminar ................ 52 
3.1. Introducción: El Proyecto Educativo Nacional y la evaluación educativa ............... 52 
3.2. Finalidad y objetivos, estrategia y principios de la UMC ........................................... 55 
3.3. Principios para el trabajo de la UMC ........................................................................... 56 
3.4. Estrategia general para el corto y mediano plazos ....................................................... 57 
3.5. Mediciones: diseño y programación de las evaluaciones del rendimiento escolar .... 58 
3.5.1. Modelos propuestos ............................................................................................ 59 
3.5.1.1. Modelo A ......................................................................................................... 59 
3.5.1.2. Modelo B ......................................................................................................... 64 
3.6. Participación de la UMC en evaluaciones internacionales .......................................... 71 
 2 
3.7. Estrategias de comunicación e involucramiento de la UMC en el desarrollo de 
políticas educativas ................................................................................................................. 72 
3.8. Organización .................................................................................................................... 76 
Capítulo 4 ................................................................................................................................ 77 
Balance y perspectivas ........................................................................................................... 77 
Referencias .............................................................................................................................. 80 
 3 
 
Balance y Perspectivas de Desarrollo para la Unidad de Medición de la Calidad 
Educativa del Ministerio de Educación de Perú1 
 
Patricia Arregui2, Santiago Cueto3 y José Rodríguez4 
Diciembre del 2008 
 
 
Presentación 
 
Desde 1996 la Unidad de Medición de la Calidad Educativa (UMC) del Ministerio de 
Educación ha venido administrando periódicamente evaluaciones nacionales de logros de 
aprendizaje en varias áreas curriculares a estudiantes de diversos grados de primaria y 
secundaria. También ha participado en tres evaluaciones internacionales de rendimiento5. Ha 
publicado reportes y difundido resultados de esas evaluaciones y guías para facilitar su 
utilización por parte de las escuelas como insumo para el planeamiento de actividades 
pedagógicas y de gestión escolar. 
 
Transcurrida más de una década de intensa, productiva y reconocida actividad, y en el marco 
de nuevas demandas y nuevos contextos para su accionar, la UMC ha considerado necesario y 
conveniente desarrollar un plan de desarrollo institucional de mediano plazo. Ha solicitado 
para ello la realización de una consultoría que le sirva de insumo para un proceso de reflexión 
al respecto. 
 
El propósito principal de esta consultoría es presentar alternativas a la UMC para su trabajo 
futuro desde el Ministerio y/o con otras instancias. Para ello, en este primer capítulo se hace 
un balance de las tendencias o alternativas de orientación de las evaluaciones nacionales e 
internacionales de logros de aprendizaje escolar en que están involucrados los países del 
continente. El segundo capítulo revisa de manera crítica las evaluaciones y el uso que 
diversos actores han dado a la información generada en el Perú por la misma UMC. El tercer 
capítulo contiene una propuesta, emergente de lo visto en los 2 primeros capítulos, para el 
desarrollo de la UMC. El cuarto capítulo contiene un breve resumen del presente informe. 
 
Es conveniente destacar que si bien inicialmente el trabajo de la UMC se planificó alrededor 
delas evaluaciones estandarizadas nacionales e internacionales del rendimiento escolar 
administradas a estudiantes matriculados en educación básica, a lo largo del tiempo se han ido 
adicionando algunas otras responsabilidades y pedidos. Estos han incluido la asesoría a 
diversas oficinas dentro del Ministerio de Educación, otros organismos del Estado y oficinas 
regionales de educación, pero también en algunos casos se ha asumido responsabilidades en 
áreas de evaluación como por ejemplo el concurso de selección de docentes. En el segundo y 
tercer capítulos se comenta más sobre el rango de actividades posibles para la UMC pero 
advertimos aquí nuestra postura respecto de que es importante acotarlo y no extenderlo más 
allá de lo que es posible hacer de manera adecuada dados los recursos disponibles y los plazos 
disponibles en cada caso. 
1 Este documento fue elaborado por encargo de la UMC. 
2 Investigadora Principal de GRADE. 
3 Investigador Principal de GRADE. 
4 Profesor Principal de la PUCP. 
5 En este documento se utilizarán indistintamente los términos “rendimiento escolar”, “rendimiento estudiantil” y 
“logros de aprendizaje escolar”. 
 4 
 
 
Capítulo 1 
Tendencias internacionales de las evaluaciones de los aprendizajes escolares 
 
1.1. Sobre los fines y opciones críticas que determinan las características principales de 
los sistemas de evaluación estandarizada de los logros de aprendizaje escolar 
 
Las características principales de los sistemas de evaluación estandarizada de los logros de 
aprendizaje escolar están – o deberían ser – definidas en función de las finalidades y los 
mecanismos a través de los cuales se busca alcanzar dichas finalidades. Es claro que todos los 
sistemas de evaluación tienen como objetivo general, de una u otra forma, contribuir con la 
mejora de los sistemas educativos, en particular en lo que se refiere a los aprendizajes de los 
estudiantes. En lo que suelen diferenciarse los sistemas de evaluación es en la manera como 
buscan contribuir con la mejora educativa, en particular, los mecanismos que usan para ello. 
 
Resulta muy ilustrativo observar que las diferentes finalidades de los sistemas de evaluación 
identificadas en por Ravela et al. (2001, p. 7) y luego ampliadas en Arregui (2001). Son 19 
posibles finalidades de los sistemas de evaluación identificadas en las experiencias nacionales 
en los países de la región (ver Cuadro Nº 1). 
 
Aún cuando las anteriores fueron planteadas a inicios de la década, siguen teniendo vigencia 
cuando se analiza lo que efectivamente hacen los sistemas nacionales de evaluación. Nuestro 
propósito al incluirlos no es discutir cada uno en profundidad sino solo sugerir al lector un 
abanico de posibilidades para los sistemas de evaluación, enfatizando además que no se trata 
necesariamente de objetivos excluyentes. Más adelante se presenta una clasificación posible 
de estos sistemas, retomando algunos de los puntos mencionados arriba para discutirlos. 
 
Diversas publicaciones del Grupo de Trabajo sobre Estándares y Evaluación (GTEE) del 
PREAL6 han sostenido que en muchos países de la región que crearon sus sistemas de 
evaluación durante los años noventa fue insuficiente la reflexión inicial acerca de los fines 
específicos que se esperaba persiguieran dichos sistemas de evaluación y sobre las 
características técnicas que deberían tener los instrumentos para adecuarse a esos fines: 
 
Muchos países han trabajado a partir de un propósito general de informar sobre los 
resultados del sistema educativo para contribuir a su mejoramiento, pero sin diseñar 
una estrategia más específica. Por otra parte, es bastante común que las autoridades 
ministeriales comiencen a demandar, sobre la marcha, que las evaluaciones sirvan 
para nuevos propósitos o que aporten información para fines para los que no fueron 
diseñadas. (Ravela et al, 2001: 8) 
 
 
No llama mucho la atención, por lo tanto, que tras una primera etapa de instalación de 
capacidades y experiencia, casi todos los sistemas de evaluación hayan revisado sus objetivos 
y estrategias y considerado orientaciones alternativas para guiar su quehacer. Más adelante se 
presentan ejemplos de sistemas nacionales que muestran la diversidad y coincidencia en fines 
y procedimientos de los sistemas nacionales. 
6 Ver http://www.preal.cl/Grupo2.asp?Id_Grupo=3. 
 5 
 
http://www.preal.cl/Grupo2.asp?Id_Grupo=3
 
Cuadro 1.1. 
Finalidades diversas que pueden perseguir los sistemas de evaluación 
de logros de aprendizaje escolar (Arregui, 2001, pp. 7-8) 
 
1. Informar a la opinión pública y generar una cultura social de la evaluación. 
2. Contribuir a la generación de conocimiento, proporcionando insumos para la investigación 
aplicada sobre el funcionamiento de los sistemas educativos, las prácticas de enseñanza, el 
impacto de las variables sociales sobre el aprendizaje de los niños (también identificar los 
factores determinantes del logro) y los tipos de intervenciones más efectivos para mejorar los 
aprendizajes. 
3. Construir un “mapa de situación” del sistema educativo con el fin de identificar áreas o 
unidades prioritarias de intervención y tipos de intervenciones necesarias, de manera de 
garantizar igualdad de oportunidades de aprendizaje y focalizar consecuentemente los 
recursos. 
4. Comunicar valores y expectativas de logros. 
5. Motivar mejoras y logros vía la comparación, competencia o emulación. 
6. Alertar a la opinión pública sobre deficiencias en los resultados de los sistemas educativos y 
la necesidad de que se apoye intervenciones para su mejoramiento. 
7. Identificar metas claras, mensurables y comunicables, centradas en los aprendizajes, para los 
esfuerzos de mejoramiento del sistema educativo, que faciliten la movilización y apoyo de la 
opinión pública y otros responsables. 
8. Devolver información a las escuelas y maestros para que éstos examinen en detalle los 
resultados de su trabajo y mejoren sus prácticas pedagógicas. 
9. Brindar a los padres de familia información que les permita evaluar y controlar la calidad de 
las escuelas. 
10. Contribuir a establecer (o monitorear logro de) estándares de calidad para el sistema 
educativo. 
11. Certificar el dominio de un núcleo de conocimientos y capacidades o competencias por parte 
de los alumnos que finalizan un determinado nivel de enseñanza. 
12. Seleccionar u ordenar a los estudiantes (o a escuelas o jurisdicciones) para acreditar su 
elegibilidad para ciertos privilegios, acceso a programas o, incluso, sanciones. 
13. Evaluar el impacto de políticas, innovaciones o programas específicos. 
14. Retroalimentar el currículo y los planes de estudio. 
15. Realizar estudios de tipo costo-beneficio, que orienten las decisiones para una distribución 
más eficiente y efectiva de recursos siempre escasos. 
16. Contar con argumentos persuasivos para obtener mayores recursos del presupuesto público o 
proponer cambios en orientaciones generales del sistema educativo. 
17. Demostrar el peso del factor docente en los aprendizajes e influir en la formación, 
capacitación y desempeño de los maestros. 
18. Evaluar la productividad de los maestros a los efectos de establecer un sistema adecuado de 
incentivos. 
19. Promover una responsabilización efectiva de todos o algunos de los actores involucrados en 
los procesos educativos, incluyendo a los propios alumnos. 
 
El Perú no es una excepción a lo anterior. Como se verá en el segundo capítulo, en el cual se 
analizará la trayectoria de la UMC desde su creación, su desarrollo ha requerido la 
confrontación de diversos dilemas que fueron apareciendo a lo largo de los años. Lo que se 
busca aquí es contribuir a la formulación de un plan de desarrollo de mediano plazo que 
conteste cuestiones tales como: 
 
¿Qué áreas del currículo han de ser evaluadas, con qué frecuencia y en qué grados? 
¿Qué y cuánto espacio debe darse a las evaluacionesinternacionales en el quehacer de 
la Unidad de Medición de la Calidad? 
 6 
¿Cuáles son los pros, contras y viabilidad de las evaluaciones censales y las 
muestrales? 
¿Cuál es mejor forma de hacer llegar los resultados a diversos públicos objetivo, 
buscando maximizar su impacto en la mejora de la educación peruana? 
¿Es posible para la UMC contar con la autonomía necesaria si está instalada dentro del 
Ministerio de Educación? 
¿Conviene atar los resultados a algún tipo de consecuencia para autoridades, 
especialistas, docentes, alumnos? 
¿Qué papel debe cumplir la UMC en la asesoría de otras unidades, dentro y fuera del 
Ministerio de Educación, con interés en la evaluación del rendimiento escolar? 
 
Varias de estas preguntas pueden quizás enmarcarse en una cuestión anterior, que es el lugar 
en que se pretende colocar al sistema de evaluación en una suerte de continuo que se mueve 
entre la responsabilización (accountability), o altas consecuencias, y el apoyo formativo al 
mejoramiento, o bajas consecuencias. En el primer modelo se usan los resultados de las 
evaluaciones para tomar decisiones que afectan a los individuos, instituciones y/o sistemas 
evaluados de maneras predefinidas; en el segundo se usa la información de las evaluaciones 
para mejorar la calidad de insumos y procesos educativos, esperando que estos tengan un 
impacto en los resultados, pero sin tomar decisiones de altas consecuencias en base a los 
resultados. Si bien ambos modelos podrían ser vistos como complementarios, paralelos y 
atendibles con un mismo sistema, en la práctica (y desde la teoría educativa), a menudo han 
sido percibidos como antagónicos e incompatibles, aunque ciertamente en ambos se busca la 
mejora de los rendimientos de los estudiantes. Se podría afirmar sin embargo que en la 
actualidad en varios países de la región se está dando consideración al grado en que los 
sistemas de evaluación pueden y deben servirse de ambos modelos. Más adelante se discute 
con mayor detalle este tema. 
 
Si bien en el Perú el enfoque adoptado hasta el momento ha sido de bajas consecuencias, no 
se puede soslayar el hecho de que efectivamente – y como se verá más adelante – existen 
actualmente propuestas, presiones de diversos actores y medidas concretas que inducen a 
moverse hacia un sistema de altas consecuencias. En la siguiente sección se describen algunas 
de las características principales de cada uno de estos dos modelos y presentan ejemplos de 
algunos sistemas de evaluación de otros países7. 
 
1.2. Altas o bajas consecuencias 
 
Todos los sistemas de evaluación buscan, de una u otra forma, generar información para 
mejorar los sistemas educativos. Sin embargo, la manera como buscan contribuir con la 
mejora no es la misma. Los sistemas usan diferentes diseños y una forma de diferenciarlos es 
de acuerdo a los mecanismos que utilizan para inducir ciertos comportamientos entre los 
distintos actores del sistema educativo que contribuyan a mejorar los sistemas educativos. 
 
Los sistemas de altas consecuencias usan un sistema de incentivos a través del cual se busca 
inducir el mejor desempeño de los actores directamente vinculados a los procesos educativos 
y sus resultados. Para ello en el sistema de incentivos se señalan metas de rendimiento 
específicas y se anuncian consecuencias positivas por lograrlos o negativas en caso contrario. 
Por oposición, los sistemas de bajas consecuencias no cuentan con un sistema de incentivos 
que penalice o premie a los agentes pero buscan que diversos actores usen la información para 
7 La presentación de ejemplos es bastante corta; para una discusión en mayor profundidad de diferentes modelos 
ver por ejemplo Arregui y McLauchlan (2005) y Ferrer (2006b). 
 7 
 
mejorar la calidad de los insumos y procesos educativos, anticipando que estos tendrán 
consecuencias positivas sobre el rendimiento escolar. A continuación una breve descripción 
de ambos modelos, empezando por el segundo. 
 
1.2.1. Evaluaciones de bajas (o ninguna) consecuencias 
 
Entre los sistemas con bajas consecuencias hay una familia de diseños distintos. Todos miden 
los logros de aprendizaje, pero no todos evalúan con la misma profundidad ni cobertura los 
aprendizajes, ni evalúan el contexto y las condiciones en las que se dan los aprendizajes de la 
misma forma. Tampoco son homogéneos en cuanto a la información que brindan ni en el 
público al que se dirigen. 
 
Estos sistemas buscan principalmente conocer los logros de aprendizaje de los estudiantes. 
Para ello suelen hacer mediciones detalladas de los logros que los estudiantes deberían haber 
logrado en un momento determinado de su escolaridad (por lo general al final de 
determinados grados o años de estudios que representen hitos de transición, como podrían 
serlo los distintos ciclos de la educación básica). La base de estos análisis es a menudo el 
currículo. Muchos de los sistemas de evaluación de este tipo hacen las mediciones en 
muestras de escuelas y de estudiantes, aunque algunos sistemas de bajas consecuencias han 
realizado evaluaciones censales. 
 
El uso que se da a estas evaluaciones es principalmente formativo, es decir, se busca 
retroalimentar los procesos de gestión pedagógica escolar de manera de inducir respuestas 
orientadas a obtener mejores resultados. Así, por ejemplo, los resultados son presentados a 
escala nacional y regional y se reportan resultados globales en un área (por ejemplo 
matemática, lenguaje, ciencias naturales y ciencias sociales) y desagregados por algunas de 
las principales unidades del currículo (por ejemplo competencias del currículo de 
matemática). El propósito de estos reportes es que algunos actores utilicen la información y la 
incorporen en sus planes de trabajo. Entre los principales actores, que aquí llamaremos clave 
por su importancia para modificar las prácticas y resultados educativos desde su gestión 
inmediata, están miembros del Gobierno, como por ejemplo congresistas, diversas 
autoridades del Ministerio de Educación y del Ministerio de Economía y Finanzas, 
especialistas a cargo de capacitación o formación de docentes y directores, y autores de textos 
escolares y editoriales a cargo de su publicación. Adicionalmente, estos resultados se reportan 
a la prensa, de modo que se movilice a la opinión pública en la búsqueda de mejores 
resultados8. Otro grupo de interés son los investigadores, que a menudo analizan los logros de 
aprendizaje de los estudiantes cruzándolo con características individuales, familiares y de sus 
centros educativos, con el propósito principal de estimar asociaciones para acumular 
conocimiento, además que luego sus resultados pudieran ser considerados para el desarrollo 
de políticas. Finalmente se encuentran representantes de organismos nacionales e 
internacionales que procuran estos resultados para reportar la situación del país y en ocasiones 
sugerir o planificar acciones o programas (por ejemplo diseño de programas con poblaciones 
específicas o seguimiento de las metas de algún programa internacional, como por ejemplo 
Educación para Todos). 
 
Estas evaluaciones, cuando son de gran detalle, requieren alta sofisticación técnica en la 
elaboración de instrumentos. Así por ejemplo, para capturar los logros de aprendizaje no solo 
8 La prensa, sin embargo, suele requerir información sobre resultados globales que sean “noticia” (por ejemplo 
porcentaje que logra un nivel satisfactorio en determinada competencia) y no el detalle de resultados que podría 
ser de utilidad para otras audiencias. 
 8 
 
en un área (p. e. matemática) sino en las diferentes competencias al interior de matemática, se 
requiere un gran número de ítems que den validez de contenido al instrumento. Dado que es 
imposible administrar demasiados ítems a cada estudiante se recurre a procedimientos 
técnicos, como por ejemplo la rotación de ítems entre estudiantes. Así, cadaestudiante 
resuelve solo algunos de los ítems necesarios para evaluar una competencia, pero todos los 
estudiantes en su conjunto resuelven todos los ítems de manera que hay ítems que son 
compartidos por subgrupos de estudiantes. Con esta información es posible estimar la 
probabilidad de cada estudiante de contestar todos los ítems aún cuando en la práctica no lo 
haya hecho. Ello se hace estimando la habilidad de los estudiantes en los ítems que 
efectivamente respondió, para extrapolarla a los que no respondió. Usualmente no se 
considera necesario administrar estas pruebas de manera censal sino que se administran a una 
muestra de estudiantes que permita luego tener representatividad para los estratos de interés 
(por ejemplo, el país y las regiones políticas, realizando luego otras desagregaciones como 
urbano-rurales, hombres-mujeres y escuelas públicas-privadas). 
 
Se podría argumentar que las mediciones que se obtienen de cada estudiante (e incluso de 
cada escuela) son imprecisas, debido a que se le evalúa con solo algunos de los ítems (y a la 
escuela con sólo la población de estudiantes de un aula de cada grado y rara vez en más de un 
aula). Ya que, por definición, mientras más evaluaciones válidas y confiables estén 
disponibles para cada individuo y cada escuela, mayor será la precisión de la medición, el 
contar con mediciones de solo algunos estudiantes en una sola ocasión hace en primera 
instancia objetable el “devolver” resultados a nivel de individuo y escuela. Sin embargo, visto 
que las personas que participan en una evaluación tienen derecho a la información, en muchos 
países se devuelve información de la evaluación. En estos reportes a menudo se presentan los 
resultados de la escuela, e inclusive de los estudiantes, y de escuelas similares (de hecho se ha 
empezado a hacer esto en el Perú recientemente). Cuando se devuelven resultados es 
importante hacer explícitas las limitaciones de la evaluación. En otras palabras, una medición 
de un individuo (o escuela) con un instrumento en una oportunidad siempre puede tener 
errores (por ejemplo ese día el estudiante se sintió mal por algún motivo o la escuela tuvo una 
asistencia por debajo de lo normal). Estos errores de estudiantes o escuelas individuales no 
son tan relevantes a nivel de la muestra pues el conjunto de instrumentos administrados se 
anulan, permitiendo estimar promedios para un grupo que representa a una población dentro 
de márgenes de error muestral conocidos y tolerables. 
 
Las evaluaciones de bajas consecuencias, sumadas a análisis de los factores asociados al 
rendimiento y estudios cualitativos sobre la relación entre ciertos procesos pedagógicos o de 
gestión institucional y los resultados, pueden generar no sólo ricos y estimulantes informes 
sobre lo que los alumnos han aprendido, sino valiosas pistas para la acción de mejoramiento. 
De hecho hay sistemas educativos, como el brasileño (ver más abajo), que tienen una larga 
tradición en este sentido. 
 
Las críticas principales de los sistemas de bajas consecuencias aluden al escaso uso que varios 
de los actores clave dan a la información. El supuesto fundamental del modelo de bajas 
consecuencias es que si se genera información interesante, los actores clave la buscarán y 
utilizarán de diversas formas para mejorar su labor. Tal hecho no suele ocurrir, ni en el Perú 
ni en otros países. La responsabilidad podría estar en los que producen la información, que 
por lo general han encontrado difícil presentar los resultados en formas relevantes para las 
diversas audiencias, exagerando tal vez en la presentación de información técnica que no 
 9 
debería constituir el fin sino solo el medio9. El poco uso de la información también podría ser 
explicado por la formación de muchos de estos actores, que a menudo no están 
acostumbrados a revisar informes con información estadística como la que suelen contener los 
reportes de resultados. Pero no se puede descartar que sin importar lo que se haga los actores 
clave que se quiere influenciar –por ejemplo, las autoridades, los especialistas, los formadores 
de docentes y los editores de textos- no usen información a menos que sea de utilidad 
inmediata para ellos. En este contexto, los modelos de accountability sí acarrean 
consecuencias que casi hacen obligatoria la consulta de resultados a los actores interesados, 
como se verá a continuación. 
 
1.2.2. Evaluaciones de altas consecuencias 
 
En las evaluaciones de altas consecuencias, al igual que las de bajas consecuencias, lo que se 
evalúa es el dominio por parte de los estudiantes de un cierto cuerpo de conocimientos. En lo 
que se diferencian fundamentalmente es en el uso de los resultados. En altas consecuencias 
los resultados de las pruebas son empleados para definir consecuencias individualizadas para 
los docentes, directivos, estudiantes o incluso autoridades educativas. 
 
Por lo general los sistemas de altas consecuencias no buscan tener resultados muy detallados 
por competencias, como los que se procuran en las evaluaciones de bajas consecuencias, sino 
solo saber si los estudiantes han logrado un cierto nivel de aprendizajes. Por tanto, en el 
diseño de las pruebas de este tipo de evaluación, no se suelen emplear complejidades técnicas 
mayores, como por ejemplo el uso de formas rotadas mencionado antes para evaluaciones de 
bajas consecuencias.10 Las decisiones que se toman en base a estas pruebas pueden involucrar 
a uno o varios de los actores: estudiantes, docentes (individualmente o como grupo en una 
escuela), directivos de escuela y/o el centro educativo en su conjunto, llegando incluso a 
consecuencias para autoridades educativas regionales11. 
 
En cuanto a los estudiantes, los principales usos con altas consecuencias son de 3 tipos. 
Primero, determinar a partir de los resultados si los estudiantes se pueden graduar de un cierto 
nivel educativo. Segundo, usar los resultados de las pruebas para calificar al estudiante 
interesado en ingresar a la universidad u otro centro de estudios superiores. En este caso los 
resultados de las pruebas pueden ser el único factor o uno entre varios usados en la evaluación 
para el ingreso. Tercero, usar los resultados de la evaluación para identificar instituciones o 
estudiantes y proporcionarles ayuda adicional (por ejemplo apoyo en los temas fallidos) o 
premiar a los estudiantes de mejor rendimiento (con premios que pueden ser reconocimientos 
públicos o incluso dinero). En cualquiera de estos casos, es posible también que se envíe los 
resultados a los padres de los estudiantes. 
 
Con relación a los docentes, los principales usos con consecuencias son tres. Primero, usar los 
puntajes para decidir si los estudiantes a cargo del docente han aprendido el material en 
evaluación y a partir de esto premiar a los docentes con estudiantes con mejores logros (en 
9 Hay que reconocer sin embargo que los informes más recientes de evaluación en muchos casos han dejado de 
lado la sofisticación técnica, que aparece en informes especializados, para focalizarse en la transmisión de los 
principales mensajes con base en los resultados. 
10 Los motivos para no tener evaluaciones demasiado complejas en sistemas de altas consecuencias tendrían que 
ver principalmente con la alta demanda de energía y tiempo por parte del personal en planificar censos 
estudiantiles, versus las evaluaciones muestrales que se suelen hacer en evaluaciones de bajas consecuencias. En 
todo caso, en principio sí se podrían hacer evaluaciones complejas de rendimiento escolar en sistemas de altas 
consecuencias si se contara con recursos, humanos, económicos y de tiempo, suficientes. 
11 Para una revisión de la experiencia en América Latina ver Mizala y Romaguera (2004). 
 10 
 
este caso el premio puede ser al docente individualmente, por ejemplo en dinero o promoción 
en el escalafón magisterial, y/o al grupo de docentes en una escuela). Segundo, identificar losdocentes que deben ser puestos en observación debido a los bajos logros de sus estudiantes (y 
eventualmente, de repetirse la situación, incluso retirarlos del sistema). Tercero, usar los 
resultados de los estudiantes para forzar a algunos docentes a pasar por sesiones de 
capacitación en las áreas de bajos resultados, evaluando luego si los estudiantes mejoran sus 
resultados (en caso negativo se les podría dejar ir del sistema). 
 
En cuanto a los directivos y las escuelas en su conjunto, los usos con consecuencias 
principalmente son dos. Primero, reconocer públicamente y/o premiar a las escuelas cuyos 
estudiantes han obtenido mejores logros. Esto se puede hacer publicando los resultados en 
medios de comunicación masiva (buscando de esta forma que los padres de familia pongan 
presión sobre las escuelas de bajos logros o eviten matricular a sus hijos en ellas, buscando así 
que eventualmente las de más bajos logros mejoren o cierren por falta de matrícula). Segundo, 
declarar en emergencia a las escuelas con bajos resultados, cerrándolas o renovando a su 
personal directivo y/o docente. Esto a menudo se hace luego de reiteradas mediciones que 
arrojan bajos logros. 
 
Los principales interesados en un sistema de altas consecuencias son evidentemente los que 
pueden beneficiarse o perjudicarse a partir de los resultados: estudiantes (y sus padres y 
madres), docentes y directivos escolares. También tienen interés en el sistema los 
funcionarios del Ministerio de Educación a cargo de políticas de aprendizaje, capacitación y 
formación docente y desarrollo de textos escolares, que en principio se espera busquen 
adecuar sus prácticas para promover el logro de los incentivos trazados. Estos resultados 
también son de interés para la prensa, pero al igual que en bajas consecuencias a menudo lo 
que se busca es el titular de periódico (por ejemplo qué porcentaje de estudiantes, docentes o 
escuelas lograron el incentivo previsto o cómo se compara con años anteriores). Finalmente 
los investigadores educacionales tienen interés en la data que se genera, para por ejemplo 
analizar patrones de conducta de los estudiantes y los docentes que se relacionan con el logro 
de los incentivos. 
 
Un sistema de altas consecuencias se basa en general en la idea de accountability (políticas de 
rendición de cuentas o responsabilización). La idea principal es que, en el caso de los 
docentes y directivos escolares, ellos deben sentirse responsables y dar prioridad al 
aprendizaje de los estudiantes. Si no se logran los resultados previstos con los estudiantes, que 
deben estar claramente definidos, se deben tomar decisiones que prioricen su logro (por 
ejemplo dejar ir a los docentes con estudiantes con bajos rendimiento y reemplazarlos por 
otros que logren mejores resultados). El nivel de apoyo profesional a los docentes que 
participen en el sistema, para ayudarlos a que logren consecuencias positivas, debería ser 
parte del modelo aunque no siempre lo es. 
 
El modelo de altas consecuencias es el dominante en la actualidad en varios países 
desarrollados, como por ejemplo los Estados Unidos. Pero es importante considerar que en 
estos países muchos de los requerimientos para su funcionamiento (por ejemplo 
infraestructura y materiales en las escuelas, apoyo nutricional y de salud para los estudiantes) 
están bastante logrados, sino totalmente cubiertos. Los docentes en las escuelas en los países 
desarrollados usualmente han pasado por centros de formación acreditados, han aprobado 
exámenes de certificación profesional y tienen oportunidades de participar frecuentemente en 
programas de actualización. Para su aplicación en países en desarrollo como el Perú se debe 
considerar que el Estado debería ser el primero en asumir la responsabilidad de proveer 
 11 
condiciones adecuadas tanto a los estudiantes como a los docentes, directores y escuelas para 
que se puedan gestar procesos educativos de calidad que contribuyan a garantizar la 
consecución de los logros esperados. Así, estudiantes que viven en pobreza (con carencias 
nutricionales y de salud, que deben trabajar, etc.), que asisten a instituciones educativas con 
infraestructura y materiales precarios (sin baños ni electricidad, sin suficientes textos ni 
laboratorios, etc.) y con docentes que aún cuando han terminado toda su educación en 
instituciones del Estado no logran demostrar competencia en los temas que deben enseñar, 
difícilmente lograrán las metas planteadas. 
 
El esquema de accountability en países desarrollados se basa en algunos supuestos que en 
países en desarrollo difícilmente se cumplen: los docentes son profesionales competentes (y si 
no lo son tienen recursos personales y financieros para desarrollarse) y lo que necesitan es que 
se les diga con claridad qué metas deben lograr, se les ofrezcan incentivos suficientemente 
atractivos por lograrlas, y que sus organizaciones participen en la definición de las mismas. 
Dado esto se espera que los docentes y directivos reorienten sus esfuerzos al logro de las 
metas planteadas. Estos supuestos seguramente se cumplen con algunos profesores del 
sistema educativo peruano, pero en la mayoría de casos no pareciera ser el caso. 
 
El sistema de altas consecuencias ha sido criticado por diversos motivos. Por un lado, por la 
baja confiabilidad y validez de algunas mediciones y, por otro lado, por generar 
consecuencias negativas no anticipadas. En cuanto a problemas de confiabilidad y validez, la 
crítica principal ha sido que para efectivamente poder medir el progreso de los estudiantes y 
atribuírselo a la escuela es necesario contar con varias mediciones (v. gr. pruebas) de los 
mismos estudiantes a lo largo del tiempo. La medición y comparación de resultados de 
pruebas aplicadas en el mismo grado en diferentes años, es decir con diferentes estudiantes, 
podría reflejar cambios en la composición social, cultural y económica del grupo de 
estudiantes12, y no solo un resultado atribuible a la escuela. Informes como el de McCaffrey 
et al. (2003) han concluido, en base a la investigación existente, que actualmente no se 
justifica el uso de pruebas para decisiones de altas consecuencias, dadas las limitaciones 
técnicas mencionadas antes. Además se ha observado a menudo que la velocidad de 
aprendizaje de los estudiantes es mayor en estudiantes de alto nivel socioeconómico, lo cual 
llevaría a atribuir a la escuela logros que están más vinculados a los estudiantes. La mejor 
alternativa sería mediciones repetidas de los mismos estudiantes a través del tiempo 
comparando los logros de estudiantes de contextos socioeconómicos y tipos de escuelas 
similares y dando incentivos dentro de grupos comparables13. 
 
En las evaluaciones de altas consecuencias se deben aplicar las pruebas a todos los estudiantes 
de todos los grados y en todas las áreas currciculares, pues las consecuencias deben ser 
uniformes. Es inaplicable el uso de muestras que sí es posible emplear en un sistema de bajas 
consecuencias. En la práctica, sin embargo, las evaluaciones repetidas de los mismos 
estudiantes en años sucesivos de manera censal son poco comunes pues son costosas y 
difíciles de planificar y se recurre a menudo a evaluaciones censales de estudiantes en el 
mismo grado, diferentes promociones de estudiantes, en años sucesivos. 
12 Algo que observan con frecuencia los docentes respecto a diferentes “promociones” de alumnos. 
13 Con esta discusión no se quiere sugerir que en modelos de bajas consecuencias las pruebas no están exentas de 
problemas de validez y confiabilidad. En todo caso hay una diferencia importante pues en los modelos de bajas 
consecuencias se busca reportar resultados principalmente a nivel de grupos de escuelas. En ese sentido, los 
errores de medición pueden ser tolerados pues en el resultado agregado los errores positivos y negativos tienden 
a cancelarse. En cambio, en pruebas de altas consecuencias es de la mayor importancia tener estimaciones 
precisas a nivel individual(del estudiante o la escuela) pues en base a ello se van a tomar decisiones que les 
competen. 
 12 
 
 
Hay un segundo grupo de críticas al modelo, en el sentido que el ofrecimiento de incentivos a 
corto o mediano plazo genera consecuencias negativas. Esto por que el incentivo debe ser 
atractivo para que funcione, motivando en los docentes conductas diferentes para maximizar 
las probabilidades de lograrlo. Así, por ejemplo, dado que por consideraciones prácticas las 
evaluaciones de altas consecuencias a menudo se hacen solamente en lenguaje y matemática, 
los docentes priorizan estas áreas, descuidando otras previstas en el currículo (como arte, 
educación física, ciencias o ciencias sociales), llevando en alguna medida a una visión 
degradada de la educación en un sentido pleno. La alternativa sería incluir todos estos 
componentes en evaluaciones de altas consecuencias, pero construir instrumentos válidos y 
confiables en un área es una tarea compleja que se multiplicaría con el número de áreas a 
evaluar. 
 
Otro posible problema es que los incentivos por logros de aprendizaje podrían llevar a 
prácticas selectivas y hasta discriminatorias en las escuelas. Así, los docentes harían todo lo 
posible por incorporar en la evaluación a estudiantes que ayuden al logro de metas y dejarían 
de lado a los que se prevé tendrían bajos rendimientos (por ejemplo con lengua materna 
indígena, relativamente pobres o con alguna discapacidad). Uno podría anticipar estas 
situaciones y tomar solamente datos de valor agregado (es decir de los mismos estudiantes en 
años diferentes), pero de hecho siempre van a haber estudiantes que falten a las evaluaciones 
y es difícil determinar en qué medida esto es una práctica selectiva de los docentes. Otra 
consecuencia negativa relacionada a la anterior es que los docentes podrían concentrar sus 
esfuerzos de enseñanza en los estudiantes que en el aula rinden mejor, buscando mejorar el 
promedio pero aumentando la dispersión de puntajes dentro del aula, dejando de lado a 
algunos que por sus bajos logros no “justificarían” la inversión de tiempo del docente. 
Todavía hay poca investigación empírica sobre estos temas, pero parecerían haber indicios en 
el sentido indicado14. 
 
1.2.3. Ejemplos de sistemas nacionales de evaluación 
 
A continuación se presentan algunos ejemplos de sistemas nacionales de evaluación. Los 
primeros podrían ser clasificados como de bajas consecuencias, mientras que los siguientes 
mixtos y de altas consecuencias (las clasificaciones son solo referenciales y han sido hechas 
por los autores). 
 
Uruguay (bajas consecuencias) 
 
El Observatorio de la Educación, que es parte de la Administración Nacional de Educación 
Pública (ANEP15), presenta datos sobre el sistema, como por ejemplo cobertura, recursos y 
resultados de los estudiantes en pruebas de logros. Las pruebas se han administrado en varios 
niveles, desde inicial hasta secundaria. Uno de los aspectos importantes del sistema uruguayo 
es que han publicado los promedios de los resultados de los estudiantes indicando el tipo de 
establecimiento al que asisten y el contexto sociocultural promedio. Esto se hace para evitar 
comparaciones “injustas” o inadecuadas, que atribuyan a la escuela éxitos o fracasos (v. gr. no 
es lo mismo educar a estudiantes de alto y bajo nivel socioeconómico). La mayor parte de las 
pruebas han sido administradas a muestras de escuelas y estudiantes, aunque más 
14 Por ejemplo en el sistema de altas consecuencias del estado de Florida, concentrado en lenguaje y matemática, 
los docentes parecerían haber descuidado la enseñanza de ciencias, hasta que se incluyeron evaluaciones de estas 
con altas consecuencias (Walter Secada, profesor de la Universidad de Miami, comunicación personal). 
15 Ver http://www.anep.edu.uy/observatorio/. 
 13 
 
http://www.anep.edu.uy/observatorio/
recientemente se han hecho evaluaciones censales. Luego de administrar las pruebas –i.e. los 
cuadernillos con los ítems-, estas son distribuidas entre los docentes y directivos de todos los 
centros educativos (aun los que no participaron en la evaluación) de modo que puedan utilizar 
los instrumentos y analizar los resultados para mejorar las prácticas educativas locales. 
También se reparte de manera confidencial los resultados de cada centro al director, 
presentando los promedios de centros educativos comparables. El propósito es que los 
directivos utilicen la información para generar mejoras locales, pero sin presión de los padres, 
la prensa u otros actores (visto que es un sistema de bajas consecuencias). El Observatorio se 
encarga de coordinar la participación de Uruguay en evaluaciones internacionales (como 
SERCE y PISA, ver abajo). Es interesante que de manera específica hayan realizado análisis 
adicionales de los resultados de Uruguay y países de similares características en PISA, de 
modo que se exploren implicancias de políticas adicionales y adecuadas al país (cosa que han 
hecho también otros países de la región, como México y Brasil). 
 
Brasil (mixto) 
 
En este país las evaluaciones están a cargo del Instituto Nacional de Investigaciones 
Educativas (INEP16 por sus siglas en portugués), que es un organismo público autónomo 
vinculado al Ministerio de Educación. El INEP se encarga del recojo de datos educativos de 
diverso tipo para producir informes que pudieran servir para el desarrollo de políticas 
públicas. Sus actividades incluyen el Censo Escolar (realizado anualmente), el Censo de 
Educación Superior (también anual), el Sistema Nacional de Evaluación de la Educación 
Superior (incluyendo instituciones, carreras y estudiantes), el Examen Nacional para 
Certificación de Competencias de Jóvenes y Adultos (ENCCEJA), la Provinha Brasil, el 
Examen Nacional de Enseñanza Media (ENEM) y el Sistema Nacional de Evaluación de 
Educación Básica (SAEB). La Provinha Brasil mide alfabetización luego de un año de 
escolaridad. El ENEM es una prueba individual en la que participan voluntariamente los 
estudiantes al finalizar la enseñanza media. Su objetivo es dar información sobre las 
competencias y habilidades adquiridas, de modo que el estudiante pueda utilizarla con fines 
de postular a trabajos o estudios superiores. Para la educación básica existen dos pruebas: el 
SAEB y la Prova Brasil. La primera es muestral y se aplica desde 1990 cada dos años para 
medir los logros en matemática y lengua portuguesa en 4º y 8º grados de básica y 3º de 
enseñanza media. La Prova Brasil empezó a aplicarse recién en el 2005 y el 2007 de manera 
censal a los estudiantes de cuarto y octavo grados de educación básica y el tercer año de 
educación media de las escuelas públicas en áreas urbanas que tienen más de 20 estudiantes 
en esos grados. Se usa para un seguimiento más individualizado de escuelas y estudiantes y es 
relativamente nueva. 
 
Si bien algunos resultados de las pruebas de Brasil se pueden usar para altas consecuencias 
(como por ejemplo los resultados de las pruebas ENEM, para postular a universidades o 
trabajos), como también algunas pruebas subnacionales que se están aplicando en Minas 
Gerais o, más recientemente, en Sao Paulo, las hemos clasificado como de orientación mixta 
porque también se da prioridad a presentar resultados que luego pudieran utilizar diversos 
actores de forma diversa. La cantidad de información técnica y publicaciones disponibles en 
el portal del INEP es probablemente la más completa de América Latina, constituyéndose sin 
duda en un referente para lo que se podría hacer en el Perú. Lo anterior no quita una tendencia 
reciente en varios estados de Brasil por usar resultados de pruebas para definir políticas de 
16 Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira; ver http://www.inep.gov.br/. 
 14 
 
http://www.inep.gov.br/
responsabilización o accountability(vinculadas principalmente a estímulos o castigos a 
centros educativos o maestros; por ejemplo en Minas Gerais, Sao Paulo y Río de Janeiro). 
 
México (mixto) 
 
El sistema mexicano también podría ser descrito como mixto, pues combina evaluaciones de 
altas y bajas consecuencias. En México están, por un lado, las pruebas que administra la 
Dirección General de Evaluación de Políticas de la Secretaría de Educación Pública17. Estas 
pruebas, denominadas ENLACE (Evaluación Nacional del Logro Académico de Centros 
Escolares), se usan como parte del puntaje para la promoción de los docentes de los alumnos 
evaluados en el Programa Nacional de Carrera Magisterial. La carrera está orientada a 
docentes de preescolar, primaria y secundaria. El objetivo de las pruebas es llegar a 
diagnósticos de estudiantes y centros educativos. Es interesante destacar también que los 
padres o estudiantes pueden consultar sus resultados en el portal de ENLACE. En segundo 
lugar están las pruebas que administra el CENEVAL (Centro Nacional de Evaluación para la 
Educación Superior18). Estas pruebas se orientan principalmente a la admisión a centros de 
educación superior y certificación para egreso de la licenciatura (estos en diversas áreas 
especializadas). Finalmente están las pruebas y actividades del Instituto Nacional para la 
Evaluación de la Educación (INEE19). Este instituto fue creado el 2002 y al igual que el INEP 
de Brasil es un organismo público autónomo. Las evaluaciones que organiza, la principal es 
EXCALE (Exámenes para la Calidad y el Logro Educativo), se hacen en base a muestras de 
estudiantes de primaria y secundaria en español, matemática, ciencias sociales y ciencias 
naturales. Recientemente también presentaron un reporte de una evaluación con estudiantes 
de educación inicial. Anualmente producen un informe de la calidad de la educación básica en 
México. El INEE se encarga también de coordinar la participación de México en estudios 
internacionales. El portal del INEE contiene información técnica y publicaciones así como 
bases de datos de las evaluaciones realizadas que constituyen un importante referente a 
considerar para el desarrollo de actividades en el Perú; por ejemplo tiene un explorador que 
permite ver resultados en lenguaje y matemática20. En México varios estados tienen su propio 
sistema de evaluación; el caso más notable posiblemente sea Nuevo León, que participó 
autónomamente en la evaluación SERCE. 
 
Al revisar las diversas instituciones y evaluaciones organizadas en el marco del sistema 
educativo mexicano se tiene por un lado una impresión positiva de lo mucho que se ha 
avanzado y por otro una de cierta descoordinación entre instancias que, como la SEP, 
CENEVAL y el INEE, tal vez debieran fusionarse en una sola o coordinar actividades más 
estrechamente de lo que parecería ocurrir al leer sus respectivos portales. 
 
Estados Unidos (altas consecuencias) 
 
En los EEUU hay una tendencia creciente a usar evaluaciones con altas consecuencias. Estas 
se inspiraron en una convicción de muchos funcionarios de que el logro de los estudiantes 
norteamericanos era muy bajo y la solución eran políticas y programas de accountability (US 
Department of Education, 2008). Estos se organizaron alrededor de la legislación de No Child 
17 Ver http://www.snee.sep.gob.mx/. 
18 Ver http://www.ceneval.org.mx/portalceneval/index.php. 
19 Ver http://www.inee.edu.mx/. 
20 Ver http://www.inee.edu.mx/explorador/. 
 15 
 
http://www.snee.sep.gob.mx/
http://www.ceneval.org.mx/portalceneval/index.php
http://www.inee.edu.mx/
http://www.inee.edu.mx/explorador/
Left Behind21 (NCLB), aprobada por el presidente Bush el 2002. Los cuatro principios de la 
ley son: responsabilización (accountability) por resultados, brindar posibilidades para que los 
padres puedan transferir a sus hijos de escuelas con bajos resultados, más control local y 
flexibilidad por parte de los estados y distritos escolares para asignar recursos, y un énfasis en 
implementar lo que funcione bien de acuerdo a investigaciones científicas. La ley exige que 
los estados que esperan recibir financiamiento federal para sus programas educativos apliquen 
evaluaciones de aprendizajes fundamentales a todos los estudiantes en ciertos grados y 
reporten públicamente los resultados (en la actualidad 32 de los 50 estados han recibido 
aprobación completa de sus planes de NCLB). No establece estándares nacionales, ya que el 
marco legal norteamericano favorece el control local y descentralizado de las escuelas. Así, 
los estados, en el uso de su autonomía, han empleado diversos mecanismos para implementar 
esta legislación. En algunos casos, como Tennessee, se han usado mediciones repetidas de los 
estudiantes; otros, como el sistema de Dallas, recogen datos socioeconómicos y culturales 
sobre los estudiantes y sus familias y ajustan los puntajes antes de hacer comparaciones entre 
distintos grupos. Las consecuencias de los bajos logros estudiantiles son diversas en 
diferentes estados, llegando incluso al despido de docentes y directivos y cierre de centros 
educativos. La determinación de progreso se hace a veces con evaluaciones diseñadas por el 
estado o el sistema educativo en una ciudad. Los Estados Unidos cuentan además con una 
evaluación estandarizada nacional (National Assessment of Educational Progress, NAEP22) 
que permite hacer comparaciones en el tiempo. 
 
Actualmente hay una gran discusión en los EEUU, pues muchos consideran que las 
evaluaciones repetidas de los estudiantes en unas cuantas materias, promovida por NCLB, han 
llevado a efectos perversos para la educación en un sentido pleno, mientras que otros 
consideran que han llevado a cambios positivos, como por ejemplo búsqueda de mayor 
capacitación por parte de los docentes. Seguramente hay algo de verdad en ambas 
afirmaciones. Hay abundante información que sugiere la dificultad de establecer modelos de 
altas consecuencias válidos; Brown (2008) por ejemplo ha reportado que el modelo para 
asignar premios a escuelas en Carolina del Norte tenía muy poca validez pues no era 
explicativo del rendimiento de los estudiantes. A partir de esto sugirió incorporar en el 
modelo variables como nivel socioeconómico de los padres, pero aún con estas inclusiones el 
modelo de incentivos sugerido tuvo un pobre poder explicativo del rendimiento estudiantil. 
La definición operacional de modelos de altas consecuencias es sin duda un tema complejo 
que se seguirá investigando en años próximos. 
 
Chile (altas consecuencias) 
 
Existen evaluaciones de rendimiento escolar en este país desde inicios de los años 80. El 
sistema, denominado Sistema de Medición de la Calidad de la Educación (SIMCE)23, tiene 
varios propósitos. Por un lado se busca reportar los resultados de las escuelas a los padres de 
familia, que de esta forma podrían elegir a las mejores para matricular a sus hijos. Este 
mecanismo de competencia ha sido fuertemente criticado pues aparentemente no habría 
llevado a mejoras globales en el rendimiento de los estudiantes sino solo a una mayor 
segmentación, al darse cierta migración de los estudiantes de mayor nivel socioeconómico a 
21 Se podría traducir como Qué ningún niño se quede atrás; ver http://www.ed.gov/nclb/landing.jhtml o 
http://www.ecs.org/html/issue.asp?issueid=195. 
22 NAEP es conocida como “la libreta de notas del país” e incluye evaluaciones de matemática, lectura, ciencias, 
escritura, arte, cívica, economía, geografía e historia de los EE. UU. Ver http://nces.ed.gov/nationsreportcard/. 
23 Ver www.simce.cl. 
 16 
 
http://www.ed.gov/nclb/landing.jhtml
http://www.ecs.org/html/issue.asp?issueid=195
http://nces.ed.gov/nationsreportcard/
http://www.simce.cl/
las escuelas con reportes de mejor rendimiento24 y al haberse documentado que serían más 
bien las escuelas las que están seleccionando a sus estudiantes, de manera de poder 
usufructuarde los incentivos que brinda el sistema25. Por otro lado, los resultados de las 
evaluaciones, junto con otros indicadores de la escuela, son usados para otorgar incentivos a 
todos los docentes (SNED26); de esta forma se busca evitar la competencia entre docentes 
individuales y en cambio favorecer el trabajo en equipo. Finalmente se usan los resultados 
para identificar las escuelas con menor rendimiento y programar ayudas especiales. 
Recientemente también han empezado a enfatizar el trabajo con docentes, discutiendo los 
resultados pedagógicamente (v. gr. explicando lo que los estudiantes saben y pueden hacer). 
Esta acción va en línea con las recomendaciones del informe OCDE mencionado antes. 
 
1.3. Elementos comunes necesarios para evaluaciones nacionales de altas y bajas 
consecuencias 
 
Como se señaló al inicio de este capítulo, y al margen de las características de “altas” o 
“bajas” consecuencias por las que pueda haber optado un sistema, existen otros elementos 
sobre los cuales deben posicionarse todos ellos. En la literatura y descripción de 
procedimientos técnicos a menudo se encuentran los siguientes temas como relevantes para el 
desarrollo de evaluaciones. 
 
Estándares educativos 
 
El tema de estándares es amplio y no pretendemos agotarlo aquí27. Los estándares se refieren 
en general a ciertas características deseables. En educación a menudo se distinguen 3 tipos de 
estándares: de contenido, de desempeño y de procesos educativos. Los estándares de 
contenido se utilizan, principalmente, para especificar los contenidos o competencias que se 
deberían enseñar en determinados niveles de escolaridad. En el Perú, lo más cercano a ello es 
el currículo nacional vigente y sus indicadores de logro, aunque se podría argumentar que ni 
los procedimientos seguidos para su construcción, ni la rigurosidad de las expectativas que 
encierra, ni su grado de alineamiento con otros instrumentos de política educativa, justifica 
que se les pueda considerar como verdaderos estándares de contenido. Los estándares de 
desempeño, por su parte, definen dominios sobre los contenidos introduciendo 
operacionalizaciones más precisas sobre cuán bien deberían los estudiantes poder hacer 
aquello que se espera pueden hacer con lo que aprenden. En el Perú lo más cercano a estos 
estándares son los desempeños clasificados como “satisfactorios” en las evaluaciones 
nacionales realizadas por la UMC. Finalmente, los estándares de procesos educativos 
establecen ciertos criterios generales acerca de cómo deberían promoverse los aprendizajes de 
los estudiantes. El currículo nacional tiene pautas respecto de cómo debería darse la 
interacción de estudiantes y docentes en el aula, con participación activa de los primeros. 
 
De hecho la literatura y experiencia internacional sugieren que es conveniente que los 
estándares se desarrollen en un proceso compartido por múltiples actores, de modo que luego 
estos sean aceptados. Los elementos mencionados arriba – los contenidos del currículo 
24 Ver, por ejemplo, el informe de OCDE sobre el sistema educativo chileno 
(www.mineduc.cl/biblio/documento/texto_libro_ocde1.pdf) o estudio de Elacqua y Fábrega (2004). 
25 Esta sería una de las razones por las cuales se intenta estimar el grado de “selectividad“ de las escuelas antes 
de asignar algunos incentivos, o se procurará incentivar la diversificación de alumnados vía los subsidios 
preferenciales actualmente en debate en el Congreso chileno. 
26 Sistema Nacional de Evaluación del Desempeño; ver http://www.sned.cl/. 
27 Para mayores detalles sugerimos Ferrer (2006a). 
 17 
 
http://www.mineduc.cl/biblio/documento/texto_libro_ocde1.pdf
http://www.sned.cl/
nacional, los niveles de desempeño de las pruebas nacionales y las orientaciones pedagógicas 
del currículo – podrían servir como puntos de partida para el desarrollo de estándares. Este es 
sin duda un tema pendiente en la agenda educativa del Perú que tiene importantes 
consecuencias sobre el trabajo de la UMC. 
 
Normas versus criterios 
 
Los primeros modelos de evaluación educativa en América Latina, incluyendo el Perú, se 
basaron en la definición de normas. Esta tradición de evaluación proviene de la psicología, 
donde a menudo muchos atributos no tienen un criterio de dominio absoluto sino que definen 
si un sujeto tiene mayores o menores niveles en el objeto de evaluación que sus pares. Así, 
muchas evaluaciones iniciales en educación en América Latina fueron normativas, buscando 
que los estudiantes tuvieran una distribución de puntajes más o menos normal alrededor de un 
promedio de 50% del puntaje total posible. Rápidamente los educadores se dieron cuenta que 
tal modelo era limitado pues en evaluación educativa se requiere poder definir si los 
estudiantes se ubican por encima o debajo de puntajes de corte definidos de manera absoluta y 
no relativa (por ejemplo satisfactorio o no satisfactorio). Así, en la actualidad el modelo 
dominante en evaluación educativa es de criterios, que requiere definiciones detalladas del 
objeto de conocimiento (contenidas en documentos técnicos como el marco de evaluación y 
especificaciones de prueba), alineadas con un cierto cuerpo de conocimientos (por ejemplo el 
currículo) e incluye puntos de corte para diferentes niveles de rendimiento28. 
 
Comparaciones de desempeño a lo largo del tiempo: 
 
Esta es una práctica fundamental para entender cómo el sistema educativo puede o no estar 
promoviendo mejoras en los aprendizajes y brechas entre grupos de estudiantes. 
Lamentablemente en el Perú, como en muchos otros países, todavía no se ha podido 
implementar medidas técnicas que garanticen la posibilidad de hacer comparaciones 
intertemporales de los resultados de aprendizaje. Los motivos por los que no se cuenta con 
comparaciones temporales posiblemente tengan que ver con una todavía incipiente capacidad 
técnica de los equipos nacionales. Otros sistemas educativos en los cuales la evaluación es ya 
parte de su cultura institucional, tienen una larga tradición de comparaciones de rendimiento a 
través del tiempo (como por ejemplo NAEP en los Estados Unidos ha hecho comparaciones 
de rendimiento por más de 30 años). 
 
Áreas de rendimiento evaluadas 
 
Si bien potencialmente se podrían planificar evaluaciones en un mayor número de áreas del 
currículo, usualmente los sistemas nacionales priorizan lenguaje (principalmente comprensión 
de lectura) y matemática, al considerárseles pilares del currículo y claves para comprender 
otras áreas y progresar entre grados. En las evaluaciones de bajas consecuencias suele haber 
una mayor tendencia a incluir otros temas, como ciencias sociales y ciencias naturales. Otras 
áreas relevantes para un desarrollo integral de una persona o grupo, como educación física, 
artes, música e historia, suelen tener menos evaluaciones, por razones de costos (financieros y 
de tiempo necesario tanto para desarrollarlas, aplicarlas, analizarlas y utilizarlas) tanto como 
por la convicción de que la comprensión lectora y el dominio del lenguaje y del razonamiento 
matemático y científico son capacidades fundamentales sin las cuales otros aprendizajes no 
pueden lograrse. 
28 Para una mayor discusión sobre el tema ver Esquivel (2001). 
 18 
 
 
Tipos de ítems en la evaluación 
 
Crecientemente la teoría educativa ha enfatizado la importancia de evaluar a los estudiantes 
de diversas maneras, de modo que se refleje que los estudiantes tienen habilidades que no 
dependen de un tipo único de ítem. Así, las evaluaciones tradicionales, que usualmente 
usaban solo ítems de opción múltiple, han sido dejadas de lado para incluir junto a este tipo de 
ítem otros como respuestas cortas, respuestas largas (con o sin justificación), evaluación de 
escritura y expresión oral, evaluación del desempeño del estudiante en grupos para la solución 
de problemas concretos y otros en una tendenciahacia la “evaluación auténtica” (es decir 
vinculada estrechamente a situaciones que el estudiante podría encontrar cotidianamente). El 
costo y complejidad logística de formas variadas de ítems de hecho las hacen menos 
probables en evaluaciones censales (típicas de altas consecuencias) que en evaluaciones 
muestrales (típicas de sistemas de bajas consecuencias y evaluaciones internacionales). 
 
 Evaluaciones en lengua materna indígena 
 
Tendencias pedagógicas contemporáneas sugieren la importancia de aprender a leer y escribir 
en lengua materna. En países como el Perú, con una lengua dominante pero muchas lenguas 
indígenas, esto ha llevado a evaluaciones en lengua indígena y en lengua dominante como 
segunda lengua. Los ejemplos de este tipo de evaluaciones son escasos en la región pero 
comunes en Europa, ahí donde convivan varias etnias y lenguas. En muchos países de 
América Latina, incluyendo el Perú, hay dificultades para llevar adelante evaluaciones 
bilingües como por ejemplo la falta de estandarización escrita de las lenguas indígenas y la 
variación de una misma lengua entre regiones. 
 
Marcos Institucionales para las unidades de evaluación 
 
Como se vio antes, diferentes modelos institucionales para asumir las evaluaciones, pero 
siempre con presencia o representación del Estado. Así por ejemplo, hay modelos basados en 
el Ministerio de Educación, donde existe una oficina especializada en a medición de los 
rendimientos o de la calidad educativa (por ejemplo Chile). Otros modelos delegan o 
contratan, desde los ministerios de educación, la responsabilidad de la evaluación a una 
oficina externa (por ejemplo Guatemala29), que se encarga del diseño de la evaluación y 
reporte de resultados, pero siempre en coordinación con el Ministerio. Este último modelo 
parece ser cada vez menos frecuente en la región. Finalmente, más recientemente se han 
empezado a crear oficinas públicas autónomas especializadas en evaluación; es el caso de por 
ejemplo Brasil y México. Cada sistema tiene pros y contras. Las oficinas dentro del 
Ministerio podrían facilitar la comunicación con otras unidades de la misma dependencia, que 
de hecho deberían ser algunos de los principales interesados. Un punto en contra de este 
arreglo es que mantener la oficina dentro del Ministerio la puede hacer más proclive a la 
influencia de presiones políticas, que en algunos casos se pueden oponer a la transparencia de 
la información. Las oficinas públicas autónomas deberían tener relativa mayor autonomía 
política pero justamente por esto sus resultados podrían tener menor impacto en el desarrollo 
de políticas educativas. También es interesante mencionar que más allá de las oficinas 
29 Entre 1997 y 2001 el Programa Nacional de Evaluación del Rendimiento Escolar (PRONERE) estuvo a cargo 
de la Universidad del Valle de Guatemala; sin embargo desde el 2005 el Ministerio de Educación volvió a 
asumir la tarea, creando el Sistema Nacional de Evaluación e Investigación Educativa (SINEIE; ver 
www.mineduc.gob.gt/sineie/index.asp). De hecho el sistema chileno inicialmente estuvo asociado a una 
institución externa y luego pasó al Ministerio. 
 19 
 
http://www.mineduc.gob.gt/sineie/index.asp
nacionales, en muchos países (sobre todo con sistemas descentralizados) se encuentran 
oficinas regionales que conducen sus propias evaluaciones para fines distintos que los de la 
oficina nacional; es el caso por ejemplo de varios estados en Brasil con evaluaciones de altas 
consecuencias y México con estados que deciden participar autónomamente en evaluaciones 
internacionales (como PISA y LLECE; ver más adelante). 
 
Factores asociados al rendimiento escolar: el controvertido tema de la causalidad 
 
Una de las preocupaciones centrales en la investigación aplicada en ciencias sociales y en 
particular en las aplicaciones a los temas educativos, es la identificación de variables y 
mecanismos que contribuyan a explicar los resultados educativos y, en particular, los 
aprendizajes de los estudiantes. Estas variables y mecanismos pueden, eventualmente, ser 
empleados en el diseño de programas y políticas para mejorar los resultados de los procesos 
educativos. 
 
En las ciencias sociales, al menos desde un enfoque cuantitativo, los diseños experimentales 
han sido los preferidos para establecer relaciones de causalidad. En estos diseños 
experimentales un grupo de estudiantes (o escuelas) son asignados aleatoriamente a la 
condición de tratamiento (cualquiera que esta sea, por ejemplo introducir un nuevo método de 
enseñanza), y otro grupo funciona como control (que seguiría con la condición regular de 
aprendizaje). La asignación aleatoria cumpliría la función de equiparar a los grupos en las 
características de entrada (siempre y cuando el número de unidades asignado a cada grupo sea 
grande, por ejemplo 30 por grupo o más). Hay otros diseños para explorar relaciones de 
causalidad, como por ejemplo las mediciones repetidas de estudiantes que han pasado por 
diversas experiencias escolares. Sin embargo, los análisis multivariados30 que se suelen hacer 
en los sistemas de evaluación estandarizados del rendimiento escolar no usan un diseño 
experimental, longitudinal ni otros más afines a modelos causales explicativos. Lo que se 
suele hacer es analizar asociaciones entre el rendimiento, medido en un solo momento, con 
características del estudiante, su familia y su centro educativo. Pensamos que en general estos 
análisis de una sola evaluación deberían ser considerados principalmente como asociaciones 
que lleven a nuevos estudios y no estrictas asociaciones de causalidad. El problema principal 
para asignar causalidad en estos estudios es cómo aislar el efecto de la escuela del efecto de 
los estudiantes y sus familias, que podrían haber elegido ciertas escuelas y por tanto ellos ser 
las variables explicativas. Esto se denomina en la literatura “autoselección”31. 
 
1.4. Evaluaciones internacionales de rendimiento escolar 
 
Desde los años 60, instituciones como la IEA32 han realizado evaluaciones de rendimiento de 
los escolares. Si bien lo que se quiere saber y el uso que se ha dado a los resultados ha ido 
30 Casi todos, sino todos los sistemas de evaluación, incluyen en alguna de sus evaluaciones estandarizadas la 
recolección de un amplio conjunto de información de insumos, procesos y contexto. Se suele administrar 
cuestionarios a diferentes actores (v. gr. estudiantes y sus padres, docentes y directores) y fichas de observación 
escolar para analizar la relación entre estas características y el rendimiento. 
31 Si bien es cierto que en las últimas dos décadas han aparecido diversos métodos estadísticos para intentar 
solucionar el problema de autoselección, como por ejemplo apareamiento (matching) o uso de variables 
instrumentales, desde una perspectiva más rigurosa sugerimos tomar incluso estos resultados como asociaciones, 
aunque ciertamente más cercanas de dar una explicación causal que una correlación. Por otro lado, los análisis 
jerárquico multinivel (HLM), tan populares recientemente en educación, no solucionan el problema de 
autoselección aunque sí contribuyen a mejorar las estimaciones de error estándar al dividirlo en diferentes 
niveles (típicamente del estudiante y su familia, del aula, de la escuela y la comunidad). 
32 International Association for the Evaluation of Educational Achievement; ver http://www.iea.nl/. 
 20 
 
http://www.iea.nl/
cambiando con el tiempo, bien se podría decir que el propósito principal de estas evaluaciones 
es el conocimiento detallado de lo que los estudiantes en diferentes países saben y pueden 
hacer y el uso ha sido en todos los casos de bajas consecuencia para los países participantes 
(aún cuando sus repercusiones, sobre todo a través de la difusión que da la prensa a 
resultados, a menudo considerados catastróficos, pudieran ser grandes para el sistema, porejemplo desprestigiando la profesión docente). Más allá de las intenciones con que se han 
realizado estas evaluaciones, es claro que las repercusiones que han tenido han sido 
principalmente para ubicar el rendimiento de los estudiantes de cada país en un cierto lugar 
del ranking internacional (lo que a menudo se ha denominado “carrera de caballos”). Si bien 
los especialistas a menudo han criticado este uso, los medios se han encargado de resaltarlos y 
al hacerlo se ha logrado mucha repercusión en la opinión pública. En el siguiente cuadro se 
presentan algunas de las principales evaluaciones internacionales vigentes actualmente y la 
participación del Perú en ellas. 
 
Los informes internacionales contienen información bastante detallada del rendimiento de los 
estudiantes en áreas específicas. Para manejar la variedad de contenidos resultante es 
necesario tener un número y variedad de ítems considerable, por lo que en general recurren a 
formatos de formas rotadas (tal como fueron descritos antes). Más allá de los valiosos 
informes pedagógicos, existen también informes de variables asociadas al rendimiento, que 
provienen de cuestionarios y fichas administradas a estudiantes, sus docentes y directores y 
las características del centro educativo (son pocas las que incluyen también encuestas a padres 
de familia; las de LLECE son una excepción). Además de la red de LLECE para América 
Latina, existe una para países del sur y este de África que ha completado dos evaluaciones del 
rendimiento escolar33. 
 
33 Southern and Eastern Africa Consortium for Monitoring Eucational Quality (ver http://www.sacmeq.org/.) 
 21 
 
http://www.sacmeq.org/
 
Cuadro 1.2. 
Características de las principales evaluaciones internacionales del rendimiento escolar 
Nombre Institución 
que la 
organiza 
Objeto de evaluación Años en que 
se ha 
administrado 
Participación 
del Perú 
Laboratorio 
Latinoamericano de 
Evaluación de la 
Calidad Educativa 
(LLECE)34 
UNESCO Rendimiento en comprensión 
de lectura, matemática y 
ciencias en estudiantes de 
varios grados de primaria 
1997 y 2006 En las dos 
Progress in 
International 
Reading Literacy 
Study (PIRLS) 
IEA Comprensión de lectura en 
estudiantes de cuarto grado 
1997 y 2006 Nunca 
Trends in 
International 
Mathematics and 
Sciences Study 
(TIMSS) 
IEA Matemática y ciencias en 
varios grados de primaria y 
secundaria 
1995, 1999, 
2003 y 2007 
Nunca 
Programme for 
International 
Student Assessment 
(PISA)35 
OCDE Habilidades en comprensión 
de lectura, matemática y 
ciencias en estudiantes de 15 
años matriculados en 
educación secundaria. 
2000, 2003 y 
2006 (2009) 
En 
2001(PISA 
Plus) y se 
prevé 
nuevamente 
en el 2009 
International Civic 
and Citizenship 
Education Study 
(ICCS) 
IEA Conocimientos y habilidades 
en educación cívica y 
ciudadana en estudiantes de 
8º grado 
1999 (2009) Nunca 
 
Al igual que con las evaluaciones nacionales de bajas consecuencias, las evaluaciones 
internacionales, al menos en el caso peruano, han tenido poco uso. Así, en nuestro país las 
evaluaciones internacionales han tenido repercusión en tanto la prensa ha resaltado el bajo 
rendimiento de nuestros estudiantes. Incluso algunos lectores poco precavidos han dicho y 
repetido información falsa36. Los informes de resultados y de factores asociados contienen 
información detallada relevante que podría llevar a repensar instrumentos pedagógicos 
fundamentales como la formación y capacitación docente, los materiales educativos 
(principalmente los textos) y el currículo mismo, así como usar los estándares de desempeño 
internacionales para comunicar a diferentes audiencias en el Perú qué nivel de exigencia es 
requerido para considerar que un estudiante tiene un rendimiento satisfactorio. Por otro lado, 
participar en evaluaciones de alto nivel técnico como PISA ha tenido un importante efecto en 
la especialización del personal técnico de la UMC, que ha logrado incorporar algunos de los 
procedimientos considerados “estados del arte” en evaluación a las pruebas y procedimientos 
en el Perú. 
34 Ver http://llece.unesco.cl/esp/. 
35 Ver http://www.pisa.oecd.org/pages/0,2987,en_32252351_32235731_1_1_1_1_1,00.html. 
36 Por ejemplo algunos analistas han dicho y repetido que en la primera evaluación LLECE solo resultamos por 
encima de Haití, cuando este país no participó en la evaluación; otros que nuestros estudiantes son los de más 
bajo rendimiento mundial cuando en realidad la evaluación PISA incluyó principalmente a estudiantes de países 
industrializados. Nada de esto es para negar los bajos resultados de los estudiantes peruanos, confirmados en 
cuanta evaluación nacional e internacional se ha hecho, sino para sugerir que los interesantes datos producidos 
por la UMC deben ser interpretados con rigurosidad. 
 22 
 
http://llece.unesco.cl/esp/
http://www.pisa.oecd.org/pages/0,2987,en_32252351_32235731_1_1_1_1_1,00.html
 
A pesar de que no está dirigida a estudiantes, es interesante resaltar el estudio de la IEA sobre 
Profesores de Matemática37. Se trata de un estudio dirigido a entender cómo se preparan los 
docentes de matemática para enseñar en primaria y los primeros grados de primaria en 
diversos países. Este estudio está actualmente en curso y por tanto no podríamos participar, 
pero puede estar anunciando una tendencia hacia analizar de manera comparativa un factor 
fundamental en el aprendizaje de los estudiantes, como es el docente y sus prácticas en el 
aula. Estudios como el mencionado pueden aportar a comprender cómo aprenden los 
estudiantes en el aula, llevando así a sugerencias de política para la formulación de textos 
escolares, la formación y capacitación docente y la supervisión de docentes en las escuelas, 
por mencionar algunas posibles aplicaciones. 
 
Es importante notar que varios de los anteriores estudios tienen previstas nuevas rondas de 
evaluación para los próximos años, en las que el Perú podría participar, siempre y cuando esta 
participación fuera coherente con sus planes de desarrollo educativo38. 
 
1.5. Algunas conclusiones sobre las experiencias de evaluaciones nacionales e 
internacionales del rendimiento escolar 
 
Se ha convertido casi en un lugar común decir que los indicadores tradicionales de cantidad 
en educación, vinculados principalmente a matrícula, repetición y deserción, se han 
convertido en insuficientes para describir las características de los sistemas educativos 
latinoamericanos, ahora que la cobertura (al menos en primaria) es bastante alta. La 
preocupación internacional de países y organismos internacionales (ver por ejemplo Vegas y 
Petrow, 2008) es por la calidad educativa, reflejada principalmente en puntajes en pruebas 
estandarizadas de rendimiento administradas a los estudiantes. Así, las pruebas se han 
convertido de manera creciente en un indicador necesario para describir muchos sistemas; 
cómo se deberían utilizar los resultados para mejorar la calidad educativa es un tema en 
debate. Como se ha intentado reflejar en el presente informe, no hay respuestas unívocas y los 
temas en discusión han ido enfocados de diferente manera entre países, e incluso hay grandes 
variaciones en algunos casos al interior de un mismo país39. Como se ha sugerido arriba, 
muchos países han intentado, con mayor o menor consistencia, integrar diferentes 
componentes en sistemas de evaluación que respondan a algunos de los principales retos en 
cada país, pero al leer las experiencias internacionales uno queda con la sensación de que no 
se trata de modelos acabados sino en constante revisión. 
 
En un contexto de generalización de la presencia de evaluaciones estandarizadas de 
rendimiento escolar en toda la región, se nota el inicio de una suerte de confluencia entre los 
sistemas más orientados hacia la “responsabilización” y las altas consecuencias y aquéllos 
más orientados hacia el diagnóstico

Continuar navegando