INF2008-Informe-sistema-evaluacion-para-UMC

•

Outros

Aprendiendo Juntos

9/12/2022

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Resúmenes

69.689 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Balance y Perspectivas de Desarrollo para la
Unidad de Medición de la Calidad Educativa
del Ministerio de Educación de Perú

Patricia Arregui , Santiago Cueto y José Rodríguez

Diciembre del 2008

ÍNDICE

Presentación .............................................................................................................................. 4
Capítulo 1 .................................................................................................................................. 5
Tendencias internacionales de las evaluaciones de los aprendizajes escolares ................... 5
1.1. Sobre los fines y opciones críticas que determinan las características principales de
los sistemas de evaluación estandarizada de los logros de aprendizaje escolar ................. 5
1.2. Altas o bajas consecuencias ............................................................................................. 7
1.2.1. Evaluaciones de bajas (o ninguna) consecuencias ............................................. 8
1.2.2. Evaluaciones de altas consecuencias ................................................................ 10
1.2.3. Ejemplos de sistemas nacionales de evaluación ............................................... 13
1.3. Elementos comunes necesarios para evaluaciones nacionales de altas y bajas
consecuencias .......................................................................................................................... 17
1.4. Evaluaciones internacionales de rendimiento escolar................................................. 20
1.5. Algunas conclusiones sobre las experiencias de evaluaciones nacionales e
internacionales del rendimiento escolar ............................................................................... 23
Anexo del capítulo 1. .............................................................................................................. 25
Capítulo 2 ................................................................................................................................ 26
El desarrollo de la UMC ........................................................................................................ 26
2.1. Breve recuento del desarrollo de la Unidad de Medición de la Calidad Educativa .. 26
2.1.1. Los inicios .......................................................................................................... 26
2.1.2. La transición: el cambio de modelo de evaluación ............................................ 29
2.1.3. Consolidación institucional................................................................................ 31
2.2. La difusión de resultados ................................................................................................ 33
2.2.1. La difusión de resultados en los inicios (1994-98) ............................................ 33
2.2.2. La difusión de resultados durante la Transición y el cambio de modelo de
evaluación (1998-2004) ............................................................................................... 35
2.2.3. La difusión de resultados durante la consolidación institucional (2004 en
adelante) ....................................................................................................................... 37
2.3. Temas polémicos transversales a los tres períodos ...................................................... 38
2.4. Balance preliminar del desarrollo de actividades realizadas por la UMC ................ 40
Anexo 1 del capítulo 2. ........................................................................................................... 42
Anexo 2 del capítulo 2 ............................................................................................................ 47
Difusión de resultados – UMC .............................................................................................. 47
Capítulo 3 ................................................................................................................................ 52
Rediseño del Sistema de Evaluación del Rendimiento Estudiantil Preliminar ................ 52
3.1. Introducción: El Proyecto Educativo Nacional y la evaluación educativa ............... 52
3.2. Finalidad y objetivos, estrategia y principios de la UMC ........................................... 55
3.3. Principios para el trabajo de la UMC ........................................................................... 56
3.4. Estrategia general para el corto y mediano plazos ....................................................... 57
3.5. Mediciones: diseño y programación de las evaluaciones del rendimiento escolar .... 58
3.5.1. Modelos propuestos ............................................................................................ 59
3.5.1.1. Modelo A ......................................................................................................... 59
3.5.1.2. Modelo B ......................................................................................................... 64
3.6. Participación de la UMC en evaluaciones internacionales .......................................... 71
2
3.7. Estrategias de comunicación e involucramiento de la UMC en el desarrollo de
políticas educativas ................................................................................................................. 72
3.8. Organización .................................................................................................................... 76
Capítulo 4 ................................................................................................................................ 77
Balance y perspectivas ........................................................................................................... 77
Referencias .............................................................................................................................. 80
3

Balance y Perspectivas de Desarrollo para la Unidad de Medición de la Calidad
Educativa del Ministerio de Educación de Perú1

Patricia Arregui2, Santiago Cueto3 y José Rodríguez4
Diciembre del 2008

Presentación

Desde 1996 la Unidad de Medición de la Calidad Educativa (UMC) del Ministerio de
Educación ha venido administrando periódicamente evaluaciones nacionales de logros de
aprendizaje en varias áreas curriculares a estudiantes de diversos grados de primaria y
secundaria. También ha participado en tres evaluaciones internacionales de rendimiento5. Ha
publicado reportes y difundido resultados de esas evaluaciones y guías para facilitar su
utilización por parte de las escuelas como insumo para el planeamiento de actividades
pedagógicas y de gestión escolar.

Transcurrida más de una década de intensa, productiva y reconocida actividad, y en el marco
de nuevas demandas y nuevos contextos para su accionar, la UMC ha considerado necesario y
conveniente desarrollar un plan de desarrollo institucional de mediano plazo. Ha solicitado
para ello la realización de una consultoría que le sirva de insumo para un proceso de reflexión
al respecto.

El propósito principal de esta consultoría es presentar alternativas a la UMC para su trabajo
futuro desde el Ministerio y/o con otras instancias. Para ello, en este primer capítulo se hace
un balance de las tendencias o alternativas de orientación de las evaluaciones nacionales e
internacionales de logros de aprendizaje escolar en que están involucrados los países del
continente. El segundo capítulo revisa de manera crítica las evaluaciones y el uso que
diversos actores han dado a la información generada en el Perú por la misma UMC. El tercer
capítulo contiene una propuesta, emergente de lo visto en los 2 primeros capítulos, para el
desarrollo de la UMC. El cuarto capítulo contiene un breve resumen del presente informe.

Es conveniente destacar que si bien inicialmente el trabajo de la UMC se planificó alrededor
delas evaluaciones estandarizadas nacionales e internacionales del rendimiento escolar
administradas a estudiantes matriculados en educación básica, a lo largo del tiempo se han ido
adicionando algunas otras responsabilidades y pedidos. Estos han incluido la asesoría a
diversas oficinas dentro del Ministerio de Educación, otros organismos del Estado y oficinas
regionales de educación, pero también en algunos casos se ha asumido responsabilidades en
áreas de evaluación como por ejemplo el concurso de selección de docentes. En el segundo y
tercer capítulos se comenta más sobre el rango de actividades posibles para la UMC pero
advertimos aquí nuestra postura respecto de que es importante acotarlo y no extenderlo más
allá de lo que es posible hacer de manera adecuada dados los recursos disponibles y los plazos
disponibles en cada caso.
1 Este documento fue elaborado por encargo de la UMC.
2 Investigadora Principal de GRADE.
3 Investigador Principal de GRADE.
4 Profesor Principal de la PUCP.
5 En este documento se utilizarán indistintamente los términos “rendimiento escolar”, “rendimiento estudiantil” y
“logros de aprendizaje escolar”.
4

Capítulo 1
Tendencias internacionales de las evaluaciones de los aprendizajes escolares

1.1. Sobre los fines y opciones críticas que determinan las características principales de
los sistemas de evaluación estandarizada de los logros de aprendizaje escolar

Las características principales de los sistemas de evaluación estandarizada de los logros de
aprendizaje escolar están – o deberían ser – definidas en función de las finalidades y los
mecanismos a través de los cuales se busca alcanzar dichas finalidades. Es claro que todos los
sistemas de evaluación tienen como objetivo general, de una u otra forma, contribuir con la
mejora de los sistemas educativos, en particular en lo que se refiere a los aprendizajes de los
estudiantes. En lo que suelen diferenciarse los sistemas de evaluación es en la manera como
buscan contribuir con la mejora educativa, en particular, los mecanismos que usan para ello.

Resulta muy ilustrativo observar que las diferentes finalidades de los sistemas de evaluación
identificadas en por Ravela et al. (2001, p. 7) y luego ampliadas en Arregui (2001). Son 19
posibles finalidades de los sistemas de evaluación identificadas en las experiencias nacionales
en los países de la región (ver Cuadro Nº 1).

Aún cuando las anteriores fueron planteadas a inicios de la década, siguen teniendo vigencia
cuando se analiza lo que efectivamente hacen los sistemas nacionales de evaluación. Nuestro
propósito al incluirlos no es discutir cada uno en profundidad sino solo sugerir al lector un
abanico de posibilidades para los sistemas de evaluación, enfatizando además que no se trata
necesariamente de objetivos excluyentes. Más adelante se presenta una clasificación posible
de estos sistemas, retomando algunos de los puntos mencionados arriba para discutirlos.

Diversas publicaciones del Grupo de Trabajo sobre Estándares y Evaluación (GTEE) del
PREAL6 han sostenido que en muchos países de la región que crearon sus sistemas de
evaluación durante los años noventa fue insuficiente la reflexión inicial acerca de los fines
específicos que se esperaba persiguieran dichos sistemas de evaluación y sobre las
características técnicas que deberían tener los instrumentos para adecuarse a esos fines:

Muchos países han trabajado a partir de un propósito general de informar sobre los
resultados del sistema educativo para contribuir a su mejoramiento, pero sin diseñar
una estrategia más específica. Por otra parte, es bastante común que las autoridades
ministeriales comiencen a demandar, sobre la marcha, que las evaluaciones sirvan
para nuevos propósitos o que aporten información para fines para los que no fueron
diseñadas. (Ravela et al, 2001: 8)

No llama mucho la atención, por lo tanto, que tras una primera etapa de instalación de
capacidades y experiencia, casi todos los sistemas de evaluación hayan revisado sus objetivos
y estrategias y considerado orientaciones alternativas para guiar su quehacer. Más adelante se
presentan ejemplos de sistemas nacionales que muestran la diversidad y coincidencia en fines
y procedimientos de los sistemas nacionales.
6 Ver http://www.preal.cl/Grupo2.asp?Id_Grupo=3.
5

http://www.preal.cl/Grupo2.asp?Id_Grupo=3

Cuadro 1.1.
Finalidades diversas que pueden perseguir los sistemas de evaluación
de logros de aprendizaje escolar (Arregui, 2001, pp. 7-8)

1. Informar a la opinión pública y generar una cultura social de la evaluación.
2. Contribuir a la generación de conocimiento, proporcionando insumos para la investigación
aplicada sobre el funcionamiento de los sistemas educativos, las prácticas de enseñanza, el
impacto de las variables sociales sobre el aprendizaje de los niños (también identificar los
factores determinantes del logro) y los tipos de intervenciones más efectivos para mejorar los
aprendizajes.
3. Construir un “mapa de situación” del sistema educativo con el fin de identificar áreas o
unidades prioritarias de intervención y tipos de intervenciones necesarias, de manera de
garantizar igualdad de oportunidades de aprendizaje y focalizar consecuentemente los
recursos.
4. Comunicar valores y expectativas de logros.
5. Motivar mejoras y logros vía la comparación, competencia o emulación.
6. Alertar a la opinión pública sobre deficiencias en los resultados de los sistemas educativos y
la necesidad de que se apoye intervenciones para su mejoramiento.
7. Identificar metas claras, mensurables y comunicables, centradas en los aprendizajes, para los
esfuerzos de mejoramiento del sistema educativo, que faciliten la movilización y apoyo de la
opinión pública y otros responsables.
8. Devolver información a las escuelas y maestros para que éstos examinen en detalle los
resultados de su trabajo y mejoren sus prácticas pedagógicas.
9. Brindar a los padres de familia información que les permita evaluar y controlar la calidad de
las escuelas.
10. Contribuir a establecer (o monitorear logro de) estándares de calidad para el sistema
educativo.
11. Certificar el dominio de un núcleo de conocimientos y capacidades o competencias por parte
de los alumnos que finalizan un determinado nivel de enseñanza.
12. Seleccionar u ordenar a los estudiantes (o a escuelas o jurisdicciones) para acreditar su
elegibilidad para ciertos privilegios, acceso a programas o, incluso, sanciones.
13. Evaluar el impacto de políticas, innovaciones o programas específicos.
14. Retroalimentar el currículo y los planes de estudio.
15. Realizar estudios de tipo costo-beneficio, que orienten las decisiones para una distribución
más eficiente y efectiva de recursos siempre escasos.
16. Contar con argumentos persuasivos para obtener mayores recursos del presupuesto público o
proponer cambios en orientaciones generales del sistema educativo.
17. Demostrar el peso del factor docente en los aprendizajes e influir en la formación,
capacitación y desempeño de los maestros.
18. Evaluar la productividad de los maestros a los efectos de establecer un sistema adecuado de
incentivos.
19. Promover una responsabilización efectiva de todos o algunos de los actores involucrados en
los procesos educativos, incluyendo a los propios alumnos.

El Perú no es una excepción a lo anterior. Como se verá en el segundo capítulo, en el cual se
analizará la trayectoria de la UMC desde su creación, su desarrollo ha requerido la
confrontación de diversos dilemas que fueron apareciendo a lo largo de los años. Lo que se
busca aquí es contribuir a la formulación de un plan de desarrollo de mediano plazo que
conteste cuestiones tales como:

¿Qué áreas del currículo han de ser evaluadas, con qué frecuencia y en qué grados?
¿Qué y cuánto espacio debe darse a las evaluacionesinternacionales en el quehacer de
la Unidad de Medición de la Calidad?
6
¿Cuáles son los pros, contras y viabilidad de las evaluaciones censales y las
muestrales?
¿Cuál es mejor forma de hacer llegar los resultados a diversos públicos objetivo,
buscando maximizar su impacto en la mejora de la educación peruana?
¿Es posible para la UMC contar con la autonomía necesaria si está instalada dentro del
Ministerio de Educación?
¿Conviene atar los resultados a algún tipo de consecuencia para autoridades,
especialistas, docentes, alumnos?
¿Qué papel debe cumplir la UMC en la asesoría de otras unidades, dentro y fuera del
Ministerio de Educación, con interés en la evaluación del rendimiento escolar?

Varias de estas preguntas pueden quizás enmarcarse en una cuestión anterior, que es el lugar
en que se pretende colocar al sistema de evaluación en una suerte de continuo que se mueve
entre la responsabilización (accountability), o altas consecuencias, y el apoyo formativo al
mejoramiento, o bajas consecuencias. En el primer modelo se usan los resultados de las
evaluaciones para tomar decisiones que afectan a los individuos, instituciones y/o sistemas
evaluados de maneras predefinidas; en el segundo se usa la información de las evaluaciones
para mejorar la calidad de insumos y procesos educativos, esperando que estos tengan un
impacto en los resultados, pero sin tomar decisiones de altas consecuencias en base a los
resultados. Si bien ambos modelos podrían ser vistos como complementarios, paralelos y
atendibles con un mismo sistema, en la práctica (y desde la teoría educativa), a menudo han
sido percibidos como antagónicos e incompatibles, aunque ciertamente en ambos se busca la
mejora de los rendimientos de los estudiantes. Se podría afirmar sin embargo que en la
actualidad en varios países de la región se está dando consideración al grado en que los
sistemas de evaluación pueden y deben servirse de ambos modelos. Más adelante se discute
con mayor detalle este tema.

Si bien en el Perú el enfoque adoptado hasta el momento ha sido de bajas consecuencias, no
se puede soslayar el hecho de que efectivamente – y como se verá más adelante – existen
actualmente propuestas, presiones de diversos actores y medidas concretas que inducen a
moverse hacia un sistema de altas consecuencias. En la siguiente sección se describen algunas
de las características principales de cada uno de estos dos modelos y presentan ejemplos de
algunos sistemas de evaluación de otros países7.

1.2. Altas o bajas consecuencias

Todos los sistemas de evaluación buscan, de una u otra forma, generar información para
mejorar los sistemas educativos. Sin embargo, la manera como buscan contribuir con la
mejora no es la misma. Los sistemas usan diferentes diseños y una forma de diferenciarlos es
de acuerdo a los mecanismos que utilizan para inducir ciertos comportamientos entre los
distintos actores del sistema educativo que contribuyan a mejorar los sistemas educativos.

Los sistemas de altas consecuencias usan un sistema de incentivos a través del cual se busca
inducir el mejor desempeño de los actores directamente vinculados a los procesos educativos
y sus resultados. Para ello en el sistema de incentivos se señalan metas de rendimiento
específicas y se anuncian consecuencias positivas por lograrlos o negativas en caso contrario.
Por oposición, los sistemas de bajas consecuencias no cuentan con un sistema de incentivos
que penalice o premie a los agentes pero buscan que diversos actores usen la información para
7 La presentación de ejemplos es bastante corta; para una discusión en mayor profundidad de diferentes modelos
ver por ejemplo Arregui y McLauchlan (2005) y Ferrer (2006b).
7

mejorar la calidad de los insumos y procesos educativos, anticipando que estos tendrán
consecuencias positivas sobre el rendimiento escolar. A continuación una breve descripción
de ambos modelos, empezando por el segundo.

1.2.1. Evaluaciones de bajas (o ninguna) consecuencias

Entre los sistemas con bajas consecuencias hay una familia de diseños distintos. Todos miden
los logros de aprendizaje, pero no todos evalúan con la misma profundidad ni cobertura los
aprendizajes, ni evalúan el contexto y las condiciones en las que se dan los aprendizajes de la
misma forma. Tampoco son homogéneos en cuanto a la información que brindan ni en el
público al que se dirigen.

Estos sistemas buscan principalmente conocer los logros de aprendizaje de los estudiantes.
Para ello suelen hacer mediciones detalladas de los logros que los estudiantes deberían haber
logrado en un momento determinado de su escolaridad (por lo general al final de
determinados grados o años de estudios que representen hitos de transición, como podrían
serlo los distintos ciclos de la educación básica). La base de estos análisis es a menudo el
currículo. Muchos de los sistemas de evaluación de este tipo hacen las mediciones en
muestras de escuelas y de estudiantes, aunque algunos sistemas de bajas consecuencias han
realizado evaluaciones censales.

El uso que se da a estas evaluaciones es principalmente formativo, es decir, se busca
retroalimentar los procesos de gestión pedagógica escolar de manera de inducir respuestas
orientadas a obtener mejores resultados. Así, por ejemplo, los resultados son presentados a
escala nacional y regional y se reportan resultados globales en un área (por ejemplo
matemática, lenguaje, ciencias naturales y ciencias sociales) y desagregados por algunas de
las principales unidades del currículo (por ejemplo competencias del currículo de
matemática). El propósito de estos reportes es que algunos actores utilicen la información y la
incorporen en sus planes de trabajo. Entre los principales actores, que aquí llamaremos clave
por su importancia para modificar las prácticas y resultados educativos desde su gestión
inmediata, están miembros del Gobierno, como por ejemplo congresistas, diversas
autoridades del Ministerio de Educación y del Ministerio de Economía y Finanzas,
especialistas a cargo de capacitación o formación de docentes y directores, y autores de textos
escolares y editoriales a cargo de su publicación. Adicionalmente, estos resultados se reportan
a la prensa, de modo que se movilice a la opinión pública en la búsqueda de mejores
resultados8. Otro grupo de interés son los investigadores, que a menudo analizan los logros de
aprendizaje de los estudiantes cruzándolo con características individuales, familiares y de sus
centros educativos, con el propósito principal de estimar asociaciones para acumular
conocimiento, además que luego sus resultados pudieran ser considerados para el desarrollo
de políticas. Finalmente se encuentran representantes de organismos nacionales e
internacionales que procuran estos resultados para reportar la situación del país y en ocasiones
sugerir o planificar acciones o programas (por ejemplo diseño de programas con poblaciones
específicas o seguimiento de las metas de algún programa internacional, como por ejemplo
Educación para Todos).

Estas evaluaciones, cuando son de gran detalle, requieren alta sofisticación técnica en la
elaboración de instrumentos. Así por ejemplo, para capturar los logros de aprendizaje no solo
8 La prensa, sin embargo, suele requerir información sobre resultados globales que sean “noticia” (por ejemplo
porcentaje que logra un nivel satisfactorio en determinada competencia) y no el detalle de resultados que podría
ser de utilidad para otras audiencias.
8

en un área (p. e. matemática) sino en las diferentes competencias al interior de matemática, se
requiere un gran número de ítems que den validez de contenido al instrumento. Dado que es
imposible administrar demasiados ítems a cada estudiante se recurre a procedimientos
técnicos, como por ejemplo la rotación de ítems entre estudiantes. Así, cadaestudiante
resuelve solo algunos de los ítems necesarios para evaluar una competencia, pero todos los
estudiantes en su conjunto resuelven todos los ítems de manera que hay ítems que son
compartidos por subgrupos de estudiantes. Con esta información es posible estimar la
probabilidad de cada estudiante de contestar todos los ítems aún cuando en la práctica no lo
haya hecho. Ello se hace estimando la habilidad de los estudiantes en los ítems que
efectivamente respondió, para extrapolarla a los que no respondió. Usualmente no se
considera necesario administrar estas pruebas de manera censal sino que se administran a una
muestra de estudiantes que permita luego tener representatividad para los estratos de interés
(por ejemplo, el país y las regiones políticas, realizando luego otras desagregaciones como
urbano-rurales, hombres-mujeres y escuelas públicas-privadas).

Se podría argumentar que las mediciones que se obtienen de cada estudiante (e incluso de
cada escuela) son imprecisas, debido a que se le evalúa con solo algunos de los ítems (y a la
escuela con sólo la población de estudiantes de un aula de cada grado y rara vez en más de un
aula). Ya que, por definición, mientras más evaluaciones válidas y confiables estén
disponibles para cada individuo y cada escuela, mayor será la precisión de la medición, el
contar con mediciones de solo algunos estudiantes en una sola ocasión hace en primera
instancia objetable el “devolver” resultados a nivel de individuo y escuela. Sin embargo, visto
que las personas que participan en una evaluación tienen derecho a la información, en muchos
países se devuelve información de la evaluación. En estos reportes a menudo se presentan los
resultados de la escuela, e inclusive de los estudiantes, y de escuelas similares (de hecho se ha
empezado a hacer esto en el Perú recientemente). Cuando se devuelven resultados es
importante hacer explícitas las limitaciones de la evaluación. En otras palabras, una medición
de un individuo (o escuela) con un instrumento en una oportunidad siempre puede tener
errores (por ejemplo ese día el estudiante se sintió mal por algún motivo o la escuela tuvo una
asistencia por debajo de lo normal). Estos errores de estudiantes o escuelas individuales no
son tan relevantes a nivel de la muestra pues el conjunto de instrumentos administrados se
anulan, permitiendo estimar promedios para un grupo que representa a una población dentro
de márgenes de error muestral conocidos y tolerables.

Las evaluaciones de bajas consecuencias, sumadas a análisis de los factores asociados al
rendimiento y estudios cualitativos sobre la relación entre ciertos procesos pedagógicos o de
gestión institucional y los resultados, pueden generar no sólo ricos y estimulantes informes
sobre lo que los alumnos han aprendido, sino valiosas pistas para la acción de mejoramiento.
De hecho hay sistemas educativos, como el brasileño (ver más abajo), que tienen una larga
tradición en este sentido.

Las críticas principales de los sistemas de bajas consecuencias aluden al escaso uso que varios
de los actores clave dan a la información. El supuesto fundamental del modelo de bajas
consecuencias es que si se genera información interesante, los actores clave la buscarán y
utilizarán de diversas formas para mejorar su labor. Tal hecho no suele ocurrir, ni en el Perú
ni en otros países. La responsabilidad podría estar en los que producen la información, que
por lo general han encontrado difícil presentar los resultados en formas relevantes para las
diversas audiencias, exagerando tal vez en la presentación de información técnica que no
9
debería constituir el fin sino solo el medio9. El poco uso de la información también podría ser
explicado por la formación de muchos de estos actores, que a menudo no están
acostumbrados a revisar informes con información estadística como la que suelen contener los
reportes de resultados. Pero no se puede descartar que sin importar lo que se haga los actores
clave que se quiere influenciar –por ejemplo, las autoridades, los especialistas, los formadores
de docentes y los editores de textos- no usen información a menos que sea de utilidad
inmediata para ellos. En este contexto, los modelos de accountability sí acarrean
consecuencias que casi hacen obligatoria la consulta de resultados a los actores interesados,
como se verá a continuación.

1.2.2. Evaluaciones de altas consecuencias

En las evaluaciones de altas consecuencias, al igual que las de bajas consecuencias, lo que se
evalúa es el dominio por parte de los estudiantes de un cierto cuerpo de conocimientos. En lo
que se diferencian fundamentalmente es en el uso de los resultados. En altas consecuencias
los resultados de las pruebas son empleados para definir consecuencias individualizadas para
los docentes, directivos, estudiantes o incluso autoridades educativas.

Por lo general los sistemas de altas consecuencias no buscan tener resultados muy detallados
por competencias, como los que se procuran en las evaluaciones de bajas consecuencias, sino
solo saber si los estudiantes han logrado un cierto nivel de aprendizajes. Por tanto, en el
diseño de las pruebas de este tipo de evaluación, no se suelen emplear complejidades técnicas
mayores, como por ejemplo el uso de formas rotadas mencionado antes para evaluaciones de
bajas consecuencias.10 Las decisiones que se toman en base a estas pruebas pueden involucrar
a uno o varios de los actores: estudiantes, docentes (individualmente o como grupo en una
escuela), directivos de escuela y/o el centro educativo en su conjunto, llegando incluso a
consecuencias para autoridades educativas regionales11.

En cuanto a los estudiantes, los principales usos con altas consecuencias son de 3 tipos.
Primero, determinar a partir de los resultados si los estudiantes se pueden graduar de un cierto
nivel educativo. Segundo, usar los resultados de las pruebas para calificar al estudiante
interesado en ingresar a la universidad u otro centro de estudios superiores. En este caso los
resultados de las pruebas pueden ser el único factor o uno entre varios usados en la evaluación
para el ingreso. Tercero, usar los resultados de la evaluación para identificar instituciones o
estudiantes y proporcionarles ayuda adicional (por ejemplo apoyo en los temas fallidos) o
premiar a los estudiantes de mejor rendimiento (con premios que pueden ser reconocimientos
públicos o incluso dinero). En cualquiera de estos casos, es posible también que se envíe los
resultados a los padres de los estudiantes.

Con relación a los docentes, los principales usos con consecuencias son tres. Primero, usar los
puntajes para decidir si los estudiantes a cargo del docente han aprendido el material en
evaluación y a partir de esto premiar a los docentes con estudiantes con mejores logros (en
9 Hay que reconocer sin embargo que los informes más recientes de evaluación en muchos casos han dejado de
lado la sofisticación técnica, que aparece en informes especializados, para focalizarse en la transmisión de los
principales mensajes con base en los resultados.
10 Los motivos para no tener evaluaciones demasiado complejas en sistemas de altas consecuencias tendrían que
ver principalmente con la alta demanda de energía y tiempo por parte del personal en planificar censos
estudiantiles, versus las evaluaciones muestrales que se suelen hacer en evaluaciones de bajas consecuencias. En
todo caso, en principio sí se podrían hacer evaluaciones complejas de rendimiento escolar en sistemas de altas
consecuencias si se contara con recursos, humanos, económicos y de tiempo, suficientes.
11 Para una revisión de la experiencia en América Latina ver Mizala y Romaguera (2004).
10

este caso el premio puede ser al docente individualmente, por ejemplo en dinero o promoción
en el escalafón magisterial, y/o al grupo de docentes en una escuela). Segundo, identificar losdocentes que deben ser puestos en observación debido a los bajos logros de sus estudiantes (y
eventualmente, de repetirse la situación, incluso retirarlos del sistema). Tercero, usar los
resultados de los estudiantes para forzar a algunos docentes a pasar por sesiones de
capacitación en las áreas de bajos resultados, evaluando luego si los estudiantes mejoran sus
resultados (en caso negativo se les podría dejar ir del sistema).

En cuanto a los directivos y las escuelas en su conjunto, los usos con consecuencias
principalmente son dos. Primero, reconocer públicamente y/o premiar a las escuelas cuyos
estudiantes han obtenido mejores logros. Esto se puede hacer publicando los resultados en
medios de comunicación masiva (buscando de esta forma que los padres de familia pongan
presión sobre las escuelas de bajos logros o eviten matricular a sus hijos en ellas, buscando así
que eventualmente las de más bajos logros mejoren o cierren por falta de matrícula). Segundo,
declarar en emergencia a las escuelas con bajos resultados, cerrándolas o renovando a su
personal directivo y/o docente. Esto a menudo se hace luego de reiteradas mediciones que
arrojan bajos logros.

Los principales interesados en un sistema de altas consecuencias son evidentemente los que
pueden beneficiarse o perjudicarse a partir de los resultados: estudiantes (y sus padres y
madres), docentes y directivos escolares. También tienen interés en el sistema los
funcionarios del Ministerio de Educación a cargo de políticas de aprendizaje, capacitación y
formación docente y desarrollo de textos escolares, que en principio se espera busquen
adecuar sus prácticas para promover el logro de los incentivos trazados. Estos resultados
también son de interés para la prensa, pero al igual que en bajas consecuencias a menudo lo
que se busca es el titular de periódico (por ejemplo qué porcentaje de estudiantes, docentes o
escuelas lograron el incentivo previsto o cómo se compara con años anteriores). Finalmente
los investigadores educacionales tienen interés en la data que se genera, para por ejemplo
analizar patrones de conducta de los estudiantes y los docentes que se relacionan con el logro
de los incentivos.

Un sistema de altas consecuencias se basa en general en la idea de accountability (políticas de
rendición de cuentas o responsabilización). La idea principal es que, en el caso de los
docentes y directivos escolares, ellos deben sentirse responsables y dar prioridad al
aprendizaje de los estudiantes. Si no se logran los resultados previstos con los estudiantes, que
deben estar claramente definidos, se deben tomar decisiones que prioricen su logro (por
ejemplo dejar ir a los docentes con estudiantes con bajos rendimiento y reemplazarlos por
otros que logren mejores resultados). El nivel de apoyo profesional a los docentes que
participen en el sistema, para ayudarlos a que logren consecuencias positivas, debería ser
parte del modelo aunque no siempre lo es.

El modelo de altas consecuencias es el dominante en la actualidad en varios países
desarrollados, como por ejemplo los Estados Unidos. Pero es importante considerar que en
estos países muchos de los requerimientos para su funcionamiento (por ejemplo
infraestructura y materiales en las escuelas, apoyo nutricional y de salud para los estudiantes)
están bastante logrados, sino totalmente cubiertos. Los docentes en las escuelas en los países
desarrollados usualmente han pasado por centros de formación acreditados, han aprobado
exámenes de certificación profesional y tienen oportunidades de participar frecuentemente en
programas de actualización. Para su aplicación en países en desarrollo como el Perú se debe
considerar que el Estado debería ser el primero en asumir la responsabilidad de proveer
11
condiciones adecuadas tanto a los estudiantes como a los docentes, directores y escuelas para
que se puedan gestar procesos educativos de calidad que contribuyan a garantizar la
consecución de los logros esperados. Así, estudiantes que viven en pobreza (con carencias
nutricionales y de salud, que deben trabajar, etc.), que asisten a instituciones educativas con
infraestructura y materiales precarios (sin baños ni electricidad, sin suficientes textos ni
laboratorios, etc.) y con docentes que aún cuando han terminado toda su educación en
instituciones del Estado no logran demostrar competencia en los temas que deben enseñar,
difícilmente lograrán las metas planteadas.

El esquema de accountability en países desarrollados se basa en algunos supuestos que en
países en desarrollo difícilmente se cumplen: los docentes son profesionales competentes (y si
no lo son tienen recursos personales y financieros para desarrollarse) y lo que necesitan es que
se les diga con claridad qué metas deben lograr, se les ofrezcan incentivos suficientemente
atractivos por lograrlas, y que sus organizaciones participen en la definición de las mismas.
Dado esto se espera que los docentes y directivos reorienten sus esfuerzos al logro de las
metas planteadas. Estos supuestos seguramente se cumplen con algunos profesores del
sistema educativo peruano, pero en la mayoría de casos no pareciera ser el caso.

El sistema de altas consecuencias ha sido criticado por diversos motivos. Por un lado, por la
baja confiabilidad y validez de algunas mediciones y, por otro lado, por generar
consecuencias negativas no anticipadas. En cuanto a problemas de confiabilidad y validez, la
crítica principal ha sido que para efectivamente poder medir el progreso de los estudiantes y
atribuírselo a la escuela es necesario contar con varias mediciones (v. gr. pruebas) de los
mismos estudiantes a lo largo del tiempo. La medición y comparación de resultados de
pruebas aplicadas en el mismo grado en diferentes años, es decir con diferentes estudiantes,
podría reflejar cambios en la composición social, cultural y económica del grupo de
estudiantes12, y no solo un resultado atribuible a la escuela. Informes como el de McCaffrey
et al. (2003) han concluido, en base a la investigación existente, que actualmente no se
justifica el uso de pruebas para decisiones de altas consecuencias, dadas las limitaciones
técnicas mencionadas antes. Además se ha observado a menudo que la velocidad de
aprendizaje de los estudiantes es mayor en estudiantes de alto nivel socioeconómico, lo cual
llevaría a atribuir a la escuela logros que están más vinculados a los estudiantes. La mejor
alternativa sería mediciones repetidas de los mismos estudiantes a través del tiempo
comparando los logros de estudiantes de contextos socioeconómicos y tipos de escuelas
similares y dando incentivos dentro de grupos comparables13.

En las evaluaciones de altas consecuencias se deben aplicar las pruebas a todos los estudiantes
de todos los grados y en todas las áreas currciculares, pues las consecuencias deben ser
uniformes. Es inaplicable el uso de muestras que sí es posible emplear en un sistema de bajas
consecuencias. En la práctica, sin embargo, las evaluaciones repetidas de los mismos
estudiantes en años sucesivos de manera censal son poco comunes pues son costosas y
difíciles de planificar y se recurre a menudo a evaluaciones censales de estudiantes en el
mismo grado, diferentes promociones de estudiantes, en años sucesivos.
12 Algo que observan con frecuencia los docentes respecto a diferentes “promociones” de alumnos.
13 Con esta discusión no se quiere sugerir que en modelos de bajas consecuencias las pruebas no están exentas de
problemas de validez y confiabilidad. En todo caso hay una diferencia importante pues en los modelos de bajas
consecuencias se busca reportar resultados principalmente a nivel de grupos de escuelas. En ese sentido, los
errores de medición pueden ser tolerados pues en el resultado agregado los errores positivos y negativos tienden
a cancelarse. En cambio, en pruebas de altas consecuencias es de la mayor importancia tener estimaciones
precisas a nivel individual(del estudiante o la escuela) pues en base a ello se van a tomar decisiones que les
competen.
12

Hay un segundo grupo de críticas al modelo, en el sentido que el ofrecimiento de incentivos a
corto o mediano plazo genera consecuencias negativas. Esto por que el incentivo debe ser
atractivo para que funcione, motivando en los docentes conductas diferentes para maximizar
las probabilidades de lograrlo. Así, por ejemplo, dado que por consideraciones prácticas las
evaluaciones de altas consecuencias a menudo se hacen solamente en lenguaje y matemática,
los docentes priorizan estas áreas, descuidando otras previstas en el currículo (como arte,
educación física, ciencias o ciencias sociales), llevando en alguna medida a una visión
degradada de la educación en un sentido pleno. La alternativa sería incluir todos estos
componentes en evaluaciones de altas consecuencias, pero construir instrumentos válidos y
confiables en un área es una tarea compleja que se multiplicaría con el número de áreas a
evaluar.

Otro posible problema es que los incentivos por logros de aprendizaje podrían llevar a
prácticas selectivas y hasta discriminatorias en las escuelas. Así, los docentes harían todo lo
posible por incorporar en la evaluación a estudiantes que ayuden al logro de metas y dejarían
de lado a los que se prevé tendrían bajos rendimientos (por ejemplo con lengua materna
indígena, relativamente pobres o con alguna discapacidad). Uno podría anticipar estas
situaciones y tomar solamente datos de valor agregado (es decir de los mismos estudiantes en
años diferentes), pero de hecho siempre van a haber estudiantes que falten a las evaluaciones
y es difícil determinar en qué medida esto es una práctica selectiva de los docentes. Otra
consecuencia negativa relacionada a la anterior es que los docentes podrían concentrar sus
esfuerzos de enseñanza en los estudiantes que en el aula rinden mejor, buscando mejorar el
promedio pero aumentando la dispersión de puntajes dentro del aula, dejando de lado a
algunos que por sus bajos logros no “justificarían” la inversión de tiempo del docente.
Todavía hay poca investigación empírica sobre estos temas, pero parecerían haber indicios en
el sentido indicado14.

1.2.3. Ejemplos de sistemas nacionales de evaluación

A continuación se presentan algunos ejemplos de sistemas nacionales de evaluación. Los
primeros podrían ser clasificados como de bajas consecuencias, mientras que los siguientes
mixtos y de altas consecuencias (las clasificaciones son solo referenciales y han sido hechas
por los autores).

Uruguay (bajas consecuencias)

El Observatorio de la Educación, que es parte de la Administración Nacional de Educación
Pública (ANEP15), presenta datos sobre el sistema, como por ejemplo cobertura, recursos y
resultados de los estudiantes en pruebas de logros. Las pruebas se han administrado en varios
niveles, desde inicial hasta secundaria. Uno de los aspectos importantes del sistema uruguayo
es que han publicado los promedios de los resultados de los estudiantes indicando el tipo de
establecimiento al que asisten y el contexto sociocultural promedio. Esto se hace para evitar
comparaciones “injustas” o inadecuadas, que atribuyan a la escuela éxitos o fracasos (v. gr. no
es lo mismo educar a estudiantes de alto y bajo nivel socioeconómico). La mayor parte de las
pruebas han sido administradas a muestras de escuelas y estudiantes, aunque más
14 Por ejemplo en el sistema de altas consecuencias del estado de Florida, concentrado en lenguaje y matemática,
los docentes parecerían haber descuidado la enseñanza de ciencias, hasta que se incluyeron evaluaciones de estas
con altas consecuencias (Walter Secada, profesor de la Universidad de Miami, comunicación personal).
15 Ver http://www.anep.edu.uy/observatorio/.
13

http://www.anep.edu.uy/observatorio/
recientemente se han hecho evaluaciones censales. Luego de administrar las pruebas –i.e. los
cuadernillos con los ítems-, estas son distribuidas entre los docentes y directivos de todos los
centros educativos (aun los que no participaron en la evaluación) de modo que puedan utilizar
los instrumentos y analizar los resultados para mejorar las prácticas educativas locales.
También se reparte de manera confidencial los resultados de cada centro al director,
presentando los promedios de centros educativos comparables. El propósito es que los
directivos utilicen la información para generar mejoras locales, pero sin presión de los padres,
la prensa u otros actores (visto que es un sistema de bajas consecuencias). El Observatorio se
encarga de coordinar la participación de Uruguay en evaluaciones internacionales (como
SERCE y PISA, ver abajo). Es interesante que de manera específica hayan realizado análisis
adicionales de los resultados de Uruguay y países de similares características en PISA, de
modo que se exploren implicancias de políticas adicionales y adecuadas al país (cosa que han
hecho también otros países de la región, como México y Brasil).

Brasil (mixto)

En este país las evaluaciones están a cargo del Instituto Nacional de Investigaciones
Educativas (INEP16 por sus siglas en portugués), que es un organismo público autónomo
vinculado al Ministerio de Educación. El INEP se encarga del recojo de datos educativos de
diverso tipo para producir informes que pudieran servir para el desarrollo de políticas
públicas. Sus actividades incluyen el Censo Escolar (realizado anualmente), el Censo de
Educación Superior (también anual), el Sistema Nacional de Evaluación de la Educación
Superior (incluyendo instituciones, carreras y estudiantes), el Examen Nacional para
Certificación de Competencias de Jóvenes y Adultos (ENCCEJA), la Provinha Brasil, el
Examen Nacional de Enseñanza Media (ENEM) y el Sistema Nacional de Evaluación de
Educación Básica (SAEB). La Provinha Brasil mide alfabetización luego de un año de
escolaridad. El ENEM es una prueba individual en la que participan voluntariamente los
estudiantes al finalizar la enseñanza media. Su objetivo es dar información sobre las
competencias y habilidades adquiridas, de modo que el estudiante pueda utilizarla con fines
de postular a trabajos o estudios superiores. Para la educación básica existen dos pruebas: el
SAEB y la Prova Brasil. La primera es muestral y se aplica desde 1990 cada dos años para
medir los logros en matemática y lengua portuguesa en 4º y 8º grados de básica y 3º de
enseñanza media. La Prova Brasil empezó a aplicarse recién en el 2005 y el 2007 de manera
censal a los estudiantes de cuarto y octavo grados de educación básica y el tercer año de
educación media de las escuelas públicas en áreas urbanas que tienen más de 20 estudiantes
en esos grados. Se usa para un seguimiento más individualizado de escuelas y estudiantes y es
relativamente nueva.

Si bien algunos resultados de las pruebas de Brasil se pueden usar para altas consecuencias
(como por ejemplo los resultados de las pruebas ENEM, para postular a universidades o
trabajos), como también algunas pruebas subnacionales que se están aplicando en Minas
Gerais o, más recientemente, en Sao Paulo, las hemos clasificado como de orientación mixta
porque también se da prioridad a presentar resultados que luego pudieran utilizar diversos
actores de forma diversa. La cantidad de información técnica y publicaciones disponibles en
el portal del INEP es probablemente la más completa de América Latina, constituyéndose sin
duda en un referente para lo que se podría hacer en el Perú. Lo anterior no quita una tendencia
reciente en varios estados de Brasil por usar resultados de pruebas para definir políticas de
16 Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira; ver http://www.inep.gov.br/.
14

http://www.inep.gov.br/
responsabilización o accountability(vinculadas principalmente a estímulos o castigos a
centros educativos o maestros; por ejemplo en Minas Gerais, Sao Paulo y Río de Janeiro).

México (mixto)

El sistema mexicano también podría ser descrito como mixto, pues combina evaluaciones de
altas y bajas consecuencias. En México están, por un lado, las pruebas que administra la
Dirección General de Evaluación de Políticas de la Secretaría de Educación Pública17. Estas
pruebas, denominadas ENLACE (Evaluación Nacional del Logro Académico de Centros
Escolares), se usan como parte del puntaje para la promoción de los docentes de los alumnos
evaluados en el Programa Nacional de Carrera Magisterial. La carrera está orientada a
docentes de preescolar, primaria y secundaria. El objetivo de las pruebas es llegar a
diagnósticos de estudiantes y centros educativos. Es interesante destacar también que los
padres o estudiantes pueden consultar sus resultados en el portal de ENLACE. En segundo
lugar están las pruebas que administra el CENEVAL (Centro Nacional de Evaluación para la
Educación Superior18). Estas pruebas se orientan principalmente a la admisión a centros de
educación superior y certificación para egreso de la licenciatura (estos en diversas áreas
especializadas). Finalmente están las pruebas y actividades del Instituto Nacional para la
Evaluación de la Educación (INEE19). Este instituto fue creado el 2002 y al igual que el INEP
de Brasil es un organismo público autónomo. Las evaluaciones que organiza, la principal es
EXCALE (Exámenes para la Calidad y el Logro Educativo), se hacen en base a muestras de
estudiantes de primaria y secundaria en español, matemática, ciencias sociales y ciencias
naturales. Recientemente también presentaron un reporte de una evaluación con estudiantes
de educación inicial. Anualmente producen un informe de la calidad de la educación básica en
México. El INEE se encarga también de coordinar la participación de México en estudios
internacionales. El portal del INEE contiene información técnica y publicaciones así como
bases de datos de las evaluaciones realizadas que constituyen un importante referente a
considerar para el desarrollo de actividades en el Perú; por ejemplo tiene un explorador que
permite ver resultados en lenguaje y matemática20. En México varios estados tienen su propio
sistema de evaluación; el caso más notable posiblemente sea Nuevo León, que participó
autónomamente en la evaluación SERCE.

Al revisar las diversas instituciones y evaluaciones organizadas en el marco del sistema
educativo mexicano se tiene por un lado una impresión positiva de lo mucho que se ha
avanzado y por otro una de cierta descoordinación entre instancias que, como la SEP,
CENEVAL y el INEE, tal vez debieran fusionarse en una sola o coordinar actividades más
estrechamente de lo que parecería ocurrir al leer sus respectivos portales.

Estados Unidos (altas consecuencias)

En los EEUU hay una tendencia creciente a usar evaluaciones con altas consecuencias. Estas
se inspiraron en una convicción de muchos funcionarios de que el logro de los estudiantes
norteamericanos era muy bajo y la solución eran políticas y programas de accountability (US
Department of Education, 2008). Estos se organizaron alrededor de la legislación de No Child
17 Ver http://www.snee.sep.gob.mx/.
18 Ver http://www.ceneval.org.mx/portalceneval/index.php.
19 Ver http://www.inee.edu.mx/.
20 Ver http://www.inee.edu.mx/explorador/.
15

http://www.snee.sep.gob.mx/
http://www.ceneval.org.mx/portalceneval/index.php
http://www.inee.edu.mx/
http://www.inee.edu.mx/explorador/
Left Behind21 (NCLB), aprobada por el presidente Bush el 2002. Los cuatro principios de la
ley son: responsabilización (accountability) por resultados, brindar posibilidades para que los
padres puedan transferir a sus hijos de escuelas con bajos resultados, más control local y
flexibilidad por parte de los estados y distritos escolares para asignar recursos, y un énfasis en
implementar lo que funcione bien de acuerdo a investigaciones científicas. La ley exige que
los estados que esperan recibir financiamiento federal para sus programas educativos apliquen
evaluaciones de aprendizajes fundamentales a todos los estudiantes en ciertos grados y
reporten públicamente los resultados (en la actualidad 32 de los 50 estados han recibido
aprobación completa de sus planes de NCLB). No establece estándares nacionales, ya que el
marco legal norteamericano favorece el control local y descentralizado de las escuelas. Así,
los estados, en el uso de su autonomía, han empleado diversos mecanismos para implementar
esta legislación. En algunos casos, como Tennessee, se han usado mediciones repetidas de los
estudiantes; otros, como el sistema de Dallas, recogen datos socioeconómicos y culturales
sobre los estudiantes y sus familias y ajustan los puntajes antes de hacer comparaciones entre
distintos grupos. Las consecuencias de los bajos logros estudiantiles son diversas en
diferentes estados, llegando incluso al despido de docentes y directivos y cierre de centros
educativos. La determinación de progreso se hace a veces con evaluaciones diseñadas por el
estado o el sistema educativo en una ciudad. Los Estados Unidos cuentan además con una
evaluación estandarizada nacional (National Assessment of Educational Progress, NAEP22)
que permite hacer comparaciones en el tiempo.

Actualmente hay una gran discusión en los EEUU, pues muchos consideran que las
evaluaciones repetidas de los estudiantes en unas cuantas materias, promovida por NCLB, han
llevado a efectos perversos para la educación en un sentido pleno, mientras que otros
consideran que han llevado a cambios positivos, como por ejemplo búsqueda de mayor
capacitación por parte de los docentes. Seguramente hay algo de verdad en ambas
afirmaciones. Hay abundante información que sugiere la dificultad de establecer modelos de
altas consecuencias válidos; Brown (2008) por ejemplo ha reportado que el modelo para
asignar premios a escuelas en Carolina del Norte tenía muy poca validez pues no era
explicativo del rendimiento de los estudiantes. A partir de esto sugirió incorporar en el
modelo variables como nivel socioeconómico de los padres, pero aún con estas inclusiones el
modelo de incentivos sugerido tuvo un pobre poder explicativo del rendimiento estudiantil.
La definición operacional de modelos de altas consecuencias es sin duda un tema complejo
que se seguirá investigando en años próximos.

Chile (altas consecuencias)

Existen evaluaciones de rendimiento escolar en este país desde inicios de los años 80. El
sistema, denominado Sistema de Medición de la Calidad de la Educación (SIMCE)23, tiene
varios propósitos. Por un lado se busca reportar los resultados de las escuelas a los padres de
familia, que de esta forma podrían elegir a las mejores para matricular a sus hijos. Este
mecanismo de competencia ha sido fuertemente criticado pues aparentemente no habría
llevado a mejoras globales en el rendimiento de los estudiantes sino solo a una mayor
segmentación, al darse cierta migración de los estudiantes de mayor nivel socioeconómico a
21 Se podría traducir como Qué ningún niño se quede atrás; ver http://www.ed.gov/nclb/landing.jhtml o
http://www.ecs.org/html/issue.asp?issueid=195.
22 NAEP es conocida como “la libreta de notas del país” e incluye evaluaciones de matemática, lectura, ciencias,
escritura, arte, cívica, economía, geografía e historia de los EE. UU. Ver http://nces.ed.gov/nationsreportcard/.
23 Ver www.simce.cl.
16

http://www.ed.gov/nclb/landing.jhtml
http://www.ecs.org/html/issue.asp?issueid=195
http://nces.ed.gov/nationsreportcard/
http://www.simce.cl/
las escuelas con reportes de mejor rendimiento24 y al haberse documentado que serían más
bien las escuelas las que están seleccionando a sus estudiantes, de manera de poder
usufructuarde los incentivos que brinda el sistema25. Por otro lado, los resultados de las
evaluaciones, junto con otros indicadores de la escuela, son usados para otorgar incentivos a
todos los docentes (SNED26); de esta forma se busca evitar la competencia entre docentes
individuales y en cambio favorecer el trabajo en equipo. Finalmente se usan los resultados
para identificar las escuelas con menor rendimiento y programar ayudas especiales.
Recientemente también han empezado a enfatizar el trabajo con docentes, discutiendo los
resultados pedagógicamente (v. gr. explicando lo que los estudiantes saben y pueden hacer).
Esta acción va en línea con las recomendaciones del informe OCDE mencionado antes.

1.3. Elementos comunes necesarios para evaluaciones nacionales de altas y bajas
consecuencias

Como se señaló al inicio de este capítulo, y al margen de las características de “altas” o
“bajas” consecuencias por las que pueda haber optado un sistema, existen otros elementos
sobre los cuales deben posicionarse todos ellos. En la literatura y descripción de
procedimientos técnicos a menudo se encuentran los siguientes temas como relevantes para el
desarrollo de evaluaciones.

Estándares educativos

El tema de estándares es amplio y no pretendemos agotarlo aquí27. Los estándares se refieren
en general a ciertas características deseables. En educación a menudo se distinguen 3 tipos de
estándares: de contenido, de desempeño y de procesos educativos. Los estándares de
contenido se utilizan, principalmente, para especificar los contenidos o competencias que se
deberían enseñar en determinados niveles de escolaridad. En el Perú, lo más cercano a ello es
el currículo nacional vigente y sus indicadores de logro, aunque se podría argumentar que ni
los procedimientos seguidos para su construcción, ni la rigurosidad de las expectativas que
encierra, ni su grado de alineamiento con otros instrumentos de política educativa, justifica
que se les pueda considerar como verdaderos estándares de contenido. Los estándares de
desempeño, por su parte, definen dominios sobre los contenidos introduciendo
operacionalizaciones más precisas sobre cuán bien deberían los estudiantes poder hacer
aquello que se espera pueden hacer con lo que aprenden. En el Perú lo más cercano a estos
estándares son los desempeños clasificados como “satisfactorios” en las evaluaciones
nacionales realizadas por la UMC. Finalmente, los estándares de procesos educativos
establecen ciertos criterios generales acerca de cómo deberían promoverse los aprendizajes de
los estudiantes. El currículo nacional tiene pautas respecto de cómo debería darse la
interacción de estudiantes y docentes en el aula, con participación activa de los primeros.

De hecho la literatura y experiencia internacional sugieren que es conveniente que los
estándares se desarrollen en un proceso compartido por múltiples actores, de modo que luego
estos sean aceptados. Los elementos mencionados arriba – los contenidos del currículo
24 Ver, por ejemplo, el informe de OCDE sobre el sistema educativo chileno
(www.mineduc.cl/biblio/documento/texto_libro_ocde1.pdf) o estudio de Elacqua y Fábrega (2004).
25 Esta sería una de las razones por las cuales se intenta estimar el grado de “selectividad“ de las escuelas antes
de asignar algunos incentivos, o se procurará incentivar la diversificación de alumnados vía los subsidios
preferenciales actualmente en debate en el Congreso chileno.
26 Sistema Nacional de Evaluación del Desempeño; ver http://www.sned.cl/.
27 Para mayores detalles sugerimos Ferrer (2006a).
17

http://www.mineduc.cl/biblio/documento/texto_libro_ocde1.pdf
http://www.sned.cl/
nacional, los niveles de desempeño de las pruebas nacionales y las orientaciones pedagógicas
del currículo – podrían servir como puntos de partida para el desarrollo de estándares. Este es
sin duda un tema pendiente en la agenda educativa del Perú que tiene importantes
consecuencias sobre el trabajo de la UMC.

Normas versus criterios

Los primeros modelos de evaluación educativa en América Latina, incluyendo el Perú, se
basaron en la definición de normas. Esta tradición de evaluación proviene de la psicología,
donde a menudo muchos atributos no tienen un criterio de dominio absoluto sino que definen
si un sujeto tiene mayores o menores niveles en el objeto de evaluación que sus pares. Así,
muchas evaluaciones iniciales en educación en América Latina fueron normativas, buscando
que los estudiantes tuvieran una distribución de puntajes más o menos normal alrededor de un
promedio de 50% del puntaje total posible. Rápidamente los educadores se dieron cuenta que
tal modelo era limitado pues en evaluación educativa se requiere poder definir si los
estudiantes se ubican por encima o debajo de puntajes de corte definidos de manera absoluta y
no relativa (por ejemplo satisfactorio o no satisfactorio). Así, en la actualidad el modelo
dominante en evaluación educativa es de criterios, que requiere definiciones detalladas del
objeto de conocimiento (contenidas en documentos técnicos como el marco de evaluación y
especificaciones de prueba), alineadas con un cierto cuerpo de conocimientos (por ejemplo el
currículo) e incluye puntos de corte para diferentes niveles de rendimiento28.

Comparaciones de desempeño a lo largo del tiempo:

Esta es una práctica fundamental para entender cómo el sistema educativo puede o no estar
promoviendo mejoras en los aprendizajes y brechas entre grupos de estudiantes.
Lamentablemente en el Perú, como en muchos otros países, todavía no se ha podido
implementar medidas técnicas que garanticen la posibilidad de hacer comparaciones
intertemporales de los resultados de aprendizaje. Los motivos por los que no se cuenta con
comparaciones temporales posiblemente tengan que ver con una todavía incipiente capacidad
técnica de los equipos nacionales. Otros sistemas educativos en los cuales la evaluación es ya
parte de su cultura institucional, tienen una larga tradición de comparaciones de rendimiento a
través del tiempo (como por ejemplo NAEP en los Estados Unidos ha hecho comparaciones
de rendimiento por más de 30 años).

Áreas de rendimiento evaluadas

Si bien potencialmente se podrían planificar evaluaciones en un mayor número de áreas del
currículo, usualmente los sistemas nacionales priorizan lenguaje (principalmente comprensión
de lectura) y matemática, al considerárseles pilares del currículo y claves para comprender
otras áreas y progresar entre grados. En las evaluaciones de bajas consecuencias suele haber
una mayor tendencia a incluir otros temas, como ciencias sociales y ciencias naturales. Otras
áreas relevantes para un desarrollo integral de una persona o grupo, como educación física,
artes, música e historia, suelen tener menos evaluaciones, por razones de costos (financieros y
de tiempo necesario tanto para desarrollarlas, aplicarlas, analizarlas y utilizarlas) tanto como
por la convicción de que la comprensión lectora y el dominio del lenguaje y del razonamiento
matemático y científico son capacidades fundamentales sin las cuales otros aprendizajes no
pueden lograrse.
28 Para una mayor discusión sobre el tema ver Esquivel (2001).
18

Tipos de ítems en la evaluación

Crecientemente la teoría educativa ha enfatizado la importancia de evaluar a los estudiantes
de diversas maneras, de modo que se refleje que los estudiantes tienen habilidades que no
dependen de un tipo único de ítem. Así, las evaluaciones tradicionales, que usualmente
usaban solo ítems de opción múltiple, han sido dejadas de lado para incluir junto a este tipo de
ítem otros como respuestas cortas, respuestas largas (con o sin justificación), evaluación de
escritura y expresión oral, evaluación del desempeño del estudiante en grupos para la solución
de problemas concretos y otros en una tendenciahacia la “evaluación auténtica” (es decir
vinculada estrechamente a situaciones que el estudiante podría encontrar cotidianamente). El
costo y complejidad logística de formas variadas de ítems de hecho las hacen menos
probables en evaluaciones censales (típicas de altas consecuencias) que en evaluaciones
muestrales (típicas de sistemas de bajas consecuencias y evaluaciones internacionales).

Evaluaciones en lengua materna indígena

Tendencias pedagógicas contemporáneas sugieren la importancia de aprender a leer y escribir
en lengua materna. En países como el Perú, con una lengua dominante pero muchas lenguas
indígenas, esto ha llevado a evaluaciones en lengua indígena y en lengua dominante como
segunda lengua. Los ejemplos de este tipo de evaluaciones son escasos en la región pero
comunes en Europa, ahí donde convivan varias etnias y lenguas. En muchos países de
América Latina, incluyendo el Perú, hay dificultades para llevar adelante evaluaciones
bilingües como por ejemplo la falta de estandarización escrita de las lenguas indígenas y la
variación de una misma lengua entre regiones.

Marcos Institucionales para las unidades de evaluación

Como se vio antes, diferentes modelos institucionales para asumir las evaluaciones, pero
siempre con presencia o representación del Estado. Así por ejemplo, hay modelos basados en
el Ministerio de Educación, donde existe una oficina especializada en a medición de los
rendimientos o de la calidad educativa (por ejemplo Chile). Otros modelos delegan o
contratan, desde los ministerios de educación, la responsabilidad de la evaluación a una
oficina externa (por ejemplo Guatemala29), que se encarga del diseño de la evaluación y
reporte de resultados, pero siempre en coordinación con el Ministerio. Este último modelo
parece ser cada vez menos frecuente en la región. Finalmente, más recientemente se han
empezado a crear oficinas públicas autónomas especializadas en evaluación; es el caso de por
ejemplo Brasil y México. Cada sistema tiene pros y contras. Las oficinas dentro del
Ministerio podrían facilitar la comunicación con otras unidades de la misma dependencia, que
de hecho deberían ser algunos de los principales interesados. Un punto en contra de este
arreglo es que mantener la oficina dentro del Ministerio la puede hacer más proclive a la
influencia de presiones políticas, que en algunos casos se pueden oponer a la transparencia de
la información. Las oficinas públicas autónomas deberían tener relativa mayor autonomía
política pero justamente por esto sus resultados podrían tener menor impacto en el desarrollo
de políticas educativas. También es interesante mencionar que más allá de las oficinas
29 Entre 1997 y 2001 el Programa Nacional de Evaluación del Rendimiento Escolar (PRONERE) estuvo a cargo
de la Universidad del Valle de Guatemala; sin embargo desde el 2005 el Ministerio de Educación volvió a
asumir la tarea, creando el Sistema Nacional de Evaluación e Investigación Educativa (SINEIE; ver
www.mineduc.gob.gt/sineie/index.asp). De hecho el sistema chileno inicialmente estuvo asociado a una
institución externa y luego pasó al Ministerio.
19

http://www.mineduc.gob.gt/sineie/index.asp
nacionales, en muchos países (sobre todo con sistemas descentralizados) se encuentran
oficinas regionales que conducen sus propias evaluaciones para fines distintos que los de la
oficina nacional; es el caso por ejemplo de varios estados en Brasil con evaluaciones de altas
consecuencias y México con estados que deciden participar autónomamente en evaluaciones
internacionales (como PISA y LLECE; ver más adelante).

Factores asociados al rendimiento escolar: el controvertido tema de la causalidad

Una de las preocupaciones centrales en la investigación aplicada en ciencias sociales y en
particular en las aplicaciones a los temas educativos, es la identificación de variables y
mecanismos que contribuyan a explicar los resultados educativos y, en particular, los
aprendizajes de los estudiantes. Estas variables y mecanismos pueden, eventualmente, ser
empleados en el diseño de programas y políticas para mejorar los resultados de los procesos
educativos.

En las ciencias sociales, al menos desde un enfoque cuantitativo, los diseños experimentales
han sido los preferidos para establecer relaciones de causalidad. En estos diseños
experimentales un grupo de estudiantes (o escuelas) son asignados aleatoriamente a la
condición de tratamiento (cualquiera que esta sea, por ejemplo introducir un nuevo método de
enseñanza), y otro grupo funciona como control (que seguiría con la condición regular de
aprendizaje). La asignación aleatoria cumpliría la función de equiparar a los grupos en las
características de entrada (siempre y cuando el número de unidades asignado a cada grupo sea
grande, por ejemplo 30 por grupo o más). Hay otros diseños para explorar relaciones de
causalidad, como por ejemplo las mediciones repetidas de estudiantes que han pasado por
diversas experiencias escolares. Sin embargo, los análisis multivariados30 que se suelen hacer
en los sistemas de evaluación estandarizados del rendimiento escolar no usan un diseño
experimental, longitudinal ni otros más afines a modelos causales explicativos. Lo que se
suele hacer es analizar asociaciones entre el rendimiento, medido en un solo momento, con
características del estudiante, su familia y su centro educativo. Pensamos que en general estos
análisis de una sola evaluación deberían ser considerados principalmente como asociaciones
que lleven a nuevos estudios y no estrictas asociaciones de causalidad. El problema principal
para asignar causalidad en estos estudios es cómo aislar el efecto de la escuela del efecto de
los estudiantes y sus familias, que podrían haber elegido ciertas escuelas y por tanto ellos ser
las variables explicativas. Esto se denomina en la literatura “autoselección”31.

1.4. Evaluaciones internacionales de rendimiento escolar

Desde los años 60, instituciones como la IEA32 han realizado evaluaciones de rendimiento de
los escolares. Si bien lo que se quiere saber y el uso que se ha dado a los resultados ha ido
30 Casi todos, sino todos los sistemas de evaluación, incluyen en alguna de sus evaluaciones estandarizadas la
recolección de un amplio conjunto de información de insumos, procesos y contexto. Se suele administrar
cuestionarios a diferentes actores (v. gr. estudiantes y sus padres, docentes y directores) y fichas de observación
escolar para analizar la relación entre estas características y el rendimiento.
31 Si bien es cierto que en las últimas dos décadas han aparecido diversos métodos estadísticos para intentar
solucionar el problema de autoselección, como por ejemplo apareamiento (matching) o uso de variables
instrumentales, desde una perspectiva más rigurosa sugerimos tomar incluso estos resultados como asociaciones,
aunque ciertamente más cercanas de dar una explicación causal que una correlación. Por otro lado, los análisis
jerárquico multinivel (HLM), tan populares recientemente en educación, no solucionan el problema de
autoselección aunque sí contribuyen a mejorar las estimaciones de error estándar al dividirlo en diferentes
niveles (típicamente del estudiante y su familia, del aula, de la escuela y la comunidad).
32 International Association for the Evaluation of Educational Achievement; ver http://www.iea.nl/.
20

http://www.iea.nl/
cambiando con el tiempo, bien se podría decir que el propósito principal de estas evaluaciones
es el conocimiento detallado de lo que los estudiantes en diferentes países saben y pueden
hacer y el uso ha sido en todos los casos de bajas consecuencia para los países participantes
(aún cuando sus repercusiones, sobre todo a través de la difusión que da la prensa a
resultados, a menudo considerados catastróficos, pudieran ser grandes para el sistema, porejemplo desprestigiando la profesión docente). Más allá de las intenciones con que se han
realizado estas evaluaciones, es claro que las repercusiones que han tenido han sido
principalmente para ubicar el rendimiento de los estudiantes de cada país en un cierto lugar
del ranking internacional (lo que a menudo se ha denominado “carrera de caballos”). Si bien
los especialistas a menudo han criticado este uso, los medios se han encargado de resaltarlos y
al hacerlo se ha logrado mucha repercusión en la opinión pública. En el siguiente cuadro se
presentan algunas de las principales evaluaciones internacionales vigentes actualmente y la
participación del Perú en ellas.

Los informes internacionales contienen información bastante detallada del rendimiento de los
estudiantes en áreas específicas. Para manejar la variedad de contenidos resultante es
necesario tener un número y variedad de ítems considerable, por lo que en general recurren a
formatos de formas rotadas (tal como fueron descritos antes). Más allá de los valiosos
informes pedagógicos, existen también informes de variables asociadas al rendimiento, que
provienen de cuestionarios y fichas administradas a estudiantes, sus docentes y directores y
las características del centro educativo (son pocas las que incluyen también encuestas a padres
de familia; las de LLECE son una excepción). Además de la red de LLECE para América
Latina, existe una para países del sur y este de África que ha completado dos evaluaciones del
rendimiento escolar33.

33 Southern and Eastern Africa Consortium for Monitoring Eucational Quality (ver http://www.sacmeq.org/.)
21

http://www.sacmeq.org/

Cuadro 1.2.
Características de las principales evaluaciones internacionales del rendimiento escolar
Nombre Institución
que la
organiza
Objeto de evaluación Años en que
se ha
administrado
Participación
del Perú
Laboratorio
Latinoamericano de
Evaluación de la
Calidad Educativa
(LLECE)34
UNESCO Rendimiento en comprensión
de lectura, matemática y
ciencias en estudiantes de
varios grados de primaria
1997 y 2006 En las dos
Progress in
International
Reading Literacy
Study (PIRLS)
IEA Comprensión de lectura en
estudiantes de cuarto grado
1997 y 2006 Nunca
Trends in
International
Mathematics and
Sciences Study
(TIMSS)
IEA Matemática y ciencias en
varios grados de primaria y
secundaria
1995, 1999,
2003 y 2007
Nunca
Programme for
International
Student Assessment
(PISA)35
OCDE Habilidades en comprensión
de lectura, matemática y
ciencias en estudiantes de 15
años matriculados en
educación secundaria.
2000, 2003 y
2006 (2009)
En
2001(PISA
Plus) y se
prevé
nuevamente
en el 2009
International Civic
and Citizenship
Education Study
(ICCS)
IEA Conocimientos y habilidades
en educación cívica y
ciudadana en estudiantes de
8º grado
1999 (2009) Nunca

Al igual que con las evaluaciones nacionales de bajas consecuencias, las evaluaciones
internacionales, al menos en el caso peruano, han tenido poco uso. Así, en nuestro país las
evaluaciones internacionales han tenido repercusión en tanto la prensa ha resaltado el bajo
rendimiento de nuestros estudiantes. Incluso algunos lectores poco precavidos han dicho y
repetido información falsa36. Los informes de resultados y de factores asociados contienen
información detallada relevante que podría llevar a repensar instrumentos pedagógicos
fundamentales como la formación y capacitación docente, los materiales educativos
(principalmente los textos) y el currículo mismo, así como usar los estándares de desempeño
internacionales para comunicar a diferentes audiencias en el Perú qué nivel de exigencia es
requerido para considerar que un estudiante tiene un rendimiento satisfactorio. Por otro lado,
participar en evaluaciones de alto nivel técnico como PISA ha tenido un importante efecto en
la especialización del personal técnico de la UMC, que ha logrado incorporar algunos de los
procedimientos considerados “estados del arte” en evaluación a las pruebas y procedimientos
en el Perú.
34 Ver http://llece.unesco.cl/esp/.
35 Ver http://www.pisa.oecd.org/pages/0,2987,en_32252351_32235731_1_1_1_1_1,00.html.
36 Por ejemplo algunos analistas han dicho y repetido que en la primera evaluación LLECE solo resultamos por
encima de Haití, cuando este país no participó en la evaluación; otros que nuestros estudiantes son los de más
bajo rendimiento mundial cuando en realidad la evaluación PISA incluyó principalmente a estudiantes de países
industrializados. Nada de esto es para negar los bajos resultados de los estudiantes peruanos, confirmados en
cuanta evaluación nacional e internacional se ha hecho, sino para sugerir que los interesantes datos producidos
por la UMC deben ser interpretados con rigurosidad.
22

http://llece.unesco.cl/esp/
http://www.pisa.oecd.org/pages/0,2987,en_32252351_32235731_1_1_1_1_1,00.html

A pesar de que no está dirigida a estudiantes, es interesante resaltar el estudio de la IEA sobre
Profesores de Matemática37. Se trata de un estudio dirigido a entender cómo se preparan los
docentes de matemática para enseñar en primaria y los primeros grados de primaria en
diversos países. Este estudio está actualmente en curso y por tanto no podríamos participar,
pero puede estar anunciando una tendencia hacia analizar de manera comparativa un factor
fundamental en el aprendizaje de los estudiantes, como es el docente y sus prácticas en el
aula. Estudios como el mencionado pueden aportar a comprender cómo aprenden los
estudiantes en el aula, llevando así a sugerencias de política para la formulación de textos
escolares, la formación y capacitación docente y la supervisión de docentes en las escuelas,
por mencionar algunas posibles aplicaciones.

Es importante notar que varios de los anteriores estudios tienen previstas nuevas rondas de
evaluación para los próximos años, en las que el Perú podría participar, siempre y cuando esta
participación fuera coherente con sus planes de desarrollo educativo38.

1.5. Algunas conclusiones sobre las experiencias de evaluaciones nacionales e
internacionales del rendimiento escolar

Se ha convertido casi en un lugar común decir que los indicadores tradicionales de cantidad
en educación, vinculados principalmente a matrícula, repetición y deserción, se han
convertido en insuficientes para describir las características de los sistemas educativos
latinoamericanos, ahora que la cobertura (al menos en primaria) es bastante alta. La
preocupación internacional de países y organismos internacionales (ver por ejemplo Vegas y
Petrow, 2008) es por la calidad educativa, reflejada principalmente en puntajes en pruebas
estandarizadas de rendimiento administradas a los estudiantes. Así, las pruebas se han
convertido de manera creciente en un indicador necesario para describir muchos sistemas;
cómo se deberían utilizar los resultados para mejorar la calidad educativa es un tema en
debate. Como se ha intentado reflejar en el presente informe, no hay respuestas unívocas y los
temas en discusión han ido enfocados de diferente manera entre países, e incluso hay grandes
variaciones en algunos casos al interior de un mismo país39. Como se ha sugerido arriba,
muchos países han intentado, con mayor o menor consistencia, integrar diferentes
componentes en sistemas de evaluación que respondan a algunos de los principales retos en
cada país, pero al leer las experiencias internacionales uno queda con la sensación de que no
se trata de modelos acabados sino en constante revisión.

En un contexto de generalización de la presencia de evaluaciones estandarizadas de
rendimiento escolar en toda la región, se nota el inicio de una suerte de confluencia entre los
sistemas más orientados hacia la “responsabilización” y las altas consecuencias y aquéllos
más orientados hacia el diagnóstico