Logo Studenta

Factores-sociodemograIü-cos-pruebas-saber-11--matemaIüticas-ciencias-naturales-municipio-duitama-2019

¡Este material tiene más páginas!

Vista previa del material en texto

repositorio.uptc@uptc.edu.corepositorio.uptc@uptc.edu.co
Artículo No. 1
Factores sociodemográ�cos asociados al nivel de
desempeño en las pruebas Saber 11 de matemáticas
y ciencias naturales del municipio de Duitama -
año 2019
1
Especialización en Estadística
Uptc Duitama
FACTORES SOCIODEMOGRÁFICOS ASOCIADOS AL NIVEL
DE DESEMPEÑO EN LAS PRUEBAS SABER 11 DE
MATEMÁTICAS Y CIENCIAS NATURALES DEL MUNICIPIO
DE DUITAMA - AÑO 2019
Especialización en Estadística
HAROLD DUVAN GARZÓN GONZÁLEZ1,a, ALEXANDRA ORTIZ RODRÍGUEZ1,b
1Escuela de Posgrados, Seccional Duitama, Universidad Pedagógica y Tecnológica de Colombia, Duitama,
Colombia
Resumen
Los lineamientos actuales del Ministerio de Educación Nacional de Colombia, presentan a las Pruebas
Saber 11 como indicador indispensable de la calidad de las instituciones de educación y del aprendizaje
de los estudiantes, el desempeño en este tipo de exámenes estandarizados puede verse afectado debido
a la diversidad de características socioeconómicas y demográficas de los estudiantes evaluados. En el
municipio de Duitama la diferenciación por dichas características puede verse inmersa en el alcance de
logros académicos obtenidos por la población estudiantil, de esta manera, por medio de la regresión
logística ordinal se buscó determinar los factores sociodemográficos del estudiante evaluado en el segundo
período del año 2019 asociados a la probabilidad de lograr cierto nivel de desempeño en las pruebas Saber
11 relacionadas con las ciencias básicas. Así, se identificó como factores sociodemográficos que generan
un efecto significativo sobre el nivel de desempeño para la prueba de matemáticas a la edad y género del
estudiante, nivel educativo del padre, ocupación de la madre, dedicación diaria a internet, dedicación de
lectura diaria, jornada y género de la población del colegio. Para la prueba de ciencias naturales, adicional
a los factores señalados anteriormente, se tienen las personas que habitan en el hogar y el carácter del
colegio.
Palabras clave: Regresión logística ordinal, prueba de estado.
Abstract
The current guidelines of the Ministry of National Education of Colombia, present the Saber 11 tests
as an indispensable indicator of the quality of educational institutions and student learning, performance
in this type of standardized tests may be affected due to diversity of socioeconomic and demographic
characteristics of the evaluated students. In the municipality of Duitama the differentiation by these
characteristics can be seen immersed in the scope of academic achievements obtained by the student
population, in this way, by means of ordinal logistic regression, it was sought to determine the sociodemo-
graphic factors of the student evaluated in the second period of the study. year 2019 associated with the
probability of achieving a certain level of performance in the Saber 11 tests related to basic sciences. Thus,
it was identified as sociodemographic factors that generate a significant effect on the level of performance
for the mathematics test at the age and gender of the student, the father’s educational level, the mother’s
occupation, daily internet dedication, daily reading dedication, day and gender of the school population.
For the natural sciences test, in addition to the factors indicated above, there are the people who live in
the home and the character of the school.
Key words: Ordinal logistic regression, state test.
aEstudiante de Especialización en Estadística. E-mail: harold.garzon@uptc.edu.co
bEstudiante de Especialización en Estadística. E-mail: alexandra.ortizrodriguez@uptc.edu.co
Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888
1. Introducción
De acuerdo con los lineamientos actuales del Ministerio de Educación Nacional de Colombia, los estu-
diantes que en el país pretendan continuar estudios de educación superior deben presentar las Pruebas Saber
11 como requisito. Los resultados de dicha prueba también son un indicador indispensable de la calidad de
las instituciones de educación y del aprendizaje de los estudiantes (MEN 2010). Los niveles de desempeño
se establecieron con el objetivo de complementar el puntaje numérico que se otorga a los estudiantes en el
examen. Los niveles definidos por el Icfes, en las pruebas de matemáticas y ciencias naturales agrupan a los
estudiantes en 4 niveles (1, 2, 3 y 4) de acuerdo al desempeño observado. Cada nivel de desempeño incluye
una descripción cualitativa de las habilidades y conocimientos que se estima ha desarrollado el evaluado en
cada una de las áreas (ICFES 2018).
Estudios realizados con el objetivo de evaluar la calidad de educación en las instituciones colombianas,
medida mediante el desempeño de los estudiantes en las pruebas de Estado - Saber11, vislumbran ciertos
aspectos sobre la desigualdad de oportunidades en el logro educativo en Colombia (Sánchez, Clavijo, Arias y
Espinel 2017), se considera que existe un conjunto de variables sociales y familiares (pobreza, la zona socio-
económica en la que vive, la escolaridad de los padres, el ingreso familiar, entre otros) que pueden constituir
factores de riesgo en el rendimiento académico de los estudiantes, especialmente en los que cursan una etapa
educativa de cambios personales, como la educación secundaria (Heredia-Escorza 2014, Rodríguez Rodríguez
y Guzmán Rosquete 2019). Se ha demostrado que en contextos sociales y familiares favorables (progenitores
con estudios universitarios, de estratos ocupacionales medios y privilegiados, cuyas relaciones familiares se ca-
racterizan por el apoyo afectivo) las probabilidades de éxito académico se incrementan; y, consecuentemente,
disminuyen cuando los estudiantes viven en contextos desfavorecidos o con menos oportunidades (pobreza,
marginalidad, disfuncionalidad familiar, baja educación de la madre, familia monoparental y hacinamiento
en el hogar) (Roksa y Kinsley 2019). Si bien el bajo o alto rendimiento es un índice escolar, la interconexión
que existe entre el contexto escolar y el familiar hace que determinados factores sociofamiliares contribuyan
a incrementar el riesgo de que algunos estudiantes sean más vulnerables a presentar bajo rendimiento, prin-
cipalmente en el pensamiento crítico y científico (Rodríguez Rodríguez y Guzmán Rosquete 2019).
En el municipio de Duitama, a pesar del crecimiento económico dado del año 1993 al 2005 medido a partir
de la desigualdad de los ingresos, el aumento de la población (Casas-Herrera, Gil-León y Forero-Medina 2018)
puede generar diferenciación en las características sociodemográficas en relación al contexto familiar de los
estudiantes, lo cual puede influir en sus logros académicos. Este estudio se basa en el desempeño obtenido
en las pruebas Saber 11 relacionadas con las ciencias básicas (matemáticas y ciencias naturales), debido a su
aporte en el desarrollo del pensamiento científico de los estudiantes de las instituciones duitamenses.
La identificación de la influencia de los factores sociodemográficos sobre el desempeño académico en
las ciencias básicas de los estudiantes del municipio de Duitama, reflejado en los resultados de exámenes
estandarizados aplicados por el estado como las pruebas Saber 11, permitirá generar conocimiento que servirá
como base para establecer estrategias de mejoramiento de la educación a nivel municipal, con la participación
y acción de las entidades competentes, por lo anterior, el objetivo del presente estudio fue determinar los
factores sociodemográficos que influyen sobre el nivel de desempeño en las pruebas Saber 11 de matemáticas
y ciencias naturales del municipio de Duitama.
Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888
2. Referente Conceptual
A continuación se presentan algunos aspectos relacionados con las pruebas Saber 11 en donde se incluyen
las características de los niveles de desempeño para las pruebas de matemáticas y ciencias naturales, y
finalmente lo relacionado con la Regresión Logística Ordinal (RLO).
2.1.Pruebas Saber 11
De acuerdo a la Resolución 00253 de 2017 (ICFES 2018), la aplicación del Examen de Estado Icfes -
Saber 11 tiene como objetivo comprobar el nivel de desarrollo de las competencias de los estudiantes que
están por finalizar el grado undécimo y ser un insumo para monitorear la calidad de la formación que ofrecen
las instituciones de educación media. Por ello, estas pruebas evalúan competencias, entendidas como las ha-
bilidades para aplicar los conocimientos en diferentes contextos. En este sentido, tener buenos resultados en
este examen no implica solamente conocer conceptos o datos, significa saber cómo emplear dichos conceptos
para resolver problemas en situaciones de la vida cotidiana.
El examen saber 11 se compone de cinco pruebas: lectura crítica, matemáticas, sociales y ciudadanas,
ciencias naturales e inglés. El componente de ciencias básicas esta representado por las pruebas de matemá-
ticas y ciencias naturales, el cual es un indicador del desarrollo del pensamiento científico de los estudiantes.
La prueba de matemáticas del examen de Estado Saber 11 evalúa las competencias de los estudiantes para
enfrentar situaciones que pueden resolverse con el uso de algunas herramientas matemáticas (ICFES 2018).
Tanto las competencias definidas para la prueba como los conocimientos matemáticos que el estudiante
requiere para resolver las situaciones planteadas se contemplan en las definiciones de los Estándares Básicos
de Competencias en Matemáticas del Ministerio de Educación Nacional (MEN 2006). A continuación, se
presentan los niveles de desempeño establecidos para esta prueba.
Nivel de
desempeño
Puntaje
en la prueba
Descriptor general
Nivel 1 0 a 35 El estudiante que se ubica en este nivel probablemente pue-
de leer información puntual (un dato, por ejemplo) relacio-
nada con situaciones cotidianas y presentada en tablas o
gráficas con escala explícita, cuadrícula o, por lo menos, lí-
neas horizontales; pero puede tener dificultades al comparar
distintos conjuntos de datos, involucrar diferentes variables
o analizar situaciones alejadas de su vida diaria.
Nivel 2 36 a 50 Además de lo descrito en el nivel anterior, el estudiante que
se ubica en este nivel es capaz de hacer comparaciones y es-
tablecer relaciones entre los datos presentados, e identificar
y extraer información local y global de manera directa. Lo
anterior en contextos familiares o personales que involucran
gráficas con escala explícita, cuadrícula o, por lo menos, lí-
neas horizontales u otros formatos con poca información.
Nivel 3 51 a 70 Además de lo descrito en los niveles anteriores, el estudian-
te que se ubica en este nivel selecciona información, señala
errores y hace distintos tipos de transformaciones y ma-
nipulaciones aritméticas y algebraicas sencillas; esto para
enfrentarse a problemas que involucran el uso de conceptos
de proporcionalidad, factores de conversión, áreas y desa-
rrollos planos, en contextos laborales u ocupacionales, ma-
temáticos o científicos, y comunitarios o sociales.
Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888
Nivel de
desempeño
Puntaje
en la prueba
Descriptor general
Nivel 4 71 a 100 Además de lo descrito en los niveles anteriores, el estudiante
que se ubica en este nivel resuelve problemas y justifica la
veracidad o falsedad de afirmaciones que requieren el uso de
conceptos de probabilidad, propiedades algebraicas, relacio-
nes trigonométricas y características de funciones reales. Lo
anterior, en contextos principalmente matemáticos o cien-
tíficos abstractos.
Tabla 1: Niveles de desempeño en la prueba de matemáticas
La prueba de ciencias naturales evalúa la capacidad que tiene el estudiante de comprender y usar nociones,
conceptos y teorías de las ciencias naturales, en la solución de problemas. Evalúa también la habilidad del
estudiante para explicar cómo ocurren algunos fenómenos de la naturaleza basado en observaciones, patrones
y conceptos propios del conocimiento científico. La prueba, además, involucra en la evaluación, el proceso
de indagar, que incluye observar y relacionar patrones en los datos para derivar conclusiones de fenómenos
naturales. Así mismo, se comprenden las ciencias naturales como un área del conocimiento caracterizada por
lenguajes propios y formas particulares de abordar los problemas (ICFES 2018). Los niveles de desempeño
establecidos para esta prueba se presentan a continuación.
Nivel de
desempeño
Puntaje
en la prueba
Descriptor general
Nivel 1 0 a 40 El estudiante que se ubica en este nivel muy posiblemen-
te alcanza a reconocer información explícita, presentada de
manera ordenada en tablas o gráficas, con un lenguaje co-
tidiano y que implica la lectura de una sola variable inde-
pendiente. Por lo tanto, estos estudiantes demuestran un
insuficiente desarrollo de la competencia Indagación defini-
da en el marco teórico de la prueba.
Nivel 2 41 a 55 Además de lo descrito en el nivel anterior, el estudiante que
se ubica en este nivel reconoce información suministrada
en tablas, gráficas y esquemas de una sola variable inde-
pendiente, y la asocia con nociones de los conceptos bási-
cos de las ciencias naturales (tiempo, posición, velocidad,
imantación y filtración).
Nivel 3 56 a 70 Además de lo descrito en los niveles anteriores, el estudian-
te que se ubica en este nivel interrelaciona conceptos, leyes
y teorías científicas con información presentada en diver-
sos contextos, en los que intervienen dos o más variables,
para hacer inferencias sobre una situación problema o un
fenómeno natural.
Nivel 4 71 a 100 Además de lo descrito en los niveles anteriores, el estudiante
que se ubica en este nivel usa conceptos, teorías o leyes en
la solución de situaciones problema que involucran proce-
dimientos, habilidades, conocimientos y un lenguaje propio
de las ciencias naturales.
Tabla 2: Niveles de desempeño en la prueba de ciencias naturales
Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888
2.2. Regresión Logística Ordinal (RLO)
El modelamiento consiste en aplicar una serie de procesos con el objeto de conseguir una explicación
apropiada del comportamiento de una variable respuesta (datos) a partir de una función ponderada de
una o más variables explicativas (modelo). La explicación no suele ser perfecta, a la diferencia entre los
datos y el modelo se le denomina error. La siguiente igualdad ilustra el concepto de modelo (Díaz Monroy,
Morales Rivera y León Dávila 2018).
DATOS = MODELO + ERROR
Así, los datos observados son función de un componente sistemático representado por algún modelo teórico
apropiado y un componente aleatorio que representa la discrepancia o error entre los datos empíricos y el
modelo teórico propuesto. Uno de los ejemplos clásicos de modelos estadísticos es la regresión lineal múltiple
en la cual una variable respuesta Y , es explicada a través de unas variables independientes (Xi) y un término
de error (εi), que recoge todos aquellos factores no controlables, atribuidos en parte al azar y, en parte, a
los errores aleatorios, desconocidos o no controlados, que le confieren su carácter estocástico. El modelo se
expresa según la ecuación:
Y = β0 + β1X1 + β2X2 + . . . + βpXp + εi (1)
Donde β0 es la intersección o término constante; las β1, β2, . . . , βp, denotan la magnitud del efecto que
pueden adoptar las variables independientes X1, X2, . . . , Xp, y εi es el término error o residuo.
El modelo de regresión logística permite estimar la probabilidad de un suceso que depende de los valores
de ciertas covariables (Cuadras 2012). La regresión logística se utiliza cuando se desea modelar una variable
dependiente de naturaleza cualitativa que tiene dos o más categorías, en función de un conjunto de variables
independientes o predictoras que pueden ser cuantitativas o cualitativas. Cuando la variable dependiente
tiene sólo dos categorías se usa la regresión logística dicotómicas (binaria) y si presenta más de dos categorías
se usa la regresión logísticapolitómica. En el caso que en el modelo politómico la variable dependiente esté
asociada a una variable tipo nominal (categorías sin jerarquía) se usa la regresión logística nominal y en el
caso de de tipo ordinal (categorías con jerarquía) la regresión logística ordinal. La regresión logística perte-
nece a los llamados modelos de respuesta discreta, que hace alusión a la variable dependiente de naturaleza
cualitativa. Los modelos de respuesta discreta, tienen la posibilidad de usar una variedad de funciones de
enlace, tales como la logit (logística, probit, log-log, etc). En los modelos logísticos, la función de enlace que
se usa es la logística (logit) (Gamboa 2019).
Cuando las categorías de la variable respuesta tienen alguna clase de ordenamiento, los modelos que
se usan comúnmente son el modelo logit acumulativo, el modelo de categoría adyacente, el modelo logit
de continuación de razón y el de odds proporcionales (Díaz Monroy, Morales Rivera y León Dávila 2018).
El modelo logístico ordinal más usado para modelar la variable dependiente con j categorías, es el logit
acumulativo, en el cual para una variable dependiente Y con j categorías y con sus respectivas probabilidades
π1, π2, . . . , πj , la probabilidad acumulada de Y es la probabilidad de que Y sea menor o igual a un valor
determinado de sus categorías. Así, para una categoría dada j, se define la probabilidad acumulada de Y
(Agresti 2019):
P (Y ≤ j) = π1 + . . . + πj , j = 1, . . . , c
Teniendo entonces que:
P (Y ≤ 1) ≤ P (Y ≤ 2) ≤ · · · ≤ P (Y ≤ c) = 1
Los logits de las probabilidades acumuladas son expresadas por:
logit[P (Y ≤ j)] = log
[
P (Y ≤ j)
1 − P (Y ≤ j)
]
= log
(
π1 + · · · + πj
πj+1 + · · · + πc
)
Para j = 1, . . . , c − 1. Por ejemplo, para una respuesta ordinal con tres categorías se tiene:
Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888
logit[P (Y ≤ 1)] = log
(
π1
π2 + π3
)
y logit[P (Y ≤ 2)] = log
(
π1 + π2
π3
)
Un modelo para logit j acumulativo se comporta como un modelo de regresión logística binaria en el que
las categorías 1 a j se combinan para formar una categoría y las categorías j + 1 a c forman la otra. Para
una variable explicativa x, el modelo
logit[P (Y ≤ j)] = αj + βx, j = 1, . . . , c − 1 (2)
Tiene el parámetro β que describe el efecto de x en las probabilidades logarítmicas de respuesta en la
categoría j. En esta fórmula, β no tiene un subíndice j. El modelo asume que el efecto de x es idéntico para
todos los logits acumulativos c−1. Cuando este modelo se ajusta bien, solo requiere un parámetro único para
describir el efecto de x. Por el contrario, el modelo logit de categoría de referencia requiere c − 1 parámetros,
uno para cada logit. Cada acumulativo de probabilidad tiene su propia curva, que describe su cambio en
función de x.
Con múltiples variables explicativas, el modelo logit acumulativo con la propiedad de probabilidades
proporcionales es:
logit[P (Y ≤ j)] = αj + β1x1 + β2x2 + · · · + βpxp, j = 1, . . . , c − 1 (3)
Con los mismos efectos para cada logit acumulativo. El proceso de ajuste de máxima verosimilitud emplea
el algoritmo iterativo de puntuación de Fisher simultáneamente para todo j. Cuando invertimos el orden de
las categorías de respuesta, el ajuste es el mismo pero el signo de cada β̂j se invierte. Esta inversión de signo
también se aplica cuando formamos las probabilidades logarítmicas contrastando el extremo superior de la
escala con el extremo inferior, en lugar del extremo inferior con el máximo.
Las interpretaciones de modelos pueden utilizar razones de posibilidades para las probabilidades acumu-
ladas y sus complementos. Para dos valores a y b de x, la razón de posibilidades acumulada (cumulative odds
ratio) es:
odds ratio = P (Y ≤ j | x = a)/P (Y > j | x = a)
P (Y ≤ j | x = b)/P (Y > j | x = b) (4)
El logaritmo de esta razón de posibilidades es la diferencia entre los logits acumulados en esos dos valores
de x. Esto es igual a β(a − b), proporcional a la distancia entre los valores de x. Se aplica la misma constante
de proporcionalidad (β) para cada probabilidad acumulada (es decir, para cada j). Esta propiedad se llama
probabilidades proporcionales (proportional odds). Para a − b = 1, la propiedad dice que las probabilidades
de respuesta por debajo de cualquier categoría particular se multiplican por eβ por cada unidad que aumenta
x.
Los parámetros del modelo pueden estimarse por máxima verosimilitud, maximizando la función de ve-
rosimilitud (Benítez 2018).
L(α, β | Y, X) = · · · =
n∏
i=1
g−1∏
j=2
[
1
1 + e−(α1+β′Xj)
]δj1 [ 1
1 + e−(αj+β′Xj)
− 1
1 + e−(αj−a+β′Xj)
]δij
(5)
Donde
δij =
{
1 si el i-ésimo individuo muestra Y = yj
0 en caso contrario
De aquí por las propiedades de los estimadores de máxima verosimilitud:
θ̂k,MV
asint.∼ N
(
θk,
√
F̂ −1kk
)
Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888
Una vez estimados los parámetros debemos valorar cuan bueno es nuestro modelo, es decir valorar la
discrepancia entre los datos observados y los datos esperados. Cuando se tiene un modelo con p variables y
otro con k < p variables, el problema es decidir cuál de los dos modelos se ajusta mejor a los datos. Al primer
modelo se le nota por M y al más simple por M∗. La estadística de razón de verosimilitud es (Díaz Monroy,
Morales Rivera y León Dávila 2018).
G2 = −2 ln L (M
∗)
L(M)
= −2 ln L (M∗) − 2 ln L(M)
= G2 (M∗) − G2(M)
(6)
La estadística G2 mide los desvíos entre los datos (valores observados) y los valores ajustados (pronosti-
cados) por modelo logístico, y se define:
G2 = 2
∑
( observ. ) ln
(
observ.
ajuste
)
Siendo simplemente la diferencia de los desvíos de estos dos modelos: la estadística es grande cuando el
modelo M∗ se ajusta poco con el modelo M .
Se usa la Deviance para realizar la prueba de bondad, definida como la diferencia entre el logaritmo
de la función verosimilitud del modelo maximal (con N parámetros)y el modelo en investigación (con p
parámetros). Se calcula con la siguiente expresión:
D = 2[l (bmáx; y) − l(b; y)] (7)
Dónde bmáx es la función log-verosimilitud para el modelo maximal evaluado para el estimador l (bmáx; y)
que corresponde al vector de parámetros βmáx; l(b; y) es la función de log-verosimilitud para el modelo de
interés del vector estimado b para el vector de parámetros β. El estadístico de Deviance sigue una distribu-
ción de Chi Cuadrado con grados de libertad igual a la diferencia del número de parámetros entre el modelo
maximal (N) y el modelo ajustado (p).
Cuando la diferencia entre p y k es 1 (p − k = 1), se trata del caso en el que se verifica el aporte
de una variable particular. Es decir, se quiere observar si la supresión de una variable especifica reduce
significativamente el grado de explicación que se obtiene cuando esta variable se incluye con las demás al
modelo. Esto equivale a verificar la hipótesis H0 : βi = 0. con el estadístico de contraste Zwald.
Zwald =
bj
Sbj
(8)
Se aproxima a un distribución normal estándar. Dónde bj y Sbj son el coeficiente de regresión estimado
y su error estándar asociada a la variable independiente j.
La prueba de bondad de ajuste de Pearson se basa en construir una tabla de contingencia cuyas filas re-
presentan los valores observados y las columnas, los valores predichos con el modelo logístico, comparando las
frecuencias observadas con las predichas, de tal manera que si difieren significativamente se puede evidenciar
una falta de ajuste del modelo. Se considera que la variable dependiente tiene k categorías y que se forman
m combinaciones de valores con las variables independientes. Se calcula con la siguiente expresión:
X2 =
k∑
i=1
m∑
j=1
(yil − mjpij)2
mjpij (1 − pij)
(9)
Dónde: yij Es la frecuencia observada de la i-ésima categoría de la variable dependiente en la j-ésima
combinación de los valores de las variables explicativas, pij es la probabilidad estimada con el modelo para la
Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888i-ésima categoría de la variable dependiente en la j-ésima combinación de los valores de las variables explica-
tivas, mj Es la cantidad de elementos en la j-ésima combinación de los valores de las variables explicativas.
La prueba de Hosmer-Lemeshow es una prueba de bondad de ajuste que compara las frecuencias ob-
servadas con las esperadas del resultado y calculan un estadístico de prueba que se distribuye de acuerdo
con la distribución chi-cuadrado (Fagerland 2017). Los grados de libertad dependen del número de cuantiles
utilizados y del número de categorías de resultados. Un valor p no significativo indica que no hay evidencia
de que las frecuencias observadas y esperadas difieran (es decir, evidencia de un buen ajuste).
Cg =
g∑
k=1
c∑
j=1
(
Okj − Êkj
)2
/Êkj (10)
Donde Okj y Êkj denotan la suma de las observaciones y frecuencias estimadas en cada grupo por cada
categoría de la respuesta, respectivamente.
Okj =
∑
l∈Ωk
ỹlj Êkj =
∑
l∈Ωk
π̂lj
La distribución de Cg está bien aproximada por la distribución X2 con (g − 2)(c − 1) + (c − 2) grados de
libertad bajo una corrección.
La prueba de Lipsitz es una prueba de bondad de ajuste para modelos de regresión logística de respuesta
ordinal. Implica agrupar los datos observados en grupos g de igual tamaño según una puntuación de respuesta
ordinal. Esta puntuación se calcula sumando las probabilidades predichas de cada sujeto para cada nivel de
resultado multiplicado por pesos enteros igualmente espaciados.
Similarmente, como en los modelos lineales para evaluar la bondad de ajuste se proponen en los modelos
logísticos los coeficientes de determinación, denominados Pseudo R2, que mide la reducción proporcional en
la incertidumbre debido a la inclusión de los regresores. Se han propuesto varias medidas basadas en los
residuales, una medida preferida es aquella que se basa en el desvío del modelo mínimo (intercepto) y el
modelo de interés. El Pseudo R2 es definido por (Gamboa 2019):
Pseudo R2 = 1 − D(y, ŷ)
D (y, ŷ0)
= l (bmı́n; y) − l(b; y)
l (bmı́n; y)
(11)
Dónde: D(y, ŷ) y D (y, ŷ0) son las funciones desvío de los modelos ajustados y nulo (mínimo) respectiva-
mente. Se tiene 0 ≤ R2 ≤ 1. No decrece a medida que se adicionen regresores. Se interpreta en términos del
contenido de los datos.
Otros Pseudo R2 no usan la función de máxima verosimilitud, sino la razón de verosimilitud (Λ). Se tiene
los Pseudo R2 de Mc-Fadden, dado por la expresión: R2MF = 1 −
λf
Λ0 . Su rango teórico es 0 ≤ R
2
MF ≤ 1
pero muy raramente su valor se aproxima a 1. Se considera un ajuste aceptable cuando se tiene valores
0.2 ≤ R2MF ≤ 0.4 y muy buenos para valores mayores a 0.4.
El pseudo R2 de Cox-Snel se define R2CS = 1 −
nL0
2
nLf
2 = 1 − exp
(
Λf −Λ0
n
)
. Pseudo R2 de Nagelkerke, se
define: R2N =
R2CS
1 − nL02
=
1 − exp
(
Λf −Λ0
n
)
1 − exp
(
− Λ0n
) . Su rango de valores es 0 ≤ R2N ≤ 1, por lo que su interpretación
es similar al clásico.
Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888
3. Metodología
En esta investigación se utilizó el enfoque cuantitativo y se empleó los datos del ICFES para los resul-
tados de las pruebas Saber 11 del segundo período del año 2019, obtenidos de la página de datos abiertos
del gobierno nacional. De la base descargada se seleccionaron los registros de estudiantes de las instituciones
educativas del municipio de Duitama, obteniendo un total de 1967 observaciones. A partir de la revisión
literaria de la influencia de factores sociodemográficos en el rendimiento académico, se seleccionaron para
este estudio las variables: nivel de desempeño en las pruebas de matemáticas y ciencias naturales como varia-
ble respuesta, y como variables explicativas: edad y género del estudiante, personas que habitan en el hogar,
estrato de la familia, nivel educativo de los padres, ocupación de los padres, acceso a internet y disponibilidad
de computador en el hogar, tiempo de dedicación diaria a internet y lectura, naturaleza, carácter, género de
la población, ubicación y jornada del colegio, las cuales fueron empleadas en la regresión logística ordinal.
Debido a la presencia de datos faltantes en las variables explicativas, se empleó el algoritmo de los K
vecinos más cercanos (K-Nearest Neighbours, KNN) para la imputación de 870 registros en 202 observa-
ciones. Posteriormente, se realizó la selección del modelo por el método Stepwise dirección Backward y
las correspondientes pruebas de la bondad de ajuste del modelo seleccionado, el procesamiento de los datos
se realizó con el software libre R Core Team (2020) y el entorno de desarrollo integrado RStudio Team (2020).
4. Resultados
A continuación se presentan los resultados obtenidos en el estudio, inicialmente se da a conocer el análisis
exploratorio univariado de las frecuencias de los factores considerados, seguida por la regresión logística
ordinal para el nivel de desempeño en la prueba de matemáticas y la regresión logística ordinal para el nivel
de desempeño en la prueba de ciencias naturales.
Variable Descripción
Nivel de desempeño en la prueba
de matemáticas
Nivel 1: 47 estudiantes (2.4 %)
Nivel 2: 389 estudiantes (19.8 %)
Nivel 3: 1262 estudiantes (64.2 %)
Nivel 4: 269 estudiantes (13.7 %)
Nivel de desempeño en la prueba
de ciencias naturales
Nivel 1: 169 estudiantes (8.6 %)
Nivel 2: 816 estudiantes (41.5 %)
Nivel 3: 882 estudiantes (44.8 %)
Nivel 4: 100 estudiantes (5.1 %)
Edad
15 a 16 años: 812 estudiantes ( 41.3 %)
17 a 18 años: 932 estudiantes (47.4 %)
19 a 20 años: 169 estudiantes (8.6 %)
Más de 20 años: 47 estudiantes (2.4 %)
NA: 7 (0.4 % )
Género Masculino: 946 estudiantes (48.1 %)Femenino: 1021 estudiantes (51.9 %)
Estrato de la familia
Estrato 1: 366 estudiantes (18.6 %)
Estrato 2: 935 estudiantes (47.5 %)
Estrato 3: 453 estudiantes (23.0 %)
Estrato 4: 73 estudiantes (3.7 %)
Estrato 5: 15 estudiantes (0.8 %)
Estrato 6: 5 estudiantes (0.3 %)
Sin Estrato: 14 estudiantes (0.7 %)
NA: 106 (5.4 %)
Número de personas en el hogar
1 a 2 personas: 171 observaciones ( 8.7 %)
3 a 4 personas: 1084 observaciones (55.1 %)
5 a 6 personas: 588 observaciones (29.9 %)
7 a 8 personas: 68 observaciones (3.5 %)
9 o más personas: 14 observaciones (0.7 %)
NA: 42 (2.1 %)
Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888
Variable Descripción
Nivel educativo del padre
Ninguno: 25 observaciones (1.3 %)
No Aplica: 136 observaciones (6.9 %)
Primaria: 441 observaciones (22.4 %)
Secundaria: 703 observaciones (35.7 %)
Superior: 560 observaciones (28.5 %)
NA: 102 (5.2 %)
Nivel educativo de la madre
Ninguno: 17 observaciones (0.9 %)
No Aplica: 37 observaciones (1.9 %)
Primaria: 326 observaciones (16.6 %)
Secundaria: 823 observaciones (41.8 %)
Superior: 660 observaciones (33.6 %)
NA: 104 (5.3 %)
Ocupación del padre
Auxiliar administrativo: 63 observaciones (3.2 %)
Agricultor-pesquero: 107 observaciones (5.4 %)
Pensionado-Hogar-No trabaja: 111 observaciones (5.6 %)
Mantenimiento-seguridad-construcción: 118 observaciones (6.0 %)
Vendedor - atención al público: 125 observaciones (6.4 %)
No sabe: 157 observaciones (8.0 %)
No aplica: 165 observaciones (8.4 %)
Profesional: 223 observaciones (11.3 %)
Director-Gerente-propietario: 245 observaciones (12.5 %)
Independiente: 262 observaciones (13.3 %)
Operario-conductor: 339 observaciones (17.2 %)
NA: 52 (2.6 %)
Ocupación de la madre
Operario-conductor: 18 observaciones (0.9 %)
Agricultor- pesquero: 20 observaciones (1.0 %)
No sabe: 38 observaciones (1.9 %)
Independiente: 59 observaciones (3.0 %)
No aplica: 91 observaciones (4.6 %)
Auxiliar administrativo: 171 observaciones (8.7 %)
Mantenimiento-seguridad-construcción: 200 observaciones (10.2 %)
Profesional: 205 observaciones (10.4 %)
Vendedor - atención al público: 208 observaciones (10.6 %)
Director-Gerente-propietario: 268 observaciones (13.6 %)
Pensionado-Hogar-No trabaja: 643 observaciones (32.7 %)
NA: 46 (2.3 %)
Internet en el hogar
No: 581 observaciones (29.5 %)
Si: 1278 observaciones (65.0 %)
NA: 108 (5.5%)
Disponibilidad de computador
en el hogar
No: 613 observaciones (31.2 %)
Si: 1309 observaciones (66.5 %)
NA: 45 (2.3 %)
Dedicación diaria internet
30 minutos o menos: 296 observaciones (15.0 %)
Entre 30 y 60 minutos: 534 observaciones (27.1 %)
Entre 1 y 3 horas: 679 observaciones (34.5 %)
Más de 3 horas: 269 observaciones (13.7 %)
No Navega en Internet: 75 observaciones (3.8 %)
NA: 114 (5.8 %)
Dedicación lectura diaria
30 minutos o menos: 707 observaciones (35.9 %)
Entre 30 y 60 minutos: 641 observaciones (32.6 %)
Entre 1 y 2 horas: 222 observaciones (11.3 %)
Más de 2 horas: 61 observaciones (3.1 %)
No leo por entretenimiento: 224 observaciones (11.4 %)
NA: 112 (5.7 %)
Naturaleza del colegio No oficial: 638 observaciones (32.4 %)Oficial: 1329 observaciones (67.6 %)
Carácter del colegio
Técnico: 149 observaciones (7.6 %)
Académico: 819 observaciones (41.6 %)
Técnico/académico: 967 observaciones (49.2 %)
NA: 32 (1.6 %)
Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888
Variable Descripción
Género de la población del cole-
gio
Masculino: 87 observaciones (4.4 %)
Femenino: 122 observaciones (6.2 %)
Mixto: 1758 observaciones (89.4 %)
Área de ubicación del colegio Rural: 168 observaciones (8.5 %)Urbano: 1799 observaciones (91.5 %)
Jornada del colegio
Tarde: 45 observaciones (2.3 %)
Noche: 71 observaciones (3.6 %)
Sabatina: 86 observaciones (4.4 %)
Completa: 574 observaciones (29.2 %)
Mañana: 557 observaciones (28.3 %)
Única: 634 observaciones (32.2 %)
Tabla 3: Resumen de las variables
El nivel de desempeño en la prueba Saber 11 de matemáticas del segundo período del año 2019 en el mu-
nicipio de Duitama con mayor representatividad fue el nivel 3 que corresponde al 64.2 %, este nivel también
fue el mayor proporción para la prueba de ciencias naturales representando al 44.8 % de los estudiantes que
presentaron las pruebas. Respecto a la edad del estudiante, mayormente se tienen edades de 17 a 18 años
(47.4 %), también se evidencia que el 51.9 % de los estudiantes son de género femenino.
P
ro
po
rc
ió
n 
de
 d
at
os
 fa
lta
nt
es
0.
00
0.
01
0.
02
0.
03
0.
04
0.
05
Le
ct
ur
a_
di
ar
ia
In
te
rn
et
E
st
ra
to
La
bo
r_
pa
dr
e
La
bo
r_
m
ad
re
C
om
pu
ta
do
r
P
er
so
na
sh
og
ar
C
ar
ac
te
r_
co
le
E
da
d_
c
G
en
er
o
G
en
er
o_
co
le
N
at
ur
al
ez
a_
co
le
A
re
a_
co
le
Jo
rn
ad
a_
co
le
P
at
ró
n
Le
ct
ur
a_
di
ar
ia
In
te
rn
et
E
st
ra
to
La
bo
r_
pa
dr
e
La
bo
r_
m
ad
re
C
om
pu
ta
do
r
P
er
so
na
sh
og
ar
C
ar
ac
te
r_
co
le
E
da
d_
c
G
en
er
o
G
en
er
o_
co
le
N
at
ur
al
ez
a_
co
le
A
re
a_
co
le
Jo
rn
ad
a_
co
le
Figura 1: Datos faltantes
De las características del hogar del estudiante se ob-
serva principalmente estrato 2 (47.5 %), donde habitan
de 3 a 4 personas (55.1 %), el nivel educativo del pa-
dre es en mayor frecuencia secundaria al igual que pa-
ra la madre (35.7 % y 41.8 % respectivamente), las ocu-
paciones de los padres son variadas presentando ma-
yor frecuencia para el padre el trabajo como operario -
conductor (17.2 %) y para la madre trabajo en el ho-
gar, pensión o no trabaja (32.7 %). En mayor propor-
ción cuentan con internet en el hogar y tienen disponi-
ble un computador en casa (65 % y 66.5 % respectivamen-
te).
La dedicación diaria al uso de internet se presenta con
mayor frecuencia entre 1 y 3 horas (34.5 %), mientras que
el tiempo dedicado a la lectura diaria es principalmente de
30 minutos o menos (35.9 %). En sentido de las caracte-
rísticas del colegio se encuentra mayor frecuencia en natu-
raleza oficial, carácter técnico - académico, con población
de género mixto, ubicado en área urbana y jornada úni-
ca (67.6 %, 49.2 %, 89.4 %, 91.5 % y 32.2 % respectivamen-
te).
Como se observó en la tabla 3, se presentaron datos faltantes en 12 de las variables explicativas, su
representatividad se visualiza en la figura 1, encontrando la mayor proporción en la dedicación diaria de
internet y la dedicación de lectura diaria (5.8 % y 5.7 % respectivamente), respecto a la combinación o patrón
de missings, permite establecer que dichos datos tienen un comportamiento aleatorio.
4.1. Regresión para el nivel de desempeño en la prueba de matemáticas
A continuación, se presentan los resultados obtenidos en la regresión logística ordinal para el nivel de
desempeño en la prueba de matemáticas, considerando la selección y ajuste del modelo.
Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888
Empleando el método Stepwise, las variables para el modelo son: edad y género del estudiante, personas
en el hogar, nivel educativo del padre, ocupación de la madre, internet en el hogar, dedicación diaria internet,
dedicación lectura diaria, género de la población, área de ubicación y jornada del colegio. La significancia de
los coeficientes de regresión del modelo anterior, se verificaron mediante el contraste de razón de verosimilitud
y contraste de Wald, obteniendo que, con excepción del área de ubicación del colegio, internet y número de
personas en el hogar, las variables seleccionadas generan un efecto estadísticamente significativo sobre el nivel
de desempeño para un nivel de significancia del 5 % como se observa en las tablas 4 y 5. Por lo anterior,
las variables área de ubicación del colegio, internet y número de personas no se consideraron en el modelo,
presentando significancia estadística en las ocho variables del modelo ajustado.
Chi-Square d.f. P-valor
Edad_c 67.37 3.00 0.00
Genero 68.60 1.00 0.00
Personashogar 8.70 4.00 0.07
Educacion_padre 39.98 4.00 0.00
Labor_madre 24.19 9.00 0.00
Internet 2.52 1.00 0.11
Dedicacion_internet 23.52 4.00 0.00
Lectura_diaria 37.03 4.00 0.00
Genero_cole 21.96 2.00 0.00
Area_cole 2.02 1.00 0.16
Jornada_cole 42.25 5.00 0.00
TOTAL 465.63 38.00 0.00
Tabla 4: Contraste de Wald-matemáticas
LR Chisq Df Pr(> Chisq)
Edad_c 70.16 3 0.0000
Genero 70.57 1 0.0000
Personashogar 8.60 4 0.0720
Educacion_padre 40.92 4 0.0000
Labor_madre 24.27 9 0.0039
Dedicacion_internet 23.83 4 0.0001
Lectura_diaria 37.69 4 0.0000
Genero_cole 22.03 2 0.0000
Area_cole 2.01 1 0.1566
Jornada_cole 42.11 5 0.0000
Internet 2.52 1 0.1122
Tabla 5: Contraste razón verosimilitud-matemáticas
A través de la razón de verosimilitud se estableció si el modelo seleccionado se ajusta mejor a los datos en
comparación con el modelo nulo y el modelo maximal. Según lo señalado en la tabla 6, se tiene que al menos
una variable del modelo seleccionado genera efecto significativo sobre el nivel de desempeño, indicando que
el modelo proporciona una mejora significativa con respecto al modelo nulo o modelo sin ninguna variable
explicativa. Por otra parte, los resultados en la tabla 7 evidencian un p-valor muy cercano a 0.05, por lo que
se asimila que el modelo seleccionado es equivalente al modelo maximal respecto al efecto de las variables
explicativas, siguiendo el principio de parsimonia se considera al modelo seleccionado como adecuado para la
estimación del nivel de desempeño en la prueba Saber 11 de matemáticas.
#Df LogLik Df Chisq Pr(> Chisq)
Modelo nulo 5898 -1901.2
Modelo ajustado 5866 -1633.2 -32 536.05 <2.2e-16
Tabla 6: Prueba razón verosimilitud-Modelo nulo matemáticas.
#Df LogLik Df Chisq Pr(> Chisq)
Modelo ajustado 5866 -1633.2
Modelo maximal 5837 -1611.8 -29 42.804 0.04746
Tabla 7: Prueba razón verosimilitud-Modelo maximal matemáticas.
Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888
Una vez obtenido el modelo, se verificó el supuesto de regresión paralela (odds proporcionales) mediante
el test de Brant, con un nivel de significancia del 5 % no hay evidencia estadística para rechazar la hipótesis
nula como se observa en la tabla 8, por lo tanto los cambios en las variables explicativas provocan el mismo
cambio en la razón de probabilidad acumulada de todas las categorías del nivel de desempeño.
X2 df Pr(> Chisq)
Omnibus 61.39 64.00 0.57
Edad_c 2.53 6.00 0.86
Genero 1.10 2.00 0.58
Educacion_padre4.77 8.00 0.78
Labor_madre 14.89 18.00 0.67
Dedicacion_internet 6.57 8.00 0.58
Lectura_diaria 11.26 8.00 0.19
Genero_cole 2.54 4.00 0.64
Jornada_cole 17.14 10.00 0.07
Tabla 8: Test de Brant-Nivel desempeño matemáticas
En la tabla 9 se presenta la estimación para los parámetros del modelo ajustado, su error estándar, es-
tadístico y significancia de z, y odds ratio. Se determina que para los estudiantes de 17 a 18 años, de 19 a
20 y mayores de 20 años, disminuye la razón de probabilidad acumulada de los niveles de desempeño, esto
frente a la categoría de 15 a 16 años. Los estudiantes de género masculino presentan aumento en la razón de
probabilidad acumulada para el nivel de desempeño frente a los estudiantes de género femenino.
Que el padre tenga un nivel de educación superior aumenta la razón de probabilidad acumulada en el nivel
de desempeño, frente ningún nivel educativo. Que la madre labore como profesional aumenta la probabilidad
de obtener un mayor nivel de desempeño frente a madres que laboran en la agricultura - pesca.
Navegar en internet entre 1 y 3 horas, y más de 3 horas diarias, aumenta la razón de probabilidad acumu-
lada del nivel de desempeño frente a la categoría de referencia navegar 30 minutos o menos. Que el estudiante
lea entre 30 y 60 minutos, entre 1 y 2 horas, más de 2 horas aumenta la probabilidad de obtener niveles
superiores de desempeño frente a los estudiantes que leen 30 minutos o menos, mientras que no leer por
entretenimiento la disminuye.
Que la población del colegio sea de género mixto, disminuye la razón de probabilidad para el nivel de
desempeño, mientras que si es de género masculino aumenta, esto respecto a colegio con población de género
femenino. La jornada del colegio mañana, tarde, noche y sabatina disminuyen la probabilidad de obtener un
mayor nivel de desempeño en referencia a la jornada completa, respecto a la jornada única según la estimación
también se presenta una disminución pero el intervalo de confianza permite esclarecer que puede presentarse
el caso que sean equivalentes e incluso cambie el sentido de la relación.
Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888
Estimate Std.Error zvalue Pr(> |z|) OddsRatio 2.5 % 97.5 %
Edad_c17 a 18 -0.86 0.11 -7.88 0.00 0.42 0.34 0.52
Edad_c19 a 20 -0.91 0.19 -4.78 0.00 0.40 0.28 0.58
Edad_cMás de 20 -1.23 0.35 -3.53 0.00 0.29 0.15 0.58
GeneroM 0.84 0.10 8.09 0.00 2.31 1.89 2.83
Educacion_padreNo Aplica 0.35 0.37 0.93 0.35 1.41 0.68 2.94
Educacion_padrePrimaria -0.14 0.35 -0.42 0.68 0.87 0.44 1.71
Educacion_padreSecundaria 0.05 0.34 0.14 0.89 1.05 0.53 2.06
Educacion_padreSuperior 0.74 0.35 2.10 0.04 2.10 1.05 4.20
Labor_madreAuxiliar administrativo 0.36 0.47 0.77 0.44 1.44 0.57 3.60
Labor_madreDirector-Gerente-propietario 0.18 0.46 0.40 0.69 1.20 0.49 2.95
Labor_madreIndependiente 0.14 0.51 0.27 0.78 1.15 0.43 3.10
Labor_madreMantenimiento-seguridad-construcción 0.21 0.46 0.45 0.65 1.23 0.50 3.05
Labor_madreNo aplica -0.03 0.48 -0.07 0.95 0.97 0.38 2.46
Labor_madreOperario-conductor -0.06 0.66 -0.10 0.92 0.94 0.26 3.41
Labor_madrePensionado-Hogar-No trabaja 0.35 0.45 0.80 0.43 1.43 0.59 3.42
Labor_madreProfesional 1.02 0.47 2.16 0.03 2.77 1.10 6.97
Labor_madreVendedor - atención al público 0.20 0.46 0.43 0.66 1.22 0.49 3.04
Dedicacion_internetEntre 30 y 60 minutos 0.04 0.15 0.29 0.77 1.04 0.78 1.39
Dedicacion_internetEntre 1 y 3 horas 0.61 0.15 4.20 0.00 1.84 1.39 2.45
Dedicacion_internetMás de 3 horas 0.44 0.18 2.46 0.01 1.56 1.09 2.21
Dedicacion_internetNo Navega Internet -0.10 0.27 -0.36 0.72 0.91 0.54 1.53
Lectura_diariaEntre 30 y 60 minutos 0.39 0.12 3.39 0.00 1.48 1.18 1.85
Lectura_diariaEntre 1 y 2 horas 0.74 0.16 4.55 0.00 2.10 1.53 2.89
Lectura_diariaMás de 2 horas 0.98 0.28 3.48 0.00 2.68 1.54 4.66
Lectura_diariaNo leo por entretenimiento -0.11 0.16 -0.67 0.51 0.90 0.65 1.23
Genero_coleMASCULINO 0.42 0.34 1.24 0.22 1.52 0.79 2.93
Genero_coleMIXTO -0.56 0.22 -2.49 0.01 0.57 0.37 0.89
Jornada_coleMAÑANA -0.35 0.14 -2.51 0.01 0.71 0.54 0.93
Jornada_coleNOCHE -1.19 0.28 -4.25 0.00 0.30 0.18 0.53
Jornada_coleSABATINA -1.70 0.27 -6.40 0.00 0.18 0.11 0.31
Jornada_coleTARDE -0.95 0.33 -2.92 0.00 0.39 0.20 0.73
Jornada_coleUNICA -0.00 0.14 -0.02 0.98 1.00 0.76 1.31
(Intercept):1 4.08 0.62 6.59 0.00
(Intercept):2 1.32 0.60 2.19 0.03
(Intercept):3 -2.55 0.61 -4.21 0.00
Tabla 9: Parámetros del modelo-Nivel desempeño matemáticas
Con los resultados obtenidos en las pruebas de bondad de ajuste X2 de Pearson, Test Hosmer y Lemeshow,
y Test Lipsitz, presentados en la tabla 10, se concluye que no hay evidencia de que las frecuencias observadas
y esperadas del modelo seleccionado difieran, es decir, se tiene un buen ajuste.
Prueba Estadístico Valor df p-valor
X2 de Pearson X-squared 5389.65 5866 1.00
Hosmer and Lemeshow test (ordinal model) X-squared 6.069 11 0.869
Lipsitz goodness of fit test for ordinal response models LR statistic 5.839 9 0.756
Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888
Tabla 10: Prueba bondad de ajuste-matemáticas.
Por otro lado, las medidas tipo R2 (tabla 11) indican un ajuste pobre del modelo, sin embargo, según
(Faraway 2016), los valores Pseudo R2 no deben ser interpretados como en una regresión normal, pues
frecuentemente se encuentran valores pequeños para estos Pseudo R2 aún cuando el modelo es bueno, por
ello es preferible emplearlos con el fin de comparar modelos.
McFadden CoxSnell Nagelkerke
0.14 0.24 0.28
Tabla 11: Pseudo R2-Nivel desempeño matemáticas.
A manera de ejemplo, se expone en la tabla 12 el pronóstico realizado para tres de los estudiantes de las
instituciones educativas del municipio de Duitama para el nivel de desempeño en la prueba de matemáticas,
denotados como estudiante a, estudiante b y estudiante c.
Estudiante
Probabilidad
Nivel predicho Nivel observado Acierto
Nivel 1 Nivel 2 Nivel 3 Nivel 4
Estudiante a 0.00 0.01 0.30 0.69 Nivel 4 Nivel 3 No
Estudiante b 0.03 0.26 0.66 0.05 Nivel 3 Nivel 3 Si
Estudiante c 0.03 0.27 0.66 0.05 Nivel 3 Nivel 2 No
Tabla 12: Ejemplo predicción-Nivel desempeño matemáticas
El estudiante a, se clasifica en el nivel 4 de desempeño debido a la probabilidad obtenida con el modelo
ajustado, siendo en realidad un estudiante que obtuvo nivel 3, se considera un desacierto en el pronóstico
realizado, igualmente para el estudiante c quién obtuvo nivel 2 de desempeño y se clasifica en nivel 3 de
acuerdo a la probabilidad obtenida. En el caso del estudiante b según la probabilidad obtenida, se clasifica
en nivel 3 de desempeño, siendo este el nivel obtenido en la prueba Saber 11, de esta manera se considera
como un acierto en el pronóstico.
Siguiendo la dinámica expuesta en el ejemplo anterior, la matriz de confusión (tabla 13) muestra los
resultados de clasificación del modelo ajustado respecto al nivel observado y el nivel predicho por el modelo,
con un porcentaje de correcta clasificación del 66 %. Aunque se presenta una baja tasa de correcta clasificación,
es importante recordar que la finalidad del presente estudio es explicativa y no predictiva, de manera que se
centró en conocer los factores sociodemográficos asociados al nivel de desempeño en la prueba Saber 11 de
matemáticas.
Observado
Predicción Nivel 1 Nivel 2 Nivel 3 Nivel 4
Nivel 1 0 0 0 0
Nivel 2 19 72 51 0
Nivel 3 28 317 1186 229
Nivel 4 0 0 25 40
Clasificación correcta: 66 %
Tabla 13: Matriz de confusión-Nivel desempeño matemáticas
Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888
4.2. Regresión para el nivel de desempeño en la prueba de ciencias naturales
A continuación se presenta los resultados obtenidos en la regresión logística ordinal para el nivel de de-
sempeño en la prueba de ciencias naturales, considerando la selección y ajuste del modelo.
Empleando el método Stepwise, las variables para el modelo son: edad y género del estudiante, personas
que habitan en el hogar, educación del padre, ocupación de la madre, internet en el hogar, dedicación diaria
a internet,dedicación lectura diaria, género de la población, carácter y jornada del colegio.
La significancia de los coeficientes de regresión del modelo anterior, se verificaron mediante el contraste
de razón de verosimilitud y contraste de Wald, obteniendo que, con excepción de la variable de internet en el
hogar, las variables seleccionadas generan un efecto estadísticamente significativo sobre el nivel de desempeño
para un nivel de significancia del 5 % en ambas pruebas como se observa en las tablas 14 y 15. Por lo anterior,
la variable internet en el hogar no se consideró en el modelo presentando significancia estadística en las diez
variables del modelo ajustado.
Chi-Square d.f. P-valor
Edad_c 48.86 3.00 0.00
Genero 57.75 1.00 0.00
Personashogar 15.75 4.00 0.00
Educacion_padre 40.85 4.00 0.00
Labor_madre 23.58 9.00 0.01
Internet 3.67 1.00 0.06
Dedicacion_internet 18.57 4.00 0.00
Lectura_diaria 42.46 4.00 0.00
Genero_cole 37.43 2.00 0.00
Caracter_cole 9.03 2.00 0.01
Jornada_cole 65.63 5.00 0.00
TOTAL 479.54 39.00 0.00
Tabla 14: Contraste de Wald-c. naturales
LR Chisq Df Pr(> Chisq)
Edad_c 49.61 3 0.0000
Genero 58.84 1 0.0000
Personashogar 15.88 4 0.0032
Educacion_padre 41.39 4 0.0000
Labor_madre 23.86 9 0.0045
Internet 3.67 1 0.0554
Dedicacion_internet 18.66 4 0.0009
Lectura_diaria 43.14 4 0.0000
Genero_cole 38.30 2 0.0000
Caracter_cole 9.09 2 0.0106
Jornada_cole 66.69 5 0.0000
Tabla 15: Contraste razón verosimilitud-c. naturales
A través de la razón de verosimilitud se estableció si el modelo seleccionado se ajusta mejor a los datos en
comparación con el modelo nulo y el modelo maximal. Según lo señalado en la tabla 16, se tiene que al menos
una variable del modelo seleccionado genera efecto significativo sobre el nivel de desempeño, indicando que
el modelo proporciona una mejora significativa con respecto al modelo nulo o modelo sin ninguna variable
explicativa.
Por otra parte, los resultados de la tabla 17, evidencian que el modelo seleccionado es equivalente al
modelo maximal respecto al efecto de las variables explicativas, y siguiendo el principio de parsimonia, se
considera al modelo seleccionado como adecuado para la estimación del nivel de desempeño en la prueba
saber 11 de ciencias naturales.
#Df LogLik Df Chisq Pr(> Chisq)
Modelo nulo 5860 -1859.3
Modelo ajustado 5898 -2138.1 38 557.54 <2.2e-16
Tabla 16: Prueba razón verosimilitud-Modelo nulo c. naturales
Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888
#Df LogLik Df Chisq Pr(> Chisq)
Modelo ajustado 5860 -1859.3
Modelo maximal 5837 -1844.3 -23 30.024 0.1487
Tabla 17: Prueba razón verosimilitud-Modelo nulo c. naturales
Una vez obtenido el modelo, se verificó el supuesto de regresión paralela (odds proporcionales) mediante
el test de Brant, con un nivel de significancia del 5 %, no hay evidencia estadística para rechazar la hipótesis
nula como evidencia la tabla 18, por lo tanto los cambios en las variables explicativas provocan el mismo
cambio en la razón de probabilidad acumulada de todas las categorías del nivel de desempeño.
X2 df Pr(> Chisq)
Omnibus 57.36 76.00 0.95
Edad_c 6.57 6.00 0.36
Genero 2.39 2.00 0.30
Personashogar 2.09 8.00 0.98
Educacion_padre 8.17 8.00 0.42
Labor_madre 16.26 18.00 0.57
Dedicacion_internet 6.50 8.00 0.59
Lectura_diaria 5.42 8.00 0.71
Genero_cole 2.50 4.00 0.65
Caracter_cole 0.32 4.00 0.99
Jornada_cole 9.38 10.00 0.50
Tabla 18: Test de Brant-Nivel desempeño c. naturales
En la tabla 19 se presenta la estimación para los parámetros del modelo ajustado, su error estándar, esta-
dístico y significancia de z y odds ratio. De acuerdo con estos últimos, se determina que para los estudiantes
de 17 a 18 años, de 19 a 20 y mayores de 20 años, disminuye la razón de probabilidad acumulada de todos los
niveles de desempeño, frente a la categoría de 15 a 16 años. Los estudiantes de género masculino presentan
aumento en la razón de probabilidad acumulada para el nivel de desempeño frente a los estudiantes de género
femenino.
En los hogares donde habitan de 7 a 8 personas se presenta un aumento en la razón de probabilidad
acumulada para el nivel de desempeño frente a los hogares donde habitan 1 a 2 personas, contrario de lo que
ocurre en los hogares donde habitan 9 personas o más, en los cuales la razón de probabilidad disminuye.
Para el nivel educativo superior del padre, aumenta la razón de probabilidad acumulada de todos los
niveles de desempeño frente a la categoría de ninguno. La ocupación de la madre con ocupación profesional
y operario-conductor aumenta la probabilidad de clasificación en un nivel superior de desempeño en com-
paración con la ocupación agricultor-pesquero, sin embargo el intervalo de confianza permite esclarecer que
puede presentarse el caso que sea equivalente e incluso cambie el sentido de la relación.
La dedicación diaria a internet de 1 a más de 3 horas aumenta la razón de probabilidad acumulado de
todos los niveles de desempeño frente a la categoría de 30 minutos o menos. De igual manera, la dedicación
de lectura diaria de 2 horas o más aumenta la probabilidad de clasificación en un nivel superior de desempeño
frente a la dedicación de lectura diaria de 30 minutos o menos.
Que la población del colegio sea de género mixto, reduce la razón de probabilidad acumulada para el nivel
de desempeño frente a un colegio de población femenina. Del mismo modo, la jornada del colegio mañana,
Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888
tarde, noche y sabatina reducen la probabilidad de obtener un mayor nivel de desempeño en referencia a
la jornada completa; respecto a la jornada única, según la estimación también se presenta una disminución
de la probabilidad pero el intervalo de confianza permite esclarecer que puede presentarse el caso que sean
equivalente e incluso cambie el sentido de la relación. Considerando el intervalo de confianza, para el carácter
del colegio ocurre lo mencionado anteriormente.
Estimate Std.Error zvalue Pr(>|z|) OddsRatio 2.5 % 97.5 %
Edad_c17 a 18 -0.67 0.10 -6.72 0.00 0.51 0.42 0.62
Edad_c19 a 20 -0.75 0.18 -4.21 0.00 0.47 0.33 0.67
Edad_cMás de 20 -0.71 0.35 -2.04 0.04 0.49 0.25 0.97
GeneroM 0.74 0.10 7.61 0.00 2.09 1.73 2.52
Personashogar3 a 4 0.31 0.16 1.94 0.05 1.37 1.00 1.88
Personashogar5 a 6 0.06 0.17 0.35 0.72 1.06 0.76 1.49
Personashogar7 a 8 0.58 0.29 2.00 0.05 1.79 1.01 3.15
Personashogar9 o más -1.01 0.56 -1.82 0.07 0.36 0.12 1.08
Educacion_padreNo Aplica 0.51 0.36 1.45 0.15 1.67 0.83 3.36
Educacion_padrePrimaria -0.04 0.33 -0.11 0.91 0.96 0.50 1.85
Educacion_padreSecundaria 0.28 0.33 0.85 0.40 1.32 0.69 2.53
Educacion_padreSuperior 0.84 0.34 2.47 0.01 2.31 1.19 4.50
Labor_madreAuxiliar administrativo -0.44 0.44 -1.00 0.32 0.64 0.27 1.53
Labor_madreDirector-Gerente-propietario -0.25 0.43 -0.58 0.56 0.78 0.33 1.82
Labor_madreIndependiente -0.32 0.48 -0.66 0.51 0.73 0.28 1.86
Labor_madreMantenimiento-seguridad-construcción -0.18 0.44 -0.42 0.68 0.83 0.35 1.97
Labor_madreNo aplica -0.39 0.45 -0.87 0.39 0.68 0.28 1.64
Labor_madreOperario-conductor 0.11 0.63 0.17 0.86 1.11 0.32 3.82
Labor_madrePensionado-Hogar-No trabaja -0.06 0.42 -0.14 0.89 0.94 0.41 2.16
Labor_madreProfesional 0.45 0.45 1.00 0.32 1.57 0.65 3.78
Labor_madreVendedor - atención al público -0.04 0.44 -0.08 0.93 0.96 0.41 2.29
Dedicacion_internetEntre 30 y 60 minutos 0.07 0.14 0.53 0.59 1.08 0.82 1.42
Dedicacion_internetEntre 1 y 3 horas 0.47 0.14 3.45 0.00 1.60 1.22 2.08
Dedicacion_internetMás de 3 horas 0.59 0.17 3.47 0.00 1.80 1.29 2.51
Dedicacion_internetNo Navega Internet 0.33 0.26 1.30 0.19 1.40 0.84 2.31
Lectura_diariaEntre 30 y 60 minutos 0.39 0.11 3.62 0.00 1.48 1.20 1.82
Lectura_diariaEntre 1 y 2 horas 0.63 0.15 4.12 0.00 1.87 1.39 2.53
Lectura_diariaMás de 2 horas 1.28 0.27 4.67 0.00 3.59 2.10 6.13
Lectura_diariaNo leo por entretenimiento -0.10 0.15 -0.62 0.53 0.91 0.67 1.23
Genero_coleMASCULINO 0.24 0.33 0.72 0.47 1.27 0.66 2.43
Genero_coleMIXTO -0.90 0.22 -4.10 0.00 0.41 0.27 0.63
Caracter_coleTécnico 0.26 0.21 1.260.21 1.30 0.86 1.97
Caracter_coleTécnico/Académico -0.23 0.13 -1.82 0.07 0.80 0.62 1.02
Jornada_coleMAÑANA -0.45 0.13 -3.46 0.00 0.64 0.49 0.82
Jornada_coleNOCHE -1.40 0.29 -4.90 0.00 0.25 0.14 0.43
Jornada_coleSABATINA -1.78 0.26 -6.82 0.00 0.17 0.10 0.28
Jornada_coleTARDE -0.88 0.32 -2.78 0.01 0.41 0.22 0.77
Jornada_coleUNICA -0.05 0.16 -0.32 0.75 0.95 0.70 1.30
(Intercept):1 3.06 0.61 5.06 0.00
(Intercept):2 0.23 0.60 0.38 0.70
(Intercept):3 -3.27 0.61 -5.38 0.00
Tabla 19: Parámetros del modelo-Nivel desempeño ciencias naturales
Con los resultados obtenidos en las pruebas de bondad de ajuste de X2 de Pearson, Test Hosmer y
Lemeshow, y el Test de Lipstiz, presentados en la tabla 20, se concluye que no hay evidencia de que las
frecuencias observadas y esperadas del modelo seleccionado difieran, es decir, se tiene un buen ajuste.
Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888
Prueba Estadístico Valor df p-valor
X2 de Pearson X-squared 5480.57 5860.00 1.00
Hosmer and Lemeshow test (ordinal model) X-squared 8.770 14 0.845
Lipsitz goodness of fit test for ordinal response models LR statistic 3.790 9 0.925
Tabla 20: Prueba bondad de ajuste-ciencias naturales
Por otro lado, las medidas tipo R2 (tabla 21) indican un ajuste pobre del modelo, sin embargo, como se
mencionó anteriormente, con frecuencia se encuentran valores pequeños para estos Pseudo R2 aún cuando el
modelo es bueno.
McFadden CoxSnell Nagelkerke
0.13 0.25 0.28
Tabla 21: Pseudo R2-Nivel desempeño c. naturales
A manera de ejemplo, se expone en la tabla 22 el pronóstico realizado para tres de los estudiantes de las
instituciones educativas de Duitama para el nivel de Desempeño en la prueba de ciencias naturales, denotados
como estudiante a, estudiante b y estudiante c.
Estudiante
Probabilidad
Nivel predicho Nivel observado Acierto
Nivel 1 Nivel 2 Nivel 3 Nivel 4
Estudiante a 0.20 0.61 0.19 0.01 Nivel 2 Nivel 3 No
Estudiante b 0.02 0.25 0.65 0.07 Nivel 3 Nivel 3 Si
Estudiante c 0.16 0.60 0.23 0.01 Nivel 2 Nivel 1 No
Tabla 22: Ejemplo-Predicción nivel de desempeño c. naturales
El estudiante a se clasificó en el nivel 2 de desempeño debido a la probabilidad del modelo ajustado, siendo
en realidad un estudiante que obtuvo un nivel 3 de desempeño, por lo que se considera como un desacierto
del pronóstico realizado, lo mismo ocurre para el estudiante c, quien obtuvo un nivel 1 de desempeño y se
clasificó en nivel 2 de acuerdo a la probabilidad obtenida.
En el caso del estudiante b según la probabilidad obtenida, se clasifica en el nivel 3 de desempeño, siendo
este nivel el obtenido en la prueba Saber 11, de esta manera se considera como un acierto en el pronóstico.
Observado
Predicción Nivel 1 Nivel 2 Nivel 3 Nivel 4
Nivel 1 14 8 0 0
Nivel 2 127 515 289 9
Nivel 3 28 293 592 90
Nivel 4 0 0 1 1
Clasificación correcta:57 %
Tabla 23: Matriz de confusión-Nivel desempeño c. naturales
Siguiendo la dinámica expuesta en el ejemplo anterior, la matriz de confusión (tabla 23) muestra los
resultados de clasificación del modelo ajustado respecto al nivel observado y el nivel predicho por el modelo,
Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888
con un porcentaje de correcta clasificación del 57 %. Aunque se presenta una baja tasa de correcta clasificación,
es importante recordar que la finalidad del presente estudio es explicativa y no predictiva, de manera que se
centró en conocer los factores sociodemográficos asociados al nivel de desempeño en la prueba Saber 11 de
ciencias naturales.
5. Conclusiones
En el municipio de Duitama, para el año 2019, los factores sociodemográficos asociados al nivel de desem-
peño en la prueba Saber 11 matemáticas, mediante la regresión logística ordinal, fueron la edad y género del
estudiante, nivel educativo del padre, ocupación de la madre, dedicación diaria internet, dedicación lectura
diaria, jornada y género de la población del colegio. De los cuales, se presenta un aumento en la probabilidad
de obtener un mejor nivel de desempeño según la razón de probabilidad (odds ratio) en un estudiante de gé-
nero masculino (2.31 veces superior que un estudiante de género femenino), que dedica más de 3 horas diarias
a internet (1.84 veces más que quién navega 30 minutos o menos) y más de 2 horas a la lectura diaria (2.68
frente a quién lee 30 minutos o menos), si el padre tiene nivel de educación superior (2.10 frente a padre con
ningún nivel educativo) y la madre tiene una ocupación laboral de tipo profesional (2.77 superior al agricultor
- pesquero), perteneciente a un colegio donde el género de la población es masculino (1.52 frente al femenino).
Para el nivel de desempeño en la prueba Saber 11 de ciencias naturales los factores asociados fueron edad
y género del estudiante, personas que habitan en el hogar, educación del padre, ocupación de la madre, dedi-
cación diaria a internet, dedicación lectura diaria, género de la población, carácter y jornada del colegio. De
los cuales, se presenta un aumento en la probabilidad de obtener un mejor nivel de desempeño según la razón
de probabilidad (odds ratio) en un estudiante de género masculino (2.09 veces superior que un estudiante de
género femenino), de un hogar donde habitan entre 7 a 8 personas (1.79 superior a quién habita en hogar de
1 a 2 personas), que dedica más de 3 horas diarias a internet (1.80 veces más que quién navega 30 minutos
o menos) y más de 2 horas a la lectura diaria (3.59 frente a quién lee 30 minutos o menos), si el padre tiene
nivel de educación superior (2.31 frente a padre con ningún nivel educativo) y la madre tiene una ocupación
laboral de tipo profesional (1.57 superior al agricultor - pesquero), perteneciente a un colegio de carácter
técnico (1.30 superior al académico) y género de la población del colegio masculino (1.27 frente al femenino).
Referencias Bibliográficas
Agresti, A. (2019), Introduction to categorical data analysis, Wiley series in probability and statistics, third
edition edn, John Wiley & Sons.
Benítez, M. A. (2018), Regresión ordinal y sus aplicaciones, PhD thesis, Universidad de Sevilla.
Casas-Herrera, J. A., Gil-León, J. M. y Forero-Medina, M. H. (2018), ‘Cambio poblacional y dinámica socio-
económica de los municipios de Boyacá’, Revista de Investigación, Desarrollo e Innovación 8(2), 207–221.
Number: 2.
*https://revistas.uptc.edu.co/index.php/investigacion_duitama/article/view/7960
Cuadras, C. M. (2012), Nuevos métodos de análisis multivariante, CMC Editions.
Díaz Monroy, L. G., Morales Rivera, M. A. y León Dávila, L. R. (2018), Análisis Estadístico de Datos
Categóricos, primera edn, Editorial Universidad Nacional.
Díaz, L. G. y Morales, M. (2002), ‘Análisis estadístico de datos categóricos’, Notas de Clase del Departamento
de Estadística de la Universidad Nacional de Colombia. Bogotá: Universidad Nacional de Colombia .
Fagerland, M.W. & Hosmer, D. (2017), ‘How to test for goodness of fit in ordinal logistic regression models’,
The Stata Journal: Promoting Communications on Statistics and Stata 17(3), 660–686.
Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888
Faraway, J. J. (2016), Extending the linear model with R: generalized linear, mixed effects and nonparametric
regression models, Texts in statistical science, second edition edn, CRC Press.
Gamboa, C. A. (2019), Variables que explican los rangos remunerativos del primer empleo de los egresados
universitarios del Perú aplicando regresión logística ordinal, PhD thesis, Universidad Agraria la Molina.
Heredia-Escorza, Y. (2014), Factores que afectan el desempeño académico.
ICFES (2018), Guía de orientación Saber 11° para instituciones educativas, Instituto Colombiano para la
Evaluación de la Educación Superior.
*https://www.icfes.gov.co/documents/20143/193560/Guia+de+orientacion+saber+11+de+2019.pdf/13d64150-
fa02-9062-8bb8-dcee660607c5
Leiva-Valdebenito, S. A., Torres-Avilés, F. J. et al. (2010), ‘Una revisión de los algoritmos de partición más
comunes en elanálisis de conglomerados: un estudio comparativo’, Revista Colombiana de Estadística;
Vol. 33, núm. 2 (2010); 321-339 Revista Colombiana de Estadística; Vol. 33, núm. 2 (2010); 321-339
0120-1751 .
MEN (2006), Estándares Básicos de Competencias en Lenguaje, Matemáticas, Ciencias y Ciudadanas, Mi-
nisterio de Educación Nacional.
*https://www.mineducacion.gov.co/1621/articles-340021_recurso_1.pdf
MEN (2010), Decreto 869 de 2010, Ministerio de Educación Nacional.
*https://www.mineducacion.gov.co/1621/articles-221588_archivo_pdf_decreto_869.pdf
R Core Team (2020), R: A Language and Environment for Statistical Computing, R Foundation for Statistical
Computing, Vienna, Austria.
*https://www.R-project.org/
Rodríguez Rodríguez, D. y Guzmán Rosquete, R. (2019), ‘Rendimiento académico y factores sociofamiliares
de riesgo. Variables personales que moderan su influencia’, Perfiles educativos 41(164), 118–134.
Publisher: Instituto de Investigaciones sobre la Universidad y la Educación, UNAM.
*http://www.scielo.org.mx/scielo.php?script=sci_abstract&pid=S0185-26982019000200118&lng=es&nrm=iso&tlng=es
Roksa, J. y Kinsley, P. (2019), ‘The Role of Family Support in Facilitating Academic Success of Low-Income
Students’, Research in Higher Education 60(4), 415–436.
*https://doi.org/10.1007/s11162-018-9517-z
RStudio Team (2020), RStudio: Integrated Development Environment for R, RStudio, Inc., Boston, MA.
*http://www.rstudio.com/
Sánchez, n. R. L., Clavijo, A. F. V., Arias, A. C. S. y Espinel, J. A. S. (2017), ‘Desigualdad de oportunidades
en el sistema de educación pública en Bogotá, Colombia’, Lecturas de Economía (87), 165–190. Number:
87.
*https://revistas.udea.edu.co/index.php/lecturasdeeconomia/article/view/325264

Continuar navegando