Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
repositorio.uptc@uptc.edu.corepositorio.uptc@uptc.edu.co Artículo No. 1 Factores sociodemográ�cos asociados al nivel de desempeño en las pruebas Saber 11 de matemáticas y ciencias naturales del municipio de Duitama - año 2019 1 Especialización en Estadística Uptc Duitama FACTORES SOCIODEMOGRÁFICOS ASOCIADOS AL NIVEL DE DESEMPEÑO EN LAS PRUEBAS SABER 11 DE MATEMÁTICAS Y CIENCIAS NATURALES DEL MUNICIPIO DE DUITAMA - AÑO 2019 Especialización en Estadística HAROLD DUVAN GARZÓN GONZÁLEZ1,a, ALEXANDRA ORTIZ RODRÍGUEZ1,b 1Escuela de Posgrados, Seccional Duitama, Universidad Pedagógica y Tecnológica de Colombia, Duitama, Colombia Resumen Los lineamientos actuales del Ministerio de Educación Nacional de Colombia, presentan a las Pruebas Saber 11 como indicador indispensable de la calidad de las instituciones de educación y del aprendizaje de los estudiantes, el desempeño en este tipo de exámenes estandarizados puede verse afectado debido a la diversidad de características socioeconómicas y demográficas de los estudiantes evaluados. En el municipio de Duitama la diferenciación por dichas características puede verse inmersa en el alcance de logros académicos obtenidos por la población estudiantil, de esta manera, por medio de la regresión logística ordinal se buscó determinar los factores sociodemográficos del estudiante evaluado en el segundo período del año 2019 asociados a la probabilidad de lograr cierto nivel de desempeño en las pruebas Saber 11 relacionadas con las ciencias básicas. Así, se identificó como factores sociodemográficos que generan un efecto significativo sobre el nivel de desempeño para la prueba de matemáticas a la edad y género del estudiante, nivel educativo del padre, ocupación de la madre, dedicación diaria a internet, dedicación de lectura diaria, jornada y género de la población del colegio. Para la prueba de ciencias naturales, adicional a los factores señalados anteriormente, se tienen las personas que habitan en el hogar y el carácter del colegio. Palabras clave: Regresión logística ordinal, prueba de estado. Abstract The current guidelines of the Ministry of National Education of Colombia, present the Saber 11 tests as an indispensable indicator of the quality of educational institutions and student learning, performance in this type of standardized tests may be affected due to diversity of socioeconomic and demographic characteristics of the evaluated students. In the municipality of Duitama the differentiation by these characteristics can be seen immersed in the scope of academic achievements obtained by the student population, in this way, by means of ordinal logistic regression, it was sought to determine the sociodemo- graphic factors of the student evaluated in the second period of the study. year 2019 associated with the probability of achieving a certain level of performance in the Saber 11 tests related to basic sciences. Thus, it was identified as sociodemographic factors that generate a significant effect on the level of performance for the mathematics test at the age and gender of the student, the father’s educational level, the mother’s occupation, daily internet dedication, daily reading dedication, day and gender of the school population. For the natural sciences test, in addition to the factors indicated above, there are the people who live in the home and the character of the school. Key words: Ordinal logistic regression, state test. aEstudiante de Especialización en Estadística. E-mail: harold.garzon@uptc.edu.co bEstudiante de Especialización en Estadística. E-mail: alexandra.ortizrodriguez@uptc.edu.co Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888 1. Introducción De acuerdo con los lineamientos actuales del Ministerio de Educación Nacional de Colombia, los estu- diantes que en el país pretendan continuar estudios de educación superior deben presentar las Pruebas Saber 11 como requisito. Los resultados de dicha prueba también son un indicador indispensable de la calidad de las instituciones de educación y del aprendizaje de los estudiantes (MEN 2010). Los niveles de desempeño se establecieron con el objetivo de complementar el puntaje numérico que se otorga a los estudiantes en el examen. Los niveles definidos por el Icfes, en las pruebas de matemáticas y ciencias naturales agrupan a los estudiantes en 4 niveles (1, 2, 3 y 4) de acuerdo al desempeño observado. Cada nivel de desempeño incluye una descripción cualitativa de las habilidades y conocimientos que se estima ha desarrollado el evaluado en cada una de las áreas (ICFES 2018). Estudios realizados con el objetivo de evaluar la calidad de educación en las instituciones colombianas, medida mediante el desempeño de los estudiantes en las pruebas de Estado - Saber11, vislumbran ciertos aspectos sobre la desigualdad de oportunidades en el logro educativo en Colombia (Sánchez, Clavijo, Arias y Espinel 2017), se considera que existe un conjunto de variables sociales y familiares (pobreza, la zona socio- económica en la que vive, la escolaridad de los padres, el ingreso familiar, entre otros) que pueden constituir factores de riesgo en el rendimiento académico de los estudiantes, especialmente en los que cursan una etapa educativa de cambios personales, como la educación secundaria (Heredia-Escorza 2014, Rodríguez Rodríguez y Guzmán Rosquete 2019). Se ha demostrado que en contextos sociales y familiares favorables (progenitores con estudios universitarios, de estratos ocupacionales medios y privilegiados, cuyas relaciones familiares se ca- racterizan por el apoyo afectivo) las probabilidades de éxito académico se incrementan; y, consecuentemente, disminuyen cuando los estudiantes viven en contextos desfavorecidos o con menos oportunidades (pobreza, marginalidad, disfuncionalidad familiar, baja educación de la madre, familia monoparental y hacinamiento en el hogar) (Roksa y Kinsley 2019). Si bien el bajo o alto rendimiento es un índice escolar, la interconexión que existe entre el contexto escolar y el familiar hace que determinados factores sociofamiliares contribuyan a incrementar el riesgo de que algunos estudiantes sean más vulnerables a presentar bajo rendimiento, prin- cipalmente en el pensamiento crítico y científico (Rodríguez Rodríguez y Guzmán Rosquete 2019). En el municipio de Duitama, a pesar del crecimiento económico dado del año 1993 al 2005 medido a partir de la desigualdad de los ingresos, el aumento de la población (Casas-Herrera, Gil-León y Forero-Medina 2018) puede generar diferenciación en las características sociodemográficas en relación al contexto familiar de los estudiantes, lo cual puede influir en sus logros académicos. Este estudio se basa en el desempeño obtenido en las pruebas Saber 11 relacionadas con las ciencias básicas (matemáticas y ciencias naturales), debido a su aporte en el desarrollo del pensamiento científico de los estudiantes de las instituciones duitamenses. La identificación de la influencia de los factores sociodemográficos sobre el desempeño académico en las ciencias básicas de los estudiantes del municipio de Duitama, reflejado en los resultados de exámenes estandarizados aplicados por el estado como las pruebas Saber 11, permitirá generar conocimiento que servirá como base para establecer estrategias de mejoramiento de la educación a nivel municipal, con la participación y acción de las entidades competentes, por lo anterior, el objetivo del presente estudio fue determinar los factores sociodemográficos que influyen sobre el nivel de desempeño en las pruebas Saber 11 de matemáticas y ciencias naturales del municipio de Duitama. Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888 2. Referente Conceptual A continuación se presentan algunos aspectos relacionados con las pruebas Saber 11 en donde se incluyen las características de los niveles de desempeño para las pruebas de matemáticas y ciencias naturales, y finalmente lo relacionado con la Regresión Logística Ordinal (RLO). 2.1.Pruebas Saber 11 De acuerdo a la Resolución 00253 de 2017 (ICFES 2018), la aplicación del Examen de Estado Icfes - Saber 11 tiene como objetivo comprobar el nivel de desarrollo de las competencias de los estudiantes que están por finalizar el grado undécimo y ser un insumo para monitorear la calidad de la formación que ofrecen las instituciones de educación media. Por ello, estas pruebas evalúan competencias, entendidas como las ha- bilidades para aplicar los conocimientos en diferentes contextos. En este sentido, tener buenos resultados en este examen no implica solamente conocer conceptos o datos, significa saber cómo emplear dichos conceptos para resolver problemas en situaciones de la vida cotidiana. El examen saber 11 se compone de cinco pruebas: lectura crítica, matemáticas, sociales y ciudadanas, ciencias naturales e inglés. El componente de ciencias básicas esta representado por las pruebas de matemá- ticas y ciencias naturales, el cual es un indicador del desarrollo del pensamiento científico de los estudiantes. La prueba de matemáticas del examen de Estado Saber 11 evalúa las competencias de los estudiantes para enfrentar situaciones que pueden resolverse con el uso de algunas herramientas matemáticas (ICFES 2018). Tanto las competencias definidas para la prueba como los conocimientos matemáticos que el estudiante requiere para resolver las situaciones planteadas se contemplan en las definiciones de los Estándares Básicos de Competencias en Matemáticas del Ministerio de Educación Nacional (MEN 2006). A continuación, se presentan los niveles de desempeño establecidos para esta prueba. Nivel de desempeño Puntaje en la prueba Descriptor general Nivel 1 0 a 35 El estudiante que se ubica en este nivel probablemente pue- de leer información puntual (un dato, por ejemplo) relacio- nada con situaciones cotidianas y presentada en tablas o gráficas con escala explícita, cuadrícula o, por lo menos, lí- neas horizontales; pero puede tener dificultades al comparar distintos conjuntos de datos, involucrar diferentes variables o analizar situaciones alejadas de su vida diaria. Nivel 2 36 a 50 Además de lo descrito en el nivel anterior, el estudiante que se ubica en este nivel es capaz de hacer comparaciones y es- tablecer relaciones entre los datos presentados, e identificar y extraer información local y global de manera directa. Lo anterior en contextos familiares o personales que involucran gráficas con escala explícita, cuadrícula o, por lo menos, lí- neas horizontales u otros formatos con poca información. Nivel 3 51 a 70 Además de lo descrito en los niveles anteriores, el estudian- te que se ubica en este nivel selecciona información, señala errores y hace distintos tipos de transformaciones y ma- nipulaciones aritméticas y algebraicas sencillas; esto para enfrentarse a problemas que involucran el uso de conceptos de proporcionalidad, factores de conversión, áreas y desa- rrollos planos, en contextos laborales u ocupacionales, ma- temáticos o científicos, y comunitarios o sociales. Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888 Nivel de desempeño Puntaje en la prueba Descriptor general Nivel 4 71 a 100 Además de lo descrito en los niveles anteriores, el estudiante que se ubica en este nivel resuelve problemas y justifica la veracidad o falsedad de afirmaciones que requieren el uso de conceptos de probabilidad, propiedades algebraicas, relacio- nes trigonométricas y características de funciones reales. Lo anterior, en contextos principalmente matemáticos o cien- tíficos abstractos. Tabla 1: Niveles de desempeño en la prueba de matemáticas La prueba de ciencias naturales evalúa la capacidad que tiene el estudiante de comprender y usar nociones, conceptos y teorías de las ciencias naturales, en la solución de problemas. Evalúa también la habilidad del estudiante para explicar cómo ocurren algunos fenómenos de la naturaleza basado en observaciones, patrones y conceptos propios del conocimiento científico. La prueba, además, involucra en la evaluación, el proceso de indagar, que incluye observar y relacionar patrones en los datos para derivar conclusiones de fenómenos naturales. Así mismo, se comprenden las ciencias naturales como un área del conocimiento caracterizada por lenguajes propios y formas particulares de abordar los problemas (ICFES 2018). Los niveles de desempeño establecidos para esta prueba se presentan a continuación. Nivel de desempeño Puntaje en la prueba Descriptor general Nivel 1 0 a 40 El estudiante que se ubica en este nivel muy posiblemen- te alcanza a reconocer información explícita, presentada de manera ordenada en tablas o gráficas, con un lenguaje co- tidiano y que implica la lectura de una sola variable inde- pendiente. Por lo tanto, estos estudiantes demuestran un insuficiente desarrollo de la competencia Indagación defini- da en el marco teórico de la prueba. Nivel 2 41 a 55 Además de lo descrito en el nivel anterior, el estudiante que se ubica en este nivel reconoce información suministrada en tablas, gráficas y esquemas de una sola variable inde- pendiente, y la asocia con nociones de los conceptos bási- cos de las ciencias naturales (tiempo, posición, velocidad, imantación y filtración). Nivel 3 56 a 70 Además de lo descrito en los niveles anteriores, el estudian- te que se ubica en este nivel interrelaciona conceptos, leyes y teorías científicas con información presentada en diver- sos contextos, en los que intervienen dos o más variables, para hacer inferencias sobre una situación problema o un fenómeno natural. Nivel 4 71 a 100 Además de lo descrito en los niveles anteriores, el estudiante que se ubica en este nivel usa conceptos, teorías o leyes en la solución de situaciones problema que involucran proce- dimientos, habilidades, conocimientos y un lenguaje propio de las ciencias naturales. Tabla 2: Niveles de desempeño en la prueba de ciencias naturales Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888 2.2. Regresión Logística Ordinal (RLO) El modelamiento consiste en aplicar una serie de procesos con el objeto de conseguir una explicación apropiada del comportamiento de una variable respuesta (datos) a partir de una función ponderada de una o más variables explicativas (modelo). La explicación no suele ser perfecta, a la diferencia entre los datos y el modelo se le denomina error. La siguiente igualdad ilustra el concepto de modelo (Díaz Monroy, Morales Rivera y León Dávila 2018). DATOS = MODELO + ERROR Así, los datos observados son función de un componente sistemático representado por algún modelo teórico apropiado y un componente aleatorio que representa la discrepancia o error entre los datos empíricos y el modelo teórico propuesto. Uno de los ejemplos clásicos de modelos estadísticos es la regresión lineal múltiple en la cual una variable respuesta Y , es explicada a través de unas variables independientes (Xi) y un término de error (εi), que recoge todos aquellos factores no controlables, atribuidos en parte al azar y, en parte, a los errores aleatorios, desconocidos o no controlados, que le confieren su carácter estocástico. El modelo se expresa según la ecuación: Y = β0 + β1X1 + β2X2 + . . . + βpXp + εi (1) Donde β0 es la intersección o término constante; las β1, β2, . . . , βp, denotan la magnitud del efecto que pueden adoptar las variables independientes X1, X2, . . . , Xp, y εi es el término error o residuo. El modelo de regresión logística permite estimar la probabilidad de un suceso que depende de los valores de ciertas covariables (Cuadras 2012). La regresión logística se utiliza cuando se desea modelar una variable dependiente de naturaleza cualitativa que tiene dos o más categorías, en función de un conjunto de variables independientes o predictoras que pueden ser cuantitativas o cualitativas. Cuando la variable dependiente tiene sólo dos categorías se usa la regresión logística dicotómicas (binaria) y si presenta más de dos categorías se usa la regresión logísticapolitómica. En el caso que en el modelo politómico la variable dependiente esté asociada a una variable tipo nominal (categorías sin jerarquía) se usa la regresión logística nominal y en el caso de de tipo ordinal (categorías con jerarquía) la regresión logística ordinal. La regresión logística perte- nece a los llamados modelos de respuesta discreta, que hace alusión a la variable dependiente de naturaleza cualitativa. Los modelos de respuesta discreta, tienen la posibilidad de usar una variedad de funciones de enlace, tales como la logit (logística, probit, log-log, etc). En los modelos logísticos, la función de enlace que se usa es la logística (logit) (Gamboa 2019). Cuando las categorías de la variable respuesta tienen alguna clase de ordenamiento, los modelos que se usan comúnmente son el modelo logit acumulativo, el modelo de categoría adyacente, el modelo logit de continuación de razón y el de odds proporcionales (Díaz Monroy, Morales Rivera y León Dávila 2018). El modelo logístico ordinal más usado para modelar la variable dependiente con j categorías, es el logit acumulativo, en el cual para una variable dependiente Y con j categorías y con sus respectivas probabilidades π1, π2, . . . , πj , la probabilidad acumulada de Y es la probabilidad de que Y sea menor o igual a un valor determinado de sus categorías. Así, para una categoría dada j, se define la probabilidad acumulada de Y (Agresti 2019): P (Y ≤ j) = π1 + . . . + πj , j = 1, . . . , c Teniendo entonces que: P (Y ≤ 1) ≤ P (Y ≤ 2) ≤ · · · ≤ P (Y ≤ c) = 1 Los logits de las probabilidades acumuladas son expresadas por: logit[P (Y ≤ j)] = log [ P (Y ≤ j) 1 − P (Y ≤ j) ] = log ( π1 + · · · + πj πj+1 + · · · + πc ) Para j = 1, . . . , c − 1. Por ejemplo, para una respuesta ordinal con tres categorías se tiene: Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888 logit[P (Y ≤ 1)] = log ( π1 π2 + π3 ) y logit[P (Y ≤ 2)] = log ( π1 + π2 π3 ) Un modelo para logit j acumulativo se comporta como un modelo de regresión logística binaria en el que las categorías 1 a j se combinan para formar una categoría y las categorías j + 1 a c forman la otra. Para una variable explicativa x, el modelo logit[P (Y ≤ j)] = αj + βx, j = 1, . . . , c − 1 (2) Tiene el parámetro β que describe el efecto de x en las probabilidades logarítmicas de respuesta en la categoría j. En esta fórmula, β no tiene un subíndice j. El modelo asume que el efecto de x es idéntico para todos los logits acumulativos c−1. Cuando este modelo se ajusta bien, solo requiere un parámetro único para describir el efecto de x. Por el contrario, el modelo logit de categoría de referencia requiere c − 1 parámetros, uno para cada logit. Cada acumulativo de probabilidad tiene su propia curva, que describe su cambio en función de x. Con múltiples variables explicativas, el modelo logit acumulativo con la propiedad de probabilidades proporcionales es: logit[P (Y ≤ j)] = αj + β1x1 + β2x2 + · · · + βpxp, j = 1, . . . , c − 1 (3) Con los mismos efectos para cada logit acumulativo. El proceso de ajuste de máxima verosimilitud emplea el algoritmo iterativo de puntuación de Fisher simultáneamente para todo j. Cuando invertimos el orden de las categorías de respuesta, el ajuste es el mismo pero el signo de cada β̂j se invierte. Esta inversión de signo también se aplica cuando formamos las probabilidades logarítmicas contrastando el extremo superior de la escala con el extremo inferior, en lugar del extremo inferior con el máximo. Las interpretaciones de modelos pueden utilizar razones de posibilidades para las probabilidades acumu- ladas y sus complementos. Para dos valores a y b de x, la razón de posibilidades acumulada (cumulative odds ratio) es: odds ratio = P (Y ≤ j | x = a)/P (Y > j | x = a) P (Y ≤ j | x = b)/P (Y > j | x = b) (4) El logaritmo de esta razón de posibilidades es la diferencia entre los logits acumulados en esos dos valores de x. Esto es igual a β(a − b), proporcional a la distancia entre los valores de x. Se aplica la misma constante de proporcionalidad (β) para cada probabilidad acumulada (es decir, para cada j). Esta propiedad se llama probabilidades proporcionales (proportional odds). Para a − b = 1, la propiedad dice que las probabilidades de respuesta por debajo de cualquier categoría particular se multiplican por eβ por cada unidad que aumenta x. Los parámetros del modelo pueden estimarse por máxima verosimilitud, maximizando la función de ve- rosimilitud (Benítez 2018). L(α, β | Y, X) = · · · = n∏ i=1 g−1∏ j=2 [ 1 1 + e−(α1+β′Xj) ]δj1 [ 1 1 + e−(αj+β′Xj) − 1 1 + e−(αj−a+β′Xj) ]δij (5) Donde δij = { 1 si el i-ésimo individuo muestra Y = yj 0 en caso contrario De aquí por las propiedades de los estimadores de máxima verosimilitud: θ̂k,MV asint.∼ N ( θk, √ F̂ −1kk ) Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888 Una vez estimados los parámetros debemos valorar cuan bueno es nuestro modelo, es decir valorar la discrepancia entre los datos observados y los datos esperados. Cuando se tiene un modelo con p variables y otro con k < p variables, el problema es decidir cuál de los dos modelos se ajusta mejor a los datos. Al primer modelo se le nota por M y al más simple por M∗. La estadística de razón de verosimilitud es (Díaz Monroy, Morales Rivera y León Dávila 2018). G2 = −2 ln L (M ∗) L(M) = −2 ln L (M∗) − 2 ln L(M) = G2 (M∗) − G2(M) (6) La estadística G2 mide los desvíos entre los datos (valores observados) y los valores ajustados (pronosti- cados) por modelo logístico, y se define: G2 = 2 ∑ ( observ. ) ln ( observ. ajuste ) Siendo simplemente la diferencia de los desvíos de estos dos modelos: la estadística es grande cuando el modelo M∗ se ajusta poco con el modelo M . Se usa la Deviance para realizar la prueba de bondad, definida como la diferencia entre el logaritmo de la función verosimilitud del modelo maximal (con N parámetros)y el modelo en investigación (con p parámetros). Se calcula con la siguiente expresión: D = 2[l (bmáx; y) − l(b; y)] (7) Dónde bmáx es la función log-verosimilitud para el modelo maximal evaluado para el estimador l (bmáx; y) que corresponde al vector de parámetros βmáx; l(b; y) es la función de log-verosimilitud para el modelo de interés del vector estimado b para el vector de parámetros β. El estadístico de Deviance sigue una distribu- ción de Chi Cuadrado con grados de libertad igual a la diferencia del número de parámetros entre el modelo maximal (N) y el modelo ajustado (p). Cuando la diferencia entre p y k es 1 (p − k = 1), se trata del caso en el que se verifica el aporte de una variable particular. Es decir, se quiere observar si la supresión de una variable especifica reduce significativamente el grado de explicación que se obtiene cuando esta variable se incluye con las demás al modelo. Esto equivale a verificar la hipótesis H0 : βi = 0. con el estadístico de contraste Zwald. Zwald = bj Sbj (8) Se aproxima a un distribución normal estándar. Dónde bj y Sbj son el coeficiente de regresión estimado y su error estándar asociada a la variable independiente j. La prueba de bondad de ajuste de Pearson se basa en construir una tabla de contingencia cuyas filas re- presentan los valores observados y las columnas, los valores predichos con el modelo logístico, comparando las frecuencias observadas con las predichas, de tal manera que si difieren significativamente se puede evidenciar una falta de ajuste del modelo. Se considera que la variable dependiente tiene k categorías y que se forman m combinaciones de valores con las variables independientes. Se calcula con la siguiente expresión: X2 = k∑ i=1 m∑ j=1 (yil − mjpij)2 mjpij (1 − pij) (9) Dónde: yij Es la frecuencia observada de la i-ésima categoría de la variable dependiente en la j-ésima combinación de los valores de las variables explicativas, pij es la probabilidad estimada con el modelo para la Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888i-ésima categoría de la variable dependiente en la j-ésima combinación de los valores de las variables explica- tivas, mj Es la cantidad de elementos en la j-ésima combinación de los valores de las variables explicativas. La prueba de Hosmer-Lemeshow es una prueba de bondad de ajuste que compara las frecuencias ob- servadas con las esperadas del resultado y calculan un estadístico de prueba que se distribuye de acuerdo con la distribución chi-cuadrado (Fagerland 2017). Los grados de libertad dependen del número de cuantiles utilizados y del número de categorías de resultados. Un valor p no significativo indica que no hay evidencia de que las frecuencias observadas y esperadas difieran (es decir, evidencia de un buen ajuste). Cg = g∑ k=1 c∑ j=1 ( Okj − Êkj )2 /Êkj (10) Donde Okj y Êkj denotan la suma de las observaciones y frecuencias estimadas en cada grupo por cada categoría de la respuesta, respectivamente. Okj = ∑ l∈Ωk ỹlj Êkj = ∑ l∈Ωk π̂lj La distribución de Cg está bien aproximada por la distribución X2 con (g − 2)(c − 1) + (c − 2) grados de libertad bajo una corrección. La prueba de Lipsitz es una prueba de bondad de ajuste para modelos de regresión logística de respuesta ordinal. Implica agrupar los datos observados en grupos g de igual tamaño según una puntuación de respuesta ordinal. Esta puntuación se calcula sumando las probabilidades predichas de cada sujeto para cada nivel de resultado multiplicado por pesos enteros igualmente espaciados. Similarmente, como en los modelos lineales para evaluar la bondad de ajuste se proponen en los modelos logísticos los coeficientes de determinación, denominados Pseudo R2, que mide la reducción proporcional en la incertidumbre debido a la inclusión de los regresores. Se han propuesto varias medidas basadas en los residuales, una medida preferida es aquella que se basa en el desvío del modelo mínimo (intercepto) y el modelo de interés. El Pseudo R2 es definido por (Gamboa 2019): Pseudo R2 = 1 − D(y, ŷ) D (y, ŷ0) = l (bmı́n; y) − l(b; y) l (bmı́n; y) (11) Dónde: D(y, ŷ) y D (y, ŷ0) son las funciones desvío de los modelos ajustados y nulo (mínimo) respectiva- mente. Se tiene 0 ≤ R2 ≤ 1. No decrece a medida que se adicionen regresores. Se interpreta en términos del contenido de los datos. Otros Pseudo R2 no usan la función de máxima verosimilitud, sino la razón de verosimilitud (Λ). Se tiene los Pseudo R2 de Mc-Fadden, dado por la expresión: R2MF = 1 − λf Λ0 . Su rango teórico es 0 ≤ R 2 MF ≤ 1 pero muy raramente su valor se aproxima a 1. Se considera un ajuste aceptable cuando se tiene valores 0.2 ≤ R2MF ≤ 0.4 y muy buenos para valores mayores a 0.4. El pseudo R2 de Cox-Snel se define R2CS = 1 − nL0 2 nLf 2 = 1 − exp ( Λf −Λ0 n ) . Pseudo R2 de Nagelkerke, se define: R2N = R2CS 1 − nL02 = 1 − exp ( Λf −Λ0 n ) 1 − exp ( − Λ0n ) . Su rango de valores es 0 ≤ R2N ≤ 1, por lo que su interpretación es similar al clásico. Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888 3. Metodología En esta investigación se utilizó el enfoque cuantitativo y se empleó los datos del ICFES para los resul- tados de las pruebas Saber 11 del segundo período del año 2019, obtenidos de la página de datos abiertos del gobierno nacional. De la base descargada se seleccionaron los registros de estudiantes de las instituciones educativas del municipio de Duitama, obteniendo un total de 1967 observaciones. A partir de la revisión literaria de la influencia de factores sociodemográficos en el rendimiento académico, se seleccionaron para este estudio las variables: nivel de desempeño en las pruebas de matemáticas y ciencias naturales como varia- ble respuesta, y como variables explicativas: edad y género del estudiante, personas que habitan en el hogar, estrato de la familia, nivel educativo de los padres, ocupación de los padres, acceso a internet y disponibilidad de computador en el hogar, tiempo de dedicación diaria a internet y lectura, naturaleza, carácter, género de la población, ubicación y jornada del colegio, las cuales fueron empleadas en la regresión logística ordinal. Debido a la presencia de datos faltantes en las variables explicativas, se empleó el algoritmo de los K vecinos más cercanos (K-Nearest Neighbours, KNN) para la imputación de 870 registros en 202 observa- ciones. Posteriormente, se realizó la selección del modelo por el método Stepwise dirección Backward y las correspondientes pruebas de la bondad de ajuste del modelo seleccionado, el procesamiento de los datos se realizó con el software libre R Core Team (2020) y el entorno de desarrollo integrado RStudio Team (2020). 4. Resultados A continuación se presentan los resultados obtenidos en el estudio, inicialmente se da a conocer el análisis exploratorio univariado de las frecuencias de los factores considerados, seguida por la regresión logística ordinal para el nivel de desempeño en la prueba de matemáticas y la regresión logística ordinal para el nivel de desempeño en la prueba de ciencias naturales. Variable Descripción Nivel de desempeño en la prueba de matemáticas Nivel 1: 47 estudiantes (2.4 %) Nivel 2: 389 estudiantes (19.8 %) Nivel 3: 1262 estudiantes (64.2 %) Nivel 4: 269 estudiantes (13.7 %) Nivel de desempeño en la prueba de ciencias naturales Nivel 1: 169 estudiantes (8.6 %) Nivel 2: 816 estudiantes (41.5 %) Nivel 3: 882 estudiantes (44.8 %) Nivel 4: 100 estudiantes (5.1 %) Edad 15 a 16 años: 812 estudiantes ( 41.3 %) 17 a 18 años: 932 estudiantes (47.4 %) 19 a 20 años: 169 estudiantes (8.6 %) Más de 20 años: 47 estudiantes (2.4 %) NA: 7 (0.4 % ) Género Masculino: 946 estudiantes (48.1 %)Femenino: 1021 estudiantes (51.9 %) Estrato de la familia Estrato 1: 366 estudiantes (18.6 %) Estrato 2: 935 estudiantes (47.5 %) Estrato 3: 453 estudiantes (23.0 %) Estrato 4: 73 estudiantes (3.7 %) Estrato 5: 15 estudiantes (0.8 %) Estrato 6: 5 estudiantes (0.3 %) Sin Estrato: 14 estudiantes (0.7 %) NA: 106 (5.4 %) Número de personas en el hogar 1 a 2 personas: 171 observaciones ( 8.7 %) 3 a 4 personas: 1084 observaciones (55.1 %) 5 a 6 personas: 588 observaciones (29.9 %) 7 a 8 personas: 68 observaciones (3.5 %) 9 o más personas: 14 observaciones (0.7 %) NA: 42 (2.1 %) Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888 Variable Descripción Nivel educativo del padre Ninguno: 25 observaciones (1.3 %) No Aplica: 136 observaciones (6.9 %) Primaria: 441 observaciones (22.4 %) Secundaria: 703 observaciones (35.7 %) Superior: 560 observaciones (28.5 %) NA: 102 (5.2 %) Nivel educativo de la madre Ninguno: 17 observaciones (0.9 %) No Aplica: 37 observaciones (1.9 %) Primaria: 326 observaciones (16.6 %) Secundaria: 823 observaciones (41.8 %) Superior: 660 observaciones (33.6 %) NA: 104 (5.3 %) Ocupación del padre Auxiliar administrativo: 63 observaciones (3.2 %) Agricultor-pesquero: 107 observaciones (5.4 %) Pensionado-Hogar-No trabaja: 111 observaciones (5.6 %) Mantenimiento-seguridad-construcción: 118 observaciones (6.0 %) Vendedor - atención al público: 125 observaciones (6.4 %) No sabe: 157 observaciones (8.0 %) No aplica: 165 observaciones (8.4 %) Profesional: 223 observaciones (11.3 %) Director-Gerente-propietario: 245 observaciones (12.5 %) Independiente: 262 observaciones (13.3 %) Operario-conductor: 339 observaciones (17.2 %) NA: 52 (2.6 %) Ocupación de la madre Operario-conductor: 18 observaciones (0.9 %) Agricultor- pesquero: 20 observaciones (1.0 %) No sabe: 38 observaciones (1.9 %) Independiente: 59 observaciones (3.0 %) No aplica: 91 observaciones (4.6 %) Auxiliar administrativo: 171 observaciones (8.7 %) Mantenimiento-seguridad-construcción: 200 observaciones (10.2 %) Profesional: 205 observaciones (10.4 %) Vendedor - atención al público: 208 observaciones (10.6 %) Director-Gerente-propietario: 268 observaciones (13.6 %) Pensionado-Hogar-No trabaja: 643 observaciones (32.7 %) NA: 46 (2.3 %) Internet en el hogar No: 581 observaciones (29.5 %) Si: 1278 observaciones (65.0 %) NA: 108 (5.5%) Disponibilidad de computador en el hogar No: 613 observaciones (31.2 %) Si: 1309 observaciones (66.5 %) NA: 45 (2.3 %) Dedicación diaria internet 30 minutos o menos: 296 observaciones (15.0 %) Entre 30 y 60 minutos: 534 observaciones (27.1 %) Entre 1 y 3 horas: 679 observaciones (34.5 %) Más de 3 horas: 269 observaciones (13.7 %) No Navega en Internet: 75 observaciones (3.8 %) NA: 114 (5.8 %) Dedicación lectura diaria 30 minutos o menos: 707 observaciones (35.9 %) Entre 30 y 60 minutos: 641 observaciones (32.6 %) Entre 1 y 2 horas: 222 observaciones (11.3 %) Más de 2 horas: 61 observaciones (3.1 %) No leo por entretenimiento: 224 observaciones (11.4 %) NA: 112 (5.7 %) Naturaleza del colegio No oficial: 638 observaciones (32.4 %)Oficial: 1329 observaciones (67.6 %) Carácter del colegio Técnico: 149 observaciones (7.6 %) Académico: 819 observaciones (41.6 %) Técnico/académico: 967 observaciones (49.2 %) NA: 32 (1.6 %) Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888 Variable Descripción Género de la población del cole- gio Masculino: 87 observaciones (4.4 %) Femenino: 122 observaciones (6.2 %) Mixto: 1758 observaciones (89.4 %) Área de ubicación del colegio Rural: 168 observaciones (8.5 %)Urbano: 1799 observaciones (91.5 %) Jornada del colegio Tarde: 45 observaciones (2.3 %) Noche: 71 observaciones (3.6 %) Sabatina: 86 observaciones (4.4 %) Completa: 574 observaciones (29.2 %) Mañana: 557 observaciones (28.3 %) Única: 634 observaciones (32.2 %) Tabla 3: Resumen de las variables El nivel de desempeño en la prueba Saber 11 de matemáticas del segundo período del año 2019 en el mu- nicipio de Duitama con mayor representatividad fue el nivel 3 que corresponde al 64.2 %, este nivel también fue el mayor proporción para la prueba de ciencias naturales representando al 44.8 % de los estudiantes que presentaron las pruebas. Respecto a la edad del estudiante, mayormente se tienen edades de 17 a 18 años (47.4 %), también se evidencia que el 51.9 % de los estudiantes son de género femenino. P ro po rc ió n de d at os fa lta nt es 0. 00 0. 01 0. 02 0. 03 0. 04 0. 05 Le ct ur a_ di ar ia In te rn et E st ra to La bo r_ pa dr e La bo r_ m ad re C om pu ta do r P er so na sh og ar C ar ac te r_ co le E da d_ c G en er o G en er o_ co le N at ur al ez a_ co le A re a_ co le Jo rn ad a_ co le P at ró n Le ct ur a_ di ar ia In te rn et E st ra to La bo r_ pa dr e La bo r_ m ad re C om pu ta do r P er so na sh og ar C ar ac te r_ co le E da d_ c G en er o G en er o_ co le N at ur al ez a_ co le A re a_ co le Jo rn ad a_ co le Figura 1: Datos faltantes De las características del hogar del estudiante se ob- serva principalmente estrato 2 (47.5 %), donde habitan de 3 a 4 personas (55.1 %), el nivel educativo del pa- dre es en mayor frecuencia secundaria al igual que pa- ra la madre (35.7 % y 41.8 % respectivamente), las ocu- paciones de los padres son variadas presentando ma- yor frecuencia para el padre el trabajo como operario - conductor (17.2 %) y para la madre trabajo en el ho- gar, pensión o no trabaja (32.7 %). En mayor propor- ción cuentan con internet en el hogar y tienen disponi- ble un computador en casa (65 % y 66.5 % respectivamen- te). La dedicación diaria al uso de internet se presenta con mayor frecuencia entre 1 y 3 horas (34.5 %), mientras que el tiempo dedicado a la lectura diaria es principalmente de 30 minutos o menos (35.9 %). En sentido de las caracte- rísticas del colegio se encuentra mayor frecuencia en natu- raleza oficial, carácter técnico - académico, con población de género mixto, ubicado en área urbana y jornada úni- ca (67.6 %, 49.2 %, 89.4 %, 91.5 % y 32.2 % respectivamen- te). Como se observó en la tabla 3, se presentaron datos faltantes en 12 de las variables explicativas, su representatividad se visualiza en la figura 1, encontrando la mayor proporción en la dedicación diaria de internet y la dedicación de lectura diaria (5.8 % y 5.7 % respectivamente), respecto a la combinación o patrón de missings, permite establecer que dichos datos tienen un comportamiento aleatorio. 4.1. Regresión para el nivel de desempeño en la prueba de matemáticas A continuación, se presentan los resultados obtenidos en la regresión logística ordinal para el nivel de desempeño en la prueba de matemáticas, considerando la selección y ajuste del modelo. Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888 Empleando el método Stepwise, las variables para el modelo son: edad y género del estudiante, personas en el hogar, nivel educativo del padre, ocupación de la madre, internet en el hogar, dedicación diaria internet, dedicación lectura diaria, género de la población, área de ubicación y jornada del colegio. La significancia de los coeficientes de regresión del modelo anterior, se verificaron mediante el contraste de razón de verosimilitud y contraste de Wald, obteniendo que, con excepción del área de ubicación del colegio, internet y número de personas en el hogar, las variables seleccionadas generan un efecto estadísticamente significativo sobre el nivel de desempeño para un nivel de significancia del 5 % como se observa en las tablas 4 y 5. Por lo anterior, las variables área de ubicación del colegio, internet y número de personas no se consideraron en el modelo, presentando significancia estadística en las ocho variables del modelo ajustado. Chi-Square d.f. P-valor Edad_c 67.37 3.00 0.00 Genero 68.60 1.00 0.00 Personashogar 8.70 4.00 0.07 Educacion_padre 39.98 4.00 0.00 Labor_madre 24.19 9.00 0.00 Internet 2.52 1.00 0.11 Dedicacion_internet 23.52 4.00 0.00 Lectura_diaria 37.03 4.00 0.00 Genero_cole 21.96 2.00 0.00 Area_cole 2.02 1.00 0.16 Jornada_cole 42.25 5.00 0.00 TOTAL 465.63 38.00 0.00 Tabla 4: Contraste de Wald-matemáticas LR Chisq Df Pr(> Chisq) Edad_c 70.16 3 0.0000 Genero 70.57 1 0.0000 Personashogar 8.60 4 0.0720 Educacion_padre 40.92 4 0.0000 Labor_madre 24.27 9 0.0039 Dedicacion_internet 23.83 4 0.0001 Lectura_diaria 37.69 4 0.0000 Genero_cole 22.03 2 0.0000 Area_cole 2.01 1 0.1566 Jornada_cole 42.11 5 0.0000 Internet 2.52 1 0.1122 Tabla 5: Contraste razón verosimilitud-matemáticas A través de la razón de verosimilitud se estableció si el modelo seleccionado se ajusta mejor a los datos en comparación con el modelo nulo y el modelo maximal. Según lo señalado en la tabla 6, se tiene que al menos una variable del modelo seleccionado genera efecto significativo sobre el nivel de desempeño, indicando que el modelo proporciona una mejora significativa con respecto al modelo nulo o modelo sin ninguna variable explicativa. Por otra parte, los resultados en la tabla 7 evidencian un p-valor muy cercano a 0.05, por lo que se asimila que el modelo seleccionado es equivalente al modelo maximal respecto al efecto de las variables explicativas, siguiendo el principio de parsimonia se considera al modelo seleccionado como adecuado para la estimación del nivel de desempeño en la prueba Saber 11 de matemáticas. #Df LogLik Df Chisq Pr(> Chisq) Modelo nulo 5898 -1901.2 Modelo ajustado 5866 -1633.2 -32 536.05 <2.2e-16 Tabla 6: Prueba razón verosimilitud-Modelo nulo matemáticas. #Df LogLik Df Chisq Pr(> Chisq) Modelo ajustado 5866 -1633.2 Modelo maximal 5837 -1611.8 -29 42.804 0.04746 Tabla 7: Prueba razón verosimilitud-Modelo maximal matemáticas. Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888 Una vez obtenido el modelo, se verificó el supuesto de regresión paralela (odds proporcionales) mediante el test de Brant, con un nivel de significancia del 5 % no hay evidencia estadística para rechazar la hipótesis nula como se observa en la tabla 8, por lo tanto los cambios en las variables explicativas provocan el mismo cambio en la razón de probabilidad acumulada de todas las categorías del nivel de desempeño. X2 df Pr(> Chisq) Omnibus 61.39 64.00 0.57 Edad_c 2.53 6.00 0.86 Genero 1.10 2.00 0.58 Educacion_padre4.77 8.00 0.78 Labor_madre 14.89 18.00 0.67 Dedicacion_internet 6.57 8.00 0.58 Lectura_diaria 11.26 8.00 0.19 Genero_cole 2.54 4.00 0.64 Jornada_cole 17.14 10.00 0.07 Tabla 8: Test de Brant-Nivel desempeño matemáticas En la tabla 9 se presenta la estimación para los parámetros del modelo ajustado, su error estándar, es- tadístico y significancia de z, y odds ratio. Se determina que para los estudiantes de 17 a 18 años, de 19 a 20 y mayores de 20 años, disminuye la razón de probabilidad acumulada de los niveles de desempeño, esto frente a la categoría de 15 a 16 años. Los estudiantes de género masculino presentan aumento en la razón de probabilidad acumulada para el nivel de desempeño frente a los estudiantes de género femenino. Que el padre tenga un nivel de educación superior aumenta la razón de probabilidad acumulada en el nivel de desempeño, frente ningún nivel educativo. Que la madre labore como profesional aumenta la probabilidad de obtener un mayor nivel de desempeño frente a madres que laboran en la agricultura - pesca. Navegar en internet entre 1 y 3 horas, y más de 3 horas diarias, aumenta la razón de probabilidad acumu- lada del nivel de desempeño frente a la categoría de referencia navegar 30 minutos o menos. Que el estudiante lea entre 30 y 60 minutos, entre 1 y 2 horas, más de 2 horas aumenta la probabilidad de obtener niveles superiores de desempeño frente a los estudiantes que leen 30 minutos o menos, mientras que no leer por entretenimiento la disminuye. Que la población del colegio sea de género mixto, disminuye la razón de probabilidad para el nivel de desempeño, mientras que si es de género masculino aumenta, esto respecto a colegio con población de género femenino. La jornada del colegio mañana, tarde, noche y sabatina disminuyen la probabilidad de obtener un mayor nivel de desempeño en referencia a la jornada completa, respecto a la jornada única según la estimación también se presenta una disminución pero el intervalo de confianza permite esclarecer que puede presentarse el caso que sean equivalentes e incluso cambie el sentido de la relación. Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888 Estimate Std.Error zvalue Pr(> |z|) OddsRatio 2.5 % 97.5 % Edad_c17 a 18 -0.86 0.11 -7.88 0.00 0.42 0.34 0.52 Edad_c19 a 20 -0.91 0.19 -4.78 0.00 0.40 0.28 0.58 Edad_cMás de 20 -1.23 0.35 -3.53 0.00 0.29 0.15 0.58 GeneroM 0.84 0.10 8.09 0.00 2.31 1.89 2.83 Educacion_padreNo Aplica 0.35 0.37 0.93 0.35 1.41 0.68 2.94 Educacion_padrePrimaria -0.14 0.35 -0.42 0.68 0.87 0.44 1.71 Educacion_padreSecundaria 0.05 0.34 0.14 0.89 1.05 0.53 2.06 Educacion_padreSuperior 0.74 0.35 2.10 0.04 2.10 1.05 4.20 Labor_madreAuxiliar administrativo 0.36 0.47 0.77 0.44 1.44 0.57 3.60 Labor_madreDirector-Gerente-propietario 0.18 0.46 0.40 0.69 1.20 0.49 2.95 Labor_madreIndependiente 0.14 0.51 0.27 0.78 1.15 0.43 3.10 Labor_madreMantenimiento-seguridad-construcción 0.21 0.46 0.45 0.65 1.23 0.50 3.05 Labor_madreNo aplica -0.03 0.48 -0.07 0.95 0.97 0.38 2.46 Labor_madreOperario-conductor -0.06 0.66 -0.10 0.92 0.94 0.26 3.41 Labor_madrePensionado-Hogar-No trabaja 0.35 0.45 0.80 0.43 1.43 0.59 3.42 Labor_madreProfesional 1.02 0.47 2.16 0.03 2.77 1.10 6.97 Labor_madreVendedor - atención al público 0.20 0.46 0.43 0.66 1.22 0.49 3.04 Dedicacion_internetEntre 30 y 60 minutos 0.04 0.15 0.29 0.77 1.04 0.78 1.39 Dedicacion_internetEntre 1 y 3 horas 0.61 0.15 4.20 0.00 1.84 1.39 2.45 Dedicacion_internetMás de 3 horas 0.44 0.18 2.46 0.01 1.56 1.09 2.21 Dedicacion_internetNo Navega Internet -0.10 0.27 -0.36 0.72 0.91 0.54 1.53 Lectura_diariaEntre 30 y 60 minutos 0.39 0.12 3.39 0.00 1.48 1.18 1.85 Lectura_diariaEntre 1 y 2 horas 0.74 0.16 4.55 0.00 2.10 1.53 2.89 Lectura_diariaMás de 2 horas 0.98 0.28 3.48 0.00 2.68 1.54 4.66 Lectura_diariaNo leo por entretenimiento -0.11 0.16 -0.67 0.51 0.90 0.65 1.23 Genero_coleMASCULINO 0.42 0.34 1.24 0.22 1.52 0.79 2.93 Genero_coleMIXTO -0.56 0.22 -2.49 0.01 0.57 0.37 0.89 Jornada_coleMAÑANA -0.35 0.14 -2.51 0.01 0.71 0.54 0.93 Jornada_coleNOCHE -1.19 0.28 -4.25 0.00 0.30 0.18 0.53 Jornada_coleSABATINA -1.70 0.27 -6.40 0.00 0.18 0.11 0.31 Jornada_coleTARDE -0.95 0.33 -2.92 0.00 0.39 0.20 0.73 Jornada_coleUNICA -0.00 0.14 -0.02 0.98 1.00 0.76 1.31 (Intercept):1 4.08 0.62 6.59 0.00 (Intercept):2 1.32 0.60 2.19 0.03 (Intercept):3 -2.55 0.61 -4.21 0.00 Tabla 9: Parámetros del modelo-Nivel desempeño matemáticas Con los resultados obtenidos en las pruebas de bondad de ajuste X2 de Pearson, Test Hosmer y Lemeshow, y Test Lipsitz, presentados en la tabla 10, se concluye que no hay evidencia de que las frecuencias observadas y esperadas del modelo seleccionado difieran, es decir, se tiene un buen ajuste. Prueba Estadístico Valor df p-valor X2 de Pearson X-squared 5389.65 5866 1.00 Hosmer and Lemeshow test (ordinal model) X-squared 6.069 11 0.869 Lipsitz goodness of fit test for ordinal response models LR statistic 5.839 9 0.756 Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888 Tabla 10: Prueba bondad de ajuste-matemáticas. Por otro lado, las medidas tipo R2 (tabla 11) indican un ajuste pobre del modelo, sin embargo, según (Faraway 2016), los valores Pseudo R2 no deben ser interpretados como en una regresión normal, pues frecuentemente se encuentran valores pequeños para estos Pseudo R2 aún cuando el modelo es bueno, por ello es preferible emplearlos con el fin de comparar modelos. McFadden CoxSnell Nagelkerke 0.14 0.24 0.28 Tabla 11: Pseudo R2-Nivel desempeño matemáticas. A manera de ejemplo, se expone en la tabla 12 el pronóstico realizado para tres de los estudiantes de las instituciones educativas del municipio de Duitama para el nivel de desempeño en la prueba de matemáticas, denotados como estudiante a, estudiante b y estudiante c. Estudiante Probabilidad Nivel predicho Nivel observado Acierto Nivel 1 Nivel 2 Nivel 3 Nivel 4 Estudiante a 0.00 0.01 0.30 0.69 Nivel 4 Nivel 3 No Estudiante b 0.03 0.26 0.66 0.05 Nivel 3 Nivel 3 Si Estudiante c 0.03 0.27 0.66 0.05 Nivel 3 Nivel 2 No Tabla 12: Ejemplo predicción-Nivel desempeño matemáticas El estudiante a, se clasifica en el nivel 4 de desempeño debido a la probabilidad obtenida con el modelo ajustado, siendo en realidad un estudiante que obtuvo nivel 3, se considera un desacierto en el pronóstico realizado, igualmente para el estudiante c quién obtuvo nivel 2 de desempeño y se clasifica en nivel 3 de acuerdo a la probabilidad obtenida. En el caso del estudiante b según la probabilidad obtenida, se clasifica en nivel 3 de desempeño, siendo este el nivel obtenido en la prueba Saber 11, de esta manera se considera como un acierto en el pronóstico. Siguiendo la dinámica expuesta en el ejemplo anterior, la matriz de confusión (tabla 13) muestra los resultados de clasificación del modelo ajustado respecto al nivel observado y el nivel predicho por el modelo, con un porcentaje de correcta clasificación del 66 %. Aunque se presenta una baja tasa de correcta clasificación, es importante recordar que la finalidad del presente estudio es explicativa y no predictiva, de manera que se centró en conocer los factores sociodemográficos asociados al nivel de desempeño en la prueba Saber 11 de matemáticas. Observado Predicción Nivel 1 Nivel 2 Nivel 3 Nivel 4 Nivel 1 0 0 0 0 Nivel 2 19 72 51 0 Nivel 3 28 317 1186 229 Nivel 4 0 0 25 40 Clasificación correcta: 66 % Tabla 13: Matriz de confusión-Nivel desempeño matemáticas Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888 4.2. Regresión para el nivel de desempeño en la prueba de ciencias naturales A continuación se presenta los resultados obtenidos en la regresión logística ordinal para el nivel de de- sempeño en la prueba de ciencias naturales, considerando la selección y ajuste del modelo. Empleando el método Stepwise, las variables para el modelo son: edad y género del estudiante, personas que habitan en el hogar, educación del padre, ocupación de la madre, internet en el hogar, dedicación diaria a internet,dedicación lectura diaria, género de la población, carácter y jornada del colegio. La significancia de los coeficientes de regresión del modelo anterior, se verificaron mediante el contraste de razón de verosimilitud y contraste de Wald, obteniendo que, con excepción de la variable de internet en el hogar, las variables seleccionadas generan un efecto estadísticamente significativo sobre el nivel de desempeño para un nivel de significancia del 5 % en ambas pruebas como se observa en las tablas 14 y 15. Por lo anterior, la variable internet en el hogar no se consideró en el modelo presentando significancia estadística en las diez variables del modelo ajustado. Chi-Square d.f. P-valor Edad_c 48.86 3.00 0.00 Genero 57.75 1.00 0.00 Personashogar 15.75 4.00 0.00 Educacion_padre 40.85 4.00 0.00 Labor_madre 23.58 9.00 0.01 Internet 3.67 1.00 0.06 Dedicacion_internet 18.57 4.00 0.00 Lectura_diaria 42.46 4.00 0.00 Genero_cole 37.43 2.00 0.00 Caracter_cole 9.03 2.00 0.01 Jornada_cole 65.63 5.00 0.00 TOTAL 479.54 39.00 0.00 Tabla 14: Contraste de Wald-c. naturales LR Chisq Df Pr(> Chisq) Edad_c 49.61 3 0.0000 Genero 58.84 1 0.0000 Personashogar 15.88 4 0.0032 Educacion_padre 41.39 4 0.0000 Labor_madre 23.86 9 0.0045 Internet 3.67 1 0.0554 Dedicacion_internet 18.66 4 0.0009 Lectura_diaria 43.14 4 0.0000 Genero_cole 38.30 2 0.0000 Caracter_cole 9.09 2 0.0106 Jornada_cole 66.69 5 0.0000 Tabla 15: Contraste razón verosimilitud-c. naturales A través de la razón de verosimilitud se estableció si el modelo seleccionado se ajusta mejor a los datos en comparación con el modelo nulo y el modelo maximal. Según lo señalado en la tabla 16, se tiene que al menos una variable del modelo seleccionado genera efecto significativo sobre el nivel de desempeño, indicando que el modelo proporciona una mejora significativa con respecto al modelo nulo o modelo sin ninguna variable explicativa. Por otra parte, los resultados de la tabla 17, evidencian que el modelo seleccionado es equivalente al modelo maximal respecto al efecto de las variables explicativas, y siguiendo el principio de parsimonia, se considera al modelo seleccionado como adecuado para la estimación del nivel de desempeño en la prueba saber 11 de ciencias naturales. #Df LogLik Df Chisq Pr(> Chisq) Modelo nulo 5860 -1859.3 Modelo ajustado 5898 -2138.1 38 557.54 <2.2e-16 Tabla 16: Prueba razón verosimilitud-Modelo nulo c. naturales Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888 #Df LogLik Df Chisq Pr(> Chisq) Modelo ajustado 5860 -1859.3 Modelo maximal 5837 -1844.3 -23 30.024 0.1487 Tabla 17: Prueba razón verosimilitud-Modelo nulo c. naturales Una vez obtenido el modelo, se verificó el supuesto de regresión paralela (odds proporcionales) mediante el test de Brant, con un nivel de significancia del 5 %, no hay evidencia estadística para rechazar la hipótesis nula como evidencia la tabla 18, por lo tanto los cambios en las variables explicativas provocan el mismo cambio en la razón de probabilidad acumulada de todas las categorías del nivel de desempeño. X2 df Pr(> Chisq) Omnibus 57.36 76.00 0.95 Edad_c 6.57 6.00 0.36 Genero 2.39 2.00 0.30 Personashogar 2.09 8.00 0.98 Educacion_padre 8.17 8.00 0.42 Labor_madre 16.26 18.00 0.57 Dedicacion_internet 6.50 8.00 0.59 Lectura_diaria 5.42 8.00 0.71 Genero_cole 2.50 4.00 0.65 Caracter_cole 0.32 4.00 0.99 Jornada_cole 9.38 10.00 0.50 Tabla 18: Test de Brant-Nivel desempeño c. naturales En la tabla 19 se presenta la estimación para los parámetros del modelo ajustado, su error estándar, esta- dístico y significancia de z y odds ratio. De acuerdo con estos últimos, se determina que para los estudiantes de 17 a 18 años, de 19 a 20 y mayores de 20 años, disminuye la razón de probabilidad acumulada de todos los niveles de desempeño, frente a la categoría de 15 a 16 años. Los estudiantes de género masculino presentan aumento en la razón de probabilidad acumulada para el nivel de desempeño frente a los estudiantes de género femenino. En los hogares donde habitan de 7 a 8 personas se presenta un aumento en la razón de probabilidad acumulada para el nivel de desempeño frente a los hogares donde habitan 1 a 2 personas, contrario de lo que ocurre en los hogares donde habitan 9 personas o más, en los cuales la razón de probabilidad disminuye. Para el nivel educativo superior del padre, aumenta la razón de probabilidad acumulada de todos los niveles de desempeño frente a la categoría de ninguno. La ocupación de la madre con ocupación profesional y operario-conductor aumenta la probabilidad de clasificación en un nivel superior de desempeño en com- paración con la ocupación agricultor-pesquero, sin embargo el intervalo de confianza permite esclarecer que puede presentarse el caso que sea equivalente e incluso cambie el sentido de la relación. La dedicación diaria a internet de 1 a más de 3 horas aumenta la razón de probabilidad acumulado de todos los niveles de desempeño frente a la categoría de 30 minutos o menos. De igual manera, la dedicación de lectura diaria de 2 horas o más aumenta la probabilidad de clasificación en un nivel superior de desempeño frente a la dedicación de lectura diaria de 30 minutos o menos. Que la población del colegio sea de género mixto, reduce la razón de probabilidad acumulada para el nivel de desempeño frente a un colegio de población femenina. Del mismo modo, la jornada del colegio mañana, Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888 tarde, noche y sabatina reducen la probabilidad de obtener un mayor nivel de desempeño en referencia a la jornada completa; respecto a la jornada única, según la estimación también se presenta una disminución de la probabilidad pero el intervalo de confianza permite esclarecer que puede presentarse el caso que sean equivalente e incluso cambie el sentido de la relación. Considerando el intervalo de confianza, para el carácter del colegio ocurre lo mencionado anteriormente. Estimate Std.Error zvalue Pr(>|z|) OddsRatio 2.5 % 97.5 % Edad_c17 a 18 -0.67 0.10 -6.72 0.00 0.51 0.42 0.62 Edad_c19 a 20 -0.75 0.18 -4.21 0.00 0.47 0.33 0.67 Edad_cMás de 20 -0.71 0.35 -2.04 0.04 0.49 0.25 0.97 GeneroM 0.74 0.10 7.61 0.00 2.09 1.73 2.52 Personashogar3 a 4 0.31 0.16 1.94 0.05 1.37 1.00 1.88 Personashogar5 a 6 0.06 0.17 0.35 0.72 1.06 0.76 1.49 Personashogar7 a 8 0.58 0.29 2.00 0.05 1.79 1.01 3.15 Personashogar9 o más -1.01 0.56 -1.82 0.07 0.36 0.12 1.08 Educacion_padreNo Aplica 0.51 0.36 1.45 0.15 1.67 0.83 3.36 Educacion_padrePrimaria -0.04 0.33 -0.11 0.91 0.96 0.50 1.85 Educacion_padreSecundaria 0.28 0.33 0.85 0.40 1.32 0.69 2.53 Educacion_padreSuperior 0.84 0.34 2.47 0.01 2.31 1.19 4.50 Labor_madreAuxiliar administrativo -0.44 0.44 -1.00 0.32 0.64 0.27 1.53 Labor_madreDirector-Gerente-propietario -0.25 0.43 -0.58 0.56 0.78 0.33 1.82 Labor_madreIndependiente -0.32 0.48 -0.66 0.51 0.73 0.28 1.86 Labor_madreMantenimiento-seguridad-construcción -0.18 0.44 -0.42 0.68 0.83 0.35 1.97 Labor_madreNo aplica -0.39 0.45 -0.87 0.39 0.68 0.28 1.64 Labor_madreOperario-conductor 0.11 0.63 0.17 0.86 1.11 0.32 3.82 Labor_madrePensionado-Hogar-No trabaja -0.06 0.42 -0.14 0.89 0.94 0.41 2.16 Labor_madreProfesional 0.45 0.45 1.00 0.32 1.57 0.65 3.78 Labor_madreVendedor - atención al público -0.04 0.44 -0.08 0.93 0.96 0.41 2.29 Dedicacion_internetEntre 30 y 60 minutos 0.07 0.14 0.53 0.59 1.08 0.82 1.42 Dedicacion_internetEntre 1 y 3 horas 0.47 0.14 3.45 0.00 1.60 1.22 2.08 Dedicacion_internetMás de 3 horas 0.59 0.17 3.47 0.00 1.80 1.29 2.51 Dedicacion_internetNo Navega Internet 0.33 0.26 1.30 0.19 1.40 0.84 2.31 Lectura_diariaEntre 30 y 60 minutos 0.39 0.11 3.62 0.00 1.48 1.20 1.82 Lectura_diariaEntre 1 y 2 horas 0.63 0.15 4.12 0.00 1.87 1.39 2.53 Lectura_diariaMás de 2 horas 1.28 0.27 4.67 0.00 3.59 2.10 6.13 Lectura_diariaNo leo por entretenimiento -0.10 0.15 -0.62 0.53 0.91 0.67 1.23 Genero_coleMASCULINO 0.24 0.33 0.72 0.47 1.27 0.66 2.43 Genero_coleMIXTO -0.90 0.22 -4.10 0.00 0.41 0.27 0.63 Caracter_coleTécnico 0.26 0.21 1.260.21 1.30 0.86 1.97 Caracter_coleTécnico/Académico -0.23 0.13 -1.82 0.07 0.80 0.62 1.02 Jornada_coleMAÑANA -0.45 0.13 -3.46 0.00 0.64 0.49 0.82 Jornada_coleNOCHE -1.40 0.29 -4.90 0.00 0.25 0.14 0.43 Jornada_coleSABATINA -1.78 0.26 -6.82 0.00 0.17 0.10 0.28 Jornada_coleTARDE -0.88 0.32 -2.78 0.01 0.41 0.22 0.77 Jornada_coleUNICA -0.05 0.16 -0.32 0.75 0.95 0.70 1.30 (Intercept):1 3.06 0.61 5.06 0.00 (Intercept):2 0.23 0.60 0.38 0.70 (Intercept):3 -3.27 0.61 -5.38 0.00 Tabla 19: Parámetros del modelo-Nivel desempeño ciencias naturales Con los resultados obtenidos en las pruebas de bondad de ajuste de X2 de Pearson, Test Hosmer y Lemeshow, y el Test de Lipstiz, presentados en la tabla 20, se concluye que no hay evidencia de que las frecuencias observadas y esperadas del modelo seleccionado difieran, es decir, se tiene un buen ajuste. Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888 Prueba Estadístico Valor df p-valor X2 de Pearson X-squared 5480.57 5860.00 1.00 Hosmer and Lemeshow test (ordinal model) X-squared 8.770 14 0.845 Lipsitz goodness of fit test for ordinal response models LR statistic 3.790 9 0.925 Tabla 20: Prueba bondad de ajuste-ciencias naturales Por otro lado, las medidas tipo R2 (tabla 21) indican un ajuste pobre del modelo, sin embargo, como se mencionó anteriormente, con frecuencia se encuentran valores pequeños para estos Pseudo R2 aún cuando el modelo es bueno. McFadden CoxSnell Nagelkerke 0.13 0.25 0.28 Tabla 21: Pseudo R2-Nivel desempeño c. naturales A manera de ejemplo, se expone en la tabla 22 el pronóstico realizado para tres de los estudiantes de las instituciones educativas de Duitama para el nivel de Desempeño en la prueba de ciencias naturales, denotados como estudiante a, estudiante b y estudiante c. Estudiante Probabilidad Nivel predicho Nivel observado Acierto Nivel 1 Nivel 2 Nivel 3 Nivel 4 Estudiante a 0.20 0.61 0.19 0.01 Nivel 2 Nivel 3 No Estudiante b 0.02 0.25 0.65 0.07 Nivel 3 Nivel 3 Si Estudiante c 0.16 0.60 0.23 0.01 Nivel 2 Nivel 1 No Tabla 22: Ejemplo-Predicción nivel de desempeño c. naturales El estudiante a se clasificó en el nivel 2 de desempeño debido a la probabilidad del modelo ajustado, siendo en realidad un estudiante que obtuvo un nivel 3 de desempeño, por lo que se considera como un desacierto del pronóstico realizado, lo mismo ocurre para el estudiante c, quien obtuvo un nivel 1 de desempeño y se clasificó en nivel 2 de acuerdo a la probabilidad obtenida. En el caso del estudiante b según la probabilidad obtenida, se clasifica en el nivel 3 de desempeño, siendo este nivel el obtenido en la prueba Saber 11, de esta manera se considera como un acierto en el pronóstico. Observado Predicción Nivel 1 Nivel 2 Nivel 3 Nivel 4 Nivel 1 14 8 0 0 Nivel 2 127 515 289 9 Nivel 3 28 293 592 90 Nivel 4 0 0 1 1 Clasificación correcta:57 % Tabla 23: Matriz de confusión-Nivel desempeño c. naturales Siguiendo la dinámica expuesta en el ejemplo anterior, la matriz de confusión (tabla 23) muestra los resultados de clasificación del modelo ajustado respecto al nivel observado y el nivel predicho por el modelo, Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888 con un porcentaje de correcta clasificación del 57 %. Aunque se presenta una baja tasa de correcta clasificación, es importante recordar que la finalidad del presente estudio es explicativa y no predictiva, de manera que se centró en conocer los factores sociodemográficos asociados al nivel de desempeño en la prueba Saber 11 de ciencias naturales. 5. Conclusiones En el municipio de Duitama, para el año 2019, los factores sociodemográficos asociados al nivel de desem- peño en la prueba Saber 11 matemáticas, mediante la regresión logística ordinal, fueron la edad y género del estudiante, nivel educativo del padre, ocupación de la madre, dedicación diaria internet, dedicación lectura diaria, jornada y género de la población del colegio. De los cuales, se presenta un aumento en la probabilidad de obtener un mejor nivel de desempeño según la razón de probabilidad (odds ratio) en un estudiante de gé- nero masculino (2.31 veces superior que un estudiante de género femenino), que dedica más de 3 horas diarias a internet (1.84 veces más que quién navega 30 minutos o menos) y más de 2 horas a la lectura diaria (2.68 frente a quién lee 30 minutos o menos), si el padre tiene nivel de educación superior (2.10 frente a padre con ningún nivel educativo) y la madre tiene una ocupación laboral de tipo profesional (2.77 superior al agricultor - pesquero), perteneciente a un colegio donde el género de la población es masculino (1.52 frente al femenino). Para el nivel de desempeño en la prueba Saber 11 de ciencias naturales los factores asociados fueron edad y género del estudiante, personas que habitan en el hogar, educación del padre, ocupación de la madre, dedi- cación diaria a internet, dedicación lectura diaria, género de la población, carácter y jornada del colegio. De los cuales, se presenta un aumento en la probabilidad de obtener un mejor nivel de desempeño según la razón de probabilidad (odds ratio) en un estudiante de género masculino (2.09 veces superior que un estudiante de género femenino), de un hogar donde habitan entre 7 a 8 personas (1.79 superior a quién habita en hogar de 1 a 2 personas), que dedica más de 3 horas diarias a internet (1.80 veces más que quién navega 30 minutos o menos) y más de 2 horas a la lectura diaria (3.59 frente a quién lee 30 minutos o menos), si el padre tiene nivel de educación superior (2.31 frente a padre con ningún nivel educativo) y la madre tiene una ocupación laboral de tipo profesional (1.57 superior al agricultor - pesquero), perteneciente a un colegio de carácter técnico (1.30 superior al académico) y género de la población del colegio masculino (1.27 frente al femenino). Referencias Bibliográficas Agresti, A. (2019), Introduction to categorical data analysis, Wiley series in probability and statistics, third edition edn, John Wiley & Sons. Benítez, M. A. (2018), Regresión ordinal y sus aplicaciones, PhD thesis, Universidad de Sevilla. Casas-Herrera, J. A., Gil-León, J. M. y Forero-Medina, M. H. (2018), ‘Cambio poblacional y dinámica socio- económica de los municipios de Boyacá’, Revista de Investigación, Desarrollo e Innovación 8(2), 207–221. Number: 2. *https://revistas.uptc.edu.co/index.php/investigacion_duitama/article/view/7960 Cuadras, C. M. (2012), Nuevos métodos de análisis multivariante, CMC Editions. Díaz Monroy, L. G., Morales Rivera, M. A. y León Dávila, L. R. (2018), Análisis Estadístico de Datos Categóricos, primera edn, Editorial Universidad Nacional. Díaz, L. G. y Morales, M. (2002), ‘Análisis estadístico de datos categóricos’, Notas de Clase del Departamento de Estadística de la Universidad Nacional de Colombia. Bogotá: Universidad Nacional de Colombia . Fagerland, M.W. & Hosmer, D. (2017), ‘How to test for goodness of fit in ordinal logistic regression models’, The Stata Journal: Promoting Communications on Statistics and Stata 17(3), 660–686. Aplicaciones Estadísticas. Socialización de Experiencias. ISSN 2619 - 2888 Faraway, J. J. (2016), Extending the linear model with R: generalized linear, mixed effects and nonparametric regression models, Texts in statistical science, second edition edn, CRC Press. Gamboa, C. A. (2019), Variables que explican los rangos remunerativos del primer empleo de los egresados universitarios del Perú aplicando regresión logística ordinal, PhD thesis, Universidad Agraria la Molina. Heredia-Escorza, Y. (2014), Factores que afectan el desempeño académico. ICFES (2018), Guía de orientación Saber 11° para instituciones educativas, Instituto Colombiano para la Evaluación de la Educación Superior. *https://www.icfes.gov.co/documents/20143/193560/Guia+de+orientacion+saber+11+de+2019.pdf/13d64150- fa02-9062-8bb8-dcee660607c5 Leiva-Valdebenito, S. A., Torres-Avilés, F. J. et al. (2010), ‘Una revisión de los algoritmos de partición más comunes en elanálisis de conglomerados: un estudio comparativo’, Revista Colombiana de Estadística; Vol. 33, núm. 2 (2010); 321-339 Revista Colombiana de Estadística; Vol. 33, núm. 2 (2010); 321-339 0120-1751 . MEN (2006), Estándares Básicos de Competencias en Lenguaje, Matemáticas, Ciencias y Ciudadanas, Mi- nisterio de Educación Nacional. *https://www.mineducacion.gov.co/1621/articles-340021_recurso_1.pdf MEN (2010), Decreto 869 de 2010, Ministerio de Educación Nacional. *https://www.mineducacion.gov.co/1621/articles-221588_archivo_pdf_decreto_869.pdf R Core Team (2020), R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna, Austria. *https://www.R-project.org/ Rodríguez Rodríguez, D. y Guzmán Rosquete, R. (2019), ‘Rendimiento académico y factores sociofamiliares de riesgo. Variables personales que moderan su influencia’, Perfiles educativos 41(164), 118–134. Publisher: Instituto de Investigaciones sobre la Universidad y la Educación, UNAM. *http://www.scielo.org.mx/scielo.php?script=sci_abstract&pid=S0185-26982019000200118&lng=es&nrm=iso&tlng=es Roksa, J. y Kinsley, P. (2019), ‘The Role of Family Support in Facilitating Academic Success of Low-Income Students’, Research in Higher Education 60(4), 415–436. *https://doi.org/10.1007/s11162-018-9517-z RStudio Team (2020), RStudio: Integrated Development Environment for R, RStudio, Inc., Boston, MA. *http://www.rstudio.com/ Sánchez, n. R. L., Clavijo, A. F. V., Arias, A. C. S. y Espinel, J. A. S. (2017), ‘Desigualdad de oportunidades en el sistema de educación pública en Bogotá, Colombia’, Lecturas de Economía (87), 165–190. Number: 87. *https://revistas.udea.edu.co/index.php/lecturasdeeconomia/article/view/325264
Compartir