Memorias-del-Coloquio-de-Estadistica-2019

Pedagogía

•

SIN SIGLA

Materiales y Contenidos

19/12/2022

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Pedagogía

696.132 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

XII COLOQUIO DE ESTADÍSTICA
Escuela de Estadística - Facultad de Ciencias
Organizadores
Patrocinadores
Medellín, Colombia, 2019
XII COLOQUIO DE ESTADÍSTICA
Escuela de Estadística - Facultad de Ciencias
© Universidad Nacional de Colombia, Sede Medellín
Memorias del evento
Volumen 1
Comité Organizador:

Mario César Jaramillo Elorza.
Profesor Universidad Nacional de Colombia,
Sede Medellín
Norman Giraldo Gómez.
Profesor Universidad Nacional de Colombia,
Sede Medellín.
René Iral Palomino.
Profesor Universidad Nacional de Colombia,
Sede Medellín
Francisco Javier Rodríguez Cortés.
Profesor Universidad Nacional de Colombia,
Sede Medellín
Juan Carlos Salazar Uribe.
Profesor Universidad Nacional de Colombia,
Sede Medellín.
Fabio Sepúlveda.
Profesor Universidad de Medellín.
Comité Científico:
María Eugenia Castañeda López.
Profesora Universidad de Antioquia - Colombia
Guillermo Ferreira Cabezas.
Profesor Universidad de Concepción - Chile
Víctor López Ríos.
Profesor Universidad Nacional de Colombia - Colombia
Jorge Mateu Mahiques.
Profesor Universitat Jaume I, España
Raúl Pérez Ágamez.
Profesor Universidad Nacional de Colombia - Colombia
Francisco Rodríguez Cortés.
Profesor Universidad Nacional de Colombia - Colombia
Contacto:
Carrera 65 No. 59 A - 110
Medellín - Antioquia - Colombia
Correo electrónico:
coloqestad_med@unal.edu.co
Teléfono:
(+57 4) 430 90 00 ext. 46352
https://ciencias.medellin.unal.edu.co/eventos/coloquioestadistica/
Contenido
Comunicaciones
Conferencias
15
20
25
37
38
44
48
12
David Arango Londoño
Análisis Espacial de la Calidad Educativa en Colombia
Daniel Betancur Rodríguez
Aplicación Shinny para Análisis Descriptivo
Rafael Eduardo Borges Peña
Meta-Análisis en Estudios de Casos Controles de la Enfermedad de Changas de Transmisión
Oral en Venezuela
María Eugenia Castañeda López
Optimal Desings in Non-Linear Mixed Models with Correlated Observations
Jonathan Galindo
Modelo Basado en Similaridad de Canastas para Recomendación de Productos en Retail
Isabel Cristina García Arboleda
Change Point Detection in Mean of Short Memory Process and Applications in Time Series
Yuri Marcela García Saavedra
Estimación Bayesiana de un Modelo de Regresión Cox con Predictores Funcionales Dispersos
52
56
80
85
90
95
99
128
133
145
Rafael Meléndez Surmay
Análisis Temporal espacial del índice NDVI Utilizando el Archivo de Imágenes de
Satélite Landsat
Sergio Luis Mercado
Bivariate Independence Test Based on the Ranks of the Observations
Cristian Daniel Obando Arbeláez
Distribución Poisson Truncada en Cero
Yeison Yovany Ocampo Naranjo
Aplicación Shinny para la Interpretación de Señales en la Carta T
Ricardo Fernando Otero Caicedo
Caracterización de la Proporción de Estudiantes Desertores en Diferentes IES
Katherin Juliana Quiñones Losada
Validación Externa de Prototipos Clasificadores para un Caso Aplicado: Dengue
Andrés Ramírez – Hassan
Focused Estimation for Noisy and Small Data Sets- a Bayesian Minimum Expected Loss
Estimator Approach
Héctor Luis Romero Valbuena
Actividad Económica Regional en Colombia- Una Aplicación de la Metodología STATIS
Roger Jesús Tovar Falón
Un Modelo Lineal Mixto con Intercepto Aleatorio Asimétrico para Datos Censurados
Juan Camilo Valencia Beltrán
Aplicación Web Scraping para la Estimación del Precio de Vivienda para la Ciudad de
Cali
Póster
Juan Felipe Arias Aguirre
Clasificación Supervisada LDA: Un Enfoque Robusto y no Paramétrico
Heber Esteban Bermúdez González
Aprendizaje Automático para el Análisis de Texto
Luis Alberto Bernal Berrio
Calibración de Parámetros para la Intensidad de Default Estocástica de Covariables
Observables y un Factor de Fragilidad
Rafael Eduardo Borges Peña
Análisis de Supervivencia con Interacción de Diabetes e Índice de Masa Corporal en
Pacientes en Diálisis Peritoneal
José Luis Cabrera Vega
Modelación Diseños Experimentales en Presencia de Correlación Espacial Aplicado a
Experimentos Agrícolas
Juan Camilo Cárdenas Márquez
Caracterización Estadística de la Desigualdad de Ingreso en los Departamentos de
Colombia
Lina Marcela Díaz Bejarano
Análisis de la Adjudicación de Tierras Baldías en Colombia
Eddy Johanna Fajardo Ortiz
Análisis de la Calidad del Agua del Área Metropolitana de Bucaramanga Utilizando la
Metodología STATIS
José Alexander Fuentes Montoya
Diseño de un Modelo Predictivo de Fuga de Clientes Utilizando Algoritmos Machine
Learning
Contenido
150
159
164
170
180
181
187
199
203
Yenny Vanesa García Blandón
Evaluación por Simulación del Efecto de Especificar Incorrectamente la Matriz de
Varianzas-Covarianzas Intra-Individual en Modelos de Efectos Mixtos no Lineales
Valentina García Velásquez
Comparación entre dos Pruebas de Hipótesis para el Vector de Medias
Andrés Santiago Gil Puerta
Calibración de Tasas de un Modelo de Markov Para Libro de Órdenes Dinámico
Jean Carlo Jiménez Giraldo
Redes Neuronales para Segmentación de Imágenes Médicas
Diana Lucía Londoño Londoño
Técnicas de Minería de Datos (MD) para el Diagnóstico del Desempeño Escolar en
Instituciones Públicas de Medellín
María Catalina Medina Ruiz
Análisis Multivariado para Caracterización de las 19 Estaciones de Muestreo y Calidad del
Agua del Río Cauca desde el año 2007 hasta 2016.
Rafael Meléndez Surmay
Evaluación de la Biodiversidad a Través del Enfoque de Datos Funcionales
Claudia Lorena Montes Mora
Contribución de la Prueba Rápida Combinada NS1 e IgM/IgG al Rendimiento de Algoritmos
Clínicos de Dengue en Pacientes Febriles de una IPS de la Ciudad de Cali en el año 2012
Stephany Nieves Uribe
Métodos de Clustering para la Selección y Distribución del Portafolio de Productos en un
Dark Store
Javier Olaya Ochoa
Avances en la Imputación de Datos Faltantes de PM2.5
Santiago Ortiz Arias
Estimación Robusta del Modelo de Regresión Lineal en Presencia de Multicolinealidad
209
210
215
221
224
233
237
241
245
253
257
Miguel Oswaldo Pérez Pulido
Evaluación Estadística de Estrategias Implementadas para una Movilidad Urbana
Sostenible y Reducción de la Accidentalidad en la Ciudad de Bucaramanga
Julián Alberto Quintero Bejarano
Caracterización de los Tiempos hasta el Desenlace en Pacientes Diagnosticados con Cáncer
de Colon y Recto
Mateo Restrepo Higuita
Una Alternativa para la Predicción de Tiempo en el Desarrollo de Software
Jessica María Rojas Mora
Metodología de Flujo de Conocimiento (primera fase) Aplicada al Proceso de Investigación
Científica con Fines de Visibilidad Nacional e Internacional en la Universidad de Medellín
Yuberth Anderson Saavedra Coneo
Modelos Alternativos para Predecir la Tasa de Natalidad en Función de los Factores
Ambientales y Socioeconómicos de un País
Juan Carlos Salazar Uribe
Un Estudio De Simulación Para Comparar Métodos De Estimación Para Datos
Longitudinales
Lizeth Fernanda Suárez Mensa
Modelación del Tiempo de Recurrencia en Pacientes con Cáncer Diferenciado de Tiroides
Vanessa Toledo Serna
Comparación entre un modelo de Cointegración y un modelo de Cointegración por
Suavización Exponencial para una ventana de tiempo trimestral para la TRM y COLCAP.
Roger Jesús Tovar Falón
Distribución Asimétrica Beta- Skew Laplace Póster
266
275
280
284
286
292
297
301
304
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
12
Retos del Análisis Estadístico en la Era de la Análitica de Datos y el Big Data
Juan David Ospina Arango, Grupo Bancolombia.
Zen o el Arte de la Selección de Software Estadístico
Juan Carlos Correa Morales, Universidad Nacional de Colombia - Colombia.
Minería de Texto para la Gestión de Organizaciones
Jorge Iván Pérez Rave, IDINNOV S.A.S.
El Análisis de Datos en la Cuarta Revolución Industrial
John William Branch, Universidad Nacional de Colombia - Colombia.
Nuevas aportaciones del análisis de datos funcionales en el control estadístico de procesos
Miguel Alfonso Flores Sanchez, Escuela Politécnica Nacional- Ecuador.
Aplicaciones de los Modelos de Sobrevivencia para Modelar Riesgo de Crédito
Jaime Huertas Campo, Universidad Nacional de Colombia - Colombia.
Análisis de Datos Funcionales: Introducción y Aplicaciones
Martha Bohorquez, Universidad Nacional de Colombia - Colombia.
R, Python y Julia, ¿Qué ventajas Ofrecen?. Comparación de Herramientas Estadísticas Abiertas
Kenneth Cabrera Torres, Universidad Nacional de Colombia - Colombia.
Análisis de Series de Tiempo con R y Aplicaciones en Finanzas
Guillermo Ferreira, Universidad de Concepción - Chile.
Aprendizaje Estadístico, Regresion Penalizada, Tendencias con Series de Tiempo
Norman Giraldo, Universidad Nacional de Colombia - Colombia.
Modelos de Regresión en Ciencia de Datos
Ramón Giraldo Henao, Universidad Nacional de Colombia - Colombia.
Conferencias
Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
13
Control Multivariado de procesos - Principios y Perspectivas
Nelfi González Alvarez - Isabel Cristina Ramírez Guevara, Universidad Nacional de Colombia - Colombia.
La Utilidad de TensorFlow para Estadística
Freddy Hernández Barajas, Universidad Nacional de Colombia - Colombia.
Procesos Estocasticos con Dependencias Espaciales y Temporales. Predicción de Crimenes y
Diseño de Experimentos en Ingeniería
Jorge Mateu, Universitat Jaume I - España.
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
14
Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
15
Georreferenciación de la calidad educativa en
Colombia, a partir del fenómeno de la aglomeración y
segregación académica
Esteban Moreno Cediel 1, David Arango-Londoño 2, Maribel Castillo Caicedo 3
1FACULTAD DE CIENCIAS SOCIALES Y ECONOMICAS, ECONOMÍA, UNIVERSIDAD DEL VALLE, CALI, COLOMBIA
2FACULTAD DE CIENCIAS NATURALES Y MATEMÁTICAS, PONTIFICIA UNIVERSIDAD JAVERIANA, CALI, COLOMBIA
3FACULTAD DE CIENCIAS ECONOMICAS Y ADMINISTRATIVAS, PONTIFICIA UNIVERSIDAD JAVERIANA, CALI, COLOMBIA

Resumen
El presente proyecto busca medir el grado de aglomeración de la calidad
educativa en Colombia, partiendo de la no socialización (o mezcla) de la
población que muestra baja calidad en educación, con la que evidencia
alta calidad [nivel de competencias escolares], y así determinar cómo
dicha aglomeración afecta al fenómeno de la segregación académica.
Para ello, se realizó un análisis espacial de la calidad educativa en
Colombia y de las principales variables socioeconómicas que pueden
influir en esta, y que propicia el fenómeno de la aglomeración educativa.
A través del Índice de Moran, una prueba de autocorrelación espacial, se
demuestra el nivel de aglomeración en la calidad educativa en Colombia,
con un índice de 0,62, observando espacialmente que la alta calidad
educativa se concentra en la región Andina, abarcando las principales
ciudades de esta región (Bogotá, Medellín y Cali), mientras que la baja
calidad educativa se aglomera en la periferia del país, zonas como la
región Pacífica, gran parte de la costa, la región Amazónica y los llanos
orientales.

Palabras clave: Calidad educativa, aglomeración, segregación, autocorrelación
espacial, I. de Moran, geovisualización.

Introducción

El objetivo primordial de medir la calidad de un sistema educativo es determinar en qué
medida se han alcanzado las metas y objetivos propuestos en los estándares que se exigen
en los procesos de formación y aprendizaje. Por ello, las mediciones, a través de las pruebas
o evaluaciones estandarizadas, se constituyen en una herramienta fundamental para
obtener la información confiable y necesaria para el mejoramiento de los sistemas, ya que,
con base en ellas, es posible identificar tanto las fortalezas como las debilidades del sistema,
lo que permite una retroalimentación a las instituciones educativas y entes territoriales
(Ministerio de Educación Nacional, 2006).
Para evaluar su sistema educativo, Colombia viene aplicando lo que actualmente se
conoce como las pruebas SABER, y está participando en diferentes evaluaciones
internacionales de desempeño escolar. Todas ellas se aplican en distintos niveles educativos
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
16
y evalúan diferentes competencias, Sus resultados han sido empleados en diversos estudios
que emplean múltiples metodologías, y han estado orientados a la identificación de factores
asociados al desempeño académico [ver Castro, et al. (2018); Ayala, et al. (2011); Sánchez
(2011)], a la estimación de brechas educativas [ver Castro, Giménez y Pérez (2017); Cárcamo
y Mola (2012)], a estudios de eficiencia [ver de OCDE (2016)], y estos sirven como base
principal para el cálculo del Índice Sintético de Calidad Educativa –ISCE–, construido por
el ICFES, con el cual se realiza la clasificación de los centros educativos en Colombia.
Teniendo en cuenta lo anterior, el presente trabajo busca responder a las siguientes
preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en
Colombia, a partir del cálculo del ISCE, para el año 2018?, y partiendo de las variables
socioeconómicas más significativas que puedan afectar este problema de aglomeración
responder ¿Cómo esas variables socioeconómicas pueden incidir en este grado de
aglomeración? es decir, se busca conocer qué tan concentrada está la calidad en educación
a lo largo del país, para así determinar cómo la distribución de la calidad educativa está
originando la segregación académica; esto es, determinar cómo la aglomeración impide que
los estudiantes (población) con bajos niveles de competencias escolares socialicen con los de
altos niveles, y encontrar los factores socioeconómicos del entorno escolar y como estos
influyen de manera significativa en dicha segregación.
El problema de investigación se justifica, toda vez que los resultados obtenidos en
anteriores trabajos tienen una característica que ha sido poco abordada por los estudios
orientados hacia la medición de la calidad educativa en Colombia, y es que se concentran
en la eficacia y/o en los factores determinantes del desempeño escolar: la ubicación espacial
de la escuela, que tiene una relación con la calidad educativa, vía efecto entorno, el cual
puede estar originando clúster en educación. De la misma forma, poco se ha investigado si
la aglomeración educativa está originando el fenómeno de segregación académica.
Materiales y métodos
La hipótesis es que, partiendo de la existencia de la aglomeración en la calidad
educativa en Colombia, y sumado a esta, factores socioeconómicos de los departamentos
como el número de homicidios, entre otras, está generando en gran medida segregación
académica, y esto evita que el nivel educativo en el país aumente. Para ello, esta
investigación realizará el cálculo del ISCE en los departamentos de Colombia, para los
estudiantes de grado 11 en las competencias de matemáticas y lenguaje, para el año 2018,
basados en la metodología propuesta por el ICFES para su estimación [ver ICFES (2016)]. El
estudio se enfoca en esta parte de la población estudiantil debido a que el ISCE se aplica a
los niveles básico y medio. A partir de los resultados del ISCE se realizará la agregación del
índice, por departamentos.
Inicialmente se evaluará el grado de dependencia espacial del ISCE por departamentos
utilizando el índice de correlación de Moran y probando diversas estructuras de vecindad
(tipo reina y torre) al igual que los rezagos espaciales. El índice de moran nos muestra si los
departamentos con alto ISCE están rodeados por otros con altos índices (aglomeración).
Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
17
Para calcular el ISCE, se estimarán los puntajes promedio de las pruebas SABER 11, por
departamento en Colombia, en las áreas de matemáticas y lenguaje,para el año 2018, con
base en las puntuaciones individuales obtenidas por los estudiantes en dichas pruebas. Estas
son diseñadas y aplicadas por el ICFES a los estudiantes de último año de bachillerato, y
evalúan el logro educativo promedio de un estudiante durante su vida escolar.
Una vez agregada la información a nivel de departamento, se adicionará a la
cartografía de estos, utilizando Sistemas de Información Geográficos –SIG–, por medio del
software R y las librerías raster, rgdal y sp.
Existencia de aglomeración
Figura 2: Geovisualización del puntaje global de las pruebas saber 11

La hipótesis principal del problema de investigación es la existencia de aglomeración
educativa en Colombia, y para asegurar esta hipótesis se utiliza el programa Geoda, el cual
es un paquete de software gratuito para el análisis de datos espaciales, geovisualización,
autocorrelación y modelado espaciales. A partir de este, se distribuye el puntaje global de
las pruebas en 5 cuantiles, obteniendo el mapa de la figura 2, en el cual se puede observar
claramente la existencia de aglomeración educativa, donde los puntajes altos se encuentran
concentrados en la zona andina del país, mientras que los puntajes bajos se encuentran en
la periferia de este.
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
18
Figura 3: Calculo del Índice de Moran de la calidad educativa
Sin embargo, para confirmar dicha aglomeración se utiliza el Índice de Moran como
medida de autocorrelación espacial, es decir, entender el grado en que un objeto es similar
a otros objetos cercanos, en este caso, medir el grado en que la calidad educativa afecta la
calidad educativa de los municipios vecinos. El I. de Moran puede ser clasificado como
positivo, negativo y sin autocorrelación espacial. Un I de Moran muy cercano a 1, nos indica
aglomeración, mientras que uno muy cercano a -1 nos indica segregación. Al realizar el
análisis para esta investigación, nos da como resultado un índice de 0,642, lo que nos soporta
la hipótesis de la existencia de aglomeración en Colombia (figura 3).
Conclusiones
Se demuestra la existencia de aglomeración educativa en Colombia a través del índice de
autocorrelación espacial de Moran con un valor de 0,62, lo que impide que la calidad
educativa aumente para las zonas donde la baja calidad está concentrada (zona pacifica,
amazonia, llanos orientales y parte de la costa), sin embargo, posteriormente en este estudio
se determinará las variables socioeconómicas que mas influyen en el aumento del fenómeno
de la aglomeración educativa, a través de un análisis de regresión espacial.
Referencias
Ayala, J., Marrugo, S. & Saray, B., 2011. Antecedentes familiares y rendimiento académico
en los colegios oficiales de Cartagena. Economía y Región, 5(2), pp. 43-85.
Cárcamo, C. & Mola, J., 2012. Diferencias por sexo en el desempeño académico en Colombia:
Un análisis regional. Economía y Región, 6(1), pp. 133-169.
Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
19
Castro, G., Giménez, G. & Pérez, D., 2017. Educational Inequalities in Latin America, 2012
PISA: Causes of Differences in School Performance between Public and Private Schools.
Revista de Educación, Volumen 376, pp. 33-61.
Castro, G., Giménez, G. & Pérez, D., 2018. Estimación de los factores condicionantes de la
adquisición de competencias académicas en América Latina en presencia de endogenidad.
Revista CEPAL, Chile, Issue 124, pp. 35-59.
Instituto Colombiano para la Evaluación de la Educación -ICFES-, 2016. SABER en breve. 5
ed. Santafe de Bogotá: ICFES.
Ministerio de Educación Nacional, C., 2006. Al tablero. [En línea] Available at:
https://www.mineducacion.gov.co/1621/article-107321.html [Último acceso: 30/05 2019].
OCDE, 2016. Education in Colombia. Reviews of National Policies for Education. Paris-Bogotá:
Organización para la Cooperación y el Desarrollo Económicos, OCDE.
Sánchez, A., 2011. Etnia y Desempeño Académico en Colombia, Documentos de Trabajo sobre
Economía Regional, 156, Cartagena, Colombia: Banco de la República, Centro de Estudios
Económicos Regionales (CEER).

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
20
Revista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede Medelĺın
V 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • Art́ıculo Investigación • Páginas ?? a ??
DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684
Aplicación en Shiny para análisis descriptivoa
Shiny app for descriptive analysis
Daniel Betancur Rodŕıguez b *, Rene Iral Palomino c,
Recibido dd-mm-yyyy, aceptado dd-mm-yyyy, versión final dd-mm-yyyy.
Art́ıculo Investigación
RESUMEN: El presente trabajo consiste en la presentación de una aplicación web interactiva para la rea-
lización de análisis descriptivos básicos utilizando el paquete Shiny, del software R. Su objetivo es permitir
un acercamiento inicial a personas en formación estad́ıstica a los gráficos y estad́ısticos descriptivos básicos,
facilitar el análisis descriptivo a un publico general sin formación en programación estad́ıstica y agilizar
la elaboración de gráficos y obtención estad́ısticos descriptivos a cualquier usuario al ahorrar tiempo en el
proceso de lectura de datos y elaboración de código.
PALABRAS CLAVE: Aplicación shiny, Estad́ıstica descriptiva, Análisis descriptivo de datos.
ABSTRACT: The present work consists of the presentation of an interactive web application using the
R package Shiny. It’s target is to allow people in statistical training to have an initial approach to statisti-
cal graphics and basic descriptive statistics, facilitate the descriptive analysis for people without statistical
training and streamline the elaboration of graphics and obtainment of descriptive statistics to any user by
saving time in the process of data reading and code elaboration.
KEYWORDS: Shiny app, Descriptive statistic, Descriptive analysis of data.
1. INTRODUCCIÓN
Como afirma ? para lograr comprender los complicados problemas del mundo moderno se requiere
de la recolección de infromación objetiva, es decir, de la obtención de datos. Para ello la estad́ıstica,
definida por el autor como el arte del arender de los datos, se preocupa por la recolección de
datos, su descripción y análisis, y las conclusiones a que se llegue a partir de estos. Aśı, es de
suma importancia que los hallazgos numéricos de cualquier estudio se presenten de manera clara
y concisa y que permita hacerse a una idea rápida de las caracteŕısticas escenciales de los datos,
particularmente en casos de grandes grupos de datos.
aBetancur, D. & Iral, R. (2019). Aplicación en ahiny para análisis descriptivo. Revista de la Facultad de Ciencias,
6 (1), ??–??. DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684
bEstudiante. Facultad de Ciencias. Universidad Nacional de Colombia Sede Medelĺın
*Autor para correspondencia: dabetancurro@unal.edu.co
c(PhD(C)) en Estad́ıstica. Docente. Facultad de Ciencias. Universidad Nacional de Colombia sede Medelĺın
1
Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
21
Daniel Betancur Rodŕıguez, Rene Iral Palomino
Esta presentación adecuada de los datos y su análisis se realiza, generalmente, con apoyo en herra-
mientas de computo. En la comunidad estad́ıstica el programa de computación estad́ıstica R tiene
gran acogida. De a cuerdo con ? R es un software que se hizo disponible en internet a través de
una Licencia Pública General, permitiendo su uso libre y distribución. R provee un ambiente para
realizar análisis estad́ıstico y producir gráficos y al estar basado en un lenguaje de computación
formal tiene una tremenda flexibilidad. Sin embargo, el aprovechamiento de los recursos de R re-
quiere conocimiento en la sintaxis que utiliza. Además,el uso de la herramienta, salvo utilizando
ciertos paquetes, implica la escritura de las ĺıneas de código que permitan ejecutar las instrucciones
deseadas, lo que lo hace de dificil uso para usuarios sin conocimiento en el lenguaje, por un lado,
y genera inconvenientes de eficiencia e interactividad en cuanto a análisis visuales que requieran
observar distintias combinaciones de las variables de forma dinámica.
El resente trabajo presenta una alternativa interactiva y de fácil uso para la realización de un
análisis descriptivo básico de datos, por medio de una aplicación untilizanod el paquete Shiny en
R.
2. Objetivo
El presente trabajo busca presentar una nueva aplicación en Shiny que permita la realización de una
análisis descriptivo básico de una manera fácil y eficiente, con la ventaja de resultar interactiva para
los usuarios. Si bien la aplicación tiene limitantes con respecto la flexibilidad de la programación
directa en R, puede resultar sumamente adecuada para personas sin el conocimiento en la sintaxis
de programación necesaria para ello o conveniente para usuarios de R en general por la eficiciencia
e interactividad para la presentación de gráficos y resumenes numéricos. Por otro lado, la aplicación
puede tener un enfoque didactico para la introducción a la realización del análisis descriptivo de
los datos.
3. Presentación de la aplicación
Este documento iniciará con una breve definición de qué es una aplicación Shiny, luego presentará
la aplicación en cinco étapas: Inicio y lectura de datos, Diagramas de dispersión, Diagramas de caja
y bigotes, Histogramas y Gráficos de medias.
3.1. ¿Qué es una aplicación Shiny?
De a cuerdo con ? Shiny es un paquete en R que hace sencilla la construcción de aplicaciones web
interactvias directamente desde R, combinando el poder computacional de R y la interactividad de
la web moderna.
2 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medelĺın
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
22
Aplicación en Shiny para análisis descriptivo
3.1.1. Inicio y lectura de datos
A continuación se presenta la interfaz de inicio de la aplicación, dodne se tiene un panel de lectura
de datos, una salida que permite ver si los datos se han léıdo adecuadamente, un botón para pasar
al modo çálculo 2un panel movil para personalizar el tema de la aplicación.
Figura 1: Interfaz inicial de la aplicación
3.2. Diagramas de dispersión
Una vez se activan el modo çalculo.el primer panel de resultados presenta un gráfico de dispersión
de las dos variables elegidas junto con una ĺınea de tendencia obtenida com un método de suaviza-
miento loess. Los datos gráficados toman el color de la variable factor de comparación en caso de
seleccionarse alguna.
Figura 2: Interfaz de gráficos de dispersión
V 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 • Art́ıculo Investigación 3
Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
23
Daniel Betancur Rodŕıguez, Rene Iral Palomino
3.3. Diagramas de caja y bigotes
El segundo panel de resultados presenta el gráfico de caja y bigotes de cada una de las variables
continuas elegidas, aśı como su resumen de cuartiles y rango intercuartil, filtrado por variable de
comparación en caso de que se seleccione alguna.
Figura 3: Interfaz diagramas de caja y bigotes
3.4. Histogramas
De manera similar, se presenta el histograma para cada variable, junto con las lineas de la densidad
observada y se discrimina por colores de la variable de comparación si se selecciona alguna.
Figura 4: Interfaz histogramas
4 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medelĺın
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
24
Aplicación en Shiny para análisis descriptivo
3.5. Gráficos de medias
Finalmente se presenta el gráficod e medias de cada una de las variables por niveles de la variable
seleccionada para la comparación junto con la media y desviación estándar por niveles de esta.
EN caso de que no se seleccione una variable de comparación únicamente se presentan la media y
desviación estándar de las dos variables continuas seleccionadas.
Figura 5: Interfaz graficos de medias
Referencias
Ross, S.M. (2010). Introductory Statistics. Elsevier Inc. San Diego, U.S.A. pp: 1-18.
Dalgaard, P. (2008). Introductory Statistics with R. Springer. Denmark. Preface.
R Studio Inc. (2017). Shiny. [En ĺınea]. R Studio Inc. [Consultada en octubre de ]. Disponible en:
https://shiny.rstudio.com/
V 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 • Art́ıculo Investigación 5
Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
25

1 Dirección de Asuntos Estudiantiles, Universidad de Los Andes, Mérida, Venezuela.
2 Escuela de Estadística, Universidad de Los Andes, Mérida, Venezuela.
* Autor para correspondencia: borgesr@gmail.com y borgesr@ula.ve .

META-ANÁLISIS EN ESTUDIOS DE CASOS Y
CONTROLES DE LA ENFERMEDAD DE CHAGAS DE
TRANSMISIÓN ORAL EN VENEZUELA.
META-ANALYSIS IN CASE-CONTROL STUDIES OF ORAL
TRANSMISSION CHAGAS DISEASE IN VENEZUELA.
MONSALVE, MEYDIBETH1, BORGES, RAFAEL2*

RESUMEN: La investigación propuesta emplea como estrategia la realización de un metaanálisis
sobre los distintos casos de enfermedad de Chagas de transmisión oral en Venezuela reportados en
la literatura. La localización de diversos reportes de la enfermedad, permitieron definir las
estrategias de búsqueda utilizadas, donde la debida inclusión y exclusión de los estudios centrales
objetos de la investigación, fue de vital importancia para evitar el sesgo de publicación y recurrir
de forma adecuada a la aplicación de los modelos de efectos fijos y efectos aleatorios, con la
finalidad de conocer la estimación medida por la Razón de Posibilidades en cada uno de los
métodos propuestos. Ante esta evaluación se concluye finalmente que, el método de Inverso de la
Varianza arrojó como resultado 11 veces más posibilidades de adquirir la enfermedad por la
ingesta de alimentos, fijándose como el mejor método respecto a los otros métodos aplicados tales
como Mantel-Haenszel, Peto y, el de Dersimonian y Laird.

PALABRAS CLAVE: Chagas Disease; Chagas oral en Venezuela; Enfermedad de Chagas Oral;
Metaanálisis.

ABSTRACT: The proposed research presents a meta-analysis strategy using the different cases of
Chagas disease of oral transmission in Venezuela reported in scientific papers. The localization of
diverse reports of the disease, allowed to define the strategies of search used, where the proper
inclusion and exclusion of the central studies objects of the research, was of vital importance to
avoid the bias of publication and to resort in an adequate way to the application of the models of
fixed effects and random effects, with the purpose of knowing the estimation measured by the
Odds Ratio in each one of the proposed methods. Given this evaluation, we conclude that with tthe
Variance Inverse, there is 11 times more possibilities of acquiring the disease through food intake,
establishing itself as the best method with respect to other applied methods such as Mantel-
Haenszel, Peto, and Dersimonian & Laird.

KEYWORDS: Meta-analysis, Oral Chagas Disease, Chagas Disease, Oral Chagas in Venezuela.

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
26

1 INTRODUCCIÓN

Ante el exceso de información científica, existen diversas maneras para tratar correctamente el
conocimiento científico. Acceder y revisar a fondo todo lo que se publica sobre estudios de casos
y controles en Venezuela por medio del uso de bases de datos bibliográficas y revistas a travésdel acceso ordenado, sistemático y sin sesgos de la información derivada de los trabajos, resultó
ser compleja. Es por ello que la necesidad de disponer de esta herramienta de investigación fue
pertinente, ya que permitió abordar la información de forma adecuada en términos de calidad,
cantidad y actualidad, la cual está presentada de modo práctico y de fácil interpretación.
Asimismo, es importante destacar que, durante el desarrollo de esta investigación no se logró
acceder a algunos datos de brotes orales registrados en el país, siendo motivo de su exclusión sin
comprometer la fiabilidad del estudio.

En el área de la epidemiologia, para la aplicación adecuada de un metaanálisis en el estudio de
enfermedad de Chagas de transmisión oral, es indispensable mantener una guía, donde se
permita no solo evaluar la heterogeneidad de los estudios para elevar el poder estadístico de
comparación, mejorando las estimaciones y el efecto de tratamiento, sino también para
contribuir a la obtención de resultados confiables de diferentes estudios, mediante la evaluación
de grupos y aportar información para la realización de futuras investigaciones (Bolaños y
Calderón, 2014).

El metaanálisis para efectos de esta investigación, es un proceso en el que se analizan los
distintos casos de enfermedad de Chagas de transmisión oral en Venezuela reportados en la
literatura. No obstante, los resultados que arroja esta técnica se pudieran considerar más sólidos
que los resultados de cualquier otro estudio desarrollado de forma tradicional.

Las investigaciones científicas basadas en estudios de revisión sistemática, persiguen un objetivo
fundamental de integrar los resultados de estudios empíricos de forma objetiva, limitando el
sesgo y mejorando la confiabilidad y precisión de sus conclusiones. El desarrollo de esta
investigación consiste en aplicar los principios básicos para entender el poder que brinda la
técnica y conocer los instrumentos esenciales para su realización mediante las siguientes etapas:
formulación del problema, criterios de inclusión y búsquedas de los estudios, codificación de las
características de los estudios, cálculo del tamaño del efecto, técnicas de análisis estadístico,
interpretación y publicación del metaanálisis.

2 ESTUDIOS DE CASOS Y CONTROLES DE LA ENFERMEDAD DE
CHAGAS DE TRANSMISIÓN ORAL EN VENEZUELA.

Las enfermedades vectoriales son consideradas como una de las principales amenazas para la
salud social a nivel mundial. Éstas son causadas por virus, bacterias y parásitos cuya
transmisión al ser humano suele ser por medio de mosquitos, ácaros, garrapatas, entre otros;
denominados vectores, causando distintos brotes de importancia mundial como lo son: el
paludismo, el dengue, la enfermedad de Chagas, entre otras. Los vectores suelen ser organismos
vivos, muchos de ellos son insectos hematófagos, capaces de transmitir enfermedades infecciosas
de un portador infectado a otro, bien sea persona o animal, inoculando un nuevo portador (OMS,
2017).
Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
27

Es por eso, que el Tripanosoma cruzi, definido como un protozoario flagelado, es el parásito
transmitido mediante vectores denominados Triatominos, responsable de la transmisión de la
enfermedad de Chagas. Los mecanismos de transmisión de la enfermedad suelen ser de forma
vectorial, por transfusión sanguínea, transplacentaria, trasplante de órganos infectados,
accidentes de laboratorios y la vía oral, que se ha convertido en el mecanismo principal de
preocupación, debido a la cantidad de brotes reportados de América Latina. Las manifestaciones
clínicas son variables, y se distinguen dos fases infección: la aguda y la crónica (Alarcón et al.,
2015).

En este sentido, para Soto et al. (2014), la enfermedad de Chagas es considerada una zoonosis y
se ha descrito como una enfermedad endémica cuyos ciclos de transmisión del parásito estarán
siempre presentes y el riesgo de transmisión al hombre siempre presentará una probabilidad. La
transmisión oral de la enfermedad de Chagas presenta una tendencia al incremento reportada en
diversas revisiones de brotes agudos por posible transmisión oral en países como Brasil,
Colombia, México y Venezuela.

Según Alarcón et al. (2016), la transmisión del parásito por vía oral, es posible a través de la
contaminación de alimentos directamente por el consumo del triatominos o sus deyecciones. La
sospecha se da cuando varias personas desarrollan síndromes febriles prolongados sin causa o
explicación aparente con algunos síntomas tales como taquicardias, arritmias, entre otros.
2.1 Tratamiento Estadístico y Análisis de la Información

Las investigaciones científicas basadas en estudios de revisión sistemática, persiguen un
objetivo fundamental de integrar los resultados de estudios empíricos de forma objetiva,
limitando el sesgo, y mejorando la confiabilidad y precisión de sus conclusiones. El objetivo
principal del metaanálisis es definir el problema de investigación y las características de los
estudios incluidos en la revisión. El conocimiento previo de la investigación, aporta validez a las
conclusiones, hipótesis con mayor apoyo empírico y material para la obtención de respuestas
claras y consistentes (Marín et al., 2009). El desarrollo de la investigación, se rige mediante las
siguientes etapas:

Imagen 1.
 En la formulación del problema: se procedió a la realización de un metaanálisis de los
distintos de casos de Chagas oral en Venezuela, reportados en la literatura entre los años
2007 – 2019, haciendo énfasis en estudios de casos y controles.
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
28

 Criterios de inclusión y búsqueda de los estudios: la búsqueda, se realizó por vía
electrónica por medio de las bases de datos: ProMed, ResearchGate, JID y Elsevier,
entre otros, empleando para la búsqueda las palabras claves: “Enfermedad de Chagas
Oral”, “Oral Chagas Desease in Venezuela”, así como palabras asociadas en las diferentes
bases de datos consultadas relacionados con estos términos, combinándose entre sí en
diferentes comandos de búsqueda. A pesar de que existen distintos estudios referentes a
la enfermedad de Chagas de transmisión oral, en los criterios de inclusión, se tomaron en
cuenta las publicaciones de estudios de casos y controles de todos los idiomas, fecha o
estado de publicación.

De las 12 investigaciones seleccionadas de estudios de casos y controles de enfermedad de
Chagas de transmisión oral, los 10 primeros artículos fueron propuestos por el artículo base
publicado por Alarcón et al., 2015, las dos últimas investigaciones reflejadas en la tabla 1, fueron
agregadas debido a que la fecha del brote ocurrieron luego de la fecha de publicación del artículo
base propuesto para esta investigación.

Tabla 1. Fuente de publicaciones seleccionadas.
MES/AÑO DE
PUBLICACIÓN LOCALIDAD REFERENCIA FUENTE
DICIEMBRE 2007 CHACAO, CARACAS ALARCON DE NOYA ET AL. (2010a) JID
MAYO 2008 SAN JOSE, CARACAS NO PUBLICADO ResearchGate
MARZO 2009 CHICHIRIVICHE, VARGAS ALARCON DE NOYA ET AL. (2016) ELSEVIER
MAYO 2010 ANTIMANO, CARACAS ProMed ProMed
NOVIEMBRE 2010 RUBIO, TACHIRA BENITEZ ET AL. (2013) JID
MARZO 2012 COCHE, CARACAS ProMed ProMed
JULIO 2012 EL BORDO, MERIDA AÑEZ ET AL. (2013) Bol. Mal. Salud Amb.
JUNIO 2013 MIRIMIRE, FALCON NO PUBLICADO ResearchGate
FEBRERO 2014 EL GUAPO, MIRANDA NO PUBLICADO ResearchGate
JULIO 2014 SAN CRISTOBAL, TACHIRA NO PUBLICADO ResearchGate
FEBRERO 2015 GUATIRE, MIRANDA ALARCON ET AL. (2017) Men. Ins. Oswaldo Cruz
FEBRERO 2016 LA MACARENA, MERIDA AÑEZ ET AL. (2016) ResearchGate
Fuente: Elaboración Propia.

Los estudios que presentaron casos de transmisión vertical como lo fueron “Chichiriviche de la
Costa” y “Guatire”, estudios no publicados como lo fueron “San José, Mirimire, El Guapo ySan
Cristóbal” y las publicaciones con dudosa exposición de los casos y/o datos faltantes que no se
pudieron corroborar por contacto directo con los investigadores, tales como “Antímano, Rubio y
Coche”, fueron excluidos de la investigación.

Los estudios de “El Bordo y La Macarena”, se completaron mediante contacto directo con los
autores del centro de investigaciones Parasitológicas “J. F. Torrealba”, del departamento de
Biología de la Facultad de Ciencias de la Universidad de los Andes, para solicitar información no
disponible en las publicaciones. De tal manera que, de las 12 publicaciones seleccionadas solo
Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
29

tres de ellas que se muestran en la tabla 2, cumplieron con los criterios de inclusión y exclusión
definidos.

Tabla 2. Estudios de casos y controles registrados en Venezuela.

MES/AÑO DE
PUBLICACIÓN LOCALIDAD REFERENCIA FUENTE
DICIEMBRE 2007 CHACAO, CARACAS ALARCON DE NOYA ET AL. (2010a) JID
JULIO 2012 EL BORDO, MERIDA AÑEZ ET AL. (2013) Bol. Mal. Salud Amb.
FEBRERO 2016 LA MACARENA, MERIDA AÑEZ ET AL. (2016) ResearchGate
Fuente: Elaboración Propia.

 Codificación de las características de los estudios: De acuerdo a la selección del
conjunto de variables de interés en la investigación, se precisó una búsqueda de datos
faltantes para evitar cualquier pérdida de información o que pudieran generar
estimaciones incorrectas, creando una base de datos general de las publicaciones
seleccionadas, haciendo mención de los casos y controles de cada una de ellas.
 En el cálculo del tamaño del efecto: para el estudio de la enfermedad de Chagas de
transmisión oral, el análisis se ajustará tanto a un modelo de efectos fijos como de efectos
aleatorios, aplicando los respectivos métodos dispuestos en dichos modelos para el
estudio de variables dicotómicas, y el efecto del tratamiento se cuantificará mediante la
razón de probabilidades, aportando una medida conjunta final.
 Técnicas de análisis estadístico e interpretación: se evaluará la heterogeneidad entre
estudios cuya medición se realizara mediante la cuantificación del índice I2 para el caso
de modelos de efectos fijos y τ2 para el caso de modelos de efectos aleatorios. La
posibilidad de sesgo de publicación se evaluará mediante el método gráfico del funnel
Plot o la gráfica de embudo y el análisis de la medida conjunta final proporcionada por la
razón de probabilidades, se verificará mediante el Forest Plot.
 En la publicación del metaanálisis: cada vez es más común la utilización de la técnica
metaanalítica ante la dificultad al momento de realizar trabajos de investigación debido a
factores costo-tiempo. Las técnicas propuestas por el metaanálisis atribuyen una gran
importancia al momento de realizar una evaluación cuantitativa en el uso de métodos
estadísticos, no solo para abordar un problema o pregunta específica a partir de la
combinación de una serie de estudios que no tienen un tamaño muestral representativo,
sino también, para examinar la eficacia en los modelos seleccionados y fuentes de
heterogeneidad entre los estudios, permitiendo resolver controversias ante la existencia
de desacuerdos entre los resultados. Su contribución a las distintas áreas profesionales,
tomando en cuenta la aplicación adecuada de la técnica, puede ser de gran valor, ya que
determina cuáles son los factores de riesgos existentes y los resultados preventivos o de
tratamiento de los estudios necesarios para planificar futuras investigaciones.
2.2 Identificación de los Casos y Controles

El estudio se compone de dos grupos: el grupo de casos, que se define como los individuos
expuestos que adquirieron la enfermedad y el grupo de controles, que es una muestra de la
población expuesta, a los que no se les había confirmado la enfermedad.
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
30

El grupo de casos en total se compone de 115 individuos expuestos que adquirieron la
enfermedad de 157 personas expuestas y el grupo controles se compone de un total de 42 casos
reportados de 270 personas expuestas en las 3 investigaciones que cumplieron con el criterio de
inclusión y exclusión reportadas entre los años 2007 al 2019, cuya fuente de infección como
factor de riesgo, se presume es por consumo de alimentos contaminados. (Ver Tabla 3).

Tabla 3. Estudios de casos y controles registrados en Venezuela.

PUBLICACION
CASOS CONTROLES
EXPUESTOS TOTAL CASOS EXPUESTOS TOTAL CONTROLES
CHACAO 2007 103 138 35 150
EL BORDO 2012 5 7 2 10
LA MACARENA 2016 7 12 5 110
TOTAL 115 157 42 270
Fuente: Elaboración Propia. Datos adquiridos de las publicaciones seleccionadas.

2.3 Meta-análisis

En la tabla 3, se presentan los casos estudiados definidos por el lugar del brote y año,
acompañados de los casos y controles con sus individuos expuestos y total de expuestos
respectivamente. Los casos representan el número de individuos reportados en el brote que,
mediante pruebas serológicas se confirmaron como positivos y los controles son aquellos
individuos que, a pesar de haber estado expuestos a la enfermedad no habian sido confirmados.
Los reportes registrados en Chacao, Caracas, se define como brote debido a la magnitud o
cantidad de personas infectadas, mientras que los reportes registrados en el Bordo y la
Macarena, se catalogan como microbrotes, debido a que la contaminacion se registró en un
grupos familiares.

Imagen 2. Metaanálisis de estudios seleccionados.
En la imagen 2, se puede observar que todos los estudios favorecen al grupo control, el brote
registrado en Chacao en el año 2007, posee mayor significancia debido a la contribución que
aporta al estudio, ejerciendo mayor influencia sobre el resultado determinando la solidez en el
mismo. La precisión reflejada en el forest plot, por medio de los intervalos de confianza nos
permiten evidenciar la exactitud de los estudios y pudieran considerarse estadísticamente
significativos. La prueba de heterogeneidad entre estudios indica que éstos son heterogéneos,
por lo que se pudiera concluir que es indiferente el tipo de método a utilizar, ya que no existe
Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
31

diferencia significativa entre ellos. En cuanto a la significación estadística el p-valor es mayor a
0.05 es decir, que basado en el resultado de la heterogeneidad y en el resultado de la razón de
probabilidades, se pudiera inferir que existe una fuerte asociación de adquirir la enfermedad por
medio de la ingesta de alimentos contaminados.

La medida del sesgo de publicación se evaluó mediante el gráfico funnel plot dispuesta en la
imagen 3, donde se determinó que no existe evidencia de heterogeneidad en la investigación, es
decir, todas las revisiones sistemáticas mantienen el mismo criterio de estudio de enfermedad de
Chagas por transmisión oral. Se puede verificar que los estudios que poseen mayor número de
muestras se encuentran cercanos al vértice del embudo, siendo estos Chacao como brote y La
Macarena como microbrote, el estudio del bordo a pesar de situarse en la parte inferior del
gráfico por ser un microbrote respecto al primer estudio, no deja de ser estadísticamente
significativo.

Imagen 3. Funnel Plot de estudios seleccionados.

2.3.1 Modelo de Efectos Fijos.
2.3.1.1 Método Mantel-Haenszel (MH)

Basados en el supuesto que define el modelo de efectos fijos en cuanto a la no existencia de
heterogeneidad de todos los estudios, tomando en cuenta las muestras de sujetos diferentes de
forma que la variabilidad del tamaño de efecto se atribuya únicamente al error de muestreo, se
tiene la aplicación del metodo del Mantel Haenszel, para estimar una razón de probabilidad
combinada en la mayoría de las situaciones.
2.3.1.1.1 Forest Plot y Funnel Plot. Método“MH”.

Al igual que en el caso de la aplicación de la razón de probabilidades, todos los estudios
favorecen al grupo control, cuya mayor significancia debido a la contribucion que aporta al
estudio se mantiene en el brote de Chacao, Caracas. La precision mostrada en los intervalos de
confianza evidencian que los estudios mantienen su significacion estadística y el indice de
heterogeneidad nos indica que los estudios seleccionados siguen siendo heterogéneos. En cuanto
a la significacion estadistica el p-valor es mayor a 0.05, por lo que se pudiera corroborar ante
todas las pruebas descritas anteriormente que existe una fuerte asociacion de adquirir la
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
32

infección por medio de la ingesta de alimentos y los individuos expuestos tienen 10 veces mas
posibilidades de contraer la enfermedad.

Imagen 4. Forest Plot. Método “MH”

El funnel plot de la imagen 5, no muestra cambios significativos, el brote ocurrido en Chacao,
Caracas, debido a su magnitud registrada, se mantiene en el vértice del embudo determinando
su significancia estadística, y los otros microbrotes debido a que sus tamaños muestrales son
pequeños respecto al brote del año 2007, se encuentran en la parte media e inferior, sin
embargo, no existe evidencia suficiente para concluir que los estudios sean menos significativos.

Imagen 5. Funnel Plot. Método “MH”.
.
2.3.1.2 Método de Peto (PETO).

A pesar de que el método de Peto se deriva del método de Mantel-Haenszel, en cuanto a la
combinacion de estudios individuales cuyo enfoque proporcionado por el inverso de la varianza,
se hace apropiado cuando están cerca de 1 o la magnitud de efecto es próxima al valor nulo, en
otras situaciones proporciona sesgos en sus resultados y generalmente se sugiere su uso cuando
el tamaño de las muestras son similares.
2.3.1.2.1 Forest Plot y Funnel Plot. Método “PETO”.

Es evidente que el resultado proporcionado por la razón de probabilidades en el caso del método
de Peto no incluye ni el valor nulo ni la unidad, pero se puede apreciar que se registra un 86% de
Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
33

heterogeneidad (imagen 6), deduciendo por tanto que el método de Peto no es un buen
estimador.

Imagen 6. Forest Plot. Método “PETO”.

Debido a que en el Forest plot evidenció que peto es un método altamente heterogéneo en este
caso particular, se pudo constatar en el gráfico del embudo de la imagen 7, que el estudio de la
Macarena se sale de los límites del gráfico. Los tamaños muestrales pudieran ser una de las
principales causas por la que el estudio arrojo alta variabilidad.

Imagen 7. Funnel Plot. Método “Peto”.
2.3.1.3 Método del Inverso de la Varianza (IV).

Obteniendo la estimación del efecto del tratamiento y la varianza de cada estudio para
transformar los resultados a una escala donde la distribución de los estimadores se aproxime
mejor a la distribución normal, se tiene que el modelo encaja perfectamente para la estimacion
tanto para modelos de efectos fijos como aleatorios, sin embargo no difere de forma significativa
al método de aplicación original proporcionada por la razón de probabilidades.
2.3.1.3.1 Forest Plot y Funnel Plot. Método “IV”.

En la imagen 8, se puede evidenciar la heterogeneidad entre estudios es decir, es indiferente el
tipo de método a utilizar, ya que no existe diferencia significativa entre ellos. En igual que el
resto de los modelos, por lo que se pudiera inferir una vez más que existe una fuerte asociación
de adquirir la enfermedad por medio de la ingesta de alimentos contaminados.
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
34

Imagen 8. Forest Plot. Método “IV”.

El gráfico funnel plot dispuesto en la imagen 9, determina que no existe evidencia de
heterogeneidad en la investigación es decir, todas las revisiones sistemáticas mantienen el
mismo criterio de estudio de enfermedad de Chagas por transmisión oral.

Imagen 9. Funnel Plot. Método “IV”.
2.3.2 Modelo de Efectos Aleatorios.
2.3.2.1 Método Dersimonian-Laird (DL)

En este otro caso, contrario al modelo de efectos fijos, se estima el tamaño del efecto de todos
los estudios, para el método de Dersimonian-Laird el resumen proporcionado por la salida del
paquete estadístico “meta”, al igual que en el modelo de efectos fijos, evidencia que para la
estimación del tamaño del efecto de todos los estudios ante la incorporación realizada al
estimador de un componente de la variabilidad intraestudios, no se registra cambios
significativos en el método aplicado respecto a la salida del “OR” o razón de probabilidades.
2.3.2.1.1 Forest Plot y Funnel Plot. Método “DL”.

A pesar de que los efectos del tratamiento no son los mismos para todos los estudios, como
teóricamente se define el modelo de efectos fijos, se demostró en el Forest plot y el funnel plot,
que la aplicación del método Dersimonian-Laird no evidencia cambios o significación alguna que
difieran de los análisis proporcionados en la imagen 10 y 11.
Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
35

Imagen 10. Forest Plot. Método “DL”.

Imagen 11. Funnel Plot. Método “DL”.

3 CONCLUSIONES

Luego de la aplicación de los métodos correspondientes a la técnica metaanalítica en el estudio
de enfermedad de Chagas de transmisión oral, con la intención de evaluar la asociación real de la
enfermedad, se puede concluir que:

Debido a la magnitud del brote y al impacto que este generó, los datos aportados en el estudio
de Chacao, Caracas, publicado en el año 2007, basado en las contribuciones registradas, se pudo
evidenciar que favorece mayormente al grupo control independientemente del método aplicado.

A pesar de que los reportes evidenciados en los estudios seleccionados de El Bordo en el año
2012 y la Macarena en el año 2016, son considerados como microbrotes; ya que la magnitud de
infectados se confinó en un brote familiar; la medida del sesgo de publicación evaluada mediante
el funnel plot en los distintos métodos aplicados, determinó la no existencia de heterogeneidad,
predispuesta también en el Forest plot. Sin embargo, ante este resultado, ningún estudio deja de
ser estadísticamente significativo, dejando en claro la propuesta del uso de los métodos Mantel-
Haenszel y Dersimonian-Laird como métodos de elección para los modelos de efectos fijos y
efectos aleatorios respectivamente.

Independientemente de que el método de Peto, contrasta sus bases teóricas referente al tamaño
muestral, permite evidenciar alta heterogeneidad en los estudios, concluyendo que no es un
estimador adecuado para la investigación y el método del inverso de la varianza, encaja
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
36

perfectamente para la estimación del modelo de efectos fijos, ambos no difieren de forma
significativa a la medida de la razón de probabilidades como estadístico propuesto.

A través de la razón de probabilidades como medida de asociación en esta investigación, se pudo
determinar que independientemente del método aplicado, se pone de manifiesto que los
individuos expuestos tienen 11 veces mayores posibilidades de adquirir la enfermedad de Chagas
de transmisión oral, cuya principal fuente de asociación se atribuye al consumo de alimentos
contaminados.

REFERENCIAS

Alarcón de N. B., Díaz B. Z., Colmenares C., Ruiz G. R., Mauriello L., Muñoz C. A. & Noya O. (2015).
Update on oral Chagas disease outbreaks in Venezuela: epidemiological, clinical and diagnostic
approaches. Mem Inst Oswaldo Cruz, 110(3), 377-386.

Alarcón N. B., Ruiz G. R., Diaz B. Z., Colmenares C., Muñoz C. A., Mauriello L. & Noya O. (2016). EnVenezuela la enfermedad de Chagas de transmisión oral llegó para quedarse. ResearchGate, 17(2).

Bolaños D., R., Calderón C., M. (2014). Introducción al meta-análisis tradicional. Rev. Gastroenterol
Perú. 34(1), 45-51.

Marín M. F., Sánchez M. J. y López L. J. A. (2009). El metaanálisis en el ámbito de las Ciencias de la
Salud: una metodología imprescindible para la eficiente acumulación del conocimiento. Elsevier.
31(3), 107-114.

Organización Mundial de la Salud. (2017). Respuesta mundial para el control de vectores 2017-2030.
Recuperado desde https://www.who.int/malaria/.../vector_control/Draft-WHO-GVCR-2017-2030-
esp.pdf

Soto H., Tibaduiza T., Montilla M., Triana O., Suárez D. C., Torres T. M., Arias M. T., Lugo L. (2014).
Investigación de vectores y reservorios en brote de Chagas agudo por posible transmisión oral en
Aguachica, Cesar, Colombia. Cad. Saúde Pública, Rio de Janeiro, 30(4), 746-756.
Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
37
Revista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede Medelĺın
V 6 N◦1 enero-junio de 2017 • ISSN-e 2357-5749 • Art́ıculo Investigación • Páginas 1 a ??
DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684
DISEÑOS ÓPTIMOS EN MODELOS DE EFECTOS MIXTOS
NO-LINEALES CON OBSERVACIONES
CORRELACIONADASa
OPTIMAL DESIGNS IN NON-LINEAR MIXED EFFECTS
MODELS WITH CORRELATED OBSERVATIONS
MARÍA EUGENIA CASTAÑEDA L. b *, VÍCTOR IGNACIO LÓPEZ R. c
Recibido dd-mm-yyyy, aceptado dd-mm-yyyy, versión final dd-mm-yyyy.
Art́ıculo Investigación
RESUMEN: En este trabajo se considera el problema de encontrar diseños óptimos poblacionales para
modelos de efectos mixtos no lineales con observaciones correlacionadas. Se explora la construcción de los
diseños óptimos, condiciones experimentales óptimas donde se debe realizar el experimento, que permita
estimar los parámetros del modelo al maximizar el determinante de la matriz de información de Fisher. Con
un modelo mixto no lineal particular se hallan los diseños para diferentes estructuras de correlación. Se
realizan diferentes escenarios de simulación para investigar las propiedades de los diseños hallados.
PALABRAS CLAVE: Diseños óptimos, Matriz de información de Fisher, Modelos mixtos no lineales,
Observaciones correlacionadas.
ABSTRACT: In this work, we consider the problem of to find the population optimal design for nonli-
near mixed effects models with correlated observations. The construction of the optimal designs, optimal
experimental conditions where the experiment should be carried out, is explored in order to estimate the
parameters of the model by maximizing the determinant of Fisher’s information matrix. With a particular
nonlinear mixed model, we found the designs for different correlation structures. Different simulation scena-
rios in order to investigate the properties of the designs are performed.
KEYWORDS: Correlated observations, Fisher information matrix, Nonlinear mixed models, Optimal de-
sign.
aCastañeda, M. E. & López, V. I. (2019). Diseños óptimos en modelos de efectos mixtos no-
lineales con observaciones correlacionadas. Revista de la Facultad de Ciencias, 6 (1), 1–??. DOI:
https://doi.org/10.15446/rev.fac.cienc.v5n2.56684
bPhD en Ciencias Estad́ıstica. Profesora Asociada. Instituto de Matemáticas. Universidad de Antioquia
*Autor para correspondencia: maria.castaneda@udea.edu.co
cPhD en Ciencias Estad́ıstica. Profesor Asociado. Escuela de Estad́ıstica. Universidad Nacional de Colombia
1
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
38
XII Coloquio de Estad́ıstica
Medelĺın, Colombia 19 al 22 de Noviembre 2019
MODELO BASADO EN SIMILARIDAD DE CANASTAS PARA
RECOMENDACIÓN DE PRODUCTOS EN RETAIL
BASKET-SIMILARITY-BASED MODEL FOR PRODUCT
RECOMMENDATION IN RETAIL
Jonathan Galindo Estrada a *, Reinaldo Uribe b**
RESUMEN: El propósito de un sistema de recomendación es llegar al cliente mediante la sugerencia de
productos que no haya consumido, pero pertenezcan al mismo rango de gustos, los cuales pueden inferirse de
su comportamiento de compra. Este documento presenta un esquema de recomendación construido para una
categoŕıa espećıfica de una cadena de retail. El método se basa en una función de similaridad de canastas de
la categoŕıa. Aunque es posible demostrar que la función de similaridad empleada no es una distancia, pues
no cumple la desigualdad triangular, se argumenta que su uso en el contexto del recomendador es adecuado,
con sustento en algunas cifras preliminares de su puesta en producción.
PALABRAS CLAVE: Recomendación; métrica; similaridad; distancia
ABSTRACT: The goal of recommendation systems is to reach the customer with the suggestion of products
that they have not yet purchased that fall within the scope of their taste, which can be inferred form their
transactions. This document presents a recommendation scheme built specifically for a given category in a
retail chain. The method is based on a basket similarity function for that category. Although it can be proved
that the similarity function does not hold the triangular inequality, and therefore is not a distance metric,
we argue that its use in the recommendation context is suitable. Furthermore we present some preliminary
figures from its operation as additional support.
KEYWORDS: Recommendation; metric; similarity; distance
1. INTRODUCCIÓN
Actualmente, satisfacer y atraer al cliente se ha convertido en un reto complejo, gracias a su cre-
ciente experiencia omnicanal, al amplio conocimiento del mercado que acumula y a la cantidad de
información que tiene a la mano, factores que lo convierten en un cliente exigente y con necesidades
claras. Esto supone un reto mayor: la metodoloǵıa de segmentar los clientes para brindarles ofertas
aDirección de Anaĺıtica Digital, Vicepresidencia de Mercadeo e Innovación, Grupo Éxito.
*Email: jgalindoe@grupo-exito.com
bDirección de Anaĺıtica Digital, Vicepresidencia de Mercadeo e Innovación, Grupo Éxito.
**Email: rauribe@grupo-exito.com
1
1
Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
39
Jonathan Galindo Estrada, Reinaldo Uribe
especiales, masivas y poco personalizadas, ya no es un método diferenciador entre las cadenas de re-
tail. Para alcanzar un mayor impacto en el cliente, es necesario generar una mayor complicidad, por
medio de recomendaciones totalmente personalizadas basadas en su propia huella de información.
Esto hace necesario entender, por medio del análisis de datos, el comportamiento transaccional
individual, para poder brindar una experiencia única y adecuada a las necesidades de cada cliente,
estableciendo una relación uno a uno desde las marcas.
Con el crecimiento de las plataformas digitales de retail, marketing y consumo de contenidos, el
interés en diseñar modelos de recomendación ha crecido enormemente en las últimas dos décadas,
lo cual justifica que exista una rica literatura académica. Entre los enfoques similares al propuesto
en este caso, se destaca el sistema recomendador Video-Video Similarity [3], o “sim”. Este algoritmo
no personalizado calcula, para cada video, una lista de filmes similares del catálogo que maneja
Netflix. A fin de que la recomendación final sea verdaderamente personalizada, “sims” se integra a
alguno o algunos de los demás algoritmos de recomendación que se utilizan en esta plataforma, de
forma que la recomendación final sea adecuada para un usuario espećıfico. En la tienda virtual de
Amazon [4], la recomendación se hace mediante el cambio del catálogo que observa el cliente, por
medio de una metodoloǵıa llamada “filtro colaborativo item-to-item”, que consiste en agrupar los
productos comprados y calificados por el cliente con aquellos productos similares guardados en una
tabla de recomendación, creadaaplicacando la distancia coseno entre los productos comprados y
calificados por distintos usuarios.
Para la plataforma YouTube, según se describe en [2], dados los grandes volúmenes de videos y
usuarios, existen tres grandes retos al momento de recomendar contenidos relevantes: la escala, el
dinamismo de la plataforma y el ruido en los datos de los que se dispone para entrenar. El sistema
empleado se compone de dos redes neuronales profundas. A la primera (“candidate generation”) se
ingresa la totalidad de videos de la plataforma, junto con la historia de actividad de vistas de videos
de los usuarios y el contexto que tienen éstos para filtrar videos que puedan ser relevantes, generando
un conjunto de cientos de videos candidatos para cada usuario. Estos candidatos ingresan luego a
la segunda red neuronal (“ranking”), que toma además como insumo la actividad histórica de vistas
de videos, el contexto, caracteŕısticas propias de los videos y otras fuentes de videos candidatos,
para generar una lista puntuada de videos relevantes para el usuario.
2. Metodoloǵıa de recomendación
El contexto de recomendación en el que se aplica la metodoloǵıa propuesta es, para una categoŕıa
dada de productos, ofecerle a cada comprador de la categoŕıa items que no haya adquirido nunca
y que, con base en la traza transaccional de los demás clientes, se consideren afines a los productos
que śı compra. El método, que podŕıa llamarse “productos como el mı́o”, se basa en el estableci-
2
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
40
Modelo basado en similaridad de canastas para recomendación de productos en retail
miento de una medida de similitud entre productos de la categoŕıa, donde pares de productos que
hayan sido comprados por un número grande de clientes de la categoŕıa sean más “próximos” y
productos que no tienen o tienen pocos compradores en común se consideren “lejanos”. Con base
en esta similiaridad, el proceso de recomendación es simple: encontrar el producto o los productos
favoritos del cliente y determinar en su canasta los items más próximos que nunca haya adquirido
de la categoŕıa. Este método tiene la ventaja adicional de permitir incluir fácilmente otras conside-
raciones como la disponibilidad de inventario de los productos a recomendar.
Formalmente, para una categoŕıa de retail que tiene un conjunto de productos P y unos clientes
C, donde cada cliente ha adquirido por lo menos un producto y cada producto ha sido adquirido
por al menos un cliente, el insumo fundamental del proceso de recomendación son los conjuntos de
clientes que han adquirido cada producto, que se pueden representar cómodamente mediante una
matriz de incidencia M donde:
Mij =
{
1, cliente i ha comprado producto j.
0, en caso contrario.
(1)
Para cualquier par de productos x e y , con conjuntos de compradores X e Y, correspondientes a las
columnas MX y MY de la matriz de incidencia, respectivamente, el núcleo geométrico del proceso
de recomendación es la función de similutud
ρ(X , Y) = − log
(
|X ∩ Y|2
|X ||Y|
)
= − log
(
(MTXMY)
2
MTXMX ·MTYMY
)
. (2)
Nuevamente, por comodidad es posible representar las proximidades entre productos en una matriz
de similitud D con componentes Dxy = ρ(X , Y).
Algoritmo 1: Recomendación para cliente c ∈ C
Determinar f ∈ P entre los productos más comprados por c;
Sea r = argmin
y �=f
Dfy;
Recomendar el producto r al cliente c.
El Algoritmo 1 resume el procedimiento de generación de una recomendación para un cliente cual-
quiera c ∈ C. En el primer paso, el objeto es identificar cuál es el producto de la categoŕıa preferido
por el cliente, por frecuencia de compra, donde en caso de empates, se rompen al azar.
En el segundo paso del algoritmo, la selección del producto a recomendar, incluye simplemente
buscar el siguiente ı́tem más próximo de la categoŕıa en la matriz de similitudes D, pero puede
extenderse para incluir consideraciones de existencia de inventario I (r = argmin
y �=f, Iy>0
Dfy) o para
3
Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
41
Jonathan Galindo Estrada, Reinaldo Uribe
retornar un número arbitrario n < |P| de recomendaciones ordenadas para el cliente.
3. La función de similaridad no es una distancia
La función de similaridad ρ(X , Y) introducida en la Ecuación 2 tiene las caracteŕısticas que intuiti-
vamente se desea que tenga la comparación de productos para generar recomendaciones: cuando la
intersección de los conjuntos X e Y es grande, es decir, cuando muchos de los clientes han comprado
ambos productos, el valor del logaritmo es cercano a cero, indicando “proximidad” de los items. Por
otro lado, cuando el número de compradores comunes entre los dos es pequeño, ρ crece, tendiendo
a infinito cuando los productos no comparten clientes. De hecho, es fácil probar que:
1. La función de similaridad es no negativa, dado que la cardinalidad de X ∩Y es menor que las
cardinalidades de X e Y, aśı que el argumento del logaritmo siempre es menor o igual que
uno y por lo tanto ρ nunca es negativa.
2. La similaridad solo vale cero cuando X es igual a Y, haciendo que el numerador y denominador
del argumento del logaritmo sean iguales y en por ende el logritmo cero.
3. ρ es una función simétrica, como consecuencia directa de la simetŕıa de la intersección.
Estos resultados sugieren que la medida de similitud ρ(X , Y) es una candidata fuerte a ser una
distancia. Sin embargo, es posible demostrar que la condición restante, la desigualdad triangular,
no se cumple.
Considérese por ejemplo una instancia de recomendación con una categoŕıa compuesta por tres
productos P = {x, y, z} y tres clientes C = {a, b, c}, con traza transaccional:
M =
x y z




1 0 0 a
1 1 0 b
0 1 1 c
Nótese que y comparte un comprador con x y otro con z, mientras x y z no tienen clientes en
común, es decir que son disyuntos. Evaluando la condición de la desiguladad triangular:
ρ(X , Z)
?
≤ ρ(X , Y) + ρ(Y, Z) ;
− log
(
|X ∩ Z|2
|X ||Z|
)
?
≤ − log
(
|X ∩ Y|2
|X ||Y|
)
− log
(
|Y ∩ Z|2
|Y||Z|
)
;
− log(0)
?
≤ − log
(
1
4
)
− log
(
1
2
)
;
∞
?
≤ log(8)
4
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
42
Modelo basado en similaridad de canastas para recomendación de productos en retail
lo cual naturalmente no es cierto, de manera que la medida de similitud viola la desigualdad
triangular y por lo tanto no es una distancia.
4. Resultados y conclusiones
El consumo en general y particularmente en el contexto de la industria de retail, el primer indicador
clave de un sistema de recomendación es que exista, dado que en la medida que la recomendación
de productos se convierte en una expectativa de los clientes, no estar en condiciones de darles
recomendaciones, aunque sean imprecisas, se convierte en una desventaja competitiva.
Más allá de esto, dada la abundancia de datos disponibles y la relativa simplicidad y bajo costo de
montar sistemas de recomendación como el descrito en este documento, en términos de negocio es
fácil considerar un alto porcentaje de las ventas impulsadas a través de un sistema de recomenda-
ción como marginales, atribuibles casi exclusivamente al sistema.
En una prueba piloto efectuada durante un peŕıodo de un mes con los clientes de una categoŕıa de
bebidas en una cadena de retail en Colombia (|P| ≈ 1200, |C| ≈ 300,000 para la construcción de
M), se observó una venta incremental en canales virtuales y f́ısicos correspondiente al 10% de las
recomendaciones entregadas a los clientes, lo cual, aunque no proviene de un proceso estricto de
medición con grupos de control, no considera canibalización causada por las recomendaciones ni
validación de la permanencia en el tiempo o técnicas estad́ısticas similares, sugiere la efectividad
de la recomendación de productos a travésde métodos como el presentado en este documento.
En consecuencia, es posible concluir que aunque la medida de similitud usada no es propiamente
una distancia métrica, generalmente el método permite generar recomendaciones precisas, que en
términos reales los clientes encuentran interesantes y valiosas al momento de decidir qué producto
comprar de la categoŕıa.
Referencias
[1] Ajay Agarwal and Minakshi Chauhan. Similarity measures used in recommender systems: a
study. International Journal of Engineering Technology Science and Research IJETSR, ISSN,
pages 2394–3386, 2017.
[2] Paul Covington, Jay Adams, and Emre Sargin. Deep neural networks for youtube recommen-
dations. In Proceedings of the 10th ACM conference on recommender systems, pages 191–198.
ACM, 2016.
5
Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
43
Jonathan Galindo Estrada, Reinaldo Uribe
[3] Carlos A Gomez-Uribe and Neil Hunt. The netflix recommender system: Algorithms, busi-
ness value, and innovation. ACM Transactions on Management Information Systems (TMIS),
6(4):13, 2016.
[4] Greg Linden, Brent Smith, and Jeremy York. Amazon. com recommendations: Item-to-item
collaborative filtering. IEEE Internet computing, (1):76–80, 2003.
6
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
44
Revista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede MedellÃn
V 6 NÂ◦1 enero-junio de 2017 • ISSN-e 2357-5749 • ArtÃculo InvestigaciÃ3n• PÃ¡ginas 1 a ??
DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684
Deteccíıon del punto de cambio en la media de procesos de
memoria corta en series de tiempoa
Change Point Detection in Mean of Short Memory Process and
Applications in Time Series
Herold Dehling b *, Ronald Fried c, Isabel Garćıa d, Martin Wendlere
ABSTRACT: We study the detection of change-points in time series. The classical CUSUM statistic for
detection of jumps in the mean is known to be sensitive to outliers. We thus propose a robust test based
on the Wilcoxon two sample test statistic. The asymptotic distribution of this test can be derived from a
functional central limit theorem for two-sample U-statistics. We extend a theorem of Csörgő and Horváth
to the case of dependent data.
KEYWORDS: Two-sample U-statistics, change-point detection, weakly dependent data.
1. INTRODUCCIÓN
En el análisis de puntos de cambio una pregunta de interés es si este ocurre o no durante todo el peŕıodo
de observación de un proceso estocástico. Bajo el supuesto de independencia de los datos, existe una teoŕıa
muy bien desarrollada ver Csörgő y Horváth (1997) para un excelente estado del arte. Cuando los datos son
dependientes, se tienen menos resultados conocidos. El estad́ıstico CUSUM ha sido intensamente estudiado,
incluso bajo la condición de un tipo de dependencia; ver de nuevo Csörgő y Horváth (1997). Sin embargo,
este estad́ıstico CUSUM, no es robusto en la presencia de outliers. En este trabajo, se estudió un estad́ıstico
robusto basado en el estad́ıstico bimuestral Wilcoxon. Las simulaciones muestran que el comportamiento de
este estad́ıstico es mejor en el caso de datos provenientes de distribuciones pesadas.
En orden de derivar la distribución asintótica de los estad́ısticos de prueba, estudiamos el proceso estocástico
[nλ]∑
i=1
n∑
j=[nλ]+1
h(Xi, Xj), 0 ≤ λ ≤ 1
donde h : R2 −→ R es una función kernel. En el caso de observaciones independientes, la distribución
asintótica del proceso se ha estudiado por Csörgő y Horváth (1988). En este trabajo se extendió dicho
aDehling, H., Fried, R., Garćıa, I. & Wendler, M. (2015). CHANGE-POINT DETECTION UNDER DE-
PENDENCE BASED ON TWO-SAMPLE U-STATISTIC. Asymptotic Laws and Methods in Stochastics: A Volu-
me in Honour of Miklós Csörgő, Fields Institute Communications, Springer, New York, NY (76), 195–220.DOI:
https://doi.org/10.1007/978-1-4939-3076-012
bProf. Dr. Fakultẗ für Mathematik . Ruhr - Universität Bochum
*Corresponding author: herold.dehling@ruhr-uni-bochum.de
cProf. Dr. Fakultät Statistik. Technische Universität Dortmund
dAssistant Prof. Facultad de Ingenieŕıa y Ciencias. Pontificia Universidad Javeriana Cali
eProf. Dr. Institut für Mathematik und Informatik. Universität Greifswald
1
Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
45
Dehling, Fried, Garćıa & Wendler
resultado para datos con dependencia corta. Resultados similares se han obtenido para datos con dependencia
larga por Dehling, Rooch y Taqqu (2012), albeit con métodos diferentes.
Por otro lado, U estad́ısticos han sido introducidos por Hoeffding (1948), donde la distribución asintótica
se demostró tanto para el caso univariado y bivariado bajo el supuesto de independencia. La distribución
univariada en el caso dependiente fue estudiada por Sen (1963, 1972), Yoshihara (1976), Denker and Keller
(1983, 1985) y por Borovkova, Burton and Dehling (2001) en el caso no-degenerado, y por Babbel (1989)
y Leucht (2012) en el caso degenerado. Para U estad́ısticos bivariados, Dehling y Fried (2012) establecen la
distribucón asintótica de
∑[n1
i=1
∑n2
j=[1 h(Xi, Xj) para datos dependientes.
El principal resultado de éste art́ıculo es una versión funcional de este teorema ĺımite. En particular con-
centramos nuestra atención en datos que pueden ser representadoscomo funcionales de procesos mixing. De
esta manera, cubrimos modelos de series de tiempo, tales como procesos ARMA y GARCH, también datos
de sistemas dinámicos caóticos. Para una revisión de este tipo de dependencia, ver por ejemplo Borovkova,
Burton and Dehling (2001). También algunas referencias clásicas son Ibragimov y Linnik (1970) y Billingsley
(1968).
2. DEFINICIONES Y RESULTADOS PRINCIPALES
Considere que las observaciones se generan por medio de un proceso estocástico (Xi)i≥1,
Xi = µi + �i i ≥ 1,
(µi)i≥1 son señales desconocidas,
(�i)i≥1 es un ruido estacionario tal que E(�i) = 0.
Con base en X1, X2, . . . , Xn, queremos probar
H0 : µ1 = . . . = µn
contra
HA : µ1 = . . . = µk �= µk+1 = . . . = µn,
para algún k ∈ {1, . . . , n− 1}.
2.1. Motivación para punto de cambio
Cuando el punto de cambio se conoce, tenemos el problema de dos muestras X1, X2, . . . , Xk y Xk+1, . . . , Xn.
Los correspondientes U estad́ısticos bivariados para puntos de cambio, e.g.
GauÃ:
1
k
n∑
i=1
Xi −
1
n− k
n∑
i=k+1
Xi
Wilkoxon:
k∑
i=1
n∑
j=k+1
1{Xi≤Xj}
Cuando el punto de cambio se desconoce (lo cual es nuestro supuesto), usamos el supremo de estos estad́ıs-
ticos, tomado sobre todos los k ∈ {1, 2, . . . , n− 1}, con las constantes de normalización apropiadas.
2 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede MedellÃn
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
46
TÃTULO DEL ARTÍCULO EN ESPAÃOL
2.2. Dependencia
Recordemos que se conocen algunos resultados bajo independencia, en este caso supongamos que el ruido
(�i)i≥1 es una función de un proceso absolutamente regular (β-mixing)
�i = f(Zi, Zi−1, . . .), donde
1. (Zi)i∈Z es un proceso absolutamente regular con coeficientes mixing βk.
2. f : RN → R es una función 1− approximating, i.e.
E|�i − fm(Zi, Zi−1, . . . , Zi−m)| ≤ am,
para alguna fm : Rm+1 → R y am → 0 cuando m → ∞.
Algunos ejemplos de este tipo de procesos son procesos ARMA, procesos lineales con coeficientes sumables,
procesos de ramificación y sistemas dinámicos.
2.3. U estad́ısticos bivariados
Consideremos
U[nλ],n−[nλ] :=
1
[nλ](n− [nλ])
nλ∑
i=1
n∑
j=nλ+1
h(Xi, Xj), 0 ≤ λ ≤ 1,
El análisis de éste proceso usa la descomposición Hoeffding
h(x, y) = θ + h1(x) + h2(y) + ψ(x, y),
donde θ = Eh(X,Y ), h1(x) = Eh(x, Y )− θ, h2(y) = Eh(X, y)− θ y ψ(x, y) = h(x, y)− h1(x)− h2(y)− θ
2.4. Versión Funcional del Teorema Central del Ĺımite
Sea (Xi)i≥1 un 1-approximating funcional de un proceso