Logo Studenta

Memorias-del-Coloquio-de-Estadistica-2019

¡Este material tiene más páginas!

Vista previa del material en texto

XII COLOQUIO DE ESTADÍSTICA
Escuela de Estadística - Facultad de Ciencias 
Organizadores
Patrocinadores
Medellín, Colombia, 2019
XII COLOQUIO DE ESTADÍSTICA
Escuela de Estadística - Facultad de Ciencias 
© Universidad Nacional de Colombia, Sede Medellín 
Memorias del evento 
Volumen 1 
Comité Organizador:
 
Mario César Jaramillo Elorza. 
 Profesor Universidad Nacional de Colombia, 
Sede Medellín
Norman Giraldo Gómez. 
Profesor Universidad Nacional de Colombia, 
Sede Medellín.
René Iral Palomino. 
Profesor Universidad Nacional de Colombia, 
Sede Medellín
Francisco Javier Rodríguez Cortés. 
Profesor Universidad Nacional de Colombia, 
Sede Medellín
Juan Carlos Salazar Uribe. 
Profesor Universidad Nacional de Colombia, 
Sede Medellín.
Fabio Sepúlveda. 
Profesor Universidad de Medellín.
Comité Científico: 
María Eugenia Castañeda López. 
Profesora Universidad de Antioquia - Colombia
Guillermo Ferreira Cabezas. 
Profesor Universidad de Concepción - Chile
Víctor López Ríos. 
Profesor Universidad Nacional de Colombia - Colombia
Jorge Mateu Mahiques. 
Profesor Universitat Jaume I, España
Raúl Pérez Ágamez. 
Profesor Universidad Nacional de Colombia - Colombia
Francisco Rodríguez Cortés. 
Profesor Universidad Nacional de Colombia - Colombia
Contacto: 
Carrera 65 No. 59 A - 110
Medellín - Antioquia - Colombia
Correo electrónico: 
coloqestad_med@unal.edu.co
Teléfono: 
(+57 4) 430 90 00 ext. 46352
https://ciencias.medellin.unal.edu.co/eventos/coloquioestadistica/
Contenido
Comunicaciones
Conferencias
15
20
25
37
38
44
48
12
David Arango Londoño
Análisis Espacial de la Calidad Educativa en Colombia
Daniel Betancur Rodríguez
Aplicación Shinny para Análisis Descriptivo
Rafael Eduardo Borges Peña
Meta-Análisis en Estudios de Casos Controles de la Enfermedad de Changas de Transmisión 
Oral en Venezuela
María Eugenia Castañeda López
Optimal Desings in Non-Linear Mixed Models with Correlated Observations
Jonathan Galindo
Modelo Basado en Similaridad de Canastas para Recomendación de Productos en Retail
Isabel Cristina García Arboleda
Change Point Detection in Mean of Short Memory Process and Applications in Time Series
Yuri Marcela García Saavedra 
Estimación Bayesiana de un Modelo de Regresión Cox con Predictores Funcionales Dispersos
52
56
80
85
90
95
99
128
133
145
Rafael Meléndez Surmay
Análisis Temporal espacial del índice NDVI Utilizando el Archivo de Imágenes de 
Satélite Landsat
Sergio Luis Mercado
Bivariate Independence Test Based on the Ranks of the Observations
Cristian Daniel Obando Arbeláez
Distribución Poisson Truncada en Cero
Yeison Yovany Ocampo Naranjo
Aplicación Shinny para la Interpretación de Señales en la Carta T
Ricardo Fernando Otero Caicedo
Caracterización de la Proporción de Estudiantes Desertores en Diferentes IES
Katherin Juliana Quiñones Losada
Validación Externa de Prototipos Clasificadores para un Caso Aplicado: Dengue
Andrés Ramírez – Hassan
Focused Estimation for Noisy and Small Data Sets- a Bayesian Minimum Expected Loss 
Estimator Approach
Héctor Luis Romero Valbuena
Actividad Económica Regional en Colombia- Una Aplicación de la Metodología STATIS
Roger Jesús Tovar Falón
Un Modelo Lineal Mixto con Intercepto Aleatorio Asimétrico para Datos Censurados
Juan Camilo Valencia Beltrán
Aplicación Web Scraping para la Estimación del Precio de Vivienda para la Ciudad de 
Cali
Póster
Juan Felipe Arias Aguirre
Clasificación Supervisada LDA: Un Enfoque Robusto y no Paramétrico
Heber Esteban Bermúdez González
Aprendizaje Automático para el Análisis de Texto
Luis Alberto Bernal Berrio
Calibración de Parámetros para la Intensidad de Default Estocástica de Covariables 
Observables y un Factor de Fragilidad
Rafael Eduardo Borges Peña
Análisis de Supervivencia con Interacción de Diabetes e Índice de Masa Corporal en 
Pacientes en Diálisis Peritoneal
José Luis Cabrera Vega
Modelación Diseños Experimentales en Presencia de Correlación Espacial Aplicado a 
Experimentos Agrícolas
Juan Camilo Cárdenas Márquez
Caracterización Estadística de la Desigualdad de Ingreso en los Departamentos de 
Colombia
Lina Marcela Díaz Bejarano
Análisis de la Adjudicación de Tierras Baldías en Colombia
Eddy Johanna Fajardo Ortiz
Análisis de la Calidad del Agua del Área Metropolitana de Bucaramanga Utilizando la 
Metodología STATIS
José Alexander Fuentes Montoya
Diseño de un Modelo Predictivo de Fuga de Clientes Utilizando Algoritmos Machine 
Learning
Contenido
150
159
164
170
180
181
187
199
203
Yenny Vanesa García Blandón
Evaluación por Simulación del Efecto de Especificar Incorrectamente la Matriz de 
Varianzas-Covarianzas Intra-Individual en Modelos de Efectos Mixtos no Lineales
Valentina García Velásquez
Comparación entre dos Pruebas de Hipótesis para el Vector de Medias
Andrés Santiago Gil Puerta
Calibración de Tasas de un Modelo de Markov Para Libro de Órdenes Dinámico
Jean Carlo Jiménez Giraldo
Redes Neuronales para Segmentación de Imágenes Médicas
Diana Lucía Londoño Londoño
Técnicas de Minería de Datos (MD) para el Diagnóstico del Desempeño Escolar en 
Instituciones Públicas de Medellín
María Catalina Medina Ruiz
Análisis Multivariado para Caracterización de las 19 Estaciones de Muestreo y Calidad del 
Agua del Río Cauca desde el año 2007 hasta 2016.
Rafael Meléndez Surmay
Evaluación de la Biodiversidad a Través del Enfoque de Datos Funcionales
Claudia Lorena Montes Mora
Contribución de la Prueba Rápida Combinada NS1 e IgM/IgG al Rendimiento de Algoritmos 
Clínicos de Dengue en Pacientes Febriles de una IPS de la Ciudad de Cali en el año 2012
Stephany Nieves Uribe
Métodos de Clustering para la Selección y Distribución del Portafolio de Productos en un 
Dark Store
Javier Olaya Ochoa
Avances en la Imputación de Datos Faltantes de PM2.5
Santiago Ortiz Arias
Estimación Robusta del Modelo de Regresión Lineal en Presencia de Multicolinealidad
209
210
215
221
224
233
237
241
245
253
257
Miguel Oswaldo Pérez Pulido
Evaluación Estadística de Estrategias Implementadas para una Movilidad Urbana 
Sostenible y Reducción de la Accidentalidad en la Ciudad de Bucaramanga
Julián Alberto Quintero Bejarano 
Caracterización de los Tiempos hasta el Desenlace en Pacientes Diagnosticados con Cáncer 
de Colon y Recto
Mateo Restrepo Higuita
Una Alternativa para la Predicción de Tiempo en el Desarrollo de Software
Jessica María Rojas Mora
Metodología de Flujo de Conocimiento (primera fase) Aplicada al Proceso de Investigación 
Científica con Fines de Visibilidad Nacional e Internacional en la Universidad de Medellín
Yuberth Anderson Saavedra Coneo
Modelos Alternativos para Predecir la Tasa de Natalidad en Función de los Factores 
Ambientales y Socioeconómicos de un País
Juan Carlos Salazar Uribe
Un Estudio De Simulación Para Comparar Métodos De Estimación Para Datos 
Longitudinales
Lizeth Fernanda Suárez Mensa
Modelación del Tiempo de Recurrencia en Pacientes con Cáncer Diferenciado de Tiroides
Vanessa Toledo Serna
Comparación entre un modelo de Cointegración y un modelo de Cointegración por 
Suavización Exponencial para una ventana de tiempo trimestral para la TRM y COLCAP.
Roger Jesús Tovar Falón
Distribución Asimétrica Beta- Skew Laplace Póster
266
275
280
284
286
292
297
301
304
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
12
Retos del Análisis Estadístico en la Era de la Análitica de Datos y el Big Data 
Juan David Ospina Arango, Grupo Bancolombia.
Zen o el Arte de la Selección de Software Estadístico 
Juan Carlos Correa Morales, Universidad Nacional de Colombia - Colombia.
Minería de Texto para la Gestión de Organizaciones 
Jorge Iván Pérez Rave, IDINNOV S.A.S. 
El Análisis de Datos en la Cuarta Revolución Industrial 
John William Branch, Universidad Nacional de Colombia - Colombia.
Nuevas aportaciones del análisis de datos funcionales en el control estadístico de procesos
Miguel Alfonso Flores Sanchez, Escuela Politécnica Nacional- Ecuador.
Aplicaciones de los Modelos de Sobrevivencia para Modelar Riesgo de Crédito 
Jaime Huertas Campo, Universidad Nacional de Colombia - Colombia. 
Análisis de Datos Funcionales: Introducción y Aplicaciones 
Martha Bohorquez, Universidad Nacional de Colombia - Colombia.
R, Python y Julia, ¿Qué ventajas Ofrecen?. Comparación de Herramientas Estadísticas Abiertas 
Kenneth Cabrera Torres, Universidad Nacional de Colombia - Colombia.
Análisis de Series de Tiempo con R y Aplicaciones en Finanzas
Guillermo Ferreira, Universidad de Concepción - Chile.
Aprendizaje Estadístico, Regresion Penalizada, Tendencias con Series de Tiempo
Norman Giraldo, Universidad Nacional de Colombia - Colombia.
Modelos de Regresión en Ciencia de Datos
Ramón Giraldo Henao, Universidad Nacional de Colombia - Colombia.
Conferencias
 Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
13
Control Multivariado de procesos - Principios y Perspectivas
Nelfi González Alvarez - Isabel Cristina Ramírez Guevara, Universidad Nacional de Colombia - Colombia.
La Utilidad de TensorFlow para Estadística 
Freddy Hernández Barajas, Universidad Nacional de Colombia - Colombia.
Procesos Estocasticos con Dependencias Espaciales y Temporales. Predicción de Crimenes y 
Diseño de Experimentos en Ingeniería
Jorge Mateu, Universitat Jaume I - España.
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
14
 Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
15
Georreferenciación	de	la	calidad	educativa	en	
Colombia,	a	partir	del	fenómeno	de	la	aglomeración	y	
segregación	académica 
Esteban	Moreno	Cediel	1,	David	Arango-Londoño	2,	Maribel	Castillo	Caicedo	3 
1FACULTAD	DE	CIENCIAS	SOCIALES	Y	ECONOMICAS,	ECONOMÍA,	UNIVERSIDAD	DEL	VALLE,	CALI,	COLOMBIA	
2FACULTAD	DE	CIENCIAS	NATURALES	Y	MATEMÁTICAS,	PONTIFICIA	UNIVERSIDAD	JAVERIANA,	CALI,	COLOMBIA	
3FACULTAD	DE	CIENCIAS	ECONOMICAS	Y	ADMINISTRATIVAS,	PONTIFICIA	UNIVERSIDAD	JAVERIANA,	CALI,	COLOMBIA	
	
Resumen 
El presente proyecto busca medir el grado de aglomeración de la calidad 
educativa en Colombia, partiendo de la no socialización (o mezcla) de la 
población que muestra baja calidad en educación, con la que evidencia 
alta calidad [nivel de competencias escolares], y así determinar cómo 
dicha aglomeración afecta al fenómeno de la segregación académica. 
Para ello, se realizó un análisis espacial de la calidad educativa en 
Colombia y de las principales variables socioeconómicas que pueden 
influir en esta, y que propicia el fenómeno de la aglomeración educativa. 
A través del Índice de Moran, una prueba de autocorrelación espacial, se 
demuestra el nivel de aglomeración en la calidad educativa en Colombia, 
con un índice de 0,62, observando espacialmente que la alta calidad 
educativa se concentra en la región Andina, abarcando las principales 
ciudades de esta región (Bogotá, Medellín y Cali), mientras que la baja 
calidad educativa se aglomera en la periferia del país, zonas como la 
región Pacífica, gran parte de la costa, la región Amazónica y los llanos 
orientales. 
 
Palabras clave: Calidad educativa, aglomeración, segregación, autocorrelación 
espacial, I. de Moran, geovisualización. 
 
Introducción 
 
El objetivo primordial de medir la calidad de un sistema educativo es determinar en qué 
medida se han alcanzado las metas y objetivos propuestos en los estándares que se exigen 
en los procesos de formación y aprendizaje. Por ello, las mediciones, a través de las pruebas 
o evaluaciones estandarizadas, se constituyen en una herramienta fundamental para 
obtener la información confiable y necesaria para el mejoramiento de los sistemas, ya que, 
con base en ellas, es posible identificar tanto las fortalezas como las debilidades del sistema, 
lo que permite una retroalimentación a las instituciones educativas y entes territoriales 
(Ministerio de Educación Nacional, 2006). 
Para evaluar su sistema educativo, Colombia viene aplicando lo que actualmente se 
conoce como las pruebas SABER, y está participando en diferentes evaluaciones 
internacionales de desempeño escolar. Todas ellas se aplican en distintos niveles educativos 
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
16
y evalúan diferentes competencias, Sus resultados han sido empleados en diversos estudios 
que emplean múltiples metodologías, y han estado orientados a la identificación de factores 
asociados al desempeño académico [ver Castro, et al. (2018); Ayala, et al. (2011); Sánchez 
(2011)], a la estimación de brechas educativas [ver Castro, Giménez y Pérez (2017); Cárcamo 
y Mola (2012)], a estudios de eficiencia [ver de OCDE (2016)], y estos sirven como base 
principal para el cálculo del Índice Sintético de Calidad Educativa –ISCE–, construido por 
el ICFES, con el cual se realiza la clasificación de los centros educativos en Colombia. 
Teniendo en cuenta lo anterior, el presente trabajo busca responder a las siguientes 
preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en 
Colombia, a partir del cálculo del ISCE, para el año 2018?, y partiendo de las variables 
socioeconómicas más significativas que puedan afectar este problema de aglomeración 
responder ¿Cómo esas variables socioeconómicas pueden incidir en este grado de 
aglomeración? es decir, se busca conocer qué tan concentrada está la calidad en educación 
a lo largo del país, para así determinar cómo la distribución de la calidad educativa está 
originando la segregación académica; esto es, determinar cómo la aglomeración impide que 
los estudiantes (población) con bajos niveles de competencias escolares socialicen con los de 
altos niveles, y encontrar los factores socioeconómicos del entorno escolar y como estos 
influyen de manera significativa en dicha segregación. 
El problema de investigación se justifica, toda vez que los resultados obtenidos en 
anteriores trabajos tienen una característica que ha sido poco abordada por los estudios 
orientados hacia la medición de la calidad educativa en Colombia, y es que se concentran 
en la eficacia y/o en los factores determinantes del desempeño escolar: la ubicación espacial 
de la escuela, que tiene una relación con la calidad educativa, vía efecto entorno, el cual 
puede estar originando clúster en educación. De la misma forma, poco se ha investigado si 
la aglomeración educativa está originando el fenómeno de segregación académica. 
Materiales y métodos 
La hipótesis es que, partiendo de la existencia de la aglomeración en la calidad 
educativa en Colombia, y sumado a esta, factores socioeconómicos de los departamentos 
como el número de homicidios, entre otras, está generando en gran medida segregación 
académica, y esto evita que el nivel educativo en el país aumente. Para ello, esta 
investigación realizará el cálculo del ISCE en los departamentos de Colombia, para los 
estudiantes de grado 11 en las competencias de matemáticas y lenguaje, para el año 2018, 
basados en la metodología propuesta por el ICFES para su estimación [ver ICFES (2016)]. El 
estudio se enfoca en esta parte de la población estudiantil debido a que el ISCE se aplica a 
los niveles básico y medio. A partir de los resultados del ISCE se realizará la agregación del 
índice, por departamentos. 
Inicialmente se evaluará el grado de dependencia espacial del ISCE por departamentos 
utilizando el índice de correlación de Moran y probando diversas estructuras de vecindad 
(tipo reina y torre) al igual que los rezagos espaciales. El índice de moran nos muestra si los 
departamentos con alto ISCE están rodeados por otros con altos índices (aglomeración). 
 Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
17
Para calcular el ISCE, se estimarán los puntajes promedio de las pruebas SABER 11, por 
departamento en Colombia, en las áreas de matemáticas y lenguaje,para el año 2018, con 
base en las puntuaciones individuales obtenidas por los estudiantes en dichas pruebas. Estas 
son diseñadas y aplicadas por el ICFES a los estudiantes de último año de bachillerato, y 
evalúan el logro educativo promedio de un estudiante durante su vida escolar. 
 Una vez agregada la información a nivel de departamento, se adicionará a la 
cartografía de estos, utilizando Sistemas de Información Geográficos –SIG–, por medio del 
software R y las librerías raster, rgdal y sp. 
Existencia de aglomeración 
Figura 2: Geovisualización del puntaje global de las pruebas saber 11 
 
La hipótesis principal del problema de investigación es la existencia de aglomeración 
educativa en Colombia, y para asegurar esta hipótesis se utiliza el programa Geoda, el cual 
es un paquete de software gratuito para el análisis de datos espaciales, geovisualización, 
autocorrelación y modelado espaciales. A partir de este, se distribuye el puntaje global de 
las pruebas en 5 cuantiles, obteniendo el mapa de la figura 2, en el cual se puede observar 
claramente la existencia de aglomeración educativa, donde los puntajes altos se encuentran 
concentrados en la zona andina del país, mientras que los puntajes bajos se encuentran en 
la periferia de este. 
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
18
Figura 3: Calculo del Índice de Moran de la calidad educativa 
Sin embargo, para confirmar dicha aglomeración se utiliza el Índice de Moran como 
medida de autocorrelación espacial, es decir, entender el grado en que un objeto es similar 
a otros objetos cercanos, en este caso, medir el grado en que la calidad educativa afecta la 
calidad educativa de los municipios vecinos. El I. de Moran puede ser clasificado como 
positivo, negativo y sin autocorrelación espacial. Un I de Moran muy cercano a 1, nos indica 
aglomeración, mientras que uno muy cercano a -1 nos indica segregación. Al realizar el 
análisis para esta investigación, nos da como resultado un índice de 0,642, lo que nos soporta 
la hipótesis de la existencia de aglomeración en Colombia (figura 3). 
Conclusiones 
Se demuestra la existencia de aglomeración educativa en Colombia a través del índice de 
autocorrelación espacial de Moran con un valor de 0,62, lo que impide que la calidad 
educativa aumente para las zonas donde la baja calidad está concentrada (zona pacifica, 
amazonia, llanos orientales y parte de la costa), sin embargo, posteriormente en este estudio 
se determinará las variables socioeconómicas que mas influyen en el aumento del fenómeno 
de la aglomeración educativa, a través de un análisis de regresión espacial. 
 Referencias 
Ayala, J., Marrugo, S. & Saray, B., 2011. Antecedentes familiares y rendimiento académico 
en los colegios oficiales de Cartagena. Economía y Región, 5(2), pp. 43-85. 
Cárcamo, C. & Mola, J., 2012. Diferencias por sexo en el desempeño académico en Colombia: 
Un análisis regional. Economía y Región, 6(1), pp. 133-169. 
 Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
19
Castro, G., Giménez, G. & Pérez, D., 2017. Educational Inequalities in Latin America, 2012 
PISA: Causes of Differences in School Performance between Public and Private Schools. 
Revista de Educación, Volumen 376, pp. 33-61. 
Castro, G., Giménez, G. & Pérez, D., 2018. Estimación de los factores condicionantes de la 
adquisición de competencias académicas en América Latina en presencia de endogenidad. 
Revista CEPAL, Chile, Issue 124, pp. 35-59. 
Instituto Colombiano para la Evaluación de la Educación -ICFES-, 2016. SABER en breve. 5 
ed. Santafe de Bogotá: ICFES. 
Ministerio de Educación Nacional, C., 2006. Al tablero. [En línea] Available at: 
https://www.mineducacion.gov.co/1621/article-107321.html [Último acceso: 30/05 2019]. 
OCDE, 2016. Education in Colombia. Reviews of National Policies for Education. Paris-Bogotá: 
Organización para la Cooperación y el Desarrollo Económicos, OCDE. 
Sánchez, A., 2011. Etnia y Desempeño Académico en Colombia, Documentos de Trabajo sobre 
Economía Regional, 156, Cartagena, Colombia: Banco de la República, Centro de Estudios 
Económicos Regionales (CEER). 
 
 
 
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
20
Revista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede Medelĺın
V 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • Art́ıculo Investigación • Páginas ?? a ??
DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684
Aplicación en Shiny para análisis descriptivoa
Shiny app for descriptive analysis
Daniel Betancur Rodŕıguez b *, Rene Iral Palomino c,
Recibido dd-mm-yyyy, aceptado dd-mm-yyyy, versión final dd-mm-yyyy.
Art́ıculo Investigación
RESUMEN: El presente trabajo consiste en la presentación de una aplicación web interactiva para la rea-
lización de análisis descriptivos básicos utilizando el paquete Shiny, del software R. Su objetivo es permitir
un acercamiento inicial a personas en formación estad́ıstica a los gráficos y estad́ısticos descriptivos básicos,
facilitar el análisis descriptivo a un publico general sin formación en programación estad́ıstica y agilizar
la elaboración de gráficos y obtención estad́ısticos descriptivos a cualquier usuario al ahorrar tiempo en el
proceso de lectura de datos y elaboración de código.
PALABRAS CLAVE: Aplicación shiny, Estad́ıstica descriptiva, Análisis descriptivo de datos.
ABSTRACT: The present work consists of the presentation of an interactive web application using the
R package Shiny. It’s target is to allow people in statistical training to have an initial approach to statisti-
cal graphics and basic descriptive statistics, facilitate the descriptive analysis for people without statistical
training and streamline the elaboration of graphics and obtainment of descriptive statistics to any user by
saving time in the process of data reading and code elaboration.
KEYWORDS: Shiny app, Descriptive statistic, Descriptive analysis of data.
1. INTRODUCCIÓN
Como afirma ? para lograr comprender los complicados problemas del mundo moderno se requiere
de la recolección de infromación objetiva, es decir, de la obtención de datos. Para ello la estad́ıstica,
definida por el autor como el arte del arender de los datos, se preocupa por la recolección de
datos, su descripción y análisis, y las conclusiones a que se llegue a partir de estos. Aśı, es de
suma importancia que los hallazgos numéricos de cualquier estudio se presenten de manera clara
y concisa y que permita hacerse a una idea rápida de las caracteŕısticas escenciales de los datos,
particularmente en casos de grandes grupos de datos.
aBetancur, D. & Iral, R. (2019). Aplicación en ahiny para análisis descriptivo. Revista de la Facultad de Ciencias,
6 (1), ??–??. DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684
bEstudiante. Facultad de Ciencias. Universidad Nacional de Colombia Sede Medelĺın
*Autor para correspondencia: dabetancurro@unal.edu.co
c(PhD(C)) en Estad́ıstica. Docente. Facultad de Ciencias. Universidad Nacional de Colombia sede Medelĺın
1
 Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
21
Daniel Betancur Rodŕıguez, Rene Iral Palomino
Esta presentación adecuada de los datos y su análisis se realiza, generalmente, con apoyo en herra-
mientas de computo. En la comunidad estad́ıstica el programa de computación estad́ıstica R tiene
gran acogida. De a cuerdo con ? R es un software que se hizo disponible en internet a través de
una Licencia Pública General, permitiendo su uso libre y distribución. R provee un ambiente para
realizar análisis estad́ıstico y producir gráficos y al estar basado en un lenguaje de computación
formal tiene una tremenda flexibilidad. Sin embargo, el aprovechamiento de los recursos de R re-
quiere conocimiento en la sintaxis que utiliza. Además,el uso de la herramienta, salvo utilizando
ciertos paquetes, implica la escritura de las ĺıneas de código que permitan ejecutar las instrucciones
deseadas, lo que lo hace de dificil uso para usuarios sin conocimiento en el lenguaje, por un lado,
y genera inconvenientes de eficiencia e interactividad en cuanto a análisis visuales que requieran
observar distintias combinaciones de las variables de forma dinámica.
El resente trabajo presenta una alternativa interactiva y de fácil uso para la realización de un
análisis descriptivo básico de datos, por medio de una aplicación untilizanod el paquete Shiny en
R.
2. Objetivo
El presente trabajo busca presentar una nueva aplicación en Shiny que permita la realización de una
análisis descriptivo básico de una manera fácil y eficiente, con la ventaja de resultar interactiva para
los usuarios. Si bien la aplicación tiene limitantes con respecto la flexibilidad de la programación
directa en R, puede resultar sumamente adecuada para personas sin el conocimiento en la sintaxis
de programación necesaria para ello o conveniente para usuarios de R en general por la eficiciencia
e interactividad para la presentación de gráficos y resumenes numéricos. Por otro lado, la aplicación
puede tener un enfoque didactico para la introducción a la realización del análisis descriptivo de
los datos.
3. Presentación de la aplicación
Este documento iniciará con una breve definición de qué es una aplicación Shiny, luego presentará
la aplicación en cinco étapas: Inicio y lectura de datos, Diagramas de dispersión, Diagramas de caja
y bigotes, Histogramas y Gráficos de medias.
3.1. ¿Qué es una aplicación Shiny?
De a cuerdo con ? Shiny es un paquete en R que hace sencilla la construcción de aplicaciones web
interactvias directamente desde R, combinando el poder computacional de R y la interactividad de
la web moderna.
2 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medelĺın
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
22
Aplicación en Shiny para análisis descriptivo
3.1.1. Inicio y lectura de datos
A continuación se presenta la interfaz de inicio de la aplicación, dodne se tiene un panel de lectura
de datos, una salida que permite ver si los datos se han léıdo adecuadamente, un botón para pasar
al modo çálculo 2un panel movil para personalizar el tema de la aplicación.
Figura 1: Interfaz inicial de la aplicación
3.2. Diagramas de dispersión
Una vez se activan el modo çalculo.el primer panel de resultados presenta un gráfico de dispersión
de las dos variables elegidas junto con una ĺınea de tendencia obtenida com un método de suaviza-
miento loess. Los datos gráficados toman el color de la variable factor de comparación en caso de
seleccionarse alguna.
Figura 2: Interfaz de gráficos de dispersión
V 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 • Art́ıculo Investigación 3
 Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
23
Daniel Betancur Rodŕıguez, Rene Iral Palomino
3.3. Diagramas de caja y bigotes
El segundo panel de resultados presenta el gráfico de caja y bigotes de cada una de las variables
continuas elegidas, aśı como su resumen de cuartiles y rango intercuartil, filtrado por variable de
comparación en caso de que se seleccione alguna.
Figura 3: Interfaz diagramas de caja y bigotes
3.4. Histogramas
De manera similar, se presenta el histograma para cada variable, junto con las lineas de la densidad
observada y se discrimina por colores de la variable de comparación si se selecciona alguna.
Figura 4: Interfaz histogramas
4 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medelĺın
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
24
Aplicación en Shiny para análisis descriptivo
3.5. Gráficos de medias
Finalmente se presenta el gráficod e medias de cada una de las variables por niveles de la variable
seleccionada para la comparación junto con la media y desviación estándar por niveles de esta.
EN caso de que no se seleccione una variable de comparación únicamente se presentan la media y
desviación estándar de las dos variables continuas seleccionadas.
Figura 5: Interfaz graficos de medias
Referencias
Ross, S.M. (2010). Introductory Statistics. Elsevier Inc. San Diego, U.S.A. pp: 1-18.
Dalgaard, P. (2008). Introductory Statistics with R. Springer. Denmark. Preface.
R Studio Inc. (2017). Shiny. [En ĺınea]. R Studio Inc. [Consultada en octubre de ]. Disponible en:
https://shiny.rstudio.com/
V 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 • Art́ıculo Investigación 5
 Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
25
 
1 Dirección de Asuntos Estudiantiles, Universidad de Los Andes, Mérida, Venezuela. 
2 Escuela de Estadística, Universidad de Los Andes, Mérida, Venezuela. 
* Autor para correspondencia: borgesr@gmail.com y borgesr@ula.ve . 
 
 
 
META-ANÁLISIS EN ESTUDIOS DE CASOS Y 
CONTROLES DE LA ENFERMEDAD DE CHAGAS DE 
TRANSMISIÓN ORAL EN VENEZUELA. 
META-ANALYSIS IN CASE-CONTROL STUDIES OF ORAL 
TRANSMISSION CHAGAS DISEASE IN VENEZUELA. 
MONSALVE, MEYDIBETH1, BORGES, RAFAEL2* 
 
RESUMEN: La investigación propuesta emplea como estrategia la realización de un metaanálisis 
sobre los distintos casos de enfermedad de Chagas de transmisión oral en Venezuela reportados en 
la literatura. La localización de diversos reportes de la enfermedad, permitieron definir las 
estrategias de búsqueda utilizadas, donde la debida inclusión y exclusión de los estudios centrales 
objetos de la investigación, fue de vital importancia para evitar el sesgo de publicación y recurrir 
de forma adecuada a la aplicación de los modelos de efectos fijos y efectos aleatorios, con la 
finalidad de conocer la estimación medida por la Razón de Posibilidades en cada uno de los 
métodos propuestos. Ante esta evaluación se concluye finalmente que, el método de Inverso de la 
Varianza arrojó como resultado 11 veces más posibilidades de adquirir la enfermedad por la 
ingesta de alimentos, fijándose como el mejor método respecto a los otros métodos aplicados tales 
como Mantel-Haenszel, Peto y, el de Dersimonian y Laird. 
 
PALABRAS CLAVE: Chagas Disease; Chagas oral en Venezuela; Enfermedad de Chagas Oral; 
Metaanálisis. 
 
ABSTRACT: The proposed research presents a meta-analysis strategy using the different cases of 
Chagas disease of oral transmission in Venezuela reported in scientific papers. The localization of 
diverse reports of the disease, allowed to define the strategies of search used, where the proper 
inclusion and exclusion of the central studies objects of the research, was of vital importance to 
avoid the bias of publication and to resort in an adequate way to the application of the models of 
fixed effects and random effects, with the purpose of knowing the estimation measured by the 
Odds Ratio in each one of the proposed methods. Given this evaluation, we conclude that with tthe 
Variance Inverse, there is 11 times more possibilities of acquiring the disease through food intake, 
establishing itself as the best method with respect to other applied methods such as Mantel-
Haenszel, Peto, and Dersimonian & Laird. 
 
KEYWORDS: Meta-analysis, Oral Chagas Disease, Chagas Disease, Oral Chagas in Venezuela. 
 
 
 
 
 
 
 
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
26
 
 
 
 
1 INTRODUCCIÓN 
 
Ante el exceso de información científica, existen diversas maneras para tratar correctamente el 
conocimiento científico. Acceder y revisar a fondo todo lo que se publica sobre estudios de casos 
y controles en Venezuela por medio del uso de bases de datos bibliográficas y revistas a travésdel acceso ordenado, sistemático y sin sesgos de la información derivada de los trabajos, resultó 
ser compleja. Es por ello que la necesidad de disponer de esta herramienta de investigación fue 
pertinente, ya que permitió abordar la información de forma adecuada en términos de calidad, 
cantidad y actualidad, la cual está presentada de modo práctico y de fácil interpretación. 
Asimismo, es importante destacar que, durante el desarrollo de esta investigación no se logró 
acceder a algunos datos de brotes orales registrados en el país, siendo motivo de su exclusión sin 
comprometer la fiabilidad del estudio. 
 
En el área de la epidemiologia, para la aplicación adecuada de un metaanálisis en el estudio de 
enfermedad de Chagas de transmisión oral, es indispensable mantener una guía, donde se 
permita no solo evaluar la heterogeneidad de los estudios para elevar el poder estadístico de 
comparación, mejorando las estimaciones y el efecto de tratamiento, sino también para 
contribuir a la obtención de resultados confiables de diferentes estudios, mediante la evaluación 
de grupos y aportar información para la realización de futuras investigaciones (Bolaños y 
Calderón, 2014). 
 
El metaanálisis para efectos de esta investigación, es un proceso en el que se analizan los 
distintos casos de enfermedad de Chagas de transmisión oral en Venezuela reportados en la 
literatura. No obstante, los resultados que arroja esta técnica se pudieran considerar más sólidos 
que los resultados de cualquier otro estudio desarrollado de forma tradicional. 
 
Las investigaciones científicas basadas en estudios de revisión sistemática, persiguen un objetivo 
fundamental de integrar los resultados de estudios empíricos de forma objetiva, limitando el 
sesgo y mejorando la confiabilidad y precisión de sus conclusiones. El desarrollo de esta 
investigación consiste en aplicar los principios básicos para entender el poder que brinda la 
técnica y conocer los instrumentos esenciales para su realización mediante las siguientes etapas: 
formulación del problema, criterios de inclusión y búsquedas de los estudios, codificación de las 
características de los estudios, cálculo del tamaño del efecto, técnicas de análisis estadístico, 
interpretación y publicación del metaanálisis. 
 
2 ESTUDIOS DE CASOS Y CONTROLES DE LA ENFERMEDAD DE 
CHAGAS DE TRANSMISIÓN ORAL EN VENEZUELA. 
 
Las enfermedades vectoriales son consideradas como una de las principales amenazas para la 
salud social a nivel mundial. Éstas son causadas por virus, bacterias y parásitos cuya 
transmisión al ser humano suele ser por medio de mosquitos, ácaros, garrapatas, entre otros; 
denominados vectores, causando distintos brotes de importancia mundial como lo son: el 
paludismo, el dengue, la enfermedad de Chagas, entre otras. Los vectores suelen ser organismos 
vivos, muchos de ellos son insectos hematófagos, capaces de transmitir enfermedades infecciosas 
de un portador infectado a otro, bien sea persona o animal, inoculando un nuevo portador (OMS, 
2017). 
 Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
27
 
 
 
 
Es por eso, que el Tripanosoma cruzi, definido como un protozoario flagelado, es el parásito 
transmitido mediante vectores denominados Triatominos, responsable de la transmisión de la 
enfermedad de Chagas. Los mecanismos de transmisión de la enfermedad suelen ser de forma 
vectorial, por transfusión sanguínea, transplacentaria, trasplante de órganos infectados, 
accidentes de laboratorios y la vía oral, que se ha convertido en el mecanismo principal de 
preocupación, debido a la cantidad de brotes reportados de América Latina. Las manifestaciones 
clínicas son variables, y se distinguen dos fases infección: la aguda y la crónica (Alarcón et al., 
2015). 
 
En este sentido, para Soto et al. (2014), la enfermedad de Chagas es considerada una zoonosis y 
se ha descrito como una enfermedad endémica cuyos ciclos de transmisión del parásito estarán 
siempre presentes y el riesgo de transmisión al hombre siempre presentará una probabilidad. La 
transmisión oral de la enfermedad de Chagas presenta una tendencia al incremento reportada en 
diversas revisiones de brotes agudos por posible transmisión oral en países como Brasil, 
Colombia, México y Venezuela. 
 
Según Alarcón et al. (2016), la transmisión del parásito por vía oral, es posible a través de la 
contaminación de alimentos directamente por el consumo del triatominos o sus deyecciones. La 
sospecha se da cuando varias personas desarrollan síndromes febriles prolongados sin causa o 
explicación aparente con algunos síntomas tales como taquicardias, arritmias, entre otros. 
2.1 Tratamiento Estadístico y Análisis de la Información 
 
Las investigaciones científicas basadas en estudios de revisión sistemática, persiguen un 
objetivo fundamental de integrar los resultados de estudios empíricos de forma objetiva, 
limitando el sesgo, y mejorando la confiabilidad y precisión de sus conclusiones. El objetivo 
principal del metaanálisis es definir el problema de investigación y las características de los 
estudios incluidos en la revisión. El conocimiento previo de la investigación, aporta validez a las 
conclusiones, hipótesis con mayor apoyo empírico y material para la obtención de respuestas 
claras y consistentes (Marín et al., 2009). El desarrollo de la investigación, se rige mediante las 
siguientes etapas: 
 
 
Imagen 1. 
 En la formulación del problema: se procedió a la realización de un metaanálisis de los 
distintos de casos de Chagas oral en Venezuela, reportados en la literatura entre los años 
2007 – 2019, haciendo énfasis en estudios de casos y controles. 
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
28
 
 
 
 
 Criterios de inclusión y búsqueda de los estudios: la búsqueda, se realizó por vía 
electrónica por medio de las bases de datos: ProMed, ResearchGate, JID y Elsevier, 
entre otros, empleando para la búsqueda las palabras claves: “Enfermedad de Chagas 
Oral”, “Oral Chagas Desease in Venezuela”, así como palabras asociadas en las diferentes 
bases de datos consultadas relacionados con estos términos, combinándose entre sí en 
diferentes comandos de búsqueda. A pesar de que existen distintos estudios referentes a 
la enfermedad de Chagas de transmisión oral, en los criterios de inclusión, se tomaron en 
cuenta las publicaciones de estudios de casos y controles de todos los idiomas, fecha o 
estado de publicación. 
 
De las 12 investigaciones seleccionadas de estudios de casos y controles de enfermedad de 
Chagas de transmisión oral, los 10 primeros artículos fueron propuestos por el artículo base 
publicado por Alarcón et al., 2015, las dos últimas investigaciones reflejadas en la tabla 1, fueron 
agregadas debido a que la fecha del brote ocurrieron luego de la fecha de publicación del artículo 
base propuesto para esta investigación. 
 
Tabla 1. Fuente de publicaciones seleccionadas. 
MES/AÑO DE 
PUBLICACIÓN LOCALIDAD REFERENCIA FUENTE 
DICIEMBRE 2007 CHACAO, CARACAS ALARCON DE NOYA ET AL. (2010a) JID 
MAYO 2008 SAN JOSE, CARACAS NO PUBLICADO ResearchGate 
MARZO 2009 CHICHIRIVICHE, VARGAS ALARCON DE NOYA ET AL. (2016) ELSEVIER 
MAYO 2010 ANTIMANO, CARACAS ProMed ProMed 
NOVIEMBRE 2010 RUBIO, TACHIRA BENITEZ ET AL. (2013) JID 
MARZO 2012 COCHE, CARACAS ProMed ProMed 
JULIO 2012 EL BORDO, MERIDA AÑEZ ET AL. (2013) Bol. Mal. Salud Amb. 
JUNIO 2013 MIRIMIRE, FALCON NO PUBLICADO ResearchGate 
FEBRERO 2014 EL GUAPO, MIRANDA NO PUBLICADO ResearchGate 
JULIO 2014 SAN CRISTOBAL, TACHIRA NO PUBLICADO ResearchGate 
FEBRERO 2015 GUATIRE, MIRANDA ALARCON ET AL. (2017) Men. Ins. Oswaldo Cruz 
FEBRERO 2016 LA MACARENA, MERIDA AÑEZ ET AL. (2016) ResearchGate 
Fuente: Elaboración Propia. 
 
Los estudios que presentaron casos de transmisión vertical como lo fueron “Chichiriviche de la 
Costa” y “Guatire”, estudios no publicados como lo fueron “San José, Mirimire, El Guapo ySan 
Cristóbal” y las publicaciones con dudosa exposición de los casos y/o datos faltantes que no se 
pudieron corroborar por contacto directo con los investigadores, tales como “Antímano, Rubio y 
Coche”, fueron excluidos de la investigación. 
 
Los estudios de “El Bordo y La Macarena”, se completaron mediante contacto directo con los 
autores del centro de investigaciones Parasitológicas “J. F. Torrealba”, del departamento de 
Biología de la Facultad de Ciencias de la Universidad de los Andes, para solicitar información no 
disponible en las publicaciones. De tal manera que, de las 12 publicaciones seleccionadas solo 
 Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
29
 
 
 
 
tres de ellas que se muestran en la tabla 2, cumplieron con los criterios de inclusión y exclusión 
definidos. 
 
Tabla 2. Estudios de casos y controles registrados en Venezuela. 
 
MES/AÑO DE 
PUBLICACIÓN LOCALIDAD REFERENCIA FUENTE 
DICIEMBRE 2007 CHACAO, CARACAS ALARCON DE NOYA ET AL. (2010a) JID 
JULIO 2012 EL BORDO, MERIDA AÑEZ ET AL. (2013) Bol. Mal. Salud Amb. 
FEBRERO 2016 LA MACARENA, MERIDA AÑEZ ET AL. (2016) ResearchGate 
Fuente: Elaboración Propia. 
 
 Codificación de las características de los estudios: De acuerdo a la selección del 
conjunto de variables de interés en la investigación, se precisó una búsqueda de datos 
faltantes para evitar cualquier pérdida de información o que pudieran generar 
estimaciones incorrectas, creando una base de datos general de las publicaciones 
seleccionadas, haciendo mención de los casos y controles de cada una de ellas. 
 En el cálculo del tamaño del efecto: para el estudio de la enfermedad de Chagas de 
transmisión oral, el análisis se ajustará tanto a un modelo de efectos fijos como de efectos 
aleatorios, aplicando los respectivos métodos dispuestos en dichos modelos para el 
estudio de variables dicotómicas, y el efecto del tratamiento se cuantificará mediante la 
razón de probabilidades, aportando una medida conjunta final. 
 Técnicas de análisis estadístico e interpretación: se evaluará la heterogeneidad entre 
estudios cuya medición se realizara mediante la cuantificación del índice I2 para el caso 
de modelos de efectos fijos y τ2 para el caso de modelos de efectos aleatorios. La 
posibilidad de sesgo de publicación se evaluará mediante el método gráfico del funnel 
Plot o la gráfica de embudo y el análisis de la medida conjunta final proporcionada por la 
razón de probabilidades, se verificará mediante el Forest Plot. 
 En la publicación del metaanálisis: cada vez es más común la utilización de la técnica 
metaanalítica ante la dificultad al momento de realizar trabajos de investigación debido a 
factores costo-tiempo. Las técnicas propuestas por el metaanálisis atribuyen una gran 
importancia al momento de realizar una evaluación cuantitativa en el uso de métodos 
estadísticos, no solo para abordar un problema o pregunta específica a partir de la 
combinación de una serie de estudios que no tienen un tamaño muestral representativo, 
sino también, para examinar la eficacia en los modelos seleccionados y fuentes de 
heterogeneidad entre los estudios, permitiendo resolver controversias ante la existencia 
de desacuerdos entre los resultados. Su contribución a las distintas áreas profesionales, 
tomando en cuenta la aplicación adecuada de la técnica, puede ser de gran valor, ya que 
determina cuáles son los factores de riesgos existentes y los resultados preventivos o de 
tratamiento de los estudios necesarios para planificar futuras investigaciones. 
2.2 Identificación de los Casos y Controles 
 
El estudio se compone de dos grupos: el grupo de casos, que se define como los individuos 
expuestos que adquirieron la enfermedad y el grupo de controles, que es una muestra de la 
población expuesta, a los que no se les había confirmado la enfermedad. 
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
30
 
 
 
 
El grupo de casos en total se compone de 115 individuos expuestos que adquirieron la 
enfermedad de 157 personas expuestas y el grupo controles se compone de un total de 42 casos 
reportados de 270 personas expuestas en las 3 investigaciones que cumplieron con el criterio de 
inclusión y exclusión reportadas entre los años 2007 al 2019, cuya fuente de infección como 
factor de riesgo, se presume es por consumo de alimentos contaminados. (Ver Tabla 3). 
 
Tabla 3. Estudios de casos y controles registrados en Venezuela. 
 
PUBLICACION 
CASOS CONTROLES 
EXPUESTOS TOTAL CASOS EXPUESTOS TOTAL CONTROLES 
CHACAO 2007 103 138 35 150 
EL BORDO 2012 5 7 2 10 
LA MACARENA 2016 7 12 5 110 
TOTAL 115 157 42 270 
Fuente: Elaboración Propia. Datos adquiridos de las publicaciones seleccionadas. 
 
2.3 Meta-análisis 
 
En la tabla 3, se presentan los casos estudiados definidos por el lugar del brote y año, 
acompañados de los casos y controles con sus individuos expuestos y total de expuestos 
respectivamente. Los casos representan el número de individuos reportados en el brote que, 
mediante pruebas serológicas se confirmaron como positivos y los controles son aquellos 
individuos que, a pesar de haber estado expuestos a la enfermedad no habian sido confirmados. 
Los reportes registrados en Chacao, Caracas, se define como brote debido a la magnitud o 
cantidad de personas infectadas, mientras que los reportes registrados en el Bordo y la 
Macarena, se catalogan como microbrotes, debido a que la contaminacion se registró en un 
grupos familiares. 
 
 
Imagen 2. Metaanálisis de estudios seleccionados. 
En la imagen 2, se puede observar que todos los estudios favorecen al grupo control, el brote 
registrado en Chacao en el año 2007, posee mayor significancia debido a la contribución que 
aporta al estudio, ejerciendo mayor influencia sobre el resultado determinando la solidez en el 
mismo. La precisión reflejada en el forest plot, por medio de los intervalos de confianza nos 
permiten evidenciar la exactitud de los estudios y pudieran considerarse estadísticamente 
significativos. La prueba de heterogeneidad entre estudios indica que éstos son heterogéneos, 
por lo que se pudiera concluir que es indiferente el tipo de método a utilizar, ya que no existe 
 Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
31
 
 
 
 
diferencia significativa entre ellos. En cuanto a la significación estadística el p-valor es mayor a 
0.05 es decir, que basado en el resultado de la heterogeneidad y en el resultado de la razón de 
probabilidades, se pudiera inferir que existe una fuerte asociación de adquirir la enfermedad por 
medio de la ingesta de alimentos contaminados. 
 
La medida del sesgo de publicación se evaluó mediante el gráfico funnel plot dispuesta en la 
imagen 3, donde se determinó que no existe evidencia de heterogeneidad en la investigación, es 
decir, todas las revisiones sistemáticas mantienen el mismo criterio de estudio de enfermedad de 
Chagas por transmisión oral. Se puede verificar que los estudios que poseen mayor número de 
muestras se encuentran cercanos al vértice del embudo, siendo estos Chacao como brote y La 
Macarena como microbrote, el estudio del bordo a pesar de situarse en la parte inferior del 
gráfico por ser un microbrote respecto al primer estudio, no deja de ser estadísticamente 
significativo. 
 
 
Imagen 3. Funnel Plot de estudios seleccionados. 
 
2.3.1 Modelo de Efectos Fijos. 
2.3.1.1 Método Mantel-Haenszel (MH) 
 
Basados en el supuesto que define el modelo de efectos fijos en cuanto a la no existencia de 
heterogeneidad de todos los estudios, tomando en cuenta las muestras de sujetos diferentes de 
forma que la variabilidad del tamaño de efecto se atribuya únicamente al error de muestreo, se 
tiene la aplicación del metodo del Mantel Haenszel, para estimar una razón de probabilidad 
combinada en la mayoría de las situaciones. 
2.3.1.1.1 Forest Plot y Funnel Plot. Método“MH”. 
 
Al igual que en el caso de la aplicación de la razón de probabilidades, todos los estudios 
favorecen al grupo control, cuya mayor significancia debido a la contribucion que aporta al 
estudio se mantiene en el brote de Chacao, Caracas. La precision mostrada en los intervalos de 
confianza evidencian que los estudios mantienen su significacion estadística y el indice de 
heterogeneidad nos indica que los estudios seleccionados siguen siendo heterogéneos. En cuanto 
a la significacion estadistica el p-valor es mayor a 0.05, por lo que se pudiera corroborar ante 
todas las pruebas descritas anteriormente que existe una fuerte asociacion de adquirir la 
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
32
 
 
 
 
infección por medio de la ingesta de alimentos y los individuos expuestos tienen 10 veces mas 
posibilidades de contraer la enfermedad. 
 
 
Imagen 4. Forest Plot. Método “MH” 
 
El funnel plot de la imagen 5, no muestra cambios significativos, el brote ocurrido en Chacao, 
Caracas, debido a su magnitud registrada, se mantiene en el vértice del embudo determinando 
su significancia estadística, y los otros microbrotes debido a que sus tamaños muestrales son 
pequeños respecto al brote del año 2007, se encuentran en la parte media e inferior, sin 
embargo, no existe evidencia suficiente para concluir que los estudios sean menos significativos. 
 
 
Imagen 5. Funnel Plot. Método “MH”. 
. 
2.3.1.2 Método de Peto (PETO). 
 
A pesar de que el método de Peto se deriva del método de Mantel-Haenszel, en cuanto a la 
combinacion de estudios individuales cuyo enfoque proporcionado por el inverso de la varianza, 
se hace apropiado cuando están cerca de 1 o la magnitud de efecto es próxima al valor nulo, en 
otras situaciones proporciona sesgos en sus resultados y generalmente se sugiere su uso cuando 
el tamaño de las muestras son similares. 
2.3.1.2.1 Forest Plot y Funnel Plot. Método “PETO”. 
 
Es evidente que el resultado proporcionado por la razón de probabilidades en el caso del método 
de Peto no incluye ni el valor nulo ni la unidad, pero se puede apreciar que se registra un 86% de 
 Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
33
 
 
 
 
heterogeneidad (imagen 6), deduciendo por tanto que el método de Peto no es un buen 
estimador. 
 
 
Imagen 6. Forest Plot. Método “PETO”. 
 
Debido a que en el Forest plot evidenció que peto es un método altamente heterogéneo en este 
caso particular, se pudo constatar en el gráfico del embudo de la imagen 7, que el estudio de la 
Macarena se sale de los límites del gráfico. Los tamaños muestrales pudieran ser una de las 
principales causas por la que el estudio arrojo alta variabilidad. 
 
 
Imagen 7. Funnel Plot. Método “Peto”. 
2.3.1.3 Método del Inverso de la Varianza (IV). 
 
Obteniendo la estimación del efecto del tratamiento y la varianza de cada estudio para 
transformar los resultados a una escala donde la distribución de los estimadores se aproxime 
mejor a la distribución normal, se tiene que el modelo encaja perfectamente para la estimacion 
tanto para modelos de efectos fijos como aleatorios, sin embargo no difere de forma significativa 
al método de aplicación original proporcionada por la razón de probabilidades. 
2.3.1.3.1 Forest Plot y Funnel Plot. Método “IV”. 
 
En la imagen 8, se puede evidenciar la heterogeneidad entre estudios es decir, es indiferente el 
tipo de método a utilizar, ya que no existe diferencia significativa entre ellos. En igual que el 
resto de los modelos, por lo que se pudiera inferir una vez más que existe una fuerte asociación 
de adquirir la enfermedad por medio de la ingesta de alimentos contaminados. 
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
34
 
 
 
 
 
Imagen 8. Forest Plot. Método “IV”. 
 
El gráfico funnel plot dispuesto en la imagen 9, determina que no existe evidencia de 
heterogeneidad en la investigación es decir, todas las revisiones sistemáticas mantienen el 
mismo criterio de estudio de enfermedad de Chagas por transmisión oral. 
 
 
 
Imagen 9. Funnel Plot. Método “IV”. 
2.3.2 Modelo de Efectos Aleatorios. 
2.3.2.1 Método Dersimonian-Laird (DL) 
 
En este otro caso, contrario al modelo de efectos fijos, se estima el tamaño del efecto de todos 
los estudios, para el método de Dersimonian-Laird el resumen proporcionado por la salida del 
paquete estadístico “meta”, al igual que en el modelo de efectos fijos, evidencia que para la 
estimación del tamaño del efecto de todos los estudios ante la incorporación realizada al 
estimador de un componente de la variabilidad intraestudios, no se registra cambios 
significativos en el método aplicado respecto a la salida del “OR” o razón de probabilidades. 
2.3.2.1.1 Forest Plot y Funnel Plot. Método “DL”. 
 
A pesar de que los efectos del tratamiento no son los mismos para todos los estudios, como 
teóricamente se define el modelo de efectos fijos, se demostró en el Forest plot y el funnel plot, 
que la aplicación del método Dersimonian-Laird no evidencia cambios o significación alguna que 
difieran de los análisis proporcionados en la imagen 10 y 11. 
 Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
35
 
 
 
 
 
Imagen 10. Forest Plot. Método “DL”. 
 
 
 
Imagen 11. Funnel Plot. Método “DL”. 
 
3 CONCLUSIONES 
 
Luego de la aplicación de los métodos correspondientes a la técnica metaanalítica en el estudio 
de enfermedad de Chagas de transmisión oral, con la intención de evaluar la asociación real de la 
enfermedad, se puede concluir que: 
 
Debido a la magnitud del brote y al impacto que este generó, los datos aportados en el estudio 
de Chacao, Caracas, publicado en el año 2007, basado en las contribuciones registradas, se pudo 
evidenciar que favorece mayormente al grupo control independientemente del método aplicado. 
 
A pesar de que los reportes evidenciados en los estudios seleccionados de El Bordo en el año 
2012 y la Macarena en el año 2016, son considerados como microbrotes; ya que la magnitud de 
infectados se confinó en un brote familiar; la medida del sesgo de publicación evaluada mediante 
el funnel plot en los distintos métodos aplicados, determinó la no existencia de heterogeneidad, 
predispuesta también en el Forest plot. Sin embargo, ante este resultado, ningún estudio deja de 
ser estadísticamente significativo, dejando en claro la propuesta del uso de los métodos Mantel-
Haenszel y Dersimonian-Laird como métodos de elección para los modelos de efectos fijos y 
efectos aleatorios respectivamente. 
 
Independientemente de que el método de Peto, contrasta sus bases teóricas referente al tamaño 
muestral, permite evidenciar alta heterogeneidad en los estudios, concluyendo que no es un 
estimador adecuado para la investigación y el método del inverso de la varianza, encaja 
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
36
 
 
 
 
perfectamente para la estimación del modelo de efectos fijos, ambos no difieren de forma 
significativa a la medida de la razón de probabilidades como estadístico propuesto. 
 
A través de la razón de probabilidades como medida de asociación en esta investigación, se pudo 
determinar que independientemente del método aplicado, se pone de manifiesto que los 
individuos expuestos tienen 11 veces mayores posibilidades de adquirir la enfermedad de Chagas 
de transmisión oral, cuya principal fuente de asociación se atribuye al consumo de alimentos 
contaminados. 
 
REFERENCIAS 
 
Alarcón de N. B., Díaz B. Z., Colmenares C., Ruiz G. R., Mauriello L., Muñoz C. A. & Noya O. (2015). 
Update on oral Chagas disease outbreaks in Venezuela: epidemiological, clinical and diagnostic 
approaches. Mem Inst Oswaldo Cruz, 110(3), 377-386. 
 
Alarcón N. B., Ruiz G. R., Diaz B. Z., Colmenares C., Muñoz C. A., Mauriello L. & Noya O. (2016). EnVenezuela la enfermedad de Chagas de transmisión oral llegó para quedarse. ResearchGate, 17(2). 
 
Bolaños D., R., Calderón C., M. (2014). Introducción al meta-análisis tradicional. Rev. Gastroenterol 
Perú. 34(1), 45-51. 
 
Marín M. F., Sánchez M. J. y López L. J. A. (2009). El metaanálisis en el ámbito de las Ciencias de la 
Salud: una metodología imprescindible para la eficiente acumulación del conocimiento. Elsevier. 
31(3), 107-114. 
 
Organización Mundial de la Salud. (2017). Respuesta mundial para el control de vectores 2017-2030. 
Recuperado desde https://www.who.int/malaria/.../vector_control/Draft-WHO-GVCR-2017-2030-
esp.pdf 
 
Soto H., Tibaduiza T., Montilla M., Triana O., Suárez D. C., Torres T. M., Arias M. T., Lugo L. (2014). 
Investigación de vectores y reservorios en brote de Chagas agudo por posible transmisión oral en 
Aguachica, Cesar, Colombia. Cad. Saúde Pública, Rio de Janeiro, 30(4), 746-756. 
 Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
37
Revista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede Medelĺın
V 6 N◦1 enero-junio de 2017 • ISSN-e 2357-5749 • Art́ıculo Investigación • Páginas 1 a ??
DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684
DISEÑOS ÓPTIMOS EN MODELOS DE EFECTOS MIXTOS
NO-LINEALES CON OBSERVACIONES
CORRELACIONADASa
OPTIMAL DESIGNS IN NON-LINEAR MIXED EFFECTS
MODELS WITH CORRELATED OBSERVATIONS
MARÍA EUGENIA CASTAÑEDA L. b *, VÍCTOR IGNACIO LÓPEZ R. c
Recibido dd-mm-yyyy, aceptado dd-mm-yyyy, versión final dd-mm-yyyy.
Art́ıculo Investigación
RESUMEN: En este trabajo se considera el problema de encontrar diseños óptimos poblacionales para
modelos de efectos mixtos no lineales con observaciones correlacionadas. Se explora la construcción de los
diseños óptimos, condiciones experimentales óptimas donde se debe realizar el experimento, que permita
estimar los parámetros del modelo al maximizar el determinante de la matriz de información de Fisher. Con
un modelo mixto no lineal particular se hallan los diseños para diferentes estructuras de correlación. Se
realizan diferentes escenarios de simulación para investigar las propiedades de los diseños hallados.
PALABRAS CLAVE: Diseños óptimos, Matriz de información de Fisher, Modelos mixtos no lineales,
Observaciones correlacionadas.
ABSTRACT: In this work, we consider the problem of to find the population optimal design for nonli-
near mixed effects models with correlated observations. The construction of the optimal designs, optimal
experimental conditions where the experiment should be carried out, is explored in order to estimate the
parameters of the model by maximizing the determinant of Fisher’s information matrix. With a particular
nonlinear mixed model, we found the designs for different correlation structures. Different simulation scena-
rios in order to investigate the properties of the designs are performed.
KEYWORDS: Correlated observations, Fisher information matrix, Nonlinear mixed models, Optimal de-
sign.
aCastañeda, M. E. & López, V. I. (2019). Diseños óptimos en modelos de efectos mixtos no-
lineales con observaciones correlacionadas. Revista de la Facultad de Ciencias, 6 (1), 1–??. DOI:
https://doi.org/10.15446/rev.fac.cienc.v5n2.56684
bPhD en Ciencias Estad́ıstica. Profesora Asociada. Instituto de Matemáticas. Universidad de Antioquia
*Autor para correspondencia: maria.castaneda@udea.edu.co
cPhD en Ciencias Estad́ıstica. Profesor Asociado. Escuela de Estad́ıstica. Universidad Nacional de Colombia
1
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
38
XII Coloquio de Estad́ıstica
Medelĺın, Colombia 19 al 22 de Noviembre 2019
MODELO BASADO EN SIMILARIDAD DE CANASTAS PARA
RECOMENDACIÓN DE PRODUCTOS EN RETAIL
BASKET-SIMILARITY-BASED MODEL FOR PRODUCT
RECOMMENDATION IN RETAIL
Jonathan Galindo Estrada a *, Reinaldo Uribe b**
RESUMEN: El propósito de un sistema de recomendación es llegar al cliente mediante la sugerencia de
productos que no haya consumido, pero pertenezcan al mismo rango de gustos, los cuales pueden inferirse de
su comportamiento de compra. Este documento presenta un esquema de recomendación construido para una
categoŕıa espećıfica de una cadena de retail. El método se basa en una función de similaridad de canastas de
la categoŕıa. Aunque es posible demostrar que la función de similaridad empleada no es una distancia, pues
no cumple la desigualdad triangular, se argumenta que su uso en el contexto del recomendador es adecuado,
con sustento en algunas cifras preliminares de su puesta en producción.
PALABRAS CLAVE: Recomendación; métrica; similaridad; distancia
ABSTRACT: The goal of recommendation systems is to reach the customer with the suggestion of products
that they have not yet purchased that fall within the scope of their taste, which can be inferred form their
transactions. This document presents a recommendation scheme built specifically for a given category in a
retail chain. The method is based on a basket similarity function for that category. Although it can be proved
that the similarity function does not hold the triangular inequality, and therefore is not a distance metric,
we argue that its use in the recommendation context is suitable. Furthermore we present some preliminary
figures from its operation as additional support.
KEYWORDS: Recommendation; metric; similarity; distance
1. INTRODUCCIÓN
Actualmente, satisfacer y atraer al cliente se ha convertido en un reto complejo, gracias a su cre-
ciente experiencia omnicanal, al amplio conocimiento del mercado que acumula y a la cantidad de
información que tiene a la mano, factores que lo convierten en un cliente exigente y con necesidades
claras. Esto supone un reto mayor: la metodoloǵıa de segmentar los clientes para brindarles ofertas
aDirección de Anaĺıtica Digital, Vicepresidencia de Mercadeo e Innovación, Grupo Éxito.
*Email: jgalindoe@grupo-exito.com
bDirección de Anaĺıtica Digital, Vicepresidencia de Mercadeo e Innovación, Grupo Éxito.
**Email: rauribe@grupo-exito.com
1
1
 Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
39
Jonathan Galindo Estrada, Reinaldo Uribe
especiales, masivas y poco personalizadas, ya no es un método diferenciador entre las cadenas de re-
tail. Para alcanzar un mayor impacto en el cliente, es necesario generar una mayor complicidad, por
medio de recomendaciones totalmente personalizadas basadas en su propia huella de información.
Esto hace necesario entender, por medio del análisis de datos, el comportamiento transaccional
individual, para poder brindar una experiencia única y adecuada a las necesidades de cada cliente,
estableciendo una relación uno a uno desde las marcas.
Con el crecimiento de las plataformas digitales de retail, marketing y consumo de contenidos, el
interés en diseñar modelos de recomendación ha crecido enormemente en las últimas dos décadas,
lo cual justifica que exista una rica literatura académica. Entre los enfoques similares al propuesto
en este caso, se destaca el sistema recomendador Video-Video Similarity [3], o “sim”. Este algoritmo
no personalizado calcula, para cada video, una lista de filmes similares del catálogo que maneja
Netflix. A fin de que la recomendación final sea verdaderamente personalizada, “sims” se integra a
alguno o algunos de los demás algoritmos de recomendación que se utilizan en esta plataforma, de
forma que la recomendación final sea adecuada para un usuario espećıfico. En la tienda virtual de
Amazon [4], la recomendación se hace mediante el cambio del catálogo que observa el cliente, por
medio de una metodoloǵıa llamada “filtro colaborativo item-to-item”, que consiste en agrupar los
productos comprados y calificados por el cliente con aquellos productos similares guardados en una
tabla de recomendación, creadaaplicacando la distancia coseno entre los productos comprados y
calificados por distintos usuarios.
Para la plataforma YouTube, según se describe en [2], dados los grandes volúmenes de videos y
usuarios, existen tres grandes retos al momento de recomendar contenidos relevantes: la escala, el
dinamismo de la plataforma y el ruido en los datos de los que se dispone para entrenar. El sistema
empleado se compone de dos redes neuronales profundas. A la primera (“candidate generation”) se
ingresa la totalidad de videos de la plataforma, junto con la historia de actividad de vistas de videos
de los usuarios y el contexto que tienen éstos para filtrar videos que puedan ser relevantes, generando
un conjunto de cientos de videos candidatos para cada usuario. Estos candidatos ingresan luego a
la segunda red neuronal (“ranking”), que toma además como insumo la actividad histórica de vistas
de videos, el contexto, caracteŕısticas propias de los videos y otras fuentes de videos candidatos,
para generar una lista puntuada de videos relevantes para el usuario.
2. Metodoloǵıa de recomendación
El contexto de recomendación en el que se aplica la metodoloǵıa propuesta es, para una categoŕıa
dada de productos, ofecerle a cada comprador de la categoŕıa items que no haya adquirido nunca
y que, con base en la traza transaccional de los demás clientes, se consideren afines a los productos
que śı compra. El método, que podŕıa llamarse “productos como el mı́o”, se basa en el estableci-
2
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
40
Modelo basado en similaridad de canastas para recomendación de productos en retail
miento de una medida de similitud entre productos de la categoŕıa, donde pares de productos que
hayan sido comprados por un número grande de clientes de la categoŕıa sean más “próximos” y
productos que no tienen o tienen pocos compradores en común se consideren “lejanos”. Con base
en esta similiaridad, el proceso de recomendación es simple: encontrar el producto o los productos
favoritos del cliente y determinar en su canasta los items más próximos que nunca haya adquirido
de la categoŕıa. Este método tiene la ventaja adicional de permitir incluir fácilmente otras conside-
raciones como la disponibilidad de inventario de los productos a recomendar.
Formalmente, para una categoŕıa de retail que tiene un conjunto de productos P y unos clientes
C, donde cada cliente ha adquirido por lo menos un producto y cada producto ha sido adquirido
por al menos un cliente, el insumo fundamental del proceso de recomendación son los conjuntos de
clientes que han adquirido cada producto, que se pueden representar cómodamente mediante una
matriz de incidencia M donde:
Mij =
{
1, cliente i ha comprado producto j.
0, en caso contrario.
(1)
Para cualquier par de productos x e y , con conjuntos de compradores X e Y, correspondientes a las
columnas MX y MY de la matriz de incidencia, respectivamente, el núcleo geométrico del proceso
de recomendación es la función de similutud
ρ(X , Y) = − log
(
|X ∩ Y|2
|X ||Y|
)
= − log
(
(MTXMY)
2
MTXMX ·MTYMY
)
. (2)
Nuevamente, por comodidad es posible representar las proximidades entre productos en una matriz
de similitud D con componentes Dxy = ρ(X , Y).
Algoritmo 1: Recomendación para cliente c ∈ C
Determinar f ∈ P entre los productos más comprados por c;
Sea r = argmin
y �=f
Dfy;
Recomendar el producto r al cliente c.
El Algoritmo 1 resume el procedimiento de generación de una recomendación para un cliente cual-
quiera c ∈ C. En el primer paso, el objeto es identificar cuál es el producto de la categoŕıa preferido
por el cliente, por frecuencia de compra, donde en caso de empates, se rompen al azar.
En el segundo paso del algoritmo, la selección del producto a recomendar, incluye simplemente
buscar el siguiente ı́tem más próximo de la categoŕıa en la matriz de similitudes D, pero puede
extenderse para incluir consideraciones de existencia de inventario I (r = argmin
y �=f, Iy>0
Dfy) o para
3
 Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
41
Jonathan Galindo Estrada, Reinaldo Uribe
retornar un número arbitrario n < |P| de recomendaciones ordenadas para el cliente.
3. La función de similaridad no es una distancia
La función de similaridad ρ(X , Y) introducida en la Ecuación 2 tiene las caracteŕısticas que intuiti-
vamente se desea que tenga la comparación de productos para generar recomendaciones: cuando la
intersección de los conjuntos X e Y es grande, es decir, cuando muchos de los clientes han comprado
ambos productos, el valor del logaritmo es cercano a cero, indicando “proximidad” de los items. Por
otro lado, cuando el número de compradores comunes entre los dos es pequeño, ρ crece, tendiendo
a infinito cuando los productos no comparten clientes. De hecho, es fácil probar que:
1. La función de similaridad es no negativa, dado que la cardinalidad de X ∩Y es menor que las
cardinalidades de X e Y, aśı que el argumento del logaritmo siempre es menor o igual que
uno y por lo tanto ρ nunca es negativa.
2. La similaridad solo vale cero cuando X es igual a Y, haciendo que el numerador y denominador
del argumento del logaritmo sean iguales y en por ende el logritmo cero.
3. ρ es una función simétrica, como consecuencia directa de la simetŕıa de la intersección.
Estos resultados sugieren que la medida de similitud ρ(X , Y) es una candidata fuerte a ser una
distancia. Sin embargo, es posible demostrar que la condición restante, la desigualdad triangular,
no se cumple.
Considérese por ejemplo una instancia de recomendación con una categoŕıa compuesta por tres
productos P = {x, y, z} y tres clientes C = {a, b, c}, con traza transaccional:
M =
x y z




1 0 0 a
1 1 0 b
0 1 1 c
Nótese que y comparte un comprador con x y otro con z, mientras x y z no tienen clientes en
común, es decir que son disyuntos. Evaluando la condición de la desiguladad triangular:
ρ(X , Z)
?
≤ ρ(X , Y) + ρ(Y, Z) ;
− log
(
|X ∩ Z|2
|X ||Z|
)
?
≤ − log
(
|X ∩ Y|2
|X ||Y|
)
− log
(
|Y ∩ Z|2
|Y||Z|
)
;
− log(0)
?
≤ − log
(
1
4
)
− log
(
1
2
)
;
∞
?
≤ log(8)
4
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
42
Modelo basado en similaridad de canastas para recomendación de productos en retail
lo cual naturalmente no es cierto, de manera que la medida de similitud viola la desigualdad
triangular y por lo tanto no es una distancia.
4. Resultados y conclusiones
El consumo en general y particularmente en el contexto de la industria de retail, el primer indicador
clave de un sistema de recomendación es que exista, dado que en la medida que la recomendación
de productos se convierte en una expectativa de los clientes, no estar en condiciones de darles
recomendaciones, aunque sean imprecisas, se convierte en una desventaja competitiva.
Más allá de esto, dada la abundancia de datos disponibles y la relativa simplicidad y bajo costo de
montar sistemas de recomendación como el descrito en este documento, en términos de negocio es
fácil considerar un alto porcentaje de las ventas impulsadas a través de un sistema de recomenda-
ción como marginales, atribuibles casi exclusivamente al sistema.
En una prueba piloto efectuada durante un peŕıodo de un mes con los clientes de una categoŕıa de
bebidas en una cadena de retail en Colombia (|P| ≈ 1200, |C| ≈ 300,000 para la construcción de
M), se observó una venta incremental en canales virtuales y f́ısicos correspondiente al 10% de las
recomendaciones entregadas a los clientes, lo cual, aunque no proviene de un proceso estricto de
medición con grupos de control, no considera canibalización causada por las recomendaciones ni
validación de la permanencia en el tiempo o técnicas estad́ısticas similares, sugiere la efectividad
de la recomendación de productos a travésde métodos como el presentado en este documento.
En consecuencia, es posible concluir que aunque la medida de similitud usada no es propiamente
una distancia métrica, generalmente el método permite generar recomendaciones precisas, que en
términos reales los clientes encuentran interesantes y valiosas al momento de decidir qué producto
comprar de la categoŕıa.
Referencias
[1] Ajay Agarwal and Minakshi Chauhan. Similarity measures used in recommender systems: a
study. International Journal of Engineering Technology Science and Research IJETSR, ISSN,
pages 2394–3386, 2017.
[2] Paul Covington, Jay Adams, and Emre Sargin. Deep neural networks for youtube recommen-
dations. In Proceedings of the 10th ACM conference on recommender systems, pages 191–198.
ACM, 2016.
5
 Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
43
Jonathan Galindo Estrada, Reinaldo Uribe
[3] Carlos A Gomez-Uribe and Neil Hunt. The netflix recommender system: Algorithms, busi-
ness value, and innovation. ACM Transactions on Management Information Systems (TMIS),
6(4):13, 2016.
[4] Greg Linden, Brent Smith, and Jeremy York. Amazon. com recommendations: Item-to-item
collaborative filtering. IEEE Internet computing, (1):76–80, 2003.
6
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
44
Revista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede MedellÃn
V 6 NÂ◦1 enero-junio de 2017 • ISSN-e 2357-5749 • ArtÃculo InvestigaciÃ3n• Páginas 1 a ??
DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684
Deteccíıon del punto de cambio en la media de procesos de
memoria corta en series de tiempoa
Change Point Detection in Mean of Short Memory Process and
Applications in Time Series
Herold Dehling b *, Ronald Fried c, Isabel Garćıa d, Martin Wendlere
ABSTRACT: We study the detection of change-points in time series. The classical CUSUM statistic for
detection of jumps in the mean is known to be sensitive to outliers. We thus propose a robust test based
on the Wilcoxon two sample test statistic. The asymptotic distribution of this test can be derived from a
functional central limit theorem for two-sample U-statistics. We extend a theorem of Csörgő and Horváth
to the case of dependent data.
KEYWORDS: Two-sample U-statistics, change-point detection, weakly dependent data.
1. INTRODUCCIÓN
En el análisis de puntos de cambio una pregunta de interés es si este ocurre o no durante todo el peŕıodo
de observación de un proceso estocástico. Bajo el supuesto de independencia de los datos, existe una teoŕıa
muy bien desarrollada ver Csörgő y Horváth (1997) para un excelente estado del arte. Cuando los datos son
dependientes, se tienen menos resultados conocidos. El estad́ıstico CUSUM ha sido intensamente estudiado,
incluso bajo la condición de un tipo de dependencia; ver de nuevo Csörgő y Horváth (1997). Sin embargo,
este estad́ıstico CUSUM, no es robusto en la presencia de outliers. En este trabajo, se estudió un estad́ıstico
robusto basado en el estad́ıstico bimuestral Wilcoxon. Las simulaciones muestran que el comportamiento de
este estad́ıstico es mejor en el caso de datos provenientes de distribuciones pesadas.
En orden de derivar la distribución asintótica de los estad́ısticos de prueba, estudiamos el proceso estocástico
[nλ]∑
i=1
n∑
j=[nλ]+1
h(Xi, Xj), 0 ≤ λ ≤ 1
donde h : R2 −→ R es una función kernel. En el caso de observaciones independientes, la distribución
asintótica del proceso se ha estudiado por Csörgő y Horváth (1988). En este trabajo se extendió dicho
aDehling, H., Fried, R., Garćıa, I. & Wendler, M. (2015). CHANGE-POINT DETECTION UNDER DE-
PENDENCE BASED ON TWO-SAMPLE U-STATISTIC. Asymptotic Laws and Methods in Stochastics: A Volu-
me in Honour of Miklós Csörgő, Fields Institute Communications, Springer, New York, NY (76), 195–220.DOI:
https://doi.org/10.1007/978-1-4939-3076-012
bProf. Dr. Fakultẗ für Mathematik . Ruhr - Universität Bochum
*Corresponding author: herold.dehling@ruhr-uni-bochum.de
cProf. Dr. Fakultät Statistik. Technische Universität Dortmund
dAssistant Prof. Facultad de Ingenieŕıa y Ciencias. Pontificia Universidad Javeriana Cali
eProf. Dr. Institut für Mathematik und Informatik. Universität Greifswald
1
 Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín
45
Dehling, Fried, Garćıa & Wendler
resultado para datos con dependencia corta. Resultados similares se han obtenido para datos con dependencia
larga por Dehling, Rooch y Taqqu (2012), albeit con métodos diferentes.
Por otro lado, U estad́ısticos han sido introducidos por Hoeffding (1948), donde la distribución asintótica
se demostró tanto para el caso univariado y bivariado bajo el supuesto de independencia. La distribución
univariada en el caso dependiente fue estudiada por Sen (1963, 1972), Yoshihara (1976), Denker and Keller
(1983, 1985) y por Borovkova, Burton and Dehling (2001) en el caso no-degenerado, y por Babbel (1989)
y Leucht (2012) en el caso degenerado. Para U estad́ısticos bivariados, Dehling y Fried (2012) establecen la
distribucón asintótica de
∑[n1
i=1
∑n2
j=[1 h(Xi, Xj) para datos dependientes.
El principal resultado de éste art́ıculo es una versión funcional de este teorema ĺımite. En particular con-
centramos nuestra atención en datos que pueden ser representadoscomo funcionales de procesos mixing. De
esta manera, cubrimos modelos de series de tiempo, tales como procesos ARMA y GARCH, también datos
de sistemas dinámicos caóticos. Para una revisión de este tipo de dependencia, ver por ejemplo Borovkova,
Burton and Dehling (2001). También algunas referencias clásicas son Ibragimov y Linnik (1970) y Billingsley
(1968).
2. DEFINICIONES Y RESULTADOS PRINCIPALES
Considere que las observaciones se generan por medio de un proceso estocástico (Xi)i≥1,
Xi = µi + �i i ≥ 1,
(µi)i≥1 son señales desconocidas,
(�i)i≥1 es un ruido estacionario tal que E(�i) = 0.
Con base en X1, X2, . . . , Xn, queremos probar
H0 : µ1 = . . . = µn
contra
HA : µ1 = . . . = µk �= µk+1 = . . . = µn,
para algún k ∈ {1, . . . , n− 1}.
2.1. Motivación para punto de cambio
Cuando el punto de cambio se conoce, tenemos el problema de dos muestras X1, X2, . . . , Xk y Xk+1, . . . , Xn.
Los correspondientes U estad́ısticos bivariados para puntos de cambio, e.g.
GauÃ:
1
k
n∑
i=1
Xi −
1
n− k
n∑
i=k+1
Xi
Wilkoxon:
k∑
i=1
n∑
j=k+1
1{Xi≤Xj}
Cuando el punto de cambio se desconoce (lo cual es nuestro supuesto), usamos el supremo de estos estad́ıs-
ticos, tomado sobre todos los k ∈ {1, 2, . . . , n− 1}, con las constantes de normalización apropiadas.
2 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede MedellÃn
XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”
46
TÃTULO DEL ARTÍCULO EN ESPAÃOL
2.2. Dependencia
Recordemos que se conocen algunos resultados bajo independencia, en este caso supongamos que el ruido
(�i)i≥1 es una función de un proceso absolutamente regular (β-mixing)
�i = f(Zi, Zi−1, . . .), donde
1. (Zi)i∈Z es un proceso absolutamente regular con coeficientes mixing βk.
2. f : RN → R es una función 1− approximating, i.e.
E|�i − fm(Zi, Zi−1, . . . , Zi−m)| ≤ am,
para alguna fm : Rm+1 → R y am → 0 cuando m → ∞.
Algunos ejemplos de este tipo de procesos son procesos ARMA, procesos lineales con coeficientes sumables,
procesos de ramificación y sistemas dinámicos.
2.3. U estad́ısticos bivariados
Consideremos
U[nλ],n−[nλ] :=
1
[nλ](n− [nλ])
nλ∑
i=1
n∑
j=nλ+1
h(Xi, Xj), 0 ≤ λ ≤ 1,
El análisis de éste proceso usa la descomposición Hoeffding
h(x, y) = θ + h1(x) + h2(y) + ψ(x, y),
donde θ = Eh(X,Y ), h1(x) = Eh(x, Y )− θ, h2(y) = Eh(X, y)− θ y ψ(x, y) = h(x, y)− h1(x)− h2(y)− θ
2.4. Versión Funcional del Teorema Central del Ĺımite
Sea (Xi)i≥1 un 1-approximating funcional de un proceso

Continuar navegando