Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
XII COLOQUIO DE ESTADÍSTICA Escuela de Estadística - Facultad de Ciencias Organizadores Patrocinadores Medellín, Colombia, 2019 XII COLOQUIO DE ESTADÍSTICA Escuela de Estadística - Facultad de Ciencias © Universidad Nacional de Colombia, Sede Medellín Memorias del evento Volumen 1 Comité Organizador: Mario César Jaramillo Elorza. Profesor Universidad Nacional de Colombia, Sede Medellín Norman Giraldo Gómez. Profesor Universidad Nacional de Colombia, Sede Medellín. René Iral Palomino. Profesor Universidad Nacional de Colombia, Sede Medellín Francisco Javier Rodríguez Cortés. Profesor Universidad Nacional de Colombia, Sede Medellín Juan Carlos Salazar Uribe. Profesor Universidad Nacional de Colombia, Sede Medellín. Fabio Sepúlveda. Profesor Universidad de Medellín. Comité Científico: María Eugenia Castañeda López. Profesora Universidad de Antioquia - Colombia Guillermo Ferreira Cabezas. Profesor Universidad de Concepción - Chile Víctor López Ríos. Profesor Universidad Nacional de Colombia - Colombia Jorge Mateu Mahiques. Profesor Universitat Jaume I, España Raúl Pérez Ágamez. Profesor Universidad Nacional de Colombia - Colombia Francisco Rodríguez Cortés. Profesor Universidad Nacional de Colombia - Colombia Contacto: Carrera 65 No. 59 A - 110 Medellín - Antioquia - Colombia Correo electrónico: coloqestad_med@unal.edu.co Teléfono: (+57 4) 430 90 00 ext. 46352 https://ciencias.medellin.unal.edu.co/eventos/coloquioestadistica/ Contenido Comunicaciones Conferencias 15 20 25 37 38 44 48 12 David Arango Londoño Análisis Espacial de la Calidad Educativa en Colombia Daniel Betancur Rodríguez Aplicación Shinny para Análisis Descriptivo Rafael Eduardo Borges Peña Meta-Análisis en Estudios de Casos Controles de la Enfermedad de Changas de Transmisión Oral en Venezuela María Eugenia Castañeda López Optimal Desings in Non-Linear Mixed Models with Correlated Observations Jonathan Galindo Modelo Basado en Similaridad de Canastas para Recomendación de Productos en Retail Isabel Cristina García Arboleda Change Point Detection in Mean of Short Memory Process and Applications in Time Series Yuri Marcela García Saavedra Estimación Bayesiana de un Modelo de Regresión Cox con Predictores Funcionales Dispersos 52 56 80 85 90 95 99 128 133 145 Rafael Meléndez Surmay Análisis Temporal espacial del índice NDVI Utilizando el Archivo de Imágenes de Satélite Landsat Sergio Luis Mercado Bivariate Independence Test Based on the Ranks of the Observations Cristian Daniel Obando Arbeláez Distribución Poisson Truncada en Cero Yeison Yovany Ocampo Naranjo Aplicación Shinny para la Interpretación de Señales en la Carta T Ricardo Fernando Otero Caicedo Caracterización de la Proporción de Estudiantes Desertores en Diferentes IES Katherin Juliana Quiñones Losada Validación Externa de Prototipos Clasificadores para un Caso Aplicado: Dengue Andrés Ramírez – Hassan Focused Estimation for Noisy and Small Data Sets- a Bayesian Minimum Expected Loss Estimator Approach Héctor Luis Romero Valbuena Actividad Económica Regional en Colombia- Una Aplicación de la Metodología STATIS Roger Jesús Tovar Falón Un Modelo Lineal Mixto con Intercepto Aleatorio Asimétrico para Datos Censurados Juan Camilo Valencia Beltrán Aplicación Web Scraping para la Estimación del Precio de Vivienda para la Ciudad de Cali Póster Juan Felipe Arias Aguirre Clasificación Supervisada LDA: Un Enfoque Robusto y no Paramétrico Heber Esteban Bermúdez González Aprendizaje Automático para el Análisis de Texto Luis Alberto Bernal Berrio Calibración de Parámetros para la Intensidad de Default Estocástica de Covariables Observables y un Factor de Fragilidad Rafael Eduardo Borges Peña Análisis de Supervivencia con Interacción de Diabetes e Índice de Masa Corporal en Pacientes en Diálisis Peritoneal José Luis Cabrera Vega Modelación Diseños Experimentales en Presencia de Correlación Espacial Aplicado a Experimentos Agrícolas Juan Camilo Cárdenas Márquez Caracterización Estadística de la Desigualdad de Ingreso en los Departamentos de Colombia Lina Marcela Díaz Bejarano Análisis de la Adjudicación de Tierras Baldías en Colombia Eddy Johanna Fajardo Ortiz Análisis de la Calidad del Agua del Área Metropolitana de Bucaramanga Utilizando la Metodología STATIS José Alexander Fuentes Montoya Diseño de un Modelo Predictivo de Fuga de Clientes Utilizando Algoritmos Machine Learning Contenido 150 159 164 170 180 181 187 199 203 Yenny Vanesa García Blandón Evaluación por Simulación del Efecto de Especificar Incorrectamente la Matriz de Varianzas-Covarianzas Intra-Individual en Modelos de Efectos Mixtos no Lineales Valentina García Velásquez Comparación entre dos Pruebas de Hipótesis para el Vector de Medias Andrés Santiago Gil Puerta Calibración de Tasas de un Modelo de Markov Para Libro de Órdenes Dinámico Jean Carlo Jiménez Giraldo Redes Neuronales para Segmentación de Imágenes Médicas Diana Lucía Londoño Londoño Técnicas de Minería de Datos (MD) para el Diagnóstico del Desempeño Escolar en Instituciones Públicas de Medellín María Catalina Medina Ruiz Análisis Multivariado para Caracterización de las 19 Estaciones de Muestreo y Calidad del Agua del Río Cauca desde el año 2007 hasta 2016. Rafael Meléndez Surmay Evaluación de la Biodiversidad a Través del Enfoque de Datos Funcionales Claudia Lorena Montes Mora Contribución de la Prueba Rápida Combinada NS1 e IgM/IgG al Rendimiento de Algoritmos Clínicos de Dengue en Pacientes Febriles de una IPS de la Ciudad de Cali en el año 2012 Stephany Nieves Uribe Métodos de Clustering para la Selección y Distribución del Portafolio de Productos en un Dark Store Javier Olaya Ochoa Avances en la Imputación de Datos Faltantes de PM2.5 Santiago Ortiz Arias Estimación Robusta del Modelo de Regresión Lineal en Presencia de Multicolinealidad 209 210 215 221 224 233 237 241 245 253 257 Miguel Oswaldo Pérez Pulido Evaluación Estadística de Estrategias Implementadas para una Movilidad Urbana Sostenible y Reducción de la Accidentalidad en la Ciudad de Bucaramanga Julián Alberto Quintero Bejarano Caracterización de los Tiempos hasta el Desenlace en Pacientes Diagnosticados con Cáncer de Colon y Recto Mateo Restrepo Higuita Una Alternativa para la Predicción de Tiempo en el Desarrollo de Software Jessica María Rojas Mora Metodología de Flujo de Conocimiento (primera fase) Aplicada al Proceso de Investigación Científica con Fines de Visibilidad Nacional e Internacional en la Universidad de Medellín Yuberth Anderson Saavedra Coneo Modelos Alternativos para Predecir la Tasa de Natalidad en Función de los Factores Ambientales y Socioeconómicos de un País Juan Carlos Salazar Uribe Un Estudio De Simulación Para Comparar Métodos De Estimación Para Datos Longitudinales Lizeth Fernanda Suárez Mensa Modelación del Tiempo de Recurrencia en Pacientes con Cáncer Diferenciado de Tiroides Vanessa Toledo Serna Comparación entre un modelo de Cointegración y un modelo de Cointegración por Suavización Exponencial para una ventana de tiempo trimestral para la TRM y COLCAP. Roger Jesús Tovar Falón Distribución Asimétrica Beta- Skew Laplace Póster 266 275 280 284 286 292 297 301 304 XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento” 12 Retos del Análisis Estadístico en la Era de la Análitica de Datos y el Big Data Juan David Ospina Arango, Grupo Bancolombia. Zen o el Arte de la Selección de Software Estadístico Juan Carlos Correa Morales, Universidad Nacional de Colombia - Colombia. Minería de Texto para la Gestión de Organizaciones Jorge Iván Pérez Rave, IDINNOV S.A.S. El Análisis de Datos en la Cuarta Revolución Industrial John William Branch, Universidad Nacional de Colombia - Colombia. Nuevas aportaciones del análisis de datos funcionales en el control estadístico de procesos Miguel Alfonso Flores Sanchez, Escuela Politécnica Nacional- Ecuador. Aplicaciones de los Modelos de Sobrevivencia para Modelar Riesgo de Crédito Jaime Huertas Campo, Universidad Nacional de Colombia - Colombia. Análisis de Datos Funcionales: Introducción y Aplicaciones Martha Bohorquez, Universidad Nacional de Colombia - Colombia. R, Python y Julia, ¿Qué ventajas Ofrecen?. Comparación de Herramientas Estadísticas Abiertas Kenneth Cabrera Torres, Universidad Nacional de Colombia - Colombia. Análisis de Series de Tiempo con R y Aplicaciones en Finanzas Guillermo Ferreira, Universidad de Concepción - Chile. Aprendizaje Estadístico, Regresion Penalizada, Tendencias con Series de Tiempo Norman Giraldo, Universidad Nacional de Colombia - Colombia. Modelos de Regresión en Ciencia de Datos Ramón Giraldo Henao, Universidad Nacional de Colombia - Colombia. Conferencias Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín 13 Control Multivariado de procesos - Principios y Perspectivas Nelfi González Alvarez - Isabel Cristina Ramírez Guevara, Universidad Nacional de Colombia - Colombia. La Utilidad de TensorFlow para Estadística Freddy Hernández Barajas, Universidad Nacional de Colombia - Colombia. Procesos Estocasticos con Dependencias Espaciales y Temporales. Predicción de Crimenes y Diseño de Experimentos en Ingeniería Jorge Mateu, Universitat Jaume I - España. XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento” 14 Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín 15 Georreferenciación de la calidad educativa en Colombia, a partir del fenómeno de la aglomeración y segregación académica Esteban Moreno Cediel 1, David Arango-Londoño 2, Maribel Castillo Caicedo 3 1FACULTAD DE CIENCIAS SOCIALES Y ECONOMICAS, ECONOMÍA, UNIVERSIDAD DEL VALLE, CALI, COLOMBIA 2FACULTAD DE CIENCIAS NATURALES Y MATEMÁTICAS, PONTIFICIA UNIVERSIDAD JAVERIANA, CALI, COLOMBIA 3FACULTAD DE CIENCIAS ECONOMICAS Y ADMINISTRATIVAS, PONTIFICIA UNIVERSIDAD JAVERIANA, CALI, COLOMBIA Resumen El presente proyecto busca medir el grado de aglomeración de la calidad educativa en Colombia, partiendo de la no socialización (o mezcla) de la población que muestra baja calidad en educación, con la que evidencia alta calidad [nivel de competencias escolares], y así determinar cómo dicha aglomeración afecta al fenómeno de la segregación académica. Para ello, se realizó un análisis espacial de la calidad educativa en Colombia y de las principales variables socioeconómicas que pueden influir en esta, y que propicia el fenómeno de la aglomeración educativa. A través del Índice de Moran, una prueba de autocorrelación espacial, se demuestra el nivel de aglomeración en la calidad educativa en Colombia, con un índice de 0,62, observando espacialmente que la alta calidad educativa se concentra en la región Andina, abarcando las principales ciudades de esta región (Bogotá, Medellín y Cali), mientras que la baja calidad educativa se aglomera en la periferia del país, zonas como la región Pacífica, gran parte de la costa, la región Amazónica y los llanos orientales. Palabras clave: Calidad educativa, aglomeración, segregación, autocorrelación espacial, I. de Moran, geovisualización. Introducción El objetivo primordial de medir la calidad de un sistema educativo es determinar en qué medida se han alcanzado las metas y objetivos propuestos en los estándares que se exigen en los procesos de formación y aprendizaje. Por ello, las mediciones, a través de las pruebas o evaluaciones estandarizadas, se constituyen en una herramienta fundamental para obtener la información confiable y necesaria para el mejoramiento de los sistemas, ya que, con base en ellas, es posible identificar tanto las fortalezas como las debilidades del sistema, lo que permite una retroalimentación a las instituciones educativas y entes territoriales (Ministerio de Educación Nacional, 2006). Para evaluar su sistema educativo, Colombia viene aplicando lo que actualmente se conoce como las pruebas SABER, y está participando en diferentes evaluaciones internacionales de desempeño escolar. Todas ellas se aplican en distintos niveles educativos XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento” 16 y evalúan diferentes competencias, Sus resultados han sido empleados en diversos estudios que emplean múltiples metodologías, y han estado orientados a la identificación de factores asociados al desempeño académico [ver Castro, et al. (2018); Ayala, et al. (2011); Sánchez (2011)], a la estimación de brechas educativas [ver Castro, Giménez y Pérez (2017); Cárcamo y Mola (2012)], a estudios de eficiencia [ver de OCDE (2016)], y estos sirven como base principal para el cálculo del Índice Sintético de Calidad Educativa –ISCE–, construido por el ICFES, con el cual se realiza la clasificación de los centros educativos en Colombia. Teniendo en cuenta lo anterior, el presente trabajo busca responder a las siguientes preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir del cálculo del ISCE, para el año 2018?, y partiendo de las variables socioeconómicas más significativas que puedan afectar este problema de aglomeración responder ¿Cómo esas variables socioeconómicas pueden incidir en este grado de aglomeración? es decir, se busca conocer qué tan concentrada está la calidad en educación a lo largo del país, para así determinar cómo la distribución de la calidad educativa está originando la segregación académica; esto es, determinar cómo la aglomeración impide que los estudiantes (población) con bajos niveles de competencias escolares socialicen con los de altos niveles, y encontrar los factores socioeconómicos del entorno escolar y como estos influyen de manera significativa en dicha segregación. El problema de investigación se justifica, toda vez que los resultados obtenidos en anteriores trabajos tienen una característica que ha sido poco abordada por los estudios orientados hacia la medición de la calidad educativa en Colombia, y es que se concentran en la eficacia y/o en los factores determinantes del desempeño escolar: la ubicación espacial de la escuela, que tiene una relación con la calidad educativa, vía efecto entorno, el cual puede estar originando clúster en educación. De la misma forma, poco se ha investigado si la aglomeración educativa está originando el fenómeno de segregación académica. Materiales y métodos La hipótesis es que, partiendo de la existencia de la aglomeración en la calidad educativa en Colombia, y sumado a esta, factores socioeconómicos de los departamentos como el número de homicidios, entre otras, está generando en gran medida segregación académica, y esto evita que el nivel educativo en el país aumente. Para ello, esta investigación realizará el cálculo del ISCE en los departamentos de Colombia, para los estudiantes de grado 11 en las competencias de matemáticas y lenguaje, para el año 2018, basados en la metodología propuesta por el ICFES para su estimación [ver ICFES (2016)]. El estudio se enfoca en esta parte de la población estudiantil debido a que el ISCE se aplica a los niveles básico y medio. A partir de los resultados del ISCE se realizará la agregación del índice, por departamentos. Inicialmente se evaluará el grado de dependencia espacial del ISCE por departamentos utilizando el índice de correlación de Moran y probando diversas estructuras de vecindad (tipo reina y torre) al igual que los rezagos espaciales. El índice de moran nos muestra si los departamentos con alto ISCE están rodeados por otros con altos índices (aglomeración). Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín 17 Para calcular el ISCE, se estimarán los puntajes promedio de las pruebas SABER 11, por departamento en Colombia, en las áreas de matemáticas y lenguaje,para el año 2018, con base en las puntuaciones individuales obtenidas por los estudiantes en dichas pruebas. Estas son diseñadas y aplicadas por el ICFES a los estudiantes de último año de bachillerato, y evalúan el logro educativo promedio de un estudiante durante su vida escolar. Una vez agregada la información a nivel de departamento, se adicionará a la cartografía de estos, utilizando Sistemas de Información Geográficos –SIG–, por medio del software R y las librerías raster, rgdal y sp. Existencia de aglomeración Figura 2: Geovisualización del puntaje global de las pruebas saber 11 La hipótesis principal del problema de investigación es la existencia de aglomeración educativa en Colombia, y para asegurar esta hipótesis se utiliza el programa Geoda, el cual es un paquete de software gratuito para el análisis de datos espaciales, geovisualización, autocorrelación y modelado espaciales. A partir de este, se distribuye el puntaje global de las pruebas en 5 cuantiles, obteniendo el mapa de la figura 2, en el cual se puede observar claramente la existencia de aglomeración educativa, donde los puntajes altos se encuentran concentrados en la zona andina del país, mientras que los puntajes bajos se encuentran en la periferia de este. XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento” 18 Figura 3: Calculo del Índice de Moran de la calidad educativa Sin embargo, para confirmar dicha aglomeración se utiliza el Índice de Moran como medida de autocorrelación espacial, es decir, entender el grado en que un objeto es similar a otros objetos cercanos, en este caso, medir el grado en que la calidad educativa afecta la calidad educativa de los municipios vecinos. El I. de Moran puede ser clasificado como positivo, negativo y sin autocorrelación espacial. Un I de Moran muy cercano a 1, nos indica aglomeración, mientras que uno muy cercano a -1 nos indica segregación. Al realizar el análisis para esta investigación, nos da como resultado un índice de 0,642, lo que nos soporta la hipótesis de la existencia de aglomeración en Colombia (figura 3). Conclusiones Se demuestra la existencia de aglomeración educativa en Colombia a través del índice de autocorrelación espacial de Moran con un valor de 0,62, lo que impide que la calidad educativa aumente para las zonas donde la baja calidad está concentrada (zona pacifica, amazonia, llanos orientales y parte de la costa), sin embargo, posteriormente en este estudio se determinará las variables socioeconómicas que mas influyen en el aumento del fenómeno de la aglomeración educativa, a través de un análisis de regresión espacial. Referencias Ayala, J., Marrugo, S. & Saray, B., 2011. Antecedentes familiares y rendimiento académico en los colegios oficiales de Cartagena. Economía y Región, 5(2), pp. 43-85. Cárcamo, C. & Mola, J., 2012. Diferencias por sexo en el desempeño académico en Colombia: Un análisis regional. Economía y Región, 6(1), pp. 133-169. Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín 19 Castro, G., Giménez, G. & Pérez, D., 2017. Educational Inequalities in Latin America, 2012 PISA: Causes of Differences in School Performance between Public and Private Schools. Revista de Educación, Volumen 376, pp. 33-61. Castro, G., Giménez, G. & Pérez, D., 2018. Estimación de los factores condicionantes de la adquisición de competencias académicas en América Latina en presencia de endogenidad. Revista CEPAL, Chile, Issue 124, pp. 35-59. Instituto Colombiano para la Evaluación de la Educación -ICFES-, 2016. SABER en breve. 5 ed. Santafe de Bogotá: ICFES. Ministerio de Educación Nacional, C., 2006. Al tablero. [En línea] Available at: https://www.mineducacion.gov.co/1621/article-107321.html [Último acceso: 30/05 2019]. OCDE, 2016. Education in Colombia. Reviews of National Policies for Education. Paris-Bogotá: Organización para la Cooperación y el Desarrollo Económicos, OCDE. Sánchez, A., 2011. Etnia y Desempeño Académico en Colombia, Documentos de Trabajo sobre Economía Regional, 156, Cartagena, Colombia: Banco de la República, Centro de Estudios Económicos Regionales (CEER). XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento” 20 Revista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede Medelĺın V 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • Art́ıculo Investigación • Páginas ?? a ?? DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 Aplicación en Shiny para análisis descriptivoa Shiny app for descriptive analysis Daniel Betancur Rodŕıguez b *, Rene Iral Palomino c, Recibido dd-mm-yyyy, aceptado dd-mm-yyyy, versión final dd-mm-yyyy. Art́ıculo Investigación RESUMEN: El presente trabajo consiste en la presentación de una aplicación web interactiva para la rea- lización de análisis descriptivos básicos utilizando el paquete Shiny, del software R. Su objetivo es permitir un acercamiento inicial a personas en formación estad́ıstica a los gráficos y estad́ısticos descriptivos básicos, facilitar el análisis descriptivo a un publico general sin formación en programación estad́ıstica y agilizar la elaboración de gráficos y obtención estad́ısticos descriptivos a cualquier usuario al ahorrar tiempo en el proceso de lectura de datos y elaboración de código. PALABRAS CLAVE: Aplicación shiny, Estad́ıstica descriptiva, Análisis descriptivo de datos. ABSTRACT: The present work consists of the presentation of an interactive web application using the R package Shiny. It’s target is to allow people in statistical training to have an initial approach to statisti- cal graphics and basic descriptive statistics, facilitate the descriptive analysis for people without statistical training and streamline the elaboration of graphics and obtainment of descriptive statistics to any user by saving time in the process of data reading and code elaboration. KEYWORDS: Shiny app, Descriptive statistic, Descriptive analysis of data. 1. INTRODUCCIÓN Como afirma ? para lograr comprender los complicados problemas del mundo moderno se requiere de la recolección de infromación objetiva, es decir, de la obtención de datos. Para ello la estad́ıstica, definida por el autor como el arte del arender de los datos, se preocupa por la recolección de datos, su descripción y análisis, y las conclusiones a que se llegue a partir de estos. Aśı, es de suma importancia que los hallazgos numéricos de cualquier estudio se presenten de manera clara y concisa y que permita hacerse a una idea rápida de las caracteŕısticas escenciales de los datos, particularmente en casos de grandes grupos de datos. aBetancur, D. & Iral, R. (2019). Aplicación en ahiny para análisis descriptivo. Revista de la Facultad de Ciencias, 6 (1), ??–??. DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 bEstudiante. Facultad de Ciencias. Universidad Nacional de Colombia Sede Medelĺın *Autor para correspondencia: dabetancurro@unal.edu.co c(PhD(C)) en Estad́ıstica. Docente. Facultad de Ciencias. Universidad Nacional de Colombia sede Medelĺın 1 Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín 21 Daniel Betancur Rodŕıguez, Rene Iral Palomino Esta presentación adecuada de los datos y su análisis se realiza, generalmente, con apoyo en herra- mientas de computo. En la comunidad estad́ıstica el programa de computación estad́ıstica R tiene gran acogida. De a cuerdo con ? R es un software que se hizo disponible en internet a través de una Licencia Pública General, permitiendo su uso libre y distribución. R provee un ambiente para realizar análisis estad́ıstico y producir gráficos y al estar basado en un lenguaje de computación formal tiene una tremenda flexibilidad. Sin embargo, el aprovechamiento de los recursos de R re- quiere conocimiento en la sintaxis que utiliza. Además,el uso de la herramienta, salvo utilizando ciertos paquetes, implica la escritura de las ĺıneas de código que permitan ejecutar las instrucciones deseadas, lo que lo hace de dificil uso para usuarios sin conocimiento en el lenguaje, por un lado, y genera inconvenientes de eficiencia e interactividad en cuanto a análisis visuales que requieran observar distintias combinaciones de las variables de forma dinámica. El resente trabajo presenta una alternativa interactiva y de fácil uso para la realización de un análisis descriptivo básico de datos, por medio de una aplicación untilizanod el paquete Shiny en R. 2. Objetivo El presente trabajo busca presentar una nueva aplicación en Shiny que permita la realización de una análisis descriptivo básico de una manera fácil y eficiente, con la ventaja de resultar interactiva para los usuarios. Si bien la aplicación tiene limitantes con respecto la flexibilidad de la programación directa en R, puede resultar sumamente adecuada para personas sin el conocimiento en la sintaxis de programación necesaria para ello o conveniente para usuarios de R en general por la eficiciencia e interactividad para la presentación de gráficos y resumenes numéricos. Por otro lado, la aplicación puede tener un enfoque didactico para la introducción a la realización del análisis descriptivo de los datos. 3. Presentación de la aplicación Este documento iniciará con una breve definición de qué es una aplicación Shiny, luego presentará la aplicación en cinco étapas: Inicio y lectura de datos, Diagramas de dispersión, Diagramas de caja y bigotes, Histogramas y Gráficos de medias. 3.1. ¿Qué es una aplicación Shiny? De a cuerdo con ? Shiny es un paquete en R que hace sencilla la construcción de aplicaciones web interactvias directamente desde R, combinando el poder computacional de R y la interactividad de la web moderna. 2 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medelĺın XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento” 22 Aplicación en Shiny para análisis descriptivo 3.1.1. Inicio y lectura de datos A continuación se presenta la interfaz de inicio de la aplicación, dodne se tiene un panel de lectura de datos, una salida que permite ver si los datos se han léıdo adecuadamente, un botón para pasar al modo çálculo 2un panel movil para personalizar el tema de la aplicación. Figura 1: Interfaz inicial de la aplicación 3.2. Diagramas de dispersión Una vez se activan el modo çalculo.el primer panel de resultados presenta un gráfico de dispersión de las dos variables elegidas junto con una ĺınea de tendencia obtenida com un método de suaviza- miento loess. Los datos gráficados toman el color de la variable factor de comparación en caso de seleccionarse alguna. Figura 2: Interfaz de gráficos de dispersión V 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 • Art́ıculo Investigación 3 Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín 23 Daniel Betancur Rodŕıguez, Rene Iral Palomino 3.3. Diagramas de caja y bigotes El segundo panel de resultados presenta el gráfico de caja y bigotes de cada una de las variables continuas elegidas, aśı como su resumen de cuartiles y rango intercuartil, filtrado por variable de comparación en caso de que se seleccione alguna. Figura 3: Interfaz diagramas de caja y bigotes 3.4. Histogramas De manera similar, se presenta el histograma para cada variable, junto con las lineas de la densidad observada y se discrimina por colores de la variable de comparación si se selecciona alguna. Figura 4: Interfaz histogramas 4 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medelĺın XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento” 24 Aplicación en Shiny para análisis descriptivo 3.5. Gráficos de medias Finalmente se presenta el gráficod e medias de cada una de las variables por niveles de la variable seleccionada para la comparación junto con la media y desviación estándar por niveles de esta. EN caso de que no se seleccione una variable de comparación únicamente se presentan la media y desviación estándar de las dos variables continuas seleccionadas. Figura 5: Interfaz graficos de medias Referencias Ross, S.M. (2010). Introductory Statistics. Elsevier Inc. San Diego, U.S.A. pp: 1-18. Dalgaard, P. (2008). Introductory Statistics with R. Springer. Denmark. Preface. R Studio Inc. (2017). Shiny. [En ĺınea]. R Studio Inc. [Consultada en octubre de ]. Disponible en: https://shiny.rstudio.com/ V 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 • Art́ıculo Investigación 5 Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín 25 1 Dirección de Asuntos Estudiantiles, Universidad de Los Andes, Mérida, Venezuela. 2 Escuela de Estadística, Universidad de Los Andes, Mérida, Venezuela. * Autor para correspondencia: borgesr@gmail.com y borgesr@ula.ve . META-ANÁLISIS EN ESTUDIOS DE CASOS Y CONTROLES DE LA ENFERMEDAD DE CHAGAS DE TRANSMISIÓN ORAL EN VENEZUELA. META-ANALYSIS IN CASE-CONTROL STUDIES OF ORAL TRANSMISSION CHAGAS DISEASE IN VENEZUELA. MONSALVE, MEYDIBETH1, BORGES, RAFAEL2* RESUMEN: La investigación propuesta emplea como estrategia la realización de un metaanálisis sobre los distintos casos de enfermedad de Chagas de transmisión oral en Venezuela reportados en la literatura. La localización de diversos reportes de la enfermedad, permitieron definir las estrategias de búsqueda utilizadas, donde la debida inclusión y exclusión de los estudios centrales objetos de la investigación, fue de vital importancia para evitar el sesgo de publicación y recurrir de forma adecuada a la aplicación de los modelos de efectos fijos y efectos aleatorios, con la finalidad de conocer la estimación medida por la Razón de Posibilidades en cada uno de los métodos propuestos. Ante esta evaluación se concluye finalmente que, el método de Inverso de la Varianza arrojó como resultado 11 veces más posibilidades de adquirir la enfermedad por la ingesta de alimentos, fijándose como el mejor método respecto a los otros métodos aplicados tales como Mantel-Haenszel, Peto y, el de Dersimonian y Laird. PALABRAS CLAVE: Chagas Disease; Chagas oral en Venezuela; Enfermedad de Chagas Oral; Metaanálisis. ABSTRACT: The proposed research presents a meta-analysis strategy using the different cases of Chagas disease of oral transmission in Venezuela reported in scientific papers. The localization of diverse reports of the disease, allowed to define the strategies of search used, where the proper inclusion and exclusion of the central studies objects of the research, was of vital importance to avoid the bias of publication and to resort in an adequate way to the application of the models of fixed effects and random effects, with the purpose of knowing the estimation measured by the Odds Ratio in each one of the proposed methods. Given this evaluation, we conclude that with tthe Variance Inverse, there is 11 times more possibilities of acquiring the disease through food intake, establishing itself as the best method with respect to other applied methods such as Mantel- Haenszel, Peto, and Dersimonian & Laird. KEYWORDS: Meta-analysis, Oral Chagas Disease, Chagas Disease, Oral Chagas in Venezuela. XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento” 26 1 INTRODUCCIÓN Ante el exceso de información científica, existen diversas maneras para tratar correctamente el conocimiento científico. Acceder y revisar a fondo todo lo que se publica sobre estudios de casos y controles en Venezuela por medio del uso de bases de datos bibliográficas y revistas a travésdel acceso ordenado, sistemático y sin sesgos de la información derivada de los trabajos, resultó ser compleja. Es por ello que la necesidad de disponer de esta herramienta de investigación fue pertinente, ya que permitió abordar la información de forma adecuada en términos de calidad, cantidad y actualidad, la cual está presentada de modo práctico y de fácil interpretación. Asimismo, es importante destacar que, durante el desarrollo de esta investigación no se logró acceder a algunos datos de brotes orales registrados en el país, siendo motivo de su exclusión sin comprometer la fiabilidad del estudio. En el área de la epidemiologia, para la aplicación adecuada de un metaanálisis en el estudio de enfermedad de Chagas de transmisión oral, es indispensable mantener una guía, donde se permita no solo evaluar la heterogeneidad de los estudios para elevar el poder estadístico de comparación, mejorando las estimaciones y el efecto de tratamiento, sino también para contribuir a la obtención de resultados confiables de diferentes estudios, mediante la evaluación de grupos y aportar información para la realización de futuras investigaciones (Bolaños y Calderón, 2014). El metaanálisis para efectos de esta investigación, es un proceso en el que se analizan los distintos casos de enfermedad de Chagas de transmisión oral en Venezuela reportados en la literatura. No obstante, los resultados que arroja esta técnica se pudieran considerar más sólidos que los resultados de cualquier otro estudio desarrollado de forma tradicional. Las investigaciones científicas basadas en estudios de revisión sistemática, persiguen un objetivo fundamental de integrar los resultados de estudios empíricos de forma objetiva, limitando el sesgo y mejorando la confiabilidad y precisión de sus conclusiones. El desarrollo de esta investigación consiste en aplicar los principios básicos para entender el poder que brinda la técnica y conocer los instrumentos esenciales para su realización mediante las siguientes etapas: formulación del problema, criterios de inclusión y búsquedas de los estudios, codificación de las características de los estudios, cálculo del tamaño del efecto, técnicas de análisis estadístico, interpretación y publicación del metaanálisis. 2 ESTUDIOS DE CASOS Y CONTROLES DE LA ENFERMEDAD DE CHAGAS DE TRANSMISIÓN ORAL EN VENEZUELA. Las enfermedades vectoriales son consideradas como una de las principales amenazas para la salud social a nivel mundial. Éstas son causadas por virus, bacterias y parásitos cuya transmisión al ser humano suele ser por medio de mosquitos, ácaros, garrapatas, entre otros; denominados vectores, causando distintos brotes de importancia mundial como lo son: el paludismo, el dengue, la enfermedad de Chagas, entre otras. Los vectores suelen ser organismos vivos, muchos de ellos son insectos hematófagos, capaces de transmitir enfermedades infecciosas de un portador infectado a otro, bien sea persona o animal, inoculando un nuevo portador (OMS, 2017). Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín 27 Es por eso, que el Tripanosoma cruzi, definido como un protozoario flagelado, es el parásito transmitido mediante vectores denominados Triatominos, responsable de la transmisión de la enfermedad de Chagas. Los mecanismos de transmisión de la enfermedad suelen ser de forma vectorial, por transfusión sanguínea, transplacentaria, trasplante de órganos infectados, accidentes de laboratorios y la vía oral, que se ha convertido en el mecanismo principal de preocupación, debido a la cantidad de brotes reportados de América Latina. Las manifestaciones clínicas son variables, y se distinguen dos fases infección: la aguda y la crónica (Alarcón et al., 2015). En este sentido, para Soto et al. (2014), la enfermedad de Chagas es considerada una zoonosis y se ha descrito como una enfermedad endémica cuyos ciclos de transmisión del parásito estarán siempre presentes y el riesgo de transmisión al hombre siempre presentará una probabilidad. La transmisión oral de la enfermedad de Chagas presenta una tendencia al incremento reportada en diversas revisiones de brotes agudos por posible transmisión oral en países como Brasil, Colombia, México y Venezuela. Según Alarcón et al. (2016), la transmisión del parásito por vía oral, es posible a través de la contaminación de alimentos directamente por el consumo del triatominos o sus deyecciones. La sospecha se da cuando varias personas desarrollan síndromes febriles prolongados sin causa o explicación aparente con algunos síntomas tales como taquicardias, arritmias, entre otros. 2.1 Tratamiento Estadístico y Análisis de la Información Las investigaciones científicas basadas en estudios de revisión sistemática, persiguen un objetivo fundamental de integrar los resultados de estudios empíricos de forma objetiva, limitando el sesgo, y mejorando la confiabilidad y precisión de sus conclusiones. El objetivo principal del metaanálisis es definir el problema de investigación y las características de los estudios incluidos en la revisión. El conocimiento previo de la investigación, aporta validez a las conclusiones, hipótesis con mayor apoyo empírico y material para la obtención de respuestas claras y consistentes (Marín et al., 2009). El desarrollo de la investigación, se rige mediante las siguientes etapas: Imagen 1. En la formulación del problema: se procedió a la realización de un metaanálisis de los distintos de casos de Chagas oral en Venezuela, reportados en la literatura entre los años 2007 – 2019, haciendo énfasis en estudios de casos y controles. XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento” 28 Criterios de inclusión y búsqueda de los estudios: la búsqueda, se realizó por vía electrónica por medio de las bases de datos: ProMed, ResearchGate, JID y Elsevier, entre otros, empleando para la búsqueda las palabras claves: “Enfermedad de Chagas Oral”, “Oral Chagas Desease in Venezuela”, así como palabras asociadas en las diferentes bases de datos consultadas relacionados con estos términos, combinándose entre sí en diferentes comandos de búsqueda. A pesar de que existen distintos estudios referentes a la enfermedad de Chagas de transmisión oral, en los criterios de inclusión, se tomaron en cuenta las publicaciones de estudios de casos y controles de todos los idiomas, fecha o estado de publicación. De las 12 investigaciones seleccionadas de estudios de casos y controles de enfermedad de Chagas de transmisión oral, los 10 primeros artículos fueron propuestos por el artículo base publicado por Alarcón et al., 2015, las dos últimas investigaciones reflejadas en la tabla 1, fueron agregadas debido a que la fecha del brote ocurrieron luego de la fecha de publicación del artículo base propuesto para esta investigación. Tabla 1. Fuente de publicaciones seleccionadas. MES/AÑO DE PUBLICACIÓN LOCALIDAD REFERENCIA FUENTE DICIEMBRE 2007 CHACAO, CARACAS ALARCON DE NOYA ET AL. (2010a) JID MAYO 2008 SAN JOSE, CARACAS NO PUBLICADO ResearchGate MARZO 2009 CHICHIRIVICHE, VARGAS ALARCON DE NOYA ET AL. (2016) ELSEVIER MAYO 2010 ANTIMANO, CARACAS ProMed ProMed NOVIEMBRE 2010 RUBIO, TACHIRA BENITEZ ET AL. (2013) JID MARZO 2012 COCHE, CARACAS ProMed ProMed JULIO 2012 EL BORDO, MERIDA AÑEZ ET AL. (2013) Bol. Mal. Salud Amb. JUNIO 2013 MIRIMIRE, FALCON NO PUBLICADO ResearchGate FEBRERO 2014 EL GUAPO, MIRANDA NO PUBLICADO ResearchGate JULIO 2014 SAN CRISTOBAL, TACHIRA NO PUBLICADO ResearchGate FEBRERO 2015 GUATIRE, MIRANDA ALARCON ET AL. (2017) Men. Ins. Oswaldo Cruz FEBRERO 2016 LA MACARENA, MERIDA AÑEZ ET AL. (2016) ResearchGate Fuente: Elaboración Propia. Los estudios que presentaron casos de transmisión vertical como lo fueron “Chichiriviche de la Costa” y “Guatire”, estudios no publicados como lo fueron “San José, Mirimire, El Guapo ySan Cristóbal” y las publicaciones con dudosa exposición de los casos y/o datos faltantes que no se pudieron corroborar por contacto directo con los investigadores, tales como “Antímano, Rubio y Coche”, fueron excluidos de la investigación. Los estudios de “El Bordo y La Macarena”, se completaron mediante contacto directo con los autores del centro de investigaciones Parasitológicas “J. F. Torrealba”, del departamento de Biología de la Facultad de Ciencias de la Universidad de los Andes, para solicitar información no disponible en las publicaciones. De tal manera que, de las 12 publicaciones seleccionadas solo Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín 29 tres de ellas que se muestran en la tabla 2, cumplieron con los criterios de inclusión y exclusión definidos. Tabla 2. Estudios de casos y controles registrados en Venezuela. MES/AÑO DE PUBLICACIÓN LOCALIDAD REFERENCIA FUENTE DICIEMBRE 2007 CHACAO, CARACAS ALARCON DE NOYA ET AL. (2010a) JID JULIO 2012 EL BORDO, MERIDA AÑEZ ET AL. (2013) Bol. Mal. Salud Amb. FEBRERO 2016 LA MACARENA, MERIDA AÑEZ ET AL. (2016) ResearchGate Fuente: Elaboración Propia. Codificación de las características de los estudios: De acuerdo a la selección del conjunto de variables de interés en la investigación, se precisó una búsqueda de datos faltantes para evitar cualquier pérdida de información o que pudieran generar estimaciones incorrectas, creando una base de datos general de las publicaciones seleccionadas, haciendo mención de los casos y controles de cada una de ellas. En el cálculo del tamaño del efecto: para el estudio de la enfermedad de Chagas de transmisión oral, el análisis se ajustará tanto a un modelo de efectos fijos como de efectos aleatorios, aplicando los respectivos métodos dispuestos en dichos modelos para el estudio de variables dicotómicas, y el efecto del tratamiento se cuantificará mediante la razón de probabilidades, aportando una medida conjunta final. Técnicas de análisis estadístico e interpretación: se evaluará la heterogeneidad entre estudios cuya medición se realizara mediante la cuantificación del índice I2 para el caso de modelos de efectos fijos y τ2 para el caso de modelos de efectos aleatorios. La posibilidad de sesgo de publicación se evaluará mediante el método gráfico del funnel Plot o la gráfica de embudo y el análisis de la medida conjunta final proporcionada por la razón de probabilidades, se verificará mediante el Forest Plot. En la publicación del metaanálisis: cada vez es más común la utilización de la técnica metaanalítica ante la dificultad al momento de realizar trabajos de investigación debido a factores costo-tiempo. Las técnicas propuestas por el metaanálisis atribuyen una gran importancia al momento de realizar una evaluación cuantitativa en el uso de métodos estadísticos, no solo para abordar un problema o pregunta específica a partir de la combinación de una serie de estudios que no tienen un tamaño muestral representativo, sino también, para examinar la eficacia en los modelos seleccionados y fuentes de heterogeneidad entre los estudios, permitiendo resolver controversias ante la existencia de desacuerdos entre los resultados. Su contribución a las distintas áreas profesionales, tomando en cuenta la aplicación adecuada de la técnica, puede ser de gran valor, ya que determina cuáles son los factores de riesgos existentes y los resultados preventivos o de tratamiento de los estudios necesarios para planificar futuras investigaciones. 2.2 Identificación de los Casos y Controles El estudio se compone de dos grupos: el grupo de casos, que se define como los individuos expuestos que adquirieron la enfermedad y el grupo de controles, que es una muestra de la población expuesta, a los que no se les había confirmado la enfermedad. XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento” 30 El grupo de casos en total se compone de 115 individuos expuestos que adquirieron la enfermedad de 157 personas expuestas y el grupo controles se compone de un total de 42 casos reportados de 270 personas expuestas en las 3 investigaciones que cumplieron con el criterio de inclusión y exclusión reportadas entre los años 2007 al 2019, cuya fuente de infección como factor de riesgo, se presume es por consumo de alimentos contaminados. (Ver Tabla 3). Tabla 3. Estudios de casos y controles registrados en Venezuela. PUBLICACION CASOS CONTROLES EXPUESTOS TOTAL CASOS EXPUESTOS TOTAL CONTROLES CHACAO 2007 103 138 35 150 EL BORDO 2012 5 7 2 10 LA MACARENA 2016 7 12 5 110 TOTAL 115 157 42 270 Fuente: Elaboración Propia. Datos adquiridos de las publicaciones seleccionadas. 2.3 Meta-análisis En la tabla 3, se presentan los casos estudiados definidos por el lugar del brote y año, acompañados de los casos y controles con sus individuos expuestos y total de expuestos respectivamente. Los casos representan el número de individuos reportados en el brote que, mediante pruebas serológicas se confirmaron como positivos y los controles son aquellos individuos que, a pesar de haber estado expuestos a la enfermedad no habian sido confirmados. Los reportes registrados en Chacao, Caracas, se define como brote debido a la magnitud o cantidad de personas infectadas, mientras que los reportes registrados en el Bordo y la Macarena, se catalogan como microbrotes, debido a que la contaminacion se registró en un grupos familiares. Imagen 2. Metaanálisis de estudios seleccionados. En la imagen 2, se puede observar que todos los estudios favorecen al grupo control, el brote registrado en Chacao en el año 2007, posee mayor significancia debido a la contribución que aporta al estudio, ejerciendo mayor influencia sobre el resultado determinando la solidez en el mismo. La precisión reflejada en el forest plot, por medio de los intervalos de confianza nos permiten evidenciar la exactitud de los estudios y pudieran considerarse estadísticamente significativos. La prueba de heterogeneidad entre estudios indica que éstos son heterogéneos, por lo que se pudiera concluir que es indiferente el tipo de método a utilizar, ya que no existe Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín 31 diferencia significativa entre ellos. En cuanto a la significación estadística el p-valor es mayor a 0.05 es decir, que basado en el resultado de la heterogeneidad y en el resultado de la razón de probabilidades, se pudiera inferir que existe una fuerte asociación de adquirir la enfermedad por medio de la ingesta de alimentos contaminados. La medida del sesgo de publicación se evaluó mediante el gráfico funnel plot dispuesta en la imagen 3, donde se determinó que no existe evidencia de heterogeneidad en la investigación, es decir, todas las revisiones sistemáticas mantienen el mismo criterio de estudio de enfermedad de Chagas por transmisión oral. Se puede verificar que los estudios que poseen mayor número de muestras se encuentran cercanos al vértice del embudo, siendo estos Chacao como brote y La Macarena como microbrote, el estudio del bordo a pesar de situarse en la parte inferior del gráfico por ser un microbrote respecto al primer estudio, no deja de ser estadísticamente significativo. Imagen 3. Funnel Plot de estudios seleccionados. 2.3.1 Modelo de Efectos Fijos. 2.3.1.1 Método Mantel-Haenszel (MH) Basados en el supuesto que define el modelo de efectos fijos en cuanto a la no existencia de heterogeneidad de todos los estudios, tomando en cuenta las muestras de sujetos diferentes de forma que la variabilidad del tamaño de efecto se atribuya únicamente al error de muestreo, se tiene la aplicación del metodo del Mantel Haenszel, para estimar una razón de probabilidad combinada en la mayoría de las situaciones. 2.3.1.1.1 Forest Plot y Funnel Plot. Método“MH”. Al igual que en el caso de la aplicación de la razón de probabilidades, todos los estudios favorecen al grupo control, cuya mayor significancia debido a la contribucion que aporta al estudio se mantiene en el brote de Chacao, Caracas. La precision mostrada en los intervalos de confianza evidencian que los estudios mantienen su significacion estadística y el indice de heterogeneidad nos indica que los estudios seleccionados siguen siendo heterogéneos. En cuanto a la significacion estadistica el p-valor es mayor a 0.05, por lo que se pudiera corroborar ante todas las pruebas descritas anteriormente que existe una fuerte asociacion de adquirir la XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento” 32 infección por medio de la ingesta de alimentos y los individuos expuestos tienen 10 veces mas posibilidades de contraer la enfermedad. Imagen 4. Forest Plot. Método “MH” El funnel plot de la imagen 5, no muestra cambios significativos, el brote ocurrido en Chacao, Caracas, debido a su magnitud registrada, se mantiene en el vértice del embudo determinando su significancia estadística, y los otros microbrotes debido a que sus tamaños muestrales son pequeños respecto al brote del año 2007, se encuentran en la parte media e inferior, sin embargo, no existe evidencia suficiente para concluir que los estudios sean menos significativos. Imagen 5. Funnel Plot. Método “MH”. . 2.3.1.2 Método de Peto (PETO). A pesar de que el método de Peto se deriva del método de Mantel-Haenszel, en cuanto a la combinacion de estudios individuales cuyo enfoque proporcionado por el inverso de la varianza, se hace apropiado cuando están cerca de 1 o la magnitud de efecto es próxima al valor nulo, en otras situaciones proporciona sesgos en sus resultados y generalmente se sugiere su uso cuando el tamaño de las muestras son similares. 2.3.1.2.1 Forest Plot y Funnel Plot. Método “PETO”. Es evidente que el resultado proporcionado por la razón de probabilidades en el caso del método de Peto no incluye ni el valor nulo ni la unidad, pero se puede apreciar que se registra un 86% de Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín 33 heterogeneidad (imagen 6), deduciendo por tanto que el método de Peto no es un buen estimador. Imagen 6. Forest Plot. Método “PETO”. Debido a que en el Forest plot evidenció que peto es un método altamente heterogéneo en este caso particular, se pudo constatar en el gráfico del embudo de la imagen 7, que el estudio de la Macarena se sale de los límites del gráfico. Los tamaños muestrales pudieran ser una de las principales causas por la que el estudio arrojo alta variabilidad. Imagen 7. Funnel Plot. Método “Peto”. 2.3.1.3 Método del Inverso de la Varianza (IV). Obteniendo la estimación del efecto del tratamiento y la varianza de cada estudio para transformar los resultados a una escala donde la distribución de los estimadores se aproxime mejor a la distribución normal, se tiene que el modelo encaja perfectamente para la estimacion tanto para modelos de efectos fijos como aleatorios, sin embargo no difere de forma significativa al método de aplicación original proporcionada por la razón de probabilidades. 2.3.1.3.1 Forest Plot y Funnel Plot. Método “IV”. En la imagen 8, se puede evidenciar la heterogeneidad entre estudios es decir, es indiferente el tipo de método a utilizar, ya que no existe diferencia significativa entre ellos. En igual que el resto de los modelos, por lo que se pudiera inferir una vez más que existe una fuerte asociación de adquirir la enfermedad por medio de la ingesta de alimentos contaminados. XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento” 34 Imagen 8. Forest Plot. Método “IV”. El gráfico funnel plot dispuesto en la imagen 9, determina que no existe evidencia de heterogeneidad en la investigación es decir, todas las revisiones sistemáticas mantienen el mismo criterio de estudio de enfermedad de Chagas por transmisión oral. Imagen 9. Funnel Plot. Método “IV”. 2.3.2 Modelo de Efectos Aleatorios. 2.3.2.1 Método Dersimonian-Laird (DL) En este otro caso, contrario al modelo de efectos fijos, se estima el tamaño del efecto de todos los estudios, para el método de Dersimonian-Laird el resumen proporcionado por la salida del paquete estadístico “meta”, al igual que en el modelo de efectos fijos, evidencia que para la estimación del tamaño del efecto de todos los estudios ante la incorporación realizada al estimador de un componente de la variabilidad intraestudios, no se registra cambios significativos en el método aplicado respecto a la salida del “OR” o razón de probabilidades. 2.3.2.1.1 Forest Plot y Funnel Plot. Método “DL”. A pesar de que los efectos del tratamiento no son los mismos para todos los estudios, como teóricamente se define el modelo de efectos fijos, se demostró en el Forest plot y el funnel plot, que la aplicación del método Dersimonian-Laird no evidencia cambios o significación alguna que difieran de los análisis proporcionados en la imagen 10 y 11. Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín 35 Imagen 10. Forest Plot. Método “DL”. Imagen 11. Funnel Plot. Método “DL”. 3 CONCLUSIONES Luego de la aplicación de los métodos correspondientes a la técnica metaanalítica en el estudio de enfermedad de Chagas de transmisión oral, con la intención de evaluar la asociación real de la enfermedad, se puede concluir que: Debido a la magnitud del brote y al impacto que este generó, los datos aportados en el estudio de Chacao, Caracas, publicado en el año 2007, basado en las contribuciones registradas, se pudo evidenciar que favorece mayormente al grupo control independientemente del método aplicado. A pesar de que los reportes evidenciados en los estudios seleccionados de El Bordo en el año 2012 y la Macarena en el año 2016, son considerados como microbrotes; ya que la magnitud de infectados se confinó en un brote familiar; la medida del sesgo de publicación evaluada mediante el funnel plot en los distintos métodos aplicados, determinó la no existencia de heterogeneidad, predispuesta también en el Forest plot. Sin embargo, ante este resultado, ningún estudio deja de ser estadísticamente significativo, dejando en claro la propuesta del uso de los métodos Mantel- Haenszel y Dersimonian-Laird como métodos de elección para los modelos de efectos fijos y efectos aleatorios respectivamente. Independientemente de que el método de Peto, contrasta sus bases teóricas referente al tamaño muestral, permite evidenciar alta heterogeneidad en los estudios, concluyendo que no es un estimador adecuado para la investigación y el método del inverso de la varianza, encaja XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento” 36 perfectamente para la estimación del modelo de efectos fijos, ambos no difieren de forma significativa a la medida de la razón de probabilidades como estadístico propuesto. A través de la razón de probabilidades como medida de asociación en esta investigación, se pudo determinar que independientemente del método aplicado, se pone de manifiesto que los individuos expuestos tienen 11 veces mayores posibilidades de adquirir la enfermedad de Chagas de transmisión oral, cuya principal fuente de asociación se atribuye al consumo de alimentos contaminados. REFERENCIAS Alarcón de N. B., Díaz B. Z., Colmenares C., Ruiz G. R., Mauriello L., Muñoz C. A. & Noya O. (2015). Update on oral Chagas disease outbreaks in Venezuela: epidemiological, clinical and diagnostic approaches. Mem Inst Oswaldo Cruz, 110(3), 377-386. Alarcón N. B., Ruiz G. R., Diaz B. Z., Colmenares C., Muñoz C. A., Mauriello L. & Noya O. (2016). EnVenezuela la enfermedad de Chagas de transmisión oral llegó para quedarse. ResearchGate, 17(2). Bolaños D., R., Calderón C., M. (2014). Introducción al meta-análisis tradicional. Rev. Gastroenterol Perú. 34(1), 45-51. Marín M. F., Sánchez M. J. y López L. J. A. (2009). El metaanálisis en el ámbito de las Ciencias de la Salud: una metodología imprescindible para la eficiente acumulación del conocimiento. Elsevier. 31(3), 107-114. Organización Mundial de la Salud. (2017). Respuesta mundial para el control de vectores 2017-2030. Recuperado desde https://www.who.int/malaria/.../vector_control/Draft-WHO-GVCR-2017-2030- esp.pdf Soto H., Tibaduiza T., Montilla M., Triana O., Suárez D. C., Torres T. M., Arias M. T., Lugo L. (2014). Investigación de vectores y reservorios en brote de Chagas agudo por posible transmisión oral en Aguachica, Cesar, Colombia. Cad. Saúde Pública, Rio de Janeiro, 30(4), 746-756. Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín 37 Revista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede Medelĺın V 6 N◦1 enero-junio de 2017 • ISSN-e 2357-5749 • Art́ıculo Investigación • Páginas 1 a ?? DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 DISEÑOS ÓPTIMOS EN MODELOS DE EFECTOS MIXTOS NO-LINEALES CON OBSERVACIONES CORRELACIONADASa OPTIMAL DESIGNS IN NON-LINEAR MIXED EFFECTS MODELS WITH CORRELATED OBSERVATIONS MARÍA EUGENIA CASTAÑEDA L. b *, VÍCTOR IGNACIO LÓPEZ R. c Recibido dd-mm-yyyy, aceptado dd-mm-yyyy, versión final dd-mm-yyyy. Art́ıculo Investigación RESUMEN: En este trabajo se considera el problema de encontrar diseños óptimos poblacionales para modelos de efectos mixtos no lineales con observaciones correlacionadas. Se explora la construcción de los diseños óptimos, condiciones experimentales óptimas donde se debe realizar el experimento, que permita estimar los parámetros del modelo al maximizar el determinante de la matriz de información de Fisher. Con un modelo mixto no lineal particular se hallan los diseños para diferentes estructuras de correlación. Se realizan diferentes escenarios de simulación para investigar las propiedades de los diseños hallados. PALABRAS CLAVE: Diseños óptimos, Matriz de información de Fisher, Modelos mixtos no lineales, Observaciones correlacionadas. ABSTRACT: In this work, we consider the problem of to find the population optimal design for nonli- near mixed effects models with correlated observations. The construction of the optimal designs, optimal experimental conditions where the experiment should be carried out, is explored in order to estimate the parameters of the model by maximizing the determinant of Fisher’s information matrix. With a particular nonlinear mixed model, we found the designs for different correlation structures. Different simulation scena- rios in order to investigate the properties of the designs are performed. KEYWORDS: Correlated observations, Fisher information matrix, Nonlinear mixed models, Optimal de- sign. aCastañeda, M. E. & López, V. I. (2019). Diseños óptimos en modelos de efectos mixtos no- lineales con observaciones correlacionadas. Revista de la Facultad de Ciencias, 6 (1), 1–??. DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 bPhD en Ciencias Estad́ıstica. Profesora Asociada. Instituto de Matemáticas. Universidad de Antioquia *Autor para correspondencia: maria.castaneda@udea.edu.co cPhD en Ciencias Estad́ıstica. Profesor Asociado. Escuela de Estad́ıstica. Universidad Nacional de Colombia 1 XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento” 38 XII Coloquio de Estad́ıstica Medelĺın, Colombia 19 al 22 de Noviembre 2019 MODELO BASADO EN SIMILARIDAD DE CANASTAS PARA RECOMENDACIÓN DE PRODUCTOS EN RETAIL BASKET-SIMILARITY-BASED MODEL FOR PRODUCT RECOMMENDATION IN RETAIL Jonathan Galindo Estrada a *, Reinaldo Uribe b** RESUMEN: El propósito de un sistema de recomendación es llegar al cliente mediante la sugerencia de productos que no haya consumido, pero pertenezcan al mismo rango de gustos, los cuales pueden inferirse de su comportamiento de compra. Este documento presenta un esquema de recomendación construido para una categoŕıa espećıfica de una cadena de retail. El método se basa en una función de similaridad de canastas de la categoŕıa. Aunque es posible demostrar que la función de similaridad empleada no es una distancia, pues no cumple la desigualdad triangular, se argumenta que su uso en el contexto del recomendador es adecuado, con sustento en algunas cifras preliminares de su puesta en producción. PALABRAS CLAVE: Recomendación; métrica; similaridad; distancia ABSTRACT: The goal of recommendation systems is to reach the customer with the suggestion of products that they have not yet purchased that fall within the scope of their taste, which can be inferred form their transactions. This document presents a recommendation scheme built specifically for a given category in a retail chain. The method is based on a basket similarity function for that category. Although it can be proved that the similarity function does not hold the triangular inequality, and therefore is not a distance metric, we argue that its use in the recommendation context is suitable. Furthermore we present some preliminary figures from its operation as additional support. KEYWORDS: Recommendation; metric; similarity; distance 1. INTRODUCCIÓN Actualmente, satisfacer y atraer al cliente se ha convertido en un reto complejo, gracias a su cre- ciente experiencia omnicanal, al amplio conocimiento del mercado que acumula y a la cantidad de información que tiene a la mano, factores que lo convierten en un cliente exigente y con necesidades claras. Esto supone un reto mayor: la metodoloǵıa de segmentar los clientes para brindarles ofertas aDirección de Anaĺıtica Digital, Vicepresidencia de Mercadeo e Innovación, Grupo Éxito. *Email: jgalindoe@grupo-exito.com bDirección de Anaĺıtica Digital, Vicepresidencia de Mercadeo e Innovación, Grupo Éxito. **Email: rauribe@grupo-exito.com 1 1 Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín 39 Jonathan Galindo Estrada, Reinaldo Uribe especiales, masivas y poco personalizadas, ya no es un método diferenciador entre las cadenas de re- tail. Para alcanzar un mayor impacto en el cliente, es necesario generar una mayor complicidad, por medio de recomendaciones totalmente personalizadas basadas en su propia huella de información. Esto hace necesario entender, por medio del análisis de datos, el comportamiento transaccional individual, para poder brindar una experiencia única y adecuada a las necesidades de cada cliente, estableciendo una relación uno a uno desde las marcas. Con el crecimiento de las plataformas digitales de retail, marketing y consumo de contenidos, el interés en diseñar modelos de recomendación ha crecido enormemente en las últimas dos décadas, lo cual justifica que exista una rica literatura académica. Entre los enfoques similares al propuesto en este caso, se destaca el sistema recomendador Video-Video Similarity [3], o “sim”. Este algoritmo no personalizado calcula, para cada video, una lista de filmes similares del catálogo que maneja Netflix. A fin de que la recomendación final sea verdaderamente personalizada, “sims” se integra a alguno o algunos de los demás algoritmos de recomendación que se utilizan en esta plataforma, de forma que la recomendación final sea adecuada para un usuario espećıfico. En la tienda virtual de Amazon [4], la recomendación se hace mediante el cambio del catálogo que observa el cliente, por medio de una metodoloǵıa llamada “filtro colaborativo item-to-item”, que consiste en agrupar los productos comprados y calificados por el cliente con aquellos productos similares guardados en una tabla de recomendación, creadaaplicacando la distancia coseno entre los productos comprados y calificados por distintos usuarios. Para la plataforma YouTube, según se describe en [2], dados los grandes volúmenes de videos y usuarios, existen tres grandes retos al momento de recomendar contenidos relevantes: la escala, el dinamismo de la plataforma y el ruido en los datos de los que se dispone para entrenar. El sistema empleado se compone de dos redes neuronales profundas. A la primera (“candidate generation”) se ingresa la totalidad de videos de la plataforma, junto con la historia de actividad de vistas de videos de los usuarios y el contexto que tienen éstos para filtrar videos que puedan ser relevantes, generando un conjunto de cientos de videos candidatos para cada usuario. Estos candidatos ingresan luego a la segunda red neuronal (“ranking”), que toma además como insumo la actividad histórica de vistas de videos, el contexto, caracteŕısticas propias de los videos y otras fuentes de videos candidatos, para generar una lista puntuada de videos relevantes para el usuario. 2. Metodoloǵıa de recomendación El contexto de recomendación en el que se aplica la metodoloǵıa propuesta es, para una categoŕıa dada de productos, ofecerle a cada comprador de la categoŕıa items que no haya adquirido nunca y que, con base en la traza transaccional de los demás clientes, se consideren afines a los productos que śı compra. El método, que podŕıa llamarse “productos como el mı́o”, se basa en el estableci- 2 XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento” 40 Modelo basado en similaridad de canastas para recomendación de productos en retail miento de una medida de similitud entre productos de la categoŕıa, donde pares de productos que hayan sido comprados por un número grande de clientes de la categoŕıa sean más “próximos” y productos que no tienen o tienen pocos compradores en común se consideren “lejanos”. Con base en esta similiaridad, el proceso de recomendación es simple: encontrar el producto o los productos favoritos del cliente y determinar en su canasta los items más próximos que nunca haya adquirido de la categoŕıa. Este método tiene la ventaja adicional de permitir incluir fácilmente otras conside- raciones como la disponibilidad de inventario de los productos a recomendar. Formalmente, para una categoŕıa de retail que tiene un conjunto de productos P y unos clientes C, donde cada cliente ha adquirido por lo menos un producto y cada producto ha sido adquirido por al menos un cliente, el insumo fundamental del proceso de recomendación son los conjuntos de clientes que han adquirido cada producto, que se pueden representar cómodamente mediante una matriz de incidencia M donde: Mij = { 1, cliente i ha comprado producto j. 0, en caso contrario. (1) Para cualquier par de productos x e y , con conjuntos de compradores X e Y, correspondientes a las columnas MX y MY de la matriz de incidencia, respectivamente, el núcleo geométrico del proceso de recomendación es la función de similutud ρ(X , Y) = − log ( |X ∩ Y|2 |X ||Y| ) = − log ( (MTXMY) 2 MTXMX ·MTYMY ) . (2) Nuevamente, por comodidad es posible representar las proximidades entre productos en una matriz de similitud D con componentes Dxy = ρ(X , Y). Algoritmo 1: Recomendación para cliente c ∈ C Determinar f ∈ P entre los productos más comprados por c; Sea r = argmin y �=f Dfy; Recomendar el producto r al cliente c. El Algoritmo 1 resume el procedimiento de generación de una recomendación para un cliente cual- quiera c ∈ C. En el primer paso, el objeto es identificar cuál es el producto de la categoŕıa preferido por el cliente, por frecuencia de compra, donde en caso de empates, se rompen al azar. En el segundo paso del algoritmo, la selección del producto a recomendar, incluye simplemente buscar el siguiente ı́tem más próximo de la categoŕıa en la matriz de similitudes D, pero puede extenderse para incluir consideraciones de existencia de inventario I (r = argmin y �=f, Iy>0 Dfy) o para 3 Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín 41 Jonathan Galindo Estrada, Reinaldo Uribe retornar un número arbitrario n < |P| de recomendaciones ordenadas para el cliente. 3. La función de similaridad no es una distancia La función de similaridad ρ(X , Y) introducida en la Ecuación 2 tiene las caracteŕısticas que intuiti- vamente se desea que tenga la comparación de productos para generar recomendaciones: cuando la intersección de los conjuntos X e Y es grande, es decir, cuando muchos de los clientes han comprado ambos productos, el valor del logaritmo es cercano a cero, indicando “proximidad” de los items. Por otro lado, cuando el número de compradores comunes entre los dos es pequeño, ρ crece, tendiendo a infinito cuando los productos no comparten clientes. De hecho, es fácil probar que: 1. La función de similaridad es no negativa, dado que la cardinalidad de X ∩Y es menor que las cardinalidades de X e Y, aśı que el argumento del logaritmo siempre es menor o igual que uno y por lo tanto ρ nunca es negativa. 2. La similaridad solo vale cero cuando X es igual a Y, haciendo que el numerador y denominador del argumento del logaritmo sean iguales y en por ende el logritmo cero. 3. ρ es una función simétrica, como consecuencia directa de la simetŕıa de la intersección. Estos resultados sugieren que la medida de similitud ρ(X , Y) es una candidata fuerte a ser una distancia. Sin embargo, es posible demostrar que la condición restante, la desigualdad triangular, no se cumple. Considérese por ejemplo una instancia de recomendación con una categoŕıa compuesta por tres productos P = {x, y, z} y tres clientes C = {a, b, c}, con traza transaccional: M = x y z 1 0 0 a 1 1 0 b 0 1 1 c Nótese que y comparte un comprador con x y otro con z, mientras x y z no tienen clientes en común, es decir que son disyuntos. Evaluando la condición de la desiguladad triangular: ρ(X , Z) ? ≤ ρ(X , Y) + ρ(Y, Z) ; − log ( |X ∩ Z|2 |X ||Z| ) ? ≤ − log ( |X ∩ Y|2 |X ||Y| ) − log ( |Y ∩ Z|2 |Y||Z| ) ; − log(0) ? ≤ − log ( 1 4 ) − log ( 1 2 ) ; ∞ ? ≤ log(8) 4 XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento” 42 Modelo basado en similaridad de canastas para recomendación de productos en retail lo cual naturalmente no es cierto, de manera que la medida de similitud viola la desigualdad triangular y por lo tanto no es una distancia. 4. Resultados y conclusiones El consumo en general y particularmente en el contexto de la industria de retail, el primer indicador clave de un sistema de recomendación es que exista, dado que en la medida que la recomendación de productos se convierte en una expectativa de los clientes, no estar en condiciones de darles recomendaciones, aunque sean imprecisas, se convierte en una desventaja competitiva. Más allá de esto, dada la abundancia de datos disponibles y la relativa simplicidad y bajo costo de montar sistemas de recomendación como el descrito en este documento, en términos de negocio es fácil considerar un alto porcentaje de las ventas impulsadas a través de un sistema de recomenda- ción como marginales, atribuibles casi exclusivamente al sistema. En una prueba piloto efectuada durante un peŕıodo de un mes con los clientes de una categoŕıa de bebidas en una cadena de retail en Colombia (|P| ≈ 1200, |C| ≈ 300,000 para la construcción de M), se observó una venta incremental en canales virtuales y f́ısicos correspondiente al 10% de las recomendaciones entregadas a los clientes, lo cual, aunque no proviene de un proceso estricto de medición con grupos de control, no considera canibalización causada por las recomendaciones ni validación de la permanencia en el tiempo o técnicas estad́ısticas similares, sugiere la efectividad de la recomendación de productos a travésde métodos como el presentado en este documento. En consecuencia, es posible concluir que aunque la medida de similitud usada no es propiamente una distancia métrica, generalmente el método permite generar recomendaciones precisas, que en términos reales los clientes encuentran interesantes y valiosas al momento de decidir qué producto comprar de la categoŕıa. Referencias [1] Ajay Agarwal and Minakshi Chauhan. Similarity measures used in recommender systems: a study. International Journal of Engineering Technology Science and Research IJETSR, ISSN, pages 2394–3386, 2017. [2] Paul Covington, Jay Adams, and Emre Sargin. Deep neural networks for youtube recommen- dations. In Proceedings of the 10th ACM conference on recommender systems, pages 191–198. ACM, 2016. 5 Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín 43 Jonathan Galindo Estrada, Reinaldo Uribe [3] Carlos A Gomez-Uribe and Neil Hunt. The netflix recommender system: Algorithms, busi- ness value, and innovation. ACM Transactions on Management Information Systems (TMIS), 6(4):13, 2016. [4] Greg Linden, Brent Smith, and Jeremy York. Amazon. com recommendations: Item-to-item collaborative filtering. IEEE Internet computing, (1):76–80, 2003. 6 XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento” 44 Revista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede MedellÃn V 6 NÂ◦1 enero-junio de 2017 • ISSN-e 2357-5749 • ArtÃculo InvestigaciÃ3n• Páginas 1 a ?? DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 Deteccíıon del punto de cambio en la media de procesos de memoria corta en series de tiempoa Change Point Detection in Mean of Short Memory Process and Applications in Time Series Herold Dehling b *, Ronald Fried c, Isabel Garćıa d, Martin Wendlere ABSTRACT: We study the detection of change-points in time series. The classical CUSUM statistic for detection of jumps in the mean is known to be sensitive to outliers. We thus propose a robust test based on the Wilcoxon two sample test statistic. The asymptotic distribution of this test can be derived from a functional central limit theorem for two-sample U-statistics. We extend a theorem of Csörgő and Horváth to the case of dependent data. KEYWORDS: Two-sample U-statistics, change-point detection, weakly dependent data. 1. INTRODUCCIÓN En el análisis de puntos de cambio una pregunta de interés es si este ocurre o no durante todo el peŕıodo de observación de un proceso estocástico. Bajo el supuesto de independencia de los datos, existe una teoŕıa muy bien desarrollada ver Csörgő y Horváth (1997) para un excelente estado del arte. Cuando los datos son dependientes, se tienen menos resultados conocidos. El estad́ıstico CUSUM ha sido intensamente estudiado, incluso bajo la condición de un tipo de dependencia; ver de nuevo Csörgő y Horváth (1997). Sin embargo, este estad́ıstico CUSUM, no es robusto en la presencia de outliers. En este trabajo, se estudió un estad́ıstico robusto basado en el estad́ıstico bimuestral Wilcoxon. Las simulaciones muestran que el comportamiento de este estad́ıstico es mejor en el caso de datos provenientes de distribuciones pesadas. En orden de derivar la distribución asintótica de los estad́ısticos de prueba, estudiamos el proceso estocástico [nλ]∑ i=1 n∑ j=[nλ]+1 h(Xi, Xj), 0 ≤ λ ≤ 1 donde h : R2 −→ R es una función kernel. En el caso de observaciones independientes, la distribución asintótica del proceso se ha estudiado por Csörgő y Horváth (1988). En este trabajo se extendió dicho aDehling, H., Fried, R., Garćıa, I. & Wendler, M. (2015). CHANGE-POINT DETECTION UNDER DE- PENDENCE BASED ON TWO-SAMPLE U-STATISTIC. Asymptotic Laws and Methods in Stochastics: A Volu- me in Honour of Miklós Csörgő, Fields Institute Communications, Springer, New York, NY (76), 195–220.DOI: https://doi.org/10.1007/978-1-4939-3076-012 bProf. Dr. Fakultẗ für Mathematik . Ruhr - Universität Bochum *Corresponding author: herold.dehling@ruhr-uni-bochum.de cProf. Dr. Fakultät Statistik. Technische Universität Dortmund dAssistant Prof. Facultad de Ingenieŕıa y Ciencias. Pontificia Universidad Javeriana Cali eProf. Dr. Institut für Mathematik und Informatik. Universität Greifswald 1 Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín 45 Dehling, Fried, Garćıa & Wendler resultado para datos con dependencia corta. Resultados similares se han obtenido para datos con dependencia larga por Dehling, Rooch y Taqqu (2012), albeit con métodos diferentes. Por otro lado, U estad́ısticos han sido introducidos por Hoeffding (1948), donde la distribución asintótica se demostró tanto para el caso univariado y bivariado bajo el supuesto de independencia. La distribución univariada en el caso dependiente fue estudiada por Sen (1963, 1972), Yoshihara (1976), Denker and Keller (1983, 1985) y por Borovkova, Burton and Dehling (2001) en el caso no-degenerado, y por Babbel (1989) y Leucht (2012) en el caso degenerado. Para U estad́ısticos bivariados, Dehling y Fried (2012) establecen la distribucón asintótica de ∑[n1 i=1 ∑n2 j=[1 h(Xi, Xj) para datos dependientes. El principal resultado de éste art́ıculo es una versión funcional de este teorema ĺımite. En particular con- centramos nuestra atención en datos que pueden ser representadoscomo funcionales de procesos mixing. De esta manera, cubrimos modelos de series de tiempo, tales como procesos ARMA y GARCH, también datos de sistemas dinámicos caóticos. Para una revisión de este tipo de dependencia, ver por ejemplo Borovkova, Burton and Dehling (2001). También algunas referencias clásicas son Ibragimov y Linnik (1970) y Billingsley (1968). 2. DEFINICIONES Y RESULTADOS PRINCIPALES Considere que las observaciones se generan por medio de un proceso estocástico (Xi)i≥1, Xi = µi + �i i ≥ 1, (µi)i≥1 son señales desconocidas, (�i)i≥1 es un ruido estacionario tal que E(�i) = 0. Con base en X1, X2, . . . , Xn, queremos probar H0 : µ1 = . . . = µn contra HA : µ1 = . . . = µk �= µk+1 = . . . = µn, para algún k ∈ {1, . . . , n− 1}. 2.1. Motivación para punto de cambio Cuando el punto de cambio se conoce, tenemos el problema de dos muestras X1, X2, . . . , Xk y Xk+1, . . . , Xn. Los correspondientes U estad́ısticos bivariados para puntos de cambio, e.g. GauÃ: 1 k n∑ i=1 Xi − 1 n− k n∑ i=k+1 Xi Wilkoxon: k∑ i=1 n∑ j=k+1 1{Xi≤Xj} Cuando el punto de cambio se desconoce (lo cual es nuestro supuesto), usamos el supremo de estos estad́ıs- ticos, tomado sobre todos los k ∈ {1, 2, . . . , n− 1}, con las constantes de normalización apropiadas. 2 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede MedellÃn XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento” 46 TÃTULO DEL ARTÍCULO EN ESPAÃOL 2.2. Dependencia Recordemos que se conocen algunos resultados bajo independencia, en este caso supongamos que el ruido (�i)i≥1 es una función de un proceso absolutamente regular (β-mixing) �i = f(Zi, Zi−1, . . .), donde 1. (Zi)i∈Z es un proceso absolutamente regular con coeficientes mixing βk. 2. f : RN → R es una función 1− approximating, i.e. E|�i − fm(Zi, Zi−1, . . . , Zi−m)| ≤ am, para alguna fm : Rm+1 → R y am → 0 cuando m → ∞. Algunos ejemplos de este tipo de procesos son procesos ARMA, procesos lineales con coeficientes sumables, procesos de ramificación y sistemas dinámicos. 2.3. U estad́ısticos bivariados Consideremos U[nλ],n−[nλ] := 1 [nλ](n− [nλ]) nλ∑ i=1 n∑ j=nλ+1 h(Xi, Xj), 0 ≤ λ ≤ 1, El análisis de éste proceso usa la descomposición Hoeffding h(x, y) = θ + h1(x) + h2(y) + ψ(x, y), donde θ = Eh(X,Y ), h1(x) = Eh(x, Y )− θ, h2(y) = Eh(X, y)− θ y ψ(x, y) = h(x, y)− h1(x)− h2(y)− θ 2.4. Versión Funcional del Teorema Central del Ĺımite Sea (Xi)i≥1 un 1-approximating funcional de un proceso
Compartir