Vista previa del material en texto
5RISTI, N.º 50, 06/2023 Revista lbérica de Sistemas e Tecnologias de Informação Revista lbérica de Sistemas y Tecnologías de Información Recebido/Submission: 14/03/2023 Aceitação/Acceptance: 26/05/2023 5 Una revisión sistemática de Modelos de clasificación de dengue utilizando machine learning Gisella Luisa Elena Maquen-Niño1, Jessie Bravo2, Roger Alarcón3, Ivan Adrianzén-Olano4, Hugo Vega-Huerta5 gmaquenn@unprg.edu.pe; jbravo@unprg.edu.pe; ralarcong@unprg.edu.pe; ivan.adrianzen@untrm.edu.pe; hvegah@unmsm.edu.pe 1,2,3 Grupo de Investigación en transformación digital, Universidad Nacional Pedro Ruiz Gallo, Calle Juan XXIII 391, C.P. 14001, Lambayeque, Perú 4 Universidad Nacional Toribio Rodriguez de Mendoza, Calle Higos Urco N° 342, C.P. 01000, Chachapoyas, Perú 5 Universidad Nacional Mayor de San Marcos UNMSM, Lima, Perú DOI: 10.17013/risti.50.5–27 Resumen: El dengue es una enfermedad arboviral que anualmente reporta un gran número de infectados en la costa norte y la selva peruana. Según las estadísticas, está aumentando cada año. Este artículo tiene como objetivo desarrollar una revisión sistemática de la literatura científica sobre las variables de estudio y los métodos de aprendizaje automático utilizados actualmente para detectar la infección por dengue. La metodología utilizada fue PRISMA, mapeando inicialmente la literatura de 274 artículos científicos, quedando seleccionados 33 artículos para la revisión sistemática. Los resultados obtenidos son que los algoritmos de aprendizaje automático más utilizados son las redes neuronales (NN) y support vector machine (SVM). Asimismo, se ha encontrado que los científicos tienden a realizar investigaciones con variables climáticas o demográficas para obtener mejores resultados. Se concluye que los métodos de aprendizaje automático que más se han utilizado son las redes neuronales de diferentes tipos: convolucional, recurrente, profunda y multicapa, y para la predicción de brotes de dengue predominaron los métodos de series de tiempo con LSTM y ARIMA, también se estableció que la tendencia es hacia la inclusión de variables climáticas y demográficas en los modelos de predicción. Palabras-clave: Dengue, detección, machine learning, métodos de clasificación, algoritmos de clasificación, random forest, support vector machine, artificial neural networks A systematic review of dengue classification models using machine learning Abstract: Dengue is an arboviral disease that annually reports a large number of infected on the north coast and the Peruvian jungle. According to statistics, it is increasing yearly. This article aims to develop a systematic review of the scientific mailto:email_autor_dois@xpto.pt 6 RISTI, N.º 50, 06/2023 Una revisión sistemática de Modelos de clasificación de dengue utilizando machine learning literature on the study variables and the machine learning methods currently used for detecting dengue infection. The methodology used was PRISMA, initially mapping the literature of 274 scientific articles, leaving 33 articles selected for the systematic review. The results obtained are that the most used machine learning algorithms are neural networks (NN) and support vector machine (SVM). Likewise, it has been found that scientists tend to carry out research with climatic or demographic variables to obtain better results. It is concluded that the machine learning methods that have been used the most are neural networks of different types: convolutional, recurrent, deep, and multilayer, and for the prediction of dengue outbreaks the time series methods with LSTM and ARIMA were the predominant ones, it was also established that the trend is towards the inclusion of climatic and demographic variables in the prediction models. Keywords: Dengue, detection, machine learning, classification methods, classification algorithms, random forest, support vector machine, artificial neural networks 1. Introducción La inteligencia artificial ha brindado la generación de modelos y algoritmos que permiten predecir el resultado de una variable de estudio, de acuerdo a patrones encontrados en un conjunto de datos, en diferentes sectores de la actividad humana (Bravo et al., 2023; Cubas & Maquen-Niño, 2022; Maquen-Niño et al., 2022). Recientemente, machine learning ha permitido mejorar la predicción de que un individuo tenga una enfermedad o padecimiento, en menor tiempo y con niveles cada vez más aceptables de acierto (Maquen-Niño et al., 2023). Es en este nuevo contexto, que cada vez son más los experimentos que se hacen en cuanto a detección de enfermedades arbovirósicas como es el dengue, ya que, al ser una enfermedad propagada por el mosquito Aedes aegypti y, en menor medida, Aedes Albopictus, de clima tropical, afecta a diferentes países en el mundo, y es declarada una enfermedad endémica en ciertas regiones que cíclicamente aparecen con fuertes rebrotes especialmente en épocas de lluvia intensa. Ecuador al igual que Perú por tener regiones de clima tropical sufren de rebrotes de dengue en ciertas épocas del año, así como en épocas del fenómeno del niño, lo que hace indispensable que haya un control epidemiológico de las regiones afectadas por el dengue (Pérez et al., 2022). En este aspecto, la Organización mundial de la salud (OMS) expresa que la cantidad de contagios de dengue, o también conocido como Dengue Fever (DF) o Dengue hemorrhagic fever (DHF), en el mundo ha aumentado, y actualmente se estima que hay entre 100 y 400 millones de infecciones cada año, aunque solo el 80% de ellas son generalmente leves y asintomáticas, hay un porcentaje que pone la vida en riesgo (OMS, 2022). La inteligencia artificial y el internet de las cosas se han convertido en grandes aliados en el sistema de salud, como lo demuestra (Kamesh & Sivakumar, 2020), a través de una aplicación móvil que utiliza el algoritmo SVM, también para (Ho et al., 2020), utilizaron los datos médicos de pacientes confirmados con dengue y aplicaron modelos de predicción de la red neuronal profunda (DNN) de última generación, además árbol de decisión de convocatoria (DT ) y los modelos de regresión logística (LR). 7RISTI, N.º 50, 06/2023 RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação En otro trabajo de investigación de (Khan Dourjoy et al., 2021) se han utilizado support vector machine (SVM) y el algoritmo de clasificador de bosques aleatorios para la predicción del dengue, en cambio en (Siddiq et al., 2021), se desarrollaron y se comparó modelos lineales (regresión lineal) y tres modelos no lineales (regresión de vectores de soporte, regresión de árboles de decisión y regresión del bosque aleatorio) para determinar el modelo con la mayor precisión en la predicción de la transmisión de DF. Cabe indicar que hay trabajos de investigación que se centran en los datos sintomatológicos de los casos de dengue, pero hay varios trabajos actualmente que se están centrando en los datos climatológicos como tenemos los trabajos de (Bokonda et al., 2021; McGough et al., 2021; Nguyen et al., 2022; Rahman et al., 2021; Xu et al., 2020; Yavari Nejad & Varathan, 2021), quienes han utilizado dichos datos para definir modelos de predicción mucho más precisos utilizando diversos algoritmos de machine learning. Se han aplicado estudios en diferentes lugares, como en Bangladesh donde el dengue ha aumentado, el trabajo de investigación de (Sarma et al., 2020), trabaja con los datos del paciente, que contiene información sobre el informe de diagnóstico del paciente, el historial médico y los síntomas, aplicaron algoritmos de aprendizaje automático, como: árbol de decisión (DT) y Random Forest (RF) en el modelo de clasificación propuesto, a esto se suma el trabajo de (Sukama et al., 2020), en esta investigación, aplican la red neuronal recurrente (RNN), para predecir incidentes de DHF en DKI Yakarta mediante el uso de datos históricos de casos DHF de 2009 a 2017. Además la investigaciónde (Sukama et al., 2020), quienes aplicaron la red neuronal recurrente (RNN), para predecir incidentes de DHF en DKI Yakarta mediante el uso de datos históricos de casos DHF de 2009 a 2017, otro caso fue el realizado por (Huang et al., 2020), quienes trabajaron con los datos de casos de dengue de un Hospital en Taiwan, entre julio a noviembre del 2015. A nivel Latinoamérica, tenemos algunos trabajos en Brasil, como el de McGough et al. (2021), quienes tomaron información de los casos de dengue ocurridos en Brasil entre los años 2001 a 2007 y los datos climatológicos en los años 2000 a 2016 para predecir con mayor precisión esta enfermedad, se suma el trabajo de (Bauxell et al., 2021), quienes presentan un algoritmo para la predicción del riesgo de dengue en Brasil, se basan en técnicas de aprendizaje automático y utilizan variables ambientales y socioeconómicas para predecir el riesgo de propagación del dengue en todo Brasil. Otros estudios en Brasil son los realizados por (Aleixo et al., 2022; Koplewitz et al., 2022; Souza et al., 2022). En este sentido, los hallazgos anteriores llevaron a la elaboración de las preguntas de investigación: ¿Cuáles son las variables de estudio en la detección del contagio por dengue?, ¿Cuáles son los modelos y algoritmos de machine learning usados? y ¿Cuáles son los rangos de precisión encontrados? 2. Métodos y materiales La revisión sistemática fue desarrollada siguiendo la metodología PRISMA. Se utilizó las bases de datos indexadas: Scopus, Web of Science, IEEE Xplore y Google académico porque albergan artículos científicos que siguen criterios rigurosos aceptados por la comunidad científica, así como publicaciones de diferentes países que están a la 8 RISTI, N.º 50, 06/2023 Una revisión sistemática de Modelos de clasificación de dengue utilizando machine learning vanguardia en temas de machine learning orientados a la detección del dengue. Para realizar está investigación, se contó como materia prima artículos científicos en inglés que fueron encontrados aplicando ecuaciones de búsqueda específica y sus sinónimos, con el uso de operadores booleanos AND y OR. Para el concepto: “Classification” se tomaron en cuenta los sinónimos: Classification models, prediction y para el concepto “Dengue” se tomaron en cuenta los sinónimos: Dengue fever, DENV. Por tanto, la ecuación de búsqueda quedo planteada en idioma inglés conforme se visualiza en la Tabla 1. Idioma Ecuación de búsqueda English (classification OR prediction OR “Classification models”) AND “machine learning” AND (dengue OR “dengue fever” OR DENV) Tabla 1 – Ecuación de búsqueda Se aplicó como filtro de búsqueda que los años de publicación de los artículos sean entre el año 2014 hasta el año 2022. De 274 publicaciones encontradas en ese rango de años, 184 pasaron la etapa de cribado, 96 cumplieron los criterios de elegibilidad y en la etapa final 33 cumplieron con los criterios de inclusión, como se observa en la Tabla 2. Los criterios de cribado corresponden a dos aspectos: la pertinencia y la accesibilidad. Por pertinencia se entiende que, en base a la lectura del resumen y conclusiones, los investigadores determinaron la pertinencia o no del artículo dentro de la presente investigación. Por accesibilidad se entiende que los archivos son de acceso abierto y descargables. Los principales criterios de elegibilidad son los siguientes: 1. Los objetivos de la investigación están claramente especificados y se relacionan con la clasificación del dengue usando Machine Learning. 2. La investigación contiene aportes teóricos sobre las tendencias de la clasificación del dengue usando Machine Learning 3. La investigación define y explican claramente las variables de estudio para la detección del dengue. 4. Los modelos y algoritmos de clasificación de dengue obtenidos en la investigación son pertinentes para conseguir sus objetivos 5. El score obtenido en cada modelo de machine learning es mayor a 0.7 Database Step 1: Identificación Step 1: Cribado Step 2: Eligibilidad Step 3: Inclusión Scopus 151 129 75 27 Web of science 76 35 10 1 IEEE Xplore 43 16 10 4 Google Scholar 4 4 1 1 Total 274 184 96 33 Tabla 2 – Bases de datos y fases desarrolladas para obtener información 9RISTI, N.º 50, 06/2023 RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação La aplicación de criterios identificación, cribado, elegibilidad e inclusión puede verse en el diagrama de flujo PRISMA, detallado en la Figura 1. 4. Los modelos y algoritmos de clasificación de dengue obtenidos en la investigación son pertinentes para conseguir sus objetivos 5. El score obtenido en cada modelo de machine learning es mayor a 0.7 Tabla 2- Bases de datos y fases desarrolladas para obtener información Database Step 1: Identificación Step 1: Cribado Step 2: Eligibilidad Step 3: Inclusión Scopus 151 129 75 27 Web of science 76 35 10 1 IEEE Xplore 43 16 10 4 Google Scholar 4 4 1 1 Total 274 184 96 33 La aplicación de criterios identificación, cribado, elegibilidad e inclusión puede verse en el diagrama de flujo PRISMA, detallado en la Figura 1. Reportes excluidos: Criterios: periodo de tiempo, área y tipo de artículo Scopus: 22 Web of science: 41 IEEE Xplore: 27 Google Scholar: 0 Filas cribadas: Scopus: 129 Web of science: 35 IEEE Xplore: 16 Google Scholar: 4 (n = 184) Reportes excluidos: Criterios: Pertinencia, archivos de acceso abierto y descargables Scopus: 54 Web of science: 25 IEEE Xplore: 6 Google Scholar: 3 Filas elegibles: Scopus: 75 Web of science: 10 IEEE Xplore: 10 Google Scholar: 1 (n = 96) Reportes excluidos: Criterios: Capaz de responder a los objetivos de la investigación: variables, modelos y algoritmos, score. Scopus: 48 Web of science: 9 IEEE Xplore: 6 Google Scholar: 0 Filas elegibles: Scopus: 27 Web of science: 1 IEEE Xplore: 4 Google Scholar: 1 (n = 33) Filas identificadas: Scopus: 151 Web of science: 76 IEEE Xplore: 43 Google Scholar: 4 (n = 274) Figura 1 – Flujo de trabajo de PRISMA para la selección de los estudios relevantes 3. Resultados Para realizar el análisis bibliométrico se utilizó la herramienta VOS-Viewer de los 33 artículos elegidos tomando como análisis las co-ocurrencias de todas las palabras claves. Los resultados obtenidos del análisis bibliométrico realizado de la búsqueda inicial nos muestran tres cluster de las co-ocurrencias de todos los keywords de los artículos encontrados, como se observa en la Figura 2. Del análisis de los cuatro clústeres encontrados, el clúster de color verde consta de 10 ítems y se centra en las técnicas para la predicción del dengue: machine learning, Decision Tree, Random Forest, time series analysis, prediction, forecasting. Otros conceptos relacionados que tienen gran nivel de ocurrencia son: dengue, aedes aegypti, virus infection, tropical countries. 10 RISTI, N.º 50, 06/2023 Una revisión sistemática de Modelos de clasificación de dengue utilizando machine learning Figura 2 – Análisis de co-ocurrencias de palabras clave El segundo clúster, es el clúster amarillo que consta de 7 ítems, centrando su atención en las medidas de evaluación del modelo como son: accuracy, mean absolute error, incidence, data analysis. Otros conceptos relacionados son: environmental factor, public health y deep learning. El tercer clúster, consta de 11 ítems, es el clúster rojo, que hace referencia principalmente a modelos: statistical model, support vector machine, artificial neural networks, algorithm. Otros conceptos relacionados son: dengue virus, controled study, risk factor, receiver operating characterisc, major clinical study, article, sensitivity and especifity. El cuarto clúster, es el clúster azul que consta de 9 ítems, que hace referencia a los atributos de las variables utilizadas para la predicción del dengue: weather, climate, season, temperature, epidemic, mosquito vector, diseases.También encontramos otros conceptos que tienen gran ocurrencia en los artículos estudiados como son: animal y human. Un total de 33 artículos científicos fueron seleccionados para responder a las preguntas de investigación formuladas. Por cada artículo, se detalló la base de datos en la cual fue encontrado, el autor y el año de publicación, el país del cual la evidencia científica fue recolectada, sus palabras clave, así como las categorías o dimensiones investigadas. Los resultados fueron sistematizados en la Tabla 3, siendo las categorías denotadas por los siguientes números: Epidemiológica (Categoría 1), Clima (Categoría 2), Síntomas (Categoría 3), Demográficas (Categoría 4), Análisis de laboratorio Clínico (Categoría 5), socioeconómica (Categoría 6) y geográfica (Categoría 7). 11RISTI, N.º 50, 06/2023 RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação DB No. Autor(es) País de los datos Título de artículo Cate-goría S C O P U S 1 (Appice et al., 2020) Mexico A Multi-Stage Machine Learning Approach to Predict Dengue Incidence: A Case Study in Mexico 1, 2 2 (Srivastava et al., 2020) India An online learning approach for dengue fever classification 3 3 (Huang et al., 2020) Taiwan Assessing the risk of dengue severity using demographic information and laboratory test results with machine learning 4, 5 4 (Sukama et al., 2020) DKI Jakarta Comparing activation functions in predicting dengue hemorrhagic fever cases in DKI Jakarta using recurrent neural networks 3 5 (Ho et al., 2020) Taiwan Comparing machine learning with case-control models to identify confirmed dengue cases 4, 5, 3 6 (Sarma et al., 2020) Bangladesh Dengue Prediction using Machine Learning Algorithms 4, 5, 3 7 (Xu et al., 2020) China Forecast of dengue cases in 20 Chinese cities based on the deep learning method 1, 2 8 (Balamurugan et al., 2020) India Improved prediction of dengue outbreak using combinatorial feature selector and classifier based on the entropy-weighted score based optimal ranking 5 9 (Raizada et al., 2020) India Vector-borne disease outbreak prediction by machine learning 1, 2 10 (Benedum et al., 2020) Iquitos, Puerto Rico y Singapore Weekly dengue forecasts in Iquitos, Peru; San Juan Puerto Rico; and Singapore 1, 2 11 (Khan Dourjoy et al., 2021) Bangladesh – South Asia A Comparative Study on Prediction of Dengue Fever Using Machine Learning Algorithm 3 12 (McGough et al., 2021) Brazil A dynamic, ensemble learning approach to forecast dengue fever epidemic years in Brazil using weather and population susceptibility cycles 1, 2 13 (Kaur et al., 2021) India A Machine Learning Approach for Predicting Dengue Outbreak 1, 2 14 (Ferdousi et al., 2021) Brazil A Windowed Correlation-Based Feature Selection Method to Improve Time Series Prediction of Dengue Fever Cases 1, 2 12 RISTI, N.º 50, 06/2023 Una revisión sistemática de Modelos de clasificación de dengue utilizando machine learning DB No. Autor(es) País de los datos Título de artículo Cate-goría S C O P U S 15 (Yavari Nejad & Varathan, 2021) Malaysia Identification of significant climatic risk factors and machine learning models in dengue outbreak prediction 1, 2 16 (Bauxell et al., 2021) Brazil Machine learning techniques using environmental data from remote sensing applied to modeling dengue risk in Brazil 1, 6, 2 17 (Rahman et al., 2021) Thailand Mapping the spatial distribution of the dengue vector Aedes aegypti and predicting its abundance in northeastern Thailand using machine-learning approach 6, 2, 3 18 (Choubey et al., 2021) San Jose e Iquitos Soft computing techniques for dengue prediction 2 19 (Tanawi et al., 2021) DKI Jakarta Support Vector Regression for Predicting the Number of Dengue Incidents in DKI Jakarta 2 20 (Nguyen et al., 2022) Vietnam Deep learning models for forecasting dengue fever based on 2 data in Vietnam 1 21 (Abdualgalil et al., 2022) Yemen Early Diagnosis for Dengue Disease Prediction Using Efficient Machine Learning Techniques Based on Clinical Data 4, 3, 5 22 (Ochida et al., 2022) New Caledonia Modeling present and future climate risks of dengue outbreak, a case study in New Caledonia 2 23 (Koplewitz et al., 2022) Brazil Predicting dengue incidence leveraging internet-based data sources. A case study in 20 cities in Brazil 1, 7, 2 24 (Souza et al., 2022) Brazil Predicting dengue outbreaks in Brazil with manifold learning on 2 data 2 25 (Aleixo et al., 2022) Brazil Predicting Dengue Outbreaks with Explainable Machine Learning 1, 4, 2 26 (Kumar et al., 2022) Bangladesh Prediction of dengue incidents using hospitalized patients, meteorological and socioeconomic data in Bangladesh: A machine learning approach 1, 2 27 (Nalini et al., 2022) San Juan e Iquitos Prediction of dengue infection using Machine Learning 2 13RISTI, N.º 50, 06/2023 RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação Tabla 3 – Base de datos, lista de autores, país, título y categorías exploradas por artículo. Del total de 33 artículos seleccionados, algunos fueron de Brasil (6), India (6), Bangladesh (3), Malaysia (2), Taiwan (2), DKI Jakarta (2), San Juan e Iquitos (2), San José e Iquitos (1), Iquitos, Puerto Rico y Singapore (1), Arabia Saudita (1), Vietnam (1), Thailandia (1), Yemen (1), New Caledonia (1), México (1), China (1) y Kaggle (1). Por otro lado, en las categorías exploradas por los autores, tenemos clima (21), epidemiológica (15), síntomas (11), análisis de laboratorio clínico (5), demográficas (5), socioeconómica (2) y geográfica (1) correspondientes a las variables de estudio, conforme se visualiza en la Figura 3. Un análisis más profundo de cada Artículo científico permitió identificar aspectos relacionados a las variables/características seleccionadas, fuente de datos, algoritmo / método de machine learning y, método de validación en cada artículo (ver Tabla 4). DB No. Autor(es) País de los datos Título de artículo Cate-goría WoS 28 (Salim et al., 2021) Malaysia Prediction of dengue outbreak in Selangor Malaysia using machine learning techniques 1, 2 IEEExplore 29 (Baker et al., 2021) San Juan e Iquitos Forecasting Dengue Fever Using Machine Learning Regression Techniques 3, 2 30 (Singh, 2021) India Particle Swarm Optimization assisted Support Vector Machine based Diagnostic System for Dengue prediction at the early stage 3 31 (Siddiq et al., 2021) Saudi Arabia Predicting Dengue Fever Transmission Using Machine Learning Methods 1, 2 32 (Rana et al., 2022) Kaggle (internet repository) Dengue Fever Prediction using Machine Learning Analytics 3 Google 33 (Chattopadhyay & Chattopadhyay, 2022) India VIRDOC: A VIRTUAL DOCtor to predict dengue fatality. 3 14 RISTI, N.º 50, 06/2023 Una revisión sistemática de Modelos de clasificación de dengue utilizando machine learning Figura 3 - Número de artículos por categoría Un análisis más profundo de cada Artículo científico permitió identificar aspectos relacionados a las variables/características seleccionadas, fuente de datos, algoritmo / método de machine learning y, método de validación en cada artículo (ver Tabla 4). Figura 3 – Número de artículos por categoría 4. Discusión de resultados La revisión sistemática permitió seleccionar un total de 33 artículos, muchos de los cuales son de Brasil, India, Bangladesh e Iquitos. La categoría más estudiada por los autores es la de Clima (21), seguido por la categoría epidemiológica (15) y la categoría síntomas (11), demostrando que existe una gran tendencia a los estudios con variables de factores climáticos que ayudan a mejorar la predicción de brotes de dengue y la detección de la enfermedad de acuerdo con la ubicación geográfica del paciente. Esto debido a que el vector mosquito que produce la enfermedad, es de clima tropical y subtropical, locual está asociado con variables climatológicas como la temperatura ambiental, la humedad y sobre todo el nivel de precipitación. De esa forma, si es que hay temporadas de lluvias, el agua muchas veces se queda empozada y es criadero de zancudos propagadores del dengue. Otra de las categorías que también es predominante en los estudios y ocupa el segundo lugar, es la de factores epidemiológicos, que está ligado altamente al control sanitario de cada país en las provincias donde el dengue es una enfermedad endémica, que tiene que ver con el registro de contagiados, hospitalizados y muertos que reportan cada cierto tiempo los hospitales y centros de salud, y que para ayudar a los modelos de machine learning deberían tener la misma distribución temporal, sea diaria, semanal o mensual, pero que no haya periodos en los que no hubo reporte de datos, ya que esto afecta la continuidad de los datos y para reemplazar esos faltantes se tienen que realizar estimaciones a través de métodos predictivos. La categoría Síntomas que es la que ocupa el tercer lugar, se caracteriza por tener investigaciones que han utilizado datos descargados de repositorios oficiales de un determinado país y en su minoría base de datos construidas por los investigadores de datos obtenidos de clínicas y hospitales. Entre los síntomas que tienen mayor incidencia 15RISTI, N.º 50, 06/2023 RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação N ° V ar ia bl es / ca ra ct er ís ti ca s C at eg or ía F u en te d e d at os A lg or it m o/ m ét od o M ét od o d e va li d ac ió n 1 D os v ar ia bl es : N úm er o de c as os d e de ng ue y de ng ue h em or rá gi co . Te m pe ra tu ra m ed ia de l a ir e (e n ◦C ) a n iv el m en su al p or c ad a un o de lo s 32 e st ad os 1, 2 Se ri e de T ie m po d e am ba s va ri ab le s re co le ct ad os du ra nt e el p er ío do 19 85 – 20 10 e n 32 e st ad os fe de ra le s de M éx ic o. Tr ai ni ng (1 98 5- 20 09 ) y te st (2 01 0) Ti m e Se ri es F or ec as ti ng : A ut oR eg re ss iv e In te gr at ed M ov in g A ve ra ge (a ut o. ar im a) y V ec to r A ut or eg re ss io n (V A R ). R eg re ss io n M ét ho ds (M 5’ ), S up po rt V ec to r R eg re ss io n (S V R ), k -N ea re st N ei gh bo r (k N N ) y la es tr at eg ia d e ap re nd iz aj e pr op ue st a de m úl ti pl es e ta pa s lla m ad a A ut oT iC -N N . A ut oT iC -N N d em os tr ó el m en or R M SE e n la m ay or c an ti da d de e st ad os e va lu ad os . R oo t M ea n Sq ua re E rr or (R M SE ). 2 14 v ar ia bl es co rr es po nd ie nt es a Sí nt om as d e pa ci en te s e in ve st ig ac io ne s de la bo ra to ri o de lo s pa ci en te s 3 18 2 m ue st ra s de p ac ie nt es , 14 8 po si ti vo s y 34 ne ga ti vo s. (t ra in in g 80 % y te st 2 0% ) Su pp or t V ec to r M ac hi ne (S V M ), R an do m Fo re st (R F) , a sí c om o m úl ti pl es c la si fic ad or es de W ek a: L og is ti c, S G D , S G D te xt , S im pl e Lo gi st ic , S M O , V ot ed p er ce pt ro n, A da bo os t, R an do m s ub sp ac e, B ay es N et , N ai ve B ay es (N B ) y L W L. C la si fic ad or es e n Lí ne a: a R O W , PA 2, A LM A , a I E LL IP , C W , P O E , a R O M A , R O M A . ( R F ob tu vo 8 2. 41 % ) F - M E A SU R E 3 V ar ia bl es d em og rá fic as y an ál is is d e la bo ra to ri o cl ín ic os 4, 5 79 8 ca so s (t ra in in g se t 90 % , t es t s et 1 0% ) Lo gi st ic R eg re ss io n, S V M , R F, g ra di en t bo os ti ng m ac hi ne (G B M ), A rt ifi ci al N eu ra l N et w or k (A N N ) ( A N N : R O C : 0 .8 32 4 ± 0 .0 26 8, A cc ur ac y: (0 .7 52 3 ± 0 .0 27 3) ) 10 - fo ld c ro ss va lid at io n ap pr oa ch , R O C a nd A cc ur ac y 4 In ci de nc ia s de D en gu e he m or rá gi co 3 D at a de D en gu e he m or rá gi co (D H F) de 4 18 s em an as d e 5 m un ic ip al id ad es d e Ja ka rt a en tr e el 2 00 9 y 20 17 (T ra in in g 70 % y te st 3 0% ) R ec ur re nt N eu ra l N et w or k (R N N ) y B ac kp ro pa ga ti on T hr ou gh T im e (B PT T) . L os re su lt ad os d e la p re di cc ió n de D H F en la s ci nc o m un ic ip al id ad es d e Ja ka rt a ob tu vo m ej or es re su lt ad os e n el R M SE y R M E c on la fu nc ió n de a ct iv ac ió n Si gm oi d. R M SE a nd M SE (T he M ea n Sq ua re d E rr or ). 5 18 v ar ia bl es , s ie nd o: de m og rá fic as , c lín ic as (s ig no s vi ta le s y co m or bi lid ad es ), d e an ál is is d e la bo ra to ri o. 4, 5 , 3 48 94 c as os d e at en ci ón p or em er ge nc ia e n un H os pi ta l Lo gi st ic R eg re ss io n, D ee p N eu ra l N et w or k, D ec is io n Tr ee (D T) (D N N fu e el m ej or c on 86 .9 5% ± 0. 45 % ) 10 -f ol d cr os s va lid at io n pr oc es s 16 RISTI, N.º 50, 06/2023 Una revisión sistemática de Modelos de clasificación de dengue utilizando machine learning N ° V ar ia bl es / ca ra ct er ís ti ca s C at eg or ía F u en te d e d at os A lg or it m o/ m ét od o M ét od o d e va li d ac ió n 6 23 a tr ib ut os : de m og rá fic os , s ín to m as y an ál is is d e la bo ra to ri o 4, 5 , 3 10 1 00 0 ca so s de B an gl ad es h de d os c iu da de s pr in ci pa le s de ns am en te po bl ad as (D ha ka y C hi tt ag on g) Si st em a cl as ifi ca do r bi na ri o (0 ,8 4) R O C c ur ve 7 N úm er o de c as os de d en gu e hu m an o po r m es (v ar ia bl e ep id em io ló gi ca ) y 9 va ri ab le s m et eo ro ló gi ca s m en su al es . 1, 2 D at os m et eo ro ló gi co s y D at o ep id em io ló gi co m en su al d el a ño 2 00 5 al 2 01 8 de 2 0 ci ud ad es de C hi na (T ra in in g da ta 20 05 - a l 2 01 6, T es ti ng D at a 20 17 -2 01 8) R ed es n eu ro na le s re cu rr en te s de m em or ia a co rt o pl az o (L ST M ) y R ed es n eu ro na le s re cu rr en te s de m em or ia a c or to p la zo c on ap re nd iz aj e de tr an sf er en ci a (L ST M - TL ) y su c om pa ra ci ón c on o tr os m od el os : B PN N : B ac kp ag at io n N eu ra l N et w or k; G A M : G en er al iz ed A dd it iv e M od el ; S V R : S up po rt V ec to r R eg re ss io n; G B M : G ra di en t B oo st in g M ac hi ne (L ST M 0 .9 08 7 /1 .1 60 0) R M SE (T he R oo t M ea n Sq ua re d E rr or ), R R SE (T he R oo t R el at iv e Sq ua re d E rr or ) 8 20 v ar ia bl es co rr es po nd ie nt es a lo s at ri bu to s de u n an ál is is de la bo ra to ri o de s an gr e 5 48 0 m ue st ra s de p ac ie nt es co n de ng ue E W SO R A A lg or it m o de c la si fic ac ió n op ti m a ba sa do e n pu nt aj e po nd er ad o de e nt ro pí a. G en et ic A lg or it hm (G A ), P ar ti cl e Sw ar m A lg or it hm (P SO ), C or re la ti on b as ed F ea tu re Se le ct or (C FS ) M od el os de M L: J 48 , N B , S V M y M ul ti la ye r pe rc ep tr on (M LP ), r eg re si ón y s er ie s de ti em po (E W SO R A c on M LP c on 9 8. 72 ) cr os s va lid at io n 9 C as os p os it iv os de l 2 01 3 al 2 01 7 pa ra C hi ku ng un ya , m al ar ia y d en gu e. Ta m bi én V ar ia bl es m et eo ro ló gi ca s: te m pe ra tu ra , h um ed ad y pr ec ip it ac ió n. 1, 2 54 15 95 8 da to s de ca so s po si ti vo s y da to s m et eo ro ló gi co s de 3 6 es ta do s de l 2 01 3 al 20 17 fu si on ad os . T re s po si bl es s al id as : r ie sg o al to , m od er ad o o ba jo . (T ra in in g: 6 0% y Te st 4 0% ). C on vo lu ti on al N eu ra l N et w or k m ul ti m od al di se as e ou tb re ak p re di ct io n C N N - M D O P y A rt ifi ci al N eu ra l N et w or k m ul ti m od al d is ea se ou tb re ak p re di ct io n A N N - M D O P (C N N ac cu ra cy : 0 .8 8) Pr ed ic ti on a cc ur ac y 10 R ec ue nt os d e ca so s y br ot es s em an al es d e de ng ue e n Iq ui to s, P er ú; Sa n Ju an , P ue rt o R ic o; y Si ng ap ur d e 19 90 a 2 01 6. V ar ia bl es m et eo ro ló gi ca s de e so s tr es lu ga re s (1 6 va ri ab le s) 1, 2 Se c re ar on 5 00 c on ju nt os de e nt re na m ie nt o qu e se us ó pa ra e nt re na r ca da m od el o y se p ro m ed ia ro n la s pr ed ic ci on es A lg or it m o M L pr ed ic ti vo : R F, R F co n A lg or it m o de s eñ al iz ac ió n un iv ar ia nt e (R F- U FA ) R eg re si ón d e Po is so n y re gr es ió n lo gí st ic a. M od el o de p ro m ed io m óv il in te gr ad o au to rr eg re si vo (A R IM A ) y m od el o es ta ci on al A R IM A (S A R IM A ) (M od el os d e M L - R F te ní an u n 21 % y u n 33 % m en os d e er ro r) C ro ss V al id at io n w it h fo ld = 10 M A E 17RISTI, N.º 50, 06/2023 RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação N ° V ar ia bl es / ca ra ct er ís ti ca s C at eg or ía F u en te d e d at os A lg or it m o/ m ét od o M ét od o d e va li d ac ió n 11 15 v ar ia bl es d e si nt om at ol og ía d e D en gu e, b us cá nd os e pr ed ic ci ón p ar a el pr óx im o añ o 3 E nc ue st as o nl in e a m ás de 6 00 p ac ie nt es d e B an gl ad es h y el m ét od o de to po gr af ía . S e ha n re co pi la do c as i 1 04 7 da to s. Tr ai ni ng 8 0 % y te st 2 0% SV M y e l a lg or it m o cl as ifi ca do r de R an do m Fo re st (R FC ). (S V M 0 .6 95 ) cr os s va lid at io n 12 V ar ia bl es d e pa ci en te s co n de ng ue y va ri ab le s cl im át ic as co m o: te m pe ra tu ra y pr ec ip it ac ió n di ar ia 1, 2 D at os s ob re c as os a nu al es de d en gu e (M in is te ri o de S al ud d e B ra si l) p ar a 20 01 – 20 17 y s ob re te m pe ra tu ra y p re ci pi ta ci ón di ar ia (G M A O -N A SA ) pa ra 2 00 0– 20 16 , p ar a 20 m un ic ip io s en dé m ic os d e de ng ue e n B ra si l C on te m pl a 11 m od el os d e ap re nd iz aj e en sa m bl ad o qu e us an S V M . E n fu nc ió n de s i e s un a ño e pi dé m ic o o no , e l ‘s tr en gt h’ d e su m od el o es d el 6 3% o e l 7 1% re sp ec ti va m en te . A cc ur ac y, T im e- se ri es 13 V ar ia bl es m et eo ro ló gi ca s y el c on te o de c as os d e D en gu e co m o va ri ab le ep id em io ló gi ca . 1, 2 D at os o bt en id os de l D ep ar ta m en to M et eo ro ló gi co d e la I nd ia , Pu ne e nt re 2 00 6- 20 15 . H id de n M ar ko v M od el (H M M ) p ar a da to s de se ri es d e ti em po . La p re ci si ón o bt en id a pa ra lo s cu at ro d is tr it os es 9 7% p ar a B at hi nd a, 9 2% p ar a Pa ti al a, 9 7% pa ra L ud hi an a y 86 % p ar a A m ri ts ar . A cc ur ac y 14 C as os d e de ng ue y va ri ab le s cl im át ic as 1, 2 78 m un ic ip io s en B ra si l c on ca so s 71 34 8, 5 84 24 , 4 53 19 , 36 74 3, 2 71 03 Tr ai ni ng 5 0% , v al id at io n 30 % y te st 2 0% R ec ur re nt n eu ra l n et w or ks (R N N ), L ST M , G R U y e l m od el o Li ne al . (G R U : to ta l d e ca so s M A E 0 .1 3 y pa ra p ru eb a de v ar ia s ub ic ac io ne s M A E r an go d e 0. 24 35 a 0. 25 69 ) M ea n ab so lu te er ro r (M A E ) 15 V ar ia bl es s ob re c as os de D en gu e (i nc id en ci as y ca so s co nfi rm ad os ) y va ri ab le s cl im át ic as co m o so n Te m pe ra tu ra . hu m ed ad r el at iv a y ca nt id ad d e llu vi a. 1, 2 D at os o bt en id os d e do s fu en te s ofi ci al es . E l in ci de nt e de d en gu e y lo s ca so s co nfi rm ad os se m an al es d el p or ta l de l M in is te ri o de S al ud de M al as ia (M O H ) y , lo s da to s cl im át ic os s e ob ti en en d el D ep ar ta m en to M et eo ro ló gi co d e M al as ia (M M D ) e n el p er io do 2 01 0 al 2 01 3 B ay es N et w or k m od el s (B N ), S V M , R ad ia l B as is F un ct io n (R B F Tr ee ), d ec is io n ta bl e (D T) y N B . ( B ay es N et w or ks c on 9 2. 35 % d e ac cu ra cy ) cr os s va lid at io n (t en ti m es ) w it h Te m pe R ai n fa ct or (T R F) 18 RISTI, N.º 50, 06/2023 Una revisión sistemática de Modelos de clasificación de dengue utilizando machine learning N ° V ar ia bl es / ca ra ct er ís ti ca s C at eg or ía F u en te d e d at os A lg or it m o/ m ét od o M ét od o d e va li d ac ió n 16 V ar ia bl es c lín ic as de p ac ie nt es c on de ng ue e n B ra si l. V ar ia bl es a m bi en ta le s y so ci oe co nó m ic as 1, 6 , 2 D at os d e 20 10 a 2 01 3 de la d is tr ib uc ió n m en su al d e ep is od io s de d en gu e de l Si st em a de I nf or m ac ió n de E nf er m ed ad es N ot ifi ca bl es (S IN A N ), d es ar ro lla do p or el M in is te ri o de S al ud d e B ra si l. D at os a m bi en ta le s de la s m is io ne s sa te lit al es de o bs er va ci ón d e la T ie rr a (T ra in in g 80 % , t es t 2 0% ) D T, R F (R 2: 0 .7 63 5 y ac cu ra cy : 8 9, 49 % u sa nd o In de x B ) y n eu ra l n et w or ks (R 2: 0 ,5 04 1 an d ac cu ra cy : 9 2, 40 % u sa nd o in de x B y u n ac cu ra cy : 7 9. 21 % u sa nd o el in de x A ). R F es e l de m ej or r es ul ta do . R -s qu ar ed (R 2) an d ac cu ra cy 17 V ar ia bl es so ci oe co nó m ic as , va ri ab le s cl im át ic os y sí nt om as d e de ng ue 6, 2 , 3 Ta ila nd ia d e en er o a di ci em br e de l 2 01 9 M od el os d e ap re nd iz aj e su pe rv is ad os , re gr es ió n lo gí st ic a (L R ), S V M , v ec in o K -N ea re st (K N N ), r ed n eu ro na l a rt ifi ci al (A N N ) y R F.R F, q ue u só fa ct or es s oc io ec on óm ic os , K A P y de p ai sa je c om o en tr ad as , t uv o la m ay or pr ec is ió n de l m od el o de p re di cc ió n, s eg ui da po r A N N , k N N , L R y S V M (s oc io ec on óm ic o: C A = 0 ,8 6 y F1 = 0 ,8 5; K A P: C A = 0 ,9 2 y F1 = 0, 90 y p ai sa je : C A = 0 ,8 9 y F1 = 0 ,8 7) A U C (á re a ba jo la c ur va R O C ), C A (p re ci si ón d e cl as ifi ca ci ón ) y pu nt aj e F1 18 V ar ia bl es c lim át ic as cu al it at iv as y cu an ti ta ti va s 2 D at os d e D en gA I D at a se t y lo s da to s cl im át ic os d e do s ci ud ad es S an J os é e Iq ui to s X G B oo st R eg re ss or M od el , N eg at iv e B in om ia l R eg re ss or M od el , D T R eg re ss or M od el , A R IM A M od el . E n ba se a lo s va lo re s M A E y la s co m pe ns ac io ne s, e l r eg re so r bi no m ia l n eg at iv o (N B R ) e s el m od el o co n m ej or r en di m ie nt o. M A E , R M SE 19 La s va ri ab le s m et eo ro ló gi ca s, in cl ui do s la s va ri ab le s so br e la llu vi a, la h um ed ad y la te m pe ra tu ra 2 D at os d e C in co r eg io ne s en D K I Ya ka rt a de sd e el 6 de e ne ro d e 20 09 h as ta e l 25 d e se pt ie m br e de 2 01 7, pr op or ci on ad os p or la A ge nc ia d e M et eo ro lo gí a, C lim at ol og ía y A ge nc ia G eo fís ic a (B M K G ) Su pp or t V ec to r R eg re ss io n (C ro ss -c or re la ti on , A ug m en te d D ic ke y- Fu lle r te st p ar a ca lc ul ar e l la ps o en tr e do s se ri es d e ti em po e st ac io na ri as ). SV M c on n úc le o lin ea l d io e rr or es re la ti va m en te p eq ue ño s en la p re di cc ió n de in ci de nt es d e de ng ue (M A E < 8 y R M SE < 10 ). M A E , R M SE 19RISTI, N.º 50, 06/2023 RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação N ° V ar ia bl es / ca ra ct er ís ti ca s C at eg or ía F u en te d e d at os A lg or it m o/ m ét od o M ét od o d e va li d ac ió n 20 12 fa ct or es m et eo ro ló gi co s en e l m is m o pe rí od o, in cl ui da s m ed id as d e te m pe ra tu ra , llu vi a, h um ed ad , ev ap or ac ió n y ho ra s de so l, ca so s y m ue rt es p or ta sa m en su al d el d en gu e 1 C as os d e de ng ue d e 20 pr ov in ci as /c iu da de s pe rt en ec ie nt es a tr es re gi on es p ri nc ip al es de V ie tn am e nt re 1 99 7 y 20 16 d el I ns ti tu to N ac io na l d e H ig ie ne y E pi de m io lo gí a de V ie tn am . D at os m et eo ro ló gi co s de l In st it ut o de M et eo ro lo gí a, H id ro lo gí a y C am bi o C lim át ic o de V ie tn am . Tr ai ni ng (1 99 7 a 20 13 ) y te st (2 01 4 a 20 16 ) p ar a pr ov in ci a Lo ng s ho rt -t er m m em or y ne ur al n et w or k ba se d on th e at te nt io n m ec ha ni sm (L ST M - A TT ), L on g sh or t- te rm m em or y ne ur al ne tw or k LS TM , C on vo lu ti on al N eu ra l N et w or k (C N N ), T ra ns fo rm er (T F) (L ST M -A TT , R M SE : 1 ,6 0 y M A E : 1 ,9 0) M A E , R M SE 21 21 a tr ib ut os : e da d, se xo , fi eb re , s ín to m as y va ri ab le s cl ín ic as . 4, 3 , 5 Se o bt uv o de l C en tr o de M on it or eo E pi de m io ló gi co (E M C ) - O fic in a de S al ud Pú bl ic a y Po bl ac ió n (P H PO ) - Ta iz C it y, Y em en de l 2 01 7 al 2 01 9. Té cn ic as e fic ie nt es d e ap re nd iz aj e au to m át ic o (E M LT ): K -N ea re st N ei gh bo r (K N N ), cl as ifi ca do r de im pu ls o de g ra di en te (G B C ), cl as ifi ca do r de á rb ol a di ci on al (E TC ), im pu ls o de g ra di en te e xt re m o (X G B ) y m áq ui na d e im pu ls o de g ra di en te d e lu z (L ig ht G B M ). E l m ej or m od el o fu e E TC c on u na a cc ur ac y de l 9 9, 03 % , f 1- sc or e de l 9 9, 04 % , p re ci si ón d el 98 ,9 2% y r ec al l d el 9 9, 17 % . A cc ur ac y, f1 -s co re , re ca ll, p re ci si on , A U C , a nd r un ti m e 22 La ll uv ia d ia ri a (R R ) y la te m pe ra tu ra m áx im a (T X ) 2 Lo s da to s de m og rá fic os de N ue va C al ed on ia d e lo s ce ns os d e 19 69 , 1 97 6, 1 98 3, 19 89 , 1 99 6, 2 00 4, 2 00 9, 20 14 a nd 2 01 9. L os d at os cl im át ic os d e un a es ta ci ón m et eo ro ló gi ca d e M ét éo - Fr an ce d e 19 70 a 2 02 0 en F au bo ur g B la nc ho t, N ou m éa . SV M . S e pr es en ta u n m ét od o pa ra e va lu ar la pr ob ab ili da d se m an al d e un b ro te d e de ng ue pa ra u n lu ga r es pe cí fic o y pr oy ec ta r es te r ie sg o en u n es ce na ri o de c am bi o cl im át ic o. Le av e Ti m e O ut - C ro ss V al id at io n (L TO - C V ) 20 RISTI, N.º 50, 06/2023 Una revisión sistemática de Modelos de clasificación de dengue utilizando machine learning N ° V ar ia bl es / ca ra ct er ís ti ca s C at eg or ía F u en te d e d at os A lg or it m o/ m ét od o M ét od o d e va li d ac ió n 23 V ar ia bl es ep id em io ló gi co s, ge og rá fic os y c lim át ic os 1, 7 , 2 In ci de nc ia s se m an al es d e añ os a nt er io re s, v ar ia bl es cl im át ic as s em an al es e n B ra si l y d at os d e bú sq ue da en I nt er ne t e n ti em po r ea l. Pe ri od o de e ne ro d el 2 01 0 a Ju lio d el 2 01 6. R F y L1 – b as ed (L A SS O R eg re ss io n) . Se d et er m in ó qu e R F es m ás c on si st en te y ro bu st o qu e LA SS O . R M SE , r el at iv e R M SE , R 2 24 V ar ia bl es c lim át ic as 2 Se is c iu da de s de B ra si l SV M . R an do m G ue ss (R -G ue ss ) a cc ur ac y 0. 8 Te st M ea n A cc ur ac y 25 V ar ia bl es ep id em io ló gi ca s, m et eo ro ló gi ca s, so ci od em og rá fic as 1, 4 , 2 D at os d el S is te m a N ac io na l d e In fo rm ac ió n so br e E nf er m ed ad es N ot ifi ca bl es (S IN A N ), da to s m et eo ro ló gi co s y da to s so ci od em og rá fic os de l I ns ti tu to B ra si le ño d e G eo gr af ía y E st ad ís ti ca s G ra di en t b oo st in g de ci si on tr ee a lg or it hm (C at B oo st ), a cc ur ac y 90 % M A E , R M SE , a nd R 2 26 C as os d e de ng ue d el 20 12 a l 2 01 9 y V ar ia bl es cl im at ol óg ic os d e 11 ci ud ad es d e B an gl ad es h 1, 2 11 d is tr it os d ife re nt es d e B an gl ad es h M od el o de a pr en di za je a ut om át ic o, r eg re si ón lin ea l m úl ti pl e (M LR ) y r eg re si ón d e ve ct or es de s op or te (S V R ). S up po rt V ec to r R eg re ss io n (S V R ) 7 5% d e pr ec is ió n. Pr ec is io n, m ea n ab so lu te e rr or (M A E ) o f mod el s 27 Te m pe ra tu ra m áx im a y m ín im a, te m pe ra tu ra pr om ed io , p re ci pi ta ci ón to ta l d e la e st ac ió n m et eo ro ló gi ca c lim át ic a G H C N d e la N O A A . 2 D at os d e la s ci ud ad es d e Sa n Ju an e I qu it os R eg re si ón li ne al , S er ie s de ti em po , H ea t M ap pi ng , M ov ın g m ea n. O bt uv o m ej or es re su lt ad os e s Li ne ar R eg re ss io n co n un M A E de 2 0. 77 M ea n ab so lu te er ro r (M A E 28 V ar ia bl es E pi de m io ló gi ca s y V ar ia bl es c lim át ic as (t em pe ra tu ra , v el oc id ad de l v ie nt o, h um ed ad y llu vi a) . 1, 2 Lo s da to s co nt ie ne n 5 añ os (2 01 3 a 20 17 ) d e ca so s se m an al es p ar a ci nc o di st ri to s en S el an go r, M al as ia : G om ba k, H ul u Se la ng or , H ul u La ng at , K la ng y P et al in g. C la ss ifi ca ti on a nd R eg re ss io n Tr ee (C A R T) , A rt ifi ci al N eu ra l N et w or k (M LP ), S V M (L IN E A R , P O LY N O M IA L, R B F) , a nd B ay es N et w or k (T A N ). S V M (n úc le o lin ea l) e xh ib ió el m ej or r en di m ie nt o de p re di cc ió n co n un a ex ac ti tu d de 7 0 % . A cc ur ac y, se ns it iv it y , a nd pr ec is io n 21RISTI, N.º 50, 06/2023 RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação N ° V ar ia bl es / ca ra ct er ís ti ca s C at eg or ía F u en te d e d at os A lg or it m o/ m ét od o M ét od o d e va li d ac ió n 29 V ar ia bl es si nt om at ol óg ic as y cl im at ol óg ic as (L oc at io n, T em pe ra tu re , Pr ec ip it at io n, H um id it y, an d V eg et at io n) 3, 2 D ri ve nD at a W eb si te d e do s ci ud ad es S an J ua n e Iq ui to s M ac hi ne L ea rn in g R eg re ss io n, r eg re ss io n ne ur al n et w or k, R F, N eg at iv e bi no m ia l re gr es si on , P oi ss on R eg re ss io n, D ec is io n Tr ee R eg re ss io n (D TR ), N B , S V M , k -n ea re st ne ig hb or (k -N N ) R eg re ss io n, A da B oo st , B ag gi ng w it h de ci si on tr ee . O bt uv o m ej or es re su lt ad os R ec ur re nt N eu ra l N et w or k (R N N ) co n m em or ia a la rg o pl az o (L ST M ) c on u na pr ec is ió n de l 9 4% M ea n ab so lu te er ro r (M A E 30 V ar ia bl es si nt om at ol óg ic as 3 C on ju nt os d e da to s de cl as ifi ca ci ón d e de ng ue es tá nd ar J4 8, R F, D T y A lg or it m o pr op ue st o (P SO - SV M ). O bt uv o m ej or es r es ul ta do s el a lg or it m o pr op ue st o co n 87 % d e ac cu ra cy M A E 31 V ar ia bl es ep id em io ló gi ca s y va ri ab le s cl im at ol óg ic as : Te m pe ra tu ra y h um ed ad 1, 2 C as os d e D F re po rt ad os pa ra J ed da h C it y, A ra bi a Sa ud it a. L a te m pe ra tu ra y hu m ed ad d el R es ea rc h D at a A rc hi ve a t t he N at io na l C en te r fo r A tm os ph er ic R es ea rc h R eg re si ón li ne al y tr es m od el os n o lin ea le s (r eg re si ón d e ve ct or es d e so po rt e, r eg re si ón de á rb ol es d e de ci si ón y r eg re si ón d el b os qu e al ea to ri o) . O bt uv o m ej or r es ul ta do s Su pp or t V ec to r C la ss ifi ca ti on c on 7 6 % d e ac cu ra cy Pr ec is io n 32 V ar ia bl es si nt om at ol óg ic as 3 C on ju nt o de d at os c on 1 24 m ue st ra s y 8 ca ra ct er ís ti ca s de sc ar ga do d e K ag gl e A ná lis is d e ap re nd iz aj e au to m át ic o (D FE S- M LA ) u ti liz a cl as ifi ca do re s de á rb ol d e de ci si ón (D T) y b os qu e al ea to ri o (R F) . O bt uv o m ej or re su lt ad o R an do m F or es t c on u n ac cu ra cy d e 0. 97 . A cc ur ac y. 33 V ar ia bl es si nt om at ol óg ic as 3 C on ju nt os d e da to s de cl as ifi ca ci ón d e de ng ue es tá nd ar R eg re si ón li ne al m úl ti pl e (M LR ), A N O V A . O bt uv o m ej or es r es ul ta do s M ul ti pl e Li ne ar R eg re ss io n co n 75 % d e ac cu ra cy . ac cu ra cy a nd pe rf or m an ce Ta bl a 4 – V ar ia bl es /c ar ac te rí st ic as s el ec ci on ad as , c at eg or ía , f ue nt e de d at os , a lg or it m o / m ét od o de m ac hi ne le ar ni ng y m ét od o de va lid ac ió n en c ad a ar tí cu lo . 22 RISTI, N.º 50, 06/2023 Una revisión sistemática de Modelos de clasificación de dengue utilizando machine learning en las investigaciones podemos mencionar: Fiebre, dolor de cabeza, dolor corporal, artralgias, mialgias, náuseas, mareo, hemorragia, entre otros. A nivel mundial existe un consenso para clasificar los tipos de contagios por dengue, siendo tres: Dengue sin signos de alerta, Dengue con signos alerta y Dengue hemorrágico o grave, y siendo la última la más peligrosa para la salud, y aunque es el que se da en muy baja proporción, puede haber riesgo de muerte de no tratarse a tiempo, de las 33 investigaciones seleccionadas, 2 investigaciones han abordado detalladamente la detección del dengue hemorrágico. Con respecto a las técnicas y algoritmos de machine learning se puede denotar que hay una fuerte tendencia al uso de redes neuronales (17 estudios), ya que, debido a su variedad de topologías, son muy adaptables en diferentes tipos de investigación tanto para clasificación, como para regresión. Dentro de los modelos de redes neuronales utilizados podemos citar: ANN (7 estudios), LSTM (3 estudios), MLP (2 estudios), CNN (2 estudios), RNN (1 estudio), BPNN (1 estudio) y Perceptrón (1 estudio). Otras de las técnicas de machine learning que tuvieron gran incidencia fueron: SVM (12 estudios) seguida por RF (8 estudios), DT (6 estudios), Naive Bayes (4 estudios) para la detección del contagio de la enfermedad. Otras investigaciones se enfocaron hacia la regresión de datos, siendo las de mayor incidencia Logistic regression (5 estudios), Support vector regression (5 estudios), Linear regression (4 estudios) y Machine learning regression (4 estudios). También se utilizó métodos de series de tiempo con el uso de LSTM (3 estudios) y ARIMA y sus variantes (4 estudios). Considerando la precisión de los modelos para la detección del dengue, se encontró que 9 artículos tuvieron como accuracy un valor mayor o igual que 70% y menor de 80%, 6 artículos tuvieron un valor mayor o igual a 80% y menor de 90%, 11 artículos tuvieron un valor mayor o igual a 90% y menor o igual a 100%, presentándose también que 7 artículos no especificaban el valor de precisión. 5. Conclusiones Se llega a la conclusión que los métodos de machine learning que son más utilizados en la detección del contagio de dengue son las redes neuronales siendo las más ampliamente utilizadas las redes neuronales artificiales convolucionales y perceptrón multicapa. Para lo que corresponde a predicción de brotes de dengue se utilizaron preferentemente los modelos de serie de tiempo con LSTM y los modelos ARIMA con sus variantes, estos últimos más ligados a modelos estadísticos. Existe una fuerte tendencia hacia la inclusión de variables climáticas en los modelos de machine learning que ayuden a mejorar la predicción, debido a que el mosquito que lo trasmitetiene un hábitat con variables climáticas establecidas. Así mismo, la segunda categoría con mayor incidencia fue la epidemiológica debido a que los países están dando mayor importancia al control y monitoreo de enfermedades arbovirósicas como lo es el dengue, a través de la publicación de tasas relacionadas con las infecciones en los portales web oficiales, siendo esta data de fácil acceso a los investigadores. Por último, se debe señalar que una gran cantidad de artículos (11) mostraron un rango de precisión mayor o igual al 90%, lo que se puede considerar como un rango 23RISTI, N.º 50, 06/2023 RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação de precisión aceptable para modelos de machine learning que busquen detectar la enfermedad del dengue. Referencias Abdualgalil, B., Abraham, S., & Ismael, W. M. (2022). Early Diagnosis for Dengue Disease Prediction Using Efficient Machine Learning Techniques Based on Clinical Data. Journal of Robotics and Control, 3(3), 257–268. https://doi.org/10.18196/ jrc.v3i3.14387 Aleixo, R., Kon, F., Rocha, R., Camargo, M. S., & Camargo, R. Y. (2022). Predicting Dengue Outbreaks with Explainable Machine Learning. In 2022 22nd International Symposium on Cluster, Cloud and Internet Computing (CCGrid) 2022, (940–947). https://doi.org/10.1109/CCGrid54584.2022.00114 Appice, A., Gel, Y. R., Iliev, I., Lyubchich, V., & Malerba, D. (2020). A Multi-Stage Machine Learning Approach to Predict Dengue Incidence: A Case Study in Mexico. IEEE Access, 8, 52713–52725. https://doi.org/10.1109/ACCESS.2020.2980634 Baker, Q. B., Faraj, D., & Alguzo, A. (2021). Forecasting Dengue Fever Using Machine Learning Regression Techniques. In 2021 12th International Conference on Information and Communication Systems, ICICS 2021, May, 157–163. https://doi. org/10.1109/ICICS52457.2021.9464619 Balamurugan, S. A., Mallick, M. S. M., & Chinthana, G. (2020). Improved prediction of dengue outbreak using combinatorial feature selector and classifier based on entropy weighted score based optimal ranking. Informatics in Medicine Unlocked, 20(March), 100400. https://doi.org/10.1016/j.imu.2020.100400 Bauxell, J., Vall-llossera, M., & Gurgel, H. (2021). Machine learning techniques using enviromental data from remote sensing applied to modeling dengue risk in Brazil. In International Geoscience and Remote Sensing Symposium, (4608–4611). https:// doi.org/10.1109/IGARSS47720.2021.9554704 Benedum, C. M., Shea, K. M., Jenkins, H. E., Kim, L. Y., & Markuzon, N. (2020). Weekly dengue forecasts in Iquitos, Peru; San Juan, Puerto Rico; and Singapore. PLoS Neglected Tropical Diseases, 14(10), 1–26. https://doi.org/10.1371/journal. pntd.0008710 Bokonda, P. L., Ouazzani-Touhami, K., & Souissi, N. (2021). Which Machine Learning method for outbreaks predictions? In 2021 IEEE 11th Annual Computing and Communication Workshop and Conference, CCWC 2021, Ml, (825–828). https:// doi.org/10.1109/CCWC51732.2021.9376061 Bravo, J., Alarcón, R., Valdivia, C., & Serquén, O. (2023). Application of Machine Learning Techniques to Predict Visitors to the Tourist Attractions of the Moche Route in Peru. Sustainability, 15(11), 8967. https://doi.org/10.3390/SU15118967 Chattopadhyay, A. K., & Chattopadhyay, S. (2022). VIRDOCD: A VIRtual DOCtor to predict dengue fatality. Expert Systems, 39(1), 1–17. https://doi.org/10.1111/ exsy.12796 24 RISTI, N.º 50, 06/2023 Una revisión sistemática de Modelos de clasificación de dengue utilizando machine learning Choubey, D. K., Mishra, A., Pradhan, S. K., & Anand, N. (2021). Soft computing techniques for dengue prediction. In Proceedings - 2021 IEEE 10th International Conference on Communication Systems and Network Technologies, CSNT 2021, (648–653). https://doi.org/10.1109/CSNT51715.2021.9509706 Cubas, J. V., & Maquen-Niño, G. L. E. (2022). Machine learning model in the detection of phishing websites. RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação, (E52), 161–173. https://www.scopus.com/record/display.uri?eid=2- s2.0-85143599912&origin=resultslist&sort=plf-f Ferdousi, T., Cohnstaedt, L. W., & Scoglio, C. M. (2021). A Windowed Correlation-Based Feature Selection Method to Improve Time Series Prediction of Dengue Fever Cases. IEEE Access, 9, 141210–141222. https://doi.org/10.1109/ACCESS.2021.3120309 Ho, T. S., Weng, T. C., Wang, J., Der Han, H. C., Cheng, H. C., Yang, C. C., Yu, C. H., Liu, Y. J., Hu, C. H., Huang, C. Y., Chen, M. H., King, C. C., Oyang, Y. J., & Liu, C. C. (2020). Comparing machine learning with case-control models to identify confirmed dengue cases. PLoS Neglected Tropical Diseases, 14(11), 1–21. https:// doi.org/10.1371/journal.pntd.0008843 Huang, S. W., Tsai, H. P., Hung, S. J., Ko, W. C., & Wang, J. R. (2020). Assessing the risk of dengue severity using demographic information and laboratory test results with machine learning. PLoS Neglected Tropical Diseases, 14(12) 1–19. https://doi. org/10.1371/journal.pntd.0008960 Kamesh, R., & Sivakumar, N. (2020). Design and implementation of realtime detection of dengue using machine learning. Journal of Advanced Research in Dynamical and Control Systems, 12(5 Special Issue), 1013–1025. https://doi.org/10.5373/ JARDCS/V12SP5/20201851 Kaur, L., Bhatia, R., & Nagpal, S. (2021). A Machine Learning Approach for Predicting Dengue Outbreak. In Proceedings - 2021 3rd International Conference on Advances in Computing, Communication Control and Networking, ICAC3N 2021, (60–65). https://doi.org/10.1109/ICAC3N53548.2021.9725539 Khan Dourjoy, S., Rabbani Rafi, A., Nasrin Tumpa, Z., & Saifuzzaman, M. (2021). A Comparative Study on Prediction of Dengue Fever Using Machine Learning Algorithm. In Lecture Notes in Networks and Systems (Vol. 127). https://doi. org/10.1007/978-981-15-4218-3_15 Koplewitz, G., Lu, F., Clemente, L., Buckee, C., & Santillana, M. (2022). Predicting dengue incidence leveraging internet-based data sources. A case study in 20 cities in Brazil. PLoS Neglected Tropical Diseases, 16(1). https://doi.org/10.1371/ JOURNAL.PNTD.0010071 Kumar, S., Rahman, M., Howlader, A., Siddiqi, U., Mohi, K., Borhan, R., & Rahman, E. (2022). Prediction of dengue incidents using hospitalized patients, metrological and socio-economic data in Bangladesh_ A machine learning. Plos One. https:// doi.org/https://doi.org/10.1371/journal.pone.0270933 25RISTI, N.º 50, 06/2023 RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação Maquen-Niño, G. L. E., Sandoval-Juarez, A. A., Veliz La Rosa, R. A., Carrión-Barco, G., Adrianzén-Olano, I., Vega-Huerta, H., & De-La-Cruz-VdV, P. (2023). Brain Tumor Classification Deep Learning Model Using Neural Networks. International Journal of Online and Biomedical Engineering, 19(9), 81–92. https://doi.org/10.3991/ IJOE.V19I09.38819 Maquen-Niño, G. L. E., Villegas-Cubas, J. E., Celis-Bravo, P. J., Carrión-Barco, G., & Adrianzen-Olano, I. (2022). Integrative methodology model for the creation of pathfinding systems. RISTI - Revista Iberica de Sistemas e Tecnologias de Informacao, (E51), 46–57. https://www.researchgate.net/publication/370442097_ Integrative_methodology_model_for_the_creation_of_pathfinding_systems McGough, S., Clemente, L., Kutz, N., & Santillana, M. (2021). A dinamyc, ensemble leanring approach to forecast dengue fever epidemic years in Brazil using weather and population susceptibility cycles. RSIF. 18(179). https://doi.org/10.1098/ rsif.2020.1006 Nalini, C., Shanthakumari, R., Prasanna, R. V., Nikilesh, A., & Pranav, S. M. N. (2022). Prediction of dengue infection using Machine Learning. In 2022 International Conference on Computer Communication and Informatics, ICCCI 2022; https:// doi.org/10.1109/ICCCI54379.2022.9740924 Nguyen, V.-H., Tuyet-Hanh, T. T., Mulhall, J., Minh, H. V., Duong, T. Q., Chien, N. V., Nhung, N. T. T., Lan, V. H., Minh, H. B., Cuong, D., Bich, N. N., Quyen, N. H., Linh, T. N. Q., Tho, N. T., Nghia, N. D., Anh, L. V. Q., Phan, D. T. M., Hung, N. Q. V.,& Son, M. T. (2022). Deep learning models for forecasting dengue fever based on climate data in Vietnam. PLOS Neglected Tropical Diseases, 16(6), e0010509. https://doi.org/10.1371/journal.pntd.0010509 Ochida, N., Mangeas, M., Dupont-Rouzeyrol, M., Dutheil, C., Forfait, C., Peltier, A., Descloux, E., & Menkes, C. (2022). Modeling present and future climate risk of dengue outbreak, a case study in New Caledonia. Environmental Health: A Global Access Science Source, 21(1), 1–10. https://doi.org/10.1186/s12940-022-00829-z OMS. (2022). Dengue y dengue grave. https://www.who.int/es/news-room/fact- sheets/detail/dengue-and-severe-dengue Pérez, L. G. A., García, M. I. B., Babici, V. R., & Monge, E. J. A. (2022). Dengue fever after the covid-19 pandemic: a statistical software analysis of its current situation in Ecuador. RISTI - Revista Iberica de Sistemas e Tecnologias de Informacao, (E53), 362–374. Rahman, M. S., Pientong, C., Zafar, S., Ekalaksananan, T., Paul, R. E., Haque, U., Rocklöv, J., & Overgaard, H. J. (2021). Mapping the spatial distribution of the dengue vector Aedes aegypti and predicting its abundance in northeastern Thailand using machine-learning approach. One Health, 13(December). https://doi.org/10.1016/j. onehlt.2021.100358 26 RISTI, N.º 50, 06/2023 Una revisión sistemática de Modelos de clasificación de dengue utilizando machine learning Raizada, S., Mala, S., & Shankar, A. (2020). Vector borne disease outbreak prediction by machine learning. In Proceedings of the International Conference on Smart Technologies in Computing, Electrical and Electronics, ICSTCEE 2020, (213–218). https://doi.org/10.1109/ICSTCEE49637.2020.9277286 Rana, S. K., Boruah, A. N., Biswas, S. K., Chakraborty, M., & Purkayastha, B. (2022). Dengue Fever Prediction using Machine Learning Analytics. In 2022 International Conference on Machine Learning, Big Data, Cloud and Parallel Computing. https:// doi.org/10.1109/COM-IT-CON54601.2022.9850923 Salim, N. A. M., Wah, Y. B., Reeves, C., Smith, M., Yaacob, W. F. W., Mudin, R. N., Dapari, R., Sapri, N. N. F. F., & Haque, U. (2021). Prediction of dengue outbreak in Selangor Malaysia using machine learning techniques. Scientific Reports, 11(1), 1–9. https://doi.org/10.1038/s41598-020-79193-2 Sarma, D., Hossain, S., Mittra, T., Bhuiya, M. A. M., Saha, I., & Chakma, R. (2020). Dengue Prediction using Machine Learning Algorithms. In IEEE Region 10 Humanitarian Technology Conference, R10-HTC. https://doi.org/10.1109/R10- HTC49770.2020.9357035 Siddiq, A., Shukla, N., & Pradhan, B. (2021). Predicting Dengue Fever Transmission Using Machine Learning Methods. In 2021 IEEE International Conference on Industrial Engineering and Engineering Management, IEEM 2021, 2007, (21–26). https://doi.org/10.1109/IEEM50564.2021.9672977 Singh, K. D. (2021). Particle Swarm Optimization assisted Support Vector Machine based Diagnostic System for Dengue prediction at the early stage. In Proceedings - 2021 3rd International Conference on Advances in Computing, Communication Control and Networking, ICAC3N 2021, (844–848). https://doi.org/10.1109/ ICAC3N53548.2021.9725670 Souza, C., Maia, P., Stolerman, L. M., Rolla, V., & Velho, L. (2022). Predicting dengue outbreaks in Brazil with manifold learning on climate data (Formula presented). Expert Systems with Applications, 192(November 2020), 116324. https://doi. org/10.1016/j.eswa.2021.116324 Srivastava, S., Soman, S., Rai, A., & Cheema, A. S. (2020). An online learning approach for dengue fever classification. In Proceedings - IEEE Symposium on Computer-Based Medical Systems, (pp. 163–168). https://doi.org/10.1109/ CBMS49503.2020.00038 Sukama, Y., Hertono, G. F., Handari, B. D., & Aldila, D. (2020). Comparing activation functions in predicting dengue hemorrhagic fever cases in DKI Jakarta using u. In AIP Conference Proceedings, 2296. https://doi.org/10.1063/5.0030456 Tanawi, I. N., Vito, V., Sarwinda, D., Tasman, H., & Hertono, G. F. (2021). Support Vector Regression for Predicting the Number of Dengue Incidents in DKI Jakarta. Procedia Computer Science, 179(2020), 747–753. https://doi.org/10.1016/j. procs.2021.01.063 27RISTI, N.º 50, 06/2023 RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação Xu, J., Xu, K., Li, Z., Meng, F., Tu, T., Xu, L., & Liu, Q. (2020). Forecast of dengue cases in 20 chinese cities based on the deep learning method. International Journal of Environmental Research and Public Health, 17(2). https://doi.org/10.3390/ ijerph17020453 Yavari Nejad, F., & Varathan, K. D. (2021). Identification of significant climatic risk factors and machine learning models in dengue outbreak prediction. BMC Medical Informatics and Decision Making, 21(1), 1–12. https://doi.org/10.1186/s12911-021- 01493-y