Modelo de aprendizaje supervisado basado en el algoritmo XGBoost para predicción de la incidencia del dengue
Loading...
Date
2024-01-12
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Universidad Nacional de San Martín. Fondo Editorial
Abstract
La identificación prematura de los casos de dengue es importante para la realización de las acciones de prevención y control por parte de las entidades locales. Esta investigación, presenta una perspectiva haciendo uso de un modelo aprendizaje automático supervisado de regresión no lineal para predecir la incidencia del dengue. Se empleó un set de datos conformada por 272 periodos semanales, con datos históricos (AR) y de Google Trends (GT). El modelo fue entrenado con conjunto de datos perteneciente a 20 ciudades de Brasil con aspiración a su replicabilidad en la región San Martín, Perú. La segmentación del set de datos fue los primeros 258 periodos para entrenamiento y los 14 últimos para prueba. Se utilizó la regresión no lineal del algoritmo de “Extreme Gradient Boosting” (XGBoost), por su buen desempeño en casuísticas que no tienen proporcionalidad entre predictores y objetivo. Se emplearon técnicas para el preprocesamiento de datos, selección de características y elección de hiperparámetros para construir modelos generalizados para cada una de las 20 ciudades, en relación a solamente data histórica, Google Trends y la combinación de ambas. Los resultados obtenidos evidencian que los modelos entrenados pueden ser utilizados en 15 de las 20 ciudades. Los modelos que consumen datos de Google Trends y la combinación con datos históricos fueron los que mejores desempeños tuvieron, para la evaluación de los modelos se valió de las métricas de evaluación: RMSE, R-RMSE, R^2 y Correlación de Pearson. Evidenciando la capacidad del modelo en la predicción de la incidencia del dengue.
The early identification of dengue cases is important for the implementation of prevention and control actions by local entities. This research presents a perspective using a nonlinear regression supervised machine learning model to predict the incidence of dengue. A dataset of 272 weekly periods was used, with historical data (AR) and Google Trends (GT). The model was trained with data from 20 cities in Brazil with the aim of replicating it in the San Martin region of Peru. The segmentation of the data set was the first 258 periods for training and the last 14 for testing. The non-linear regression of the "Extreme Gradient Boosting" (XGBoost) algorithm was used, due to its good performance in cases that do not have proportionality between predictors and target. Techniques for data preprocessing, feature selection and choice of hyperparameters were used to build generalized models for each of the 20 cities, in relation to historical data only, Google Trends and the combination of both. The results obtained show that the trained models can be used in 15 of the 20 cities. The models that consume data from Google Trends and the combination with historical data were the best performers. The following evaluation metrics were used to evaluate the models: RMSE, R-RMSE, R^2 and Pearson's Correlation, evidencing the capacity of the model in the prediction of dengue incidence.
The early identification of dengue cases is important for the implementation of prevention and control actions by local entities. This research presents a perspective using a nonlinear regression supervised machine learning model to predict the incidence of dengue. A dataset of 272 weekly periods was used, with historical data (AR) and Google Trends (GT). The model was trained with data from 20 cities in Brazil with the aim of replicating it in the San Martin region of Peru. The segmentation of the data set was the first 258 periods for training and the last 14 for testing. The non-linear regression of the "Extreme Gradient Boosting" (XGBoost) algorithm was used, due to its good performance in cases that do not have proportionality between predictors and target. Techniques for data preprocessing, feature selection and choice of hyperparameters were used to build generalized models for each of the 20 cities, in relation to historical data only, Google Trends and the combination of both. The results obtained show that the trained models can be used in 15 of the 20 cities. The models that consume data from Google Trends and the combination with historical data were the best performers. The following evaluation metrics were used to evaluate the models: RMSE, R-RMSE, R^2 and Pearson's Correlation, evidencing the capacity of the model in the prediction of dengue incidence.
Description
Keywords
Aprendizaje Automático, Predicción, Dengue, XGBoost, Google
Citation
Padilla-Pierola, J. H. (2024). Modelo de aprendizaje supervisado basado en el algoritmo XGBoost para predicción de la incidencia del dengue. Tesis para optar el grado de Ingeniero de Sistemas e Informática. Facultad de Ingeniería de Sistemas e Informática, Universidad Nacional de San Martín, Tarapoto, Perú.