Modelo de aprendizaje supervisado basado en el algoritmo XGBoost para predicción de la incidencia del dengue

Padilla Pierola, Jim Harold

Modelo de aprendizaje supervisado basado en el algoritmo XGBoost para predicción de la incidencia del dengue

Files

Tesis_Jim Harold Padilla Pierola.pdf (969.93 KB)

Formato no Exclusiva Jim Harold.pdf (140.44 KB)

Date

2024-01-12

Authors

Padilla Pierola, Jim Harold

Publisher

Universidad Nacional de San Martín. Fondo Editorial

Abstract

La identificación prematura de los casos de dengue es importante para la realización de las acciones de prevención y control por parte de las entidades locales. Esta investigación, presenta una perspectiva haciendo uso de un modelo aprendizaje automático supervisado de regresión no lineal para predecir la incidencia del dengue. Se empleó un set de datos conformada por 272 periodos semanales, con datos históricos (AR) y de Google Trends (GT). El modelo fue entrenado con conjunto de datos perteneciente a 20 ciudades de Brasil con aspiración a su replicabilidad en la región San Martín, Perú. La segmentación del set de datos fue los primeros 258 periodos para entrenamiento y los 14 últimos para prueba. Se utilizó la regresión no lineal del algoritmo de “Extreme Gradient Boosting” (XGBoost), por su buen desempeño en casuísticas que no tienen proporcionalidad entre predictores y objetivo. Se emplearon técnicas para el preprocesamiento de datos, selección de características y elección de hiperparámetros para construir modelos generalizados para cada una de las 20 ciudades, en relación a solamente data histórica, Google Trends y la combinación de ambas. Los resultados obtenidos evidencian que los modelos entrenados pueden ser utilizados en 15 de las 20 ciudades. Los modelos que consumen datos de Google Trends y la combinación con datos históricos fueron los que mejores desempeños tuvieron, para la evaluación de los modelos se valió de las métricas de evaluación: RMSE, R-RMSE, R^2 y Correlación de Pearson. Evidenciando la capacidad del modelo en la predicción de la incidencia del dengue.
The early identification of dengue cases is important for the implementation of prevention and control actions by local entities. This research presents a perspective using a nonlinear regression supervised machine learning model to predict the incidence of dengue. A dataset of 272 weekly periods was used, with historical data (AR) and Google Trends (GT). The model was trained with data from 20 cities in Brazil with the aim of replicating it in the San Martin region of Peru. The segmentation of the data set was the first 258 periods for training and the last 14 for testing. The non-linear regression of the "Extreme Gradient Boosting" (XGBoost) algorithm was used, due to its good performance in cases that do not have proportionality between predictors and target. Techniques for data preprocessing, feature selection and choice of hyperparameters were used to build generalized models for each of the 20 cities, in relation to historical data only, Google Trends and the combination of both. The results obtained show that the trained models can be used in 15 of the 20 cities. The models that consume data from Google Trends and the combination with historical data were the best performers. The following evaluation metrics were used to evaluate the models: RMSE, R-RMSE, R^2 and Pearson's Correlation, evidencing the capacity of the model in the prediction of dengue incidence.

Keywords

Aprendizaje Automático, Predicción, Dengue, XGBoost, Google

Citation

Padilla-Pierola, J. H. (2024). Modelo de aprendizaje supervisado basado en el algoritmo XGBoost para predicción de la incidencia del dengue. Tesis para optar el grado de Ingeniero de Sistemas e Informática. Facultad de Ingeniería de Sistemas e Informática, Universidad Nacional de San Martín, Tarapoto, Perú.

URI

https://hdl.handle.net/11458/6248

Collections

(Br.) Ingeniería de Sistemas e Informática

Full item page

Modelo de aprendizaje supervisado basado en el algoritmo XGBoost para predicción de la incidencia del dengue

Files

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Keywords

Citation

URI

Collections