Published:
2026-05-18Issue:
Vol. 22 No. 2 (2025)Section:
Social environmentSelección de atributos mediante feature importance para la clasificación de casos de dengue en México
Selection of attributes using feature importance for the classification of dengue cases in Mexico
SELEÇÃO DE ATRIBUTOS UTILIZANDO A IMPORTÂNCIA DAS CARACTERÍSTICAS PARA A CLASSIFICAÇÃO DE CASOS DE DENGUE NO MÉXICO
Keywords:
Dengue, Feature selection, Machine learning, Epidemiology, Public health (en).Keywords:
Dengue, Selección de características, Aprendizaje automático, Epidemiología, Salud pública (es).Keywords:
Dengue, Seleção de características, Aprendizagem automática, Epidemiologia, Saúde pública (pt).Downloads
Abstract (es)
El dengue es un importante reto para la salud pública en México, con una incidencia creciente y recursos diagnósticos limitados en las regiones endémicas. Este estudio propone el uso de técnicas de aprendizaje automático combinadas con un algoritmo personalizado de importancia de características para mejorar la clasificación de los casos de dengue usando variables con el fin de apoyar la vigilancia epidemiológica. El dataset proviene de los datos del conjunto de datos «Enfermedades Transmitidas por Vector» del Ministerio de Salud de México (febrero de 2024-febrero de 2025) y se definió la variable DICTAMEN (casos confirmados frente a casos negativos) como objetivo de clasificación. El método de importancia de las características basado en árboles de decisión redujo el conjunto de datos de 22 a 7 atributos clave, eliminando las variables redundantes y menos informativas. Se probaron algoritmos más usados en la literatura (Random Forest, Naive Bayes, MLP, entre otros) tanto en el conjunto de datos completo como en el reducido. Los resultados mostraron mejoras en la precisión y el equilibrio, especialmente en el caso de MLP y Naive Bayes. La vigilancia epidemiológica puede implementarse en dispositivos móviles, lo que permite un uso más amplio en sistemas de salud con recursos limitados.
Abstract (en)
Dengue fever is a major public health challenge in Mexico, with increasing incidence and limited diagnostic resources in endemic regions. This study proposes the use of machine learning techniques combined with a customized feature importance algorithm to improve the classification of dengue cases using variables to support epidemiological surveillance. The dataset comes from the Mexican Ministry of Health's “Vector-Borne Diseases” dataset (February 2024-February 2025), and the DICTAMEN variable (confirmed cases versus negative cases) was defined as the classification target. The feature importance method based on decision trees reduced the dataset from 22 to 7 key attributes, eliminating redundant and less informative variables. The most commonly used algorithms in the literature (Random Forest, Naive Bayes, MLP, among others) were tested on both the complete and reduced datasets. The results showed improvements in accuracy and balance, especially in the case of MLP and Naive Bayes. Epidemiological surveillance can be implemented on mobile devices, allowing for wider use in health systems with limited resources.
Abstract (pt)
A dengue é um grande desafio para a saúde pública no México, com uma incidência crescente e recursos de diagnóstico limitados nas regiões endémicas. Este estudo propõe o uso de técnicas de aprendizagem automática combinadas com um algoritmo personalizado de importância de características para melhorar a classificação dos casos de dengue usando variáveis com o objetivo de apoiar a vigilância epidemiológica. O conjunto de dados provém dos dados do conjunto de dados «Doenças Transmitidas por Vetores» do Ministério da Saúde do México (fevereiro de 2024-fevereiro de 2025) e a variável DICTAMEN (casos confirmados versus casos negativos) foi definida como objetivo de classificação. O método de importância das características baseado em árvores de decisão reduziu o conjunto de dados de 22 para 7 atributos-chave, eliminando as variáveis redundantes e menos informativas. Os algoritmos mais usados na literatura (Random Forest, Naive Bayes, MLP, entre outros) foram testados tanto no conjunto de dados completo quanto no reduzido. Os resultados mostraram melhorias na precisão e no equilíbrio, especialmente no caso de MLP e Naive Bayes. A vigilância epidemiológica pode ser implementada em dispositivos móveis, permitindo um uso mais amplo em sistemas de saúde com recursos limitados.
References
[1] World Health Organization, “Dengue and severe dengue,” WHO Fact Sheet, Oct. 2023. [Online]. Available: https://www.who.int/news-room/fact sheets/detail/dengue-and-severe-dengue
[2] S. W. Huang, H. P. Tsai, S. J. Hung, W. C. Ko, and J. R. Wang, “Assessing the risk of dengue severity using demographic information and laboratory test results with machine learning,” PLoS Neglected Tropical Diseases, vol. 14, no. 12, p. e0008960, Dec. 2020. [Online]. Available: https://doi.org/10.1371/journal.pntd.0008960
[3] O. Mendoza-Cano et al., “Spatial patterns and clustering of dengue incidence in Mexico: Analysis of Moran’s index across 2,471 municipalities from 2022 to 2024”, PLOS One, vol. 20, núm. 5, p. e0324754, may 2025, doi: 10.1371/journal.pone.0324754.
[4] S. B. Halstead, “Dengue,” The Lancet, vol. 370, no. 9599, pp. 1644–1652, Nov. 2007. [Online]. Available: https://doi.org/10.1016/S01406736(07)6160
[5] S. W. Huang, H. P. Tsai, S. J. Hung, W. C. Ko, and J. R. Wang, “Assessing the risk of dengue severity using demographic information and laboratory test results with machine learning,” PLoS Neglected Tropical Diseases, vol. 14, no. 12, p. e0008960, Dec. 2020. [Online]. Available: https://doi.org/10.1371/journal.pntd.000890
[6] C. Carvajal, C. Benavides, and P. Parra, “Machine learning models to predict dengue outbreaks: A comparison of approaches in Colombia,” International Journal of Medical Informatics, vol. 117, pp. 62–73, 2018. [Online]. Available: https://doi.org/10.1016/j.ijmedinf.2018.04.4
[7] I. Guyon y A. Elisseeff, “An introduction to variable and feature selection,” Journal of Machine Learning Research, vol. 3, pp. 1157–1182, 2003.
[8] L. Breiman, J. Friedman, R. Olshen y C. Stone, Classification and Regression Trees. Belmont, CA: Wadsworth, 1984.
[9] G. Louppe, L. Wehenkel, A. Sutera, y P. Geurts, “Understanding variable importances in forests of randomized trees,” Advances in Neural Information Processing Systems, vol. 26, 2013.
[10] D. W. Aha, Lazy Learning. Boston, MA, USA: Springer Science+Business Media, 1997.
[11] T. M. Mitchell, Machine Learning. New York, NY, USA: McGraw-Hill, 1997.
[12] J. R. Quinlan, C4.5: Programs for Machine Learning. San Mateo, CA, USA: Morgan Kaufmann Publishers, 1993.
[13] L. Breiman, "Random forests," Machine Learning, vol. 45, no. 1, pp. 5–32, 2001, doi: 10.1023/A:1010933404324.
[14] C. Cortes and V. Vapnik, "Support-vector networks," Machine Learning, vol. 20, no. 3, pp. 273–297, 1995, doi: 10.1007/BF00994018.
[15] D. R. Cox, "The regression analysis of binary sequences," Journal of the Royal Statistical Society: Series B (Methodological), vol. 20, no. 2, pp. 215–242, 1958.
[16] D. E. Rumelhart, G. E. Hinton, and R. J. Williams, "Learning representations by back-propagating errors," Nature, vol. 323, no. 6088, pp. 533–536, 1986, doi: 10.1038/323533a0.
How to Cite
IEEE
ACM
ACS
APA
ABNT
Chicago
Harvard
MLA
Turabian
Vancouver
Download Citation
Visitas
Downloads
License
Copyright (c) 2026 Revista Vínculos

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.
3.png)
Creative Commons Attribution 4.0 Colombia
