Revisión y perspectivas para la construcción de bases de datos robustas con datos faltantes: caso aplicado a información financiera

Review and perspectives for the construction of robust databases with missing data: case applied to financial information

Autores/as

  • Gustavo Andrès Romero Fundación Universitaria Los Libertadores
  • Cristian Andrés González Prieto Fundación Universitaria Los Libertadores
  • María Angélica Díaz Barriosnuevos Fundación Universitaria Los Libertadores
  • Nataly Alejandra Rueda Menjura Fundación Universitaria Los Libertadores

Palabras clave:

database, imputation methods, KDD, missing values (en).

Palabras clave:

base de datos, métodos de imputación, KDD, valores faltantes (es).

Descargas

Resumen (es)

Contexto: Se propone un conjunto de opciones que ayudan a determinar el método más adecuado para subsanar en bases de datos de tamaño apreciable, condiciones iniciales de datos faltantes y que serán utilizadas en procesos de investigación.

Metodología: El presente artículo aborda una propuesta para el desarrollo y manejo de bases de datos robustas como el caso de registros financieros, enfocándose desde el proceso knowledge discovery in databases (KDD).

Resultados: Se desarrolla y prueba una metodología utilizando tres técnicas de imputación en una base de datos construida a partir de 1 253 280 registros financieros de 2238 empresas y que representan siete años de su actividad económica en la localidad de Chapinero, en la ciudad de Bogotá D. C.

Conclusiones: Se realiza un comparativo de los métodos de imputación como factor determinante para la elección del método de imputación y consolidación de la base para su posterior uso.

Financiamiento: Fundación Universitaria Los Libertadores.

Resumen (en)

Context: A set of options is proposed to help determine the most appropriate method to correct in databases of appreciable size, initial conditions of missing data and that will be used in research processes.

 

Methodology: This article addresses a proposal for the development and management of robust databases such as financial records, focusing from the Knowledge Discovery in Data bases (KDD) process.

Results: A methodology is developed and tested using three imputation techniques in a database built from 1,253,280 financial records of 2,238 companies that represent seven years of their economic activity in the town of Chapinero in the city of Bogotá D.C.

Conclusions: A comparison of the imputation methods is carried out as a determining factor for the choice of the imputation method and consolidation of the base for later use.

Financing: Fundación universitaria Los Libertadores

Biografía del autor/a

Gustavo Andrès Romero, Fundación Universitaria Los Libertadores

Gustavo Andrés Romero Duque

Magíster en Ingeniería Industrial, ingeniero de Producción. Docente Fundación Universitaria Los Libertadores. Bogotá

Cristian Andrés González Prieto, Fundación Universitaria Los Libertadores

Estadístico, magíster en Ciencias: Estadística. Docente Fundación Universitaria Los Libertadores. Bogotá, Colombia

María Angélica Díaz Barriosnuevos, Fundación Universitaria Los Libertadores

Ingeniera industrial. Fundación Universitaria Los Libertadores

Nataly Alejandra Rueda Menjura, Fundación Universitaria Los Libertadores

Ingeniera industrial. Fundación Universitaria Los Libertadores

Referencias

Alcaldía de Bogotá. (7 de 10 de 2021). Infraestructura de datos espaciales para el distrito capital. https://www.ideca.gov.co/sobre-ideca/la-ide-de-bogota.

Allison, P. (2002). Missing data. Sage. https://doi.org/10.4135/9781412985079

Altman, D. G. y Bland, J. M. (2007). Missing data. British Medical Journal, 334(7590), 424. https://doi.org/10.1136/bmj.38977.682025.2C.

Benítez, M. y Álvarez, M. (2008). Reconstrucción de series temporales en ciencias ambientales. Revista Latinoamericana de Recursos Naturales, 4(3), 326-335.

Booth, B. G., Keijsers, N. L. W., Sijbers, J. y Huysmans, T. (2019). An assessment of the information lost when applying data reduction techniques to dynamic plantar pressure measurements. Journal of Biomechanics, 87, 161-166. https://doi.org/10.1016/j.jbiomech.2019.02.008.

Brintha Rajakumari, S. y Nalini, C. (2014). An efficient data mining dataset preparation using aggregation in relational database. Indian Journal of Science and Technology, 7, 44-46. https://doi.org/10.17485/ijst/2014/v7iS5/50381.

Cañizares, M., Barroso, I. y Alfonso, K. (2003). Datos incompletos: una mirada crítica para su manejo en estudios sanitarios. Gaceta Sanitaria, 18(1), 58-63. https://doi.org/10.1016/s0213-9111(04)72000-2.

Carpenter, J. y Kenward, M. (2013). Multiple imputation and its application. Wiley. https://doi.org/10.1002/9781119942283

Dagnino, J. (2014). Bioestadística y epidemiología. Datos faltantes (missing values). Revista Chilena de Anestesia, 43(4), 332-334. https://doi.org/10.25237/revchilanestv43n02.03

Departamento Nacional de Estadística (DANE). (22 de 08 de 2020). Estadísticas por tema. https://www.dane.gov.co/index.php/estadisticas-por-tema.

Detours, V., Dumont, J. E., Bersini, H. y Maenhaut, C. (2003). Integration and cross-validation of high-throughput gene expression data: Comparing heterogeneous data sets. FEBS Letters, 546(1), 98-102. https://doi.org/10.1016/S0014-5793(03)00522-2.

Dong, Y. y Peng, C. Y. J. (2013). Principled missing data methods for researchers. SpringerPlus, 2(1), 1-17. https://doi.org/10.1186/2193-1801-2-222.

Enders, C. (2010). Applied missing data analysis. Guilford Press.

García Reinoso, P. L. (2015). Imputación de datos en series de precipitación diaria caso de estudio cuenca del río Quindío. Ingeniare, 5, 73-86. https://doi.org/10.18041/1909-2458/ingeniare.18.539.

Ge, Z. (2018). Process data analytics via probabilistic latent variable models: A tutorial review. Industrial and Engineering Chemistry Research, 57(38), 12646-12661. https://doi.org/10.1021/acs.iecr.8b02913.

Ge, Z. y Song, J. (2013). Non-gaussian process monitoring. En Multivariate statistical process control process monitoring methods and applications (pp. 13-27). Springer. https://doi.org/10.1007/978-1-4471-4513-4.

Geng, Z. y Li, K. (2003). Factorization of posteriors and partial imputation algorithm for graphical models with missing data. Statistics and Probability Letters, 64, 369-379. https://doi.org/10.1016/S0167-7152(03)00181-0

Giraldo, F., León, E. y Gómez, J. (2013). Caracterización de flujos de datos usando algoritmos de agrupamiento. Tecnura, 17(37), 153-166. https://doi.org/10.14483/udistrital.jour.tecnura.2013.3.a13

Gleason, T. y Staelin, R. (1975). A proposal for handling missing data. Psychometrika, 40(2), 229-252. https://doi.org/10.1007/BF02291569

Graham, J. (2012). Missing data: Analysis and design. Springer. https://doi.org/10.1007/978-1-4614-4018-5

Hemel, J., Van der Voet, H., Hindriks, F. R. y Van der Slik, W. (1987). Stepwise deletion: A technique for missing data handling in multivariate analysis. Analytical Chemical Acta, 193, 255-268. https://doi.org/10.1016/S0003-2670(00)86157-7

Herrera, C., Campos, J. y Carrillo, F. (2017). Estimación de datos faltantes de precipitación por el método de regresión lineal: caso de estudio Cuenca Guadalupe, Baja California, México. Redalyc, 25(71), 34-44. https://doi.org/10.33064/iycuaa201771598

Imtiaz, S. A. y Shah, S. L. (2008). Treatment of missing values in process data analysis. Canadian Journal of Chemical Engineering, 86(5), 838-858. https://doi.org/10.1002/cjce.20099.

Ingsrisawang, L. y Potawee, D. (2012). Multiple imputation for missing data in repeated measurements using MCMC and Copulas. Proceedings of the Internacional Multiconference of Engineers and Computer Scientists, II, 1-5.

Jarrett, R. G. (1978). The analysis of designed experiments with missing observations. Journal of the Royal Statistical Society. Series C (Applied Statistics), 27(1), 38-46. https://www.jstor.org/stable/2346224.

Jelicic, H., Phelps, E. y Lerner, R. (2009). Use of missing data methods in longitudinal studies: The persistence of bad practices in developmental psychology. Developmental Psychology, 45(4), 1195-1199. 10.1037/a0015665. PMID: 19586189. https://doi.org/10.1037/a0015665

Kadlec, P., Gabrys, B. y Strandt, S. (2009). Data-driven soft sensors in the process industry. Computers and Chemical Engineering, 33(4), 795-814. https://doi.org/10.1016/j.compchemeng.2008.12.012.

Kalton, G. y Kasprzyk, D. (1982). Imputing for Missing Survey Responses. American Statistical Association. Proceeding of the Section on Survey Research Methods.

Kim, W., Choi, B. J., Hong, E. K., Kim, S. K. y Lee, D. (2003). A taxonomy of dirty data. Data Mining and Knowledge Discovery, 7(1), 81-99. https://doi.org/10.1023/A:1021564703268.

Kodamana, H., Huang, B., Ranjan, R., Zhao, Y., Tan, R. y Sammaknejad, N. (2018). Approaches to robust process identification: A review and tutorial of probabilistic methods. Journal of Process Control, 66, 68-83. https://doi.org/10.1016/j.jprocont.2018.02.011.

Koikkalainen, P. (2002). Neural network for editing and imputation. University of Jyvâskylâ.

Lin, T. Y. (2002). Attribute transformations for data mining I: Theoretical explorations. International Journal of Intelligent Systems, 17(2), 213-222. https://doi.org/10.1002/int.10017.

Little, R. y Rubin, D. (1987). Statistical analysis with missing data. Series in Probability and Mathematical Statistics. John Wiley & Sons.

Little, R. J. A. y Rubin, D. B. (2002). Statistical analysis with missing data. Wiley & Sons. https://doi.org/10.1002/9781119013563

Little, R. J. y Rubin, D. (2019). Statistical analysis with missing data. John Wiley & Sons. https://doi.org/10.1002/9781119482260

Liu, X., Wang, X., Zou, L., Xia, J. y Pang, W. (2020). Spatial imputation for air pollutants data sets via low rank matrix completion algorithm. Environment International, 139, 105713. https://doi.org/10.1016/j.envint.2020.105713.

Manterola, C. y Otzen, T. (2013). Por qué investigar y cómo conducir una investigación. International Journal of Morphology, 31(4), 1498-1504. https://doi.org/10.4067/S0717-95022013000400056.

Medina, F. y Galván, M. (2007). Imputación de datos: teoría y práctica. Serie “Estudios estadísticos y prospectivos”. Comisión Económica para América Latina y el Caribe (Cepal). https://doi.org/978-92-1-323101-2.

Mesa, D., Tsai, P. y Chambers, R. (2000). Using tree-based models for missing data imputation: An evaluation using Uk Census Data. Reporte técnico. Universidad de Southampton.

Moncada-Hernández, S. (2014). Cómo realizar una búsqueda de información eficiente. Foco en estudiantes, profesores e investigadores en el área educativa. Investigación en Educación Médica, 3(10), 106-115. http://www.riem.facmed.unam.mx/index.php/riem/article/view/362.

Olinsky, A., Chen, S. y Harlow, L. (2003). The comparative efficacy of imputation methods for missing data in structural equation modeling. European Journal of Operational Research, 151(1), 53-79. https://doi.org/10.1016/S0377-2217(02)00578-7.

Peugh, J. y Enders, C. (2004). Missing data in educational research: A review of reporting practices and suggestions for improvement. Review of Educational Research, 74, 525e556. https://doi.org/10.3102/00346543074004525

Puerta Goicoechea, A. (2002). Imputación basada en árboles de clasificación. Eustat.

Timaran, R. y Yépez, M. C. (2012). La minería de datos aplicada al descubrimiento de patrones de supervivencia en mujeres con cáncer invasivo de cuello uterino. Universidad y Salud, 14(2), 117-129.

Rubin D.B., (1976). Inference and missing data. Biometrika, 63, 581-592. https://doi.org/10.1093/biomet/63.3.581

Rubin, D. B. (2004). Multiple imputation for nonresponse in surveys. John Wiley & Sons.

Sande, I. G. (1982). Imputation in Surveys: Coping with reality. The American Statistician, 36(3a), 145-152. https://doi.org/10.1080/00031305.1982.10482816.

Schafer, J. L. y Graham, J. W. (2002). Missing data: Our view of the state of the art. Psychological Methods, 7(2), 147-177. https://doi.org/10.1037/1082-989X.7.2.147.

Superintendencia de Sociedades. (08 de abril de 2020). Asuntos económicos y societarios. https://www.supersociedades.gov.co/delegatura_aec/Paginas/Base-completa-EF-2019.aspx.

Timarán-Pereira, S. R., Hernández-Arteaga, I., Caicedo-Zambrano, S. J., Hidalgo-Troya, A. y Alvarado-Pérez, J. C. (2016). El proceso de descubrimiento de conocimiento en bases de datos. Ingenierías, 8(26), 63-86.

Todeschini, R. (1990). Weighted k-nearest neighbour method for the calculation of missing values. Chenometrics and Intelligent Laboratory Systems, 9, 201-205. https://doi.org/10.1016/0169-7439(90)80098-Q

Torres, M., Paz, K. y Salazar, F. G. (2014). Métodos de recolección de datos para una investigación. Boletín electrónico, 3, 1-21. http://bit.ly/2uhM4ot.

Useche, L. y Mesa, D. (2006). Una introducción a la imputación de valores perdidos. Terra Nueva Etapa, 12(31), 127-151.

Van Buuren, S., Brand, J., Groothuis-Oudshoorn, C. y Rubin, D. (2006). Fully conditional specification in multivariate imputation. Journal of Statistical Computation and Simulation, 76, 1049e1064. https://doi.org/10.1080/10629360600810434

Vásquez, M. (1995). Aportación al análisis biplot: un enfoque algebraico [Tesis doctoral]. Universidad de Salamanca.

Wilks, S. (1932): Moments and distributions of estimates of population parameters from fragmentary simple. Annals of Mathematical Statistics, B, 163-195. https://doi.org/10.1214/aoms/1177732885

Witten, I. H., Frank, E., Hall, M. A. y Pal, C. J. (2016). Data mining: Practical machine learning tools and techniques. 4.ª ed. Morgan Kaufmann.

Wood, A., White, I. y Thompson, S. (2004). Are missing outcome data adequately handled? A review of published randomized controlled trials in major medical journals. Clinical Trials, 1, 368e376. https://doi.org/10.1191/1740774504cn032oa

Xu, S., Lu, B., Baldea, M., Edgar, T. F., Wojsznis, W., Blevins, T. y Nixon, M. (2015). Data cleaning in the process industries. Reviews in Chemical Engineering, 31(5), 453-490. https://doi.org/10.1515/revce-2015-0022.

Cómo citar

APA

Romero, G. A., González Prieto, C. A., Díaz Barriosnuevos, M. A. ., & Rueda Menjura, N. A. . (2022). Revisión y perspectivas para la construcción de bases de datos robustas con datos faltantes: caso aplicado a información financiera. Tecnura, 27(75). https://doi.org/10.14483/22487638.18268

ACM

[1]
Romero, G.A., González Prieto, C.A., Díaz Barriosnuevos, M.A. y Rueda Menjura, N.A. 2022. Revisión y perspectivas para la construcción de bases de datos robustas con datos faltantes: caso aplicado a información financiera. Tecnura. 27, 75 (nov. 2022). DOI:https://doi.org/10.14483/22487638.18268.

ACS

(1)
Romero, G. A.; González Prieto, C. A.; Díaz Barriosnuevos, M. A. .; Rueda Menjura, N. A. . Revisión y perspectivas para la construcción de bases de datos robustas con datos faltantes: caso aplicado a información financiera. Tecnura 2022, 27.

ABNT

ROMERO, G. A.; GONZÁLEZ PRIETO, C. A.; DÍAZ BARRIOSNUEVOS, M. A. .; RUEDA MENJURA, N. A. . Revisión y perspectivas para la construcción de bases de datos robustas con datos faltantes: caso aplicado a información financiera. Tecnura, [S. l.], v. 27, n. 75, 2022. DOI: 10.14483/22487638.18268. Disponível em: https://revistas.udistrital.edu.co/index.php/Tecnura/article/view/18268. Acesso em: 7 dic. 2022.

Chicago

Romero, Gustavo Andrès, Cristian Andrés González Prieto, María Angélica Díaz Barriosnuevos, y Nataly Alejandra Rueda Menjura. 2022. «Revisión y perspectivas para la construcción de bases de datos robustas con datos faltantes: caso aplicado a información financiera». Tecnura 27 (75). https://doi.org/10.14483/22487638.18268.

Harvard

Romero, G. A., González Prieto, C. A., Díaz Barriosnuevos, M. A. . y Rueda Menjura, N. A. . (2022) «Revisión y perspectivas para la construcción de bases de datos robustas con datos faltantes: caso aplicado a información financiera», Tecnura, 27(75). doi: 10.14483/22487638.18268.

IEEE

[1]
G. A. Romero, C. A. González Prieto, M. A. . Díaz Barriosnuevos, y N. A. . Rueda Menjura, «Revisión y perspectivas para la construcción de bases de datos robustas con datos faltantes: caso aplicado a información financiera», Tecnura, vol. 27, n.º 75, nov. 2022.

MLA

Romero, G. A., C. A. González Prieto, M. A. . Díaz Barriosnuevos, y N. A. . Rueda Menjura. «Revisión y perspectivas para la construcción de bases de datos robustas con datos faltantes: caso aplicado a información financiera». Tecnura, vol. 27, n.º 75, noviembre de 2022, doi:10.14483/22487638.18268.

Turabian

Romero, Gustavo Andrès, Cristian Andrés González Prieto, María Angélica Díaz Barriosnuevos, y Nataly Alejandra Rueda Menjura. «Revisión y perspectivas para la construcción de bases de datos robustas con datos faltantes: caso aplicado a información financiera». Tecnura 27, no. 75 (noviembre 9, 2022). Accedido diciembre 7, 2022. https://revistas.udistrital.edu.co/index.php/Tecnura/article/view/18268.

Vancouver

1.
Romero GA, González Prieto CA, Díaz Barriosnuevos MA, Rueda Menjura NA. Revisión y perspectivas para la construcción de bases de datos robustas con datos faltantes: caso aplicado a información financiera. Tecnura [Internet]. 9 de noviembre de 2022 [citado 7 de diciembre de 2022];27(75). Disponible en: https://revistas.udistrital.edu.co/index.php/Tecnura/article/view/18268

Descargar cita

Visitas

25

Dimensions


PlumX


Descargas

Los datos de descargas todavía no están disponibles.