Revisión y perspectivas para la construcción de bases de datos robustas con datos faltantes: caso aplicado a información financiera

Gustavo Andrés Romero; Cristian Andrés  González Prieto; María Angélica  Díaz Barriosnuevos; Nataly Alejandra  Rueda Menjura

doi:10.14483/22487638.18268

Autores/as

Gustavo Andrés Romero Fundación Universitaria Los Libertadores
Cristian Andrés González Prieto Fundación Universitaria Los Libertadores
María Angélica Díaz Barriosnuevos Fundación Universitaria Los Libertadores
Nataly Alejandra Rueda Menjura Fundación Universitaria Los Libertadores

Palabras clave:

base de datos, métodos de imputación, KDD, valores faltantes (es).

Palabras clave:

database, imputation methods, KDD, missing values (en).

Descargas

Texto completo XML Autores/as Métricas disponibles Referencias Cómo citar

Biografía del autor/a

Gustavo Andrés Romero, Fundación Universitaria Los Libertadores

Gustavo Andrés Romero Duque

Magíster en Ingeniería Industrial, ingeniero de Producción. Docente Fundación Universitaria Los Libertadores. Bogotá

Cristian Andrés González Prieto, Fundación Universitaria Los Libertadores

Estadístico, magíster en Ciencias: Estadística. Docente Fundación Universitaria Los Libertadores. Bogotá, Colombia

María Angélica Díaz Barriosnuevos, Fundación Universitaria Los Libertadores

Ingeniera industrial. Fundación Universitaria Los Libertadores

Nataly Alejandra Rueda Menjura, Fundación Universitaria Los Libertadores

Ingeniera industrial. Fundación Universitaria Los Libertadores

Referencias

Alcaldía de Bogotá. (7 de 10 de 2021). Infraestructura de datos espaciales para el distrito capital. https://www.ideca.gov.co/sobre-ideca/la-ide-de-bogota.

Allison, P. (2002). Missing data. Sage. https://doi.org/10.4135/9781412985079 DOI: https://doi.org/10.4135/9781412985079

Altman, D. G. y Bland, J. M. (2007). Missing data. British Medical Journal, 334(7590), 424. https://doi.org/10.1136/bmj.38977.682025.2C. DOI: https://doi.org/10.1136/bmj.38977.682025.2C

Benítez, M. y Álvarez, M. (2008). Reconstrucción de series temporales en ciencias ambientales. Revista Latinoamericana de Recursos Naturales, 4(3), 326-335.

Booth, B. G., Keijsers, N. L. W., Sijbers, J. y Huysmans, T. (2019). An assessment of the information lost when applying data reduction techniques to dynamic plantar pressure measurements. Journal of Biomechanics, 87, 161-166. https://doi.org/10.1016/j.jbiomech.2019.02.008. DOI: https://doi.org/10.1016/j.jbiomech.2019.02.008

Brintha Rajakumari, S. y Nalini, C. (2014). An efficient data mining dataset preparation using aggregation in relational database. Indian Journal of Science and Technology, 7, 44-46. https://doi.org/10.17485/ijst/2014/v7iS5/50381. DOI: https://doi.org/10.17485/ijst/2014/v7sp5.20

Cañizares, M., Barroso, I. y Alfonso, K. (2003). Datos incompletos: una mirada crítica para su manejo en estudios sanitarios. Gaceta Sanitaria, 18(1), 58-63. https://doi.org/10.1016/s0213-9111(04)72000-2. DOI: https://doi.org/10.1016/S0213-9111(04)72000-2

Carpenter, J. y Kenward, M. (2013). Multiple imputation and its application. Wiley. https://doi.org/10.1002/9781119942283 DOI: https://doi.org/10.1002/9781119942283

Dagnino, J. (2014). Bioestadística y epidemiología. Datos faltantes (missing values). Revista Chilena de Anestesia, 43(4), 332-334. https://doi.org/10.25237/revchilanestv43n02.03 DOI: https://doi.org/10.25237/revchilanestv43n02.03

Departamento Nacional de Estadística (DANE). (22 de 08 de 2020). Estadísticas por tema. https://www.dane.gov.co/index.php/estadisticas-por-tema.

Detours, V., Dumont, J. E., Bersini, H. y Maenhaut, C. (2003). Integration and cross-validation of high-throughput gene expression data: Comparing heterogeneous data sets. FEBS Letters, 546(1), 98-102. https://doi.org/10.1016/S0014-5793(03)00522-2. DOI: https://doi.org/10.1016/S0014-5793(03)00522-2

Dong, Y. y Peng, C. Y. J. (2013). Principled missing data methods for researchers. SpringerPlus, 2(1), 1-17. https://doi.org/10.1186/2193-1801-2-222. DOI: https://doi.org/10.1186/2193-1801-2-222

Enders, C. (2010). Applied missing data analysis. Guilford Press.

García Reinoso, P. L. (2015). Imputación de datos en series de precipitación diaria caso de estudio cuenca del río Quindío. Ingeniare, 5, 73-86. https://doi.org/10.18041/1909-2458/ingeniare.18.539. DOI: https://doi.org/10.18041/1909-2458/ingeniare.18.539

Ge, Z. (2018). Process data analytics via probabilistic latent variable models: A tutorial review. Industrial and Engineering Chemistry Research, 57(38), 12646-12661. https://doi.org/10.1021/acs.iecr.8b02913. DOI: https://doi.org/10.1021/acs.iecr.8b02913

Ge, Z. y Song, J. (2013). Non-gaussian process monitoring. En Multivariate statistical process control process monitoring methods and applications (pp. 13-27). Springer. https://doi.org/10.1007/978-1-4471-4513-4. DOI: https://doi.org/10.1007/978-1-4471-4513-4_3

Geng, Z. y Li, K. (2003). Factorization of posteriors and partial imputation algorithm for graphical models with missing data. Statistics and Probability Letters, 64, 369-379. https://doi.org/10.1016/S0167-7152(03)00181-0 DOI: https://doi.org/10.1016/S0167-7152(03)00181-0

Giraldo, F., León, E. y Gómez, J. (2013). Caracterización de flujos de datos usando algoritmos de agrupamiento. Tecnura, 17(37), 153-166. https://doi.org/10.14483/udistrital.jour.tecnura.2013.3.a13 DOI: https://doi.org/10.14483/udistrital.jour.tecnura.2013.3.a13

Gleason, T. y Staelin, R. (1975). A proposal for handling missing data. Psychometrika, 40(2), 229-252. https://doi.org/10.1007/BF02291569 DOI: https://doi.org/10.1007/BF02291569

Graham, J. (2012). Missing data: Analysis and design. Springer. https://doi.org/10.1007/978-1-4614-4018-5 DOI: https://doi.org/10.1007/978-1-4614-4018-5

Hemel, J., Van der Voet, H., Hindriks, F. R. y Van der Slik, W. (1987). Stepwise deletion: A technique for missing data handling in multivariate analysis. Analytical Chemical Acta, 193, 255-268. https://doi.org/10.1016/S0003-2670(00)86157-7 DOI: https://doi.org/10.1016/S0003-2670(00)86157-7

Herrera, C., Campos, J. y Carrillo, F. (2017). Estimación de datos faltantes de precipitación por el método de regresión lineal: caso de estudio Cuenca Guadalupe, Baja California, México. Redalyc, 25(71), 34-44. https://doi.org/10.33064/iycuaa201771598 DOI: https://doi.org/10.33064/iycuaa201771598

Imtiaz, S. A. y Shah, S. L. (2008). Treatment of missing values in process data analysis. Canadian Journal of Chemical Engineering, 86(5), 838-858. https://doi.org/10.1002/cjce.20099. DOI: https://doi.org/10.1002/cjce.20099

Ingsrisawang, L. y Potawee, D. (2012). Multiple imputation for missing data in repeated measurements using MCMC and Copulas. Proceedings of the Internacional Multiconference of Engineers and Computer Scientists, II, 1-5.

Jarrett, R. G. (1978). The analysis of designed experiments with missing observations. Journal of the Royal Statistical Society. Series C (Applied Statistics), 27(1), 38-46. https://www.jstor.org/stable/2346224. DOI: https://doi.org/10.2307/2346224

Jelicic, H., Phelps, E. y Lerner, R. (2009). Use of missing data methods in longitudinal studies: The persistence of bad practices in developmental psychology. Developmental Psychology, 45(4), 1195-1199. 10.1037/a0015665. PMID: 19586189. https://doi.org/10.1037/a0015665 DOI: https://doi.org/10.1037/a0015665

Kadlec, P., Gabrys, B. y Strandt, S. (2009). Data-driven soft sensors in the process industry. Computers and Chemical Engineering, 33(4), 795-814. https://doi.org/10.1016/j.compchemeng.2008.12.012. DOI: https://doi.org/10.1016/j.compchemeng.2008.12.012

Kalton, G. y Kasprzyk, D. (1982). Imputing for Missing Survey Responses. American Statistical Association. Proceeding of the Section on Survey Research Methods.

Kim, W., Choi, B. J., Hong, E. K., Kim, S. K. y Lee, D. (2003). A taxonomy of dirty data. Data Mining and Knowledge Discovery, 7(1), 81-99. https://doi.org/10.1023/A:1021564703268. DOI: https://doi.org/10.1023/A:1021564703268

Kodamana, H., Huang, B., Ranjan, R., Zhao, Y., Tan, R. y Sammaknejad, N. (2018). Approaches to robust process identification: A review and tutorial of probabilistic methods. Journal of Process Control, 66, 68-83. https://doi.org/10.1016/j.jprocont.2018.02.011. DOI: https://doi.org/10.1016/j.jprocont.2018.02.011

Koikkalainen, P. (2002). Neural network for editing and imputation. University of Jyvâskylâ.

Lin, T. Y. (2002). Attribute transformations for data mining I: Theoretical explorations. International Journal of Intelligent Systems, 17(2), 213-222. https://doi.org/10.1002/int.10017. DOI: https://doi.org/10.1002/int.10017

Little, R. y Rubin, D. (1987). Statistical analysis with missing data. Series in Probability and Mathematical Statistics. John Wiley & Sons.

Little, R. J. A. y Rubin, D. B. (2002). Statistical analysis with missing data. Wiley & Sons. https://doi.org/10.1002/9781119013563 DOI: https://doi.org/10.1002/9781119013563

Little, R. J. y Rubin, D. (2019). Statistical analysis with missing data. John Wiley & Sons. https://doi.org/10.1002/9781119482260 DOI: https://doi.org/10.1002/9781119482260

Liu, X., Wang, X., Zou, L., Xia, J. y Pang, W. (2020). Spatial imputation for air pollutants data sets via low rank matrix completion algorithm. Environment International, 139, 105713. https://doi.org/10.1016/j.envint.2020.105713. DOI: https://doi.org/10.1016/j.envint.2020.105713

Manterola, C. y Otzen, T. (2013). Por qué investigar y cómo conducir una investigación. International Journal of Morphology, 31(4), 1498-1504. https://doi.org/10.4067/S0717-95022013000400056. DOI: https://doi.org/10.4067/S0717-95022013000400056

Medina, F. y Galván, M. (2007). Imputación de datos: teoría y práctica. Serie “Estudios estadísticos y prospectivos”. Comisión Económica para América Latina y el Caribe (Cepal). https://doi.org/978-92-1-323101-2.

Mesa, D., Tsai, P. y Chambers, R. (2000). Using tree-based models for missing data imputation: An evaluation using Uk Census Data. Reporte técnico. Universidad de Southampton.

Moncada-Hernández, S. (2014). Cómo realizar una búsqueda de información eficiente. Foco en estudiantes, profesores e investigadores en el área educativa. Investigación en Educación Médica, 3(10), 106-115. http://www.riem.facmed.unam.mx/index.php/riem/article/view/362. DOI: https://doi.org/10.1016/S2007-5057(14)72734-6

Olinsky, A., Chen, S. y Harlow, L. (2003). The comparative efficacy of imputation methods for missing data in structural equation modeling. European Journal of Operational Research, 151(1), 53-79. https://doi.org/10.1016/S0377-2217(02)00578-7. DOI: https://doi.org/10.1016/S0377-2217(02)00578-7

Peugh, J. y Enders, C. (2004). Missing data in educational research: A review of reporting practices and suggestions for improvement. Review of Educational Research, 74, 525e556. https://doi.org/10.3102/00346543074004525 DOI: https://doi.org/10.3102/00346543074004525

Puerta Goicoechea, A. (2002). Imputación basada en árboles de clasificación. Eustat.

Timaran, R. y Yépez, M. C. (2012). La minería de datos aplicada al descubrimiento de patrones de supervivencia en mujeres con cáncer invasivo de cuello uterino. Universidad y Salud, 14(2), 117-129.

Rubin D.B., (1976). Inference and missing data. Biometrika, 63, 581-592. https://doi.org/10.1093/biomet/63.3.581 DOI: https://doi.org/10.1093/biomet/63.3.581

Rubin, D. B. (2004). Multiple imputation for nonresponse in surveys. John Wiley & Sons.

Sande, I. G. (1982). Imputation in Surveys: Coping with reality. The American Statistician, 36(3a), 145-152. https://doi.org/10.1080/00031305.1982.10482816. DOI: https://doi.org/10.1080/00031305.1982.10482816

Schafer, J. L. y Graham, J. W. (2002). Missing data: Our view of the state of the art. Psychological Methods, 7(2), 147-177. https://doi.org/10.1037/1082-989X.7.2.147. DOI: https://doi.org/10.1037/1082-989X.7.2.147

Superintendencia de Sociedades. (08 de abril de 2020). Asuntos económicos y societarios. https://www.supersociedades.gov.co/delegatura_aec/Paginas/Base-completa-EF-2019.aspx.

Timarán-Pereira, S. R., Hernández-Arteaga, I., Caicedo-Zambrano, S. J., Hidalgo-Troya, A. y Alvarado-Pérez, J. C. (2016). El proceso de descubrimiento de conocimiento en bases de datos. Ingenierías, 8(26), 63-86.

Todeschini, R. (1990). Weighted k-nearest neighbour method for the calculation of missing values. Chenometrics and Intelligent Laboratory Systems, 9, 201-205. https://doi.org/10.1016/0169-7439(90)80098-Q DOI: https://doi.org/10.1016/0169-7439(90)80098-Q

Torres, M., Paz, K. y Salazar, F. G. (2014). Métodos de recolección de datos para una investigación. Boletín electrónico, 3, 1-21. http://bit.ly/2uhM4ot.

Useche, L. y Mesa, D. (2006). Una introducción a la imputación de valores perdidos. Terra Nueva Etapa, 12(31), 127-151.

Van Buuren, S., Brand, J., Groothuis-Oudshoorn, C. y Rubin, D. (2006). Fully conditional specification in multivariate imputation. Journal of Statistical Computation and Simulation, 76, 1049e1064. https://doi.org/10.1080/10629360600810434 DOI: https://doi.org/10.1080/10629360600810434

Vásquez, M. (1995). Aportación al análisis biplot: un enfoque algebraico [Tesis doctoral]. Universidad de Salamanca.

Wilks, S. (1932): Moments and distributions of estimates of population parameters from fragmentary simple. Annals of Mathematical Statistics, B, 163-195. https://doi.org/10.1214/aoms/1177732885 DOI: https://doi.org/10.1214/aoms/1177732885

Witten, I. H., Frank, E., Hall, M. A. y Pal, C. J. (2016). Data mining: Practical machine learning tools and techniques. 4.ª ed. Morgan Kaufmann.

Wood, A., White, I. y Thompson, S. (2004). Are missing outcome data adequately handled? A review of published randomized controlled trials in major medical journals. Clinical Trials, 1, 368e376. https://doi.org/10.1191/1740774504cn032oa DOI: https://doi.org/10.1191/1740774504cn032oa

Xu, S., Lu, B., Baldea, M., Edgar, T. F., Wojsznis, W., Blevins, T. y Nixon, M. (2015). Data cleaning in the process industries. Reviews in Chemical Engineering, 31(5), 453-490. https://doi.org/10.1515/revce-2015-0022. DOI: https://doi.org/10.1515/revce-2015-0022

Cómo citar

APA

Romero, G. A., González Prieto, C. A., Díaz Barriosnuevos, M. A. ., y Rueda Menjura, N. A. . (2023). Revisión y perspectivas para la construcción de bases de datos robustas con datos faltantes: caso aplicado a información financiera. Tecnura, 27(75), 12–37. https://doi.org/10.14483/22487638.18268

ACM

[1]

Romero, G.A. et al. 2023. Revisión y perspectivas para la construcción de bases de datos robustas con datos faltantes: caso aplicado a información financiera. Tecnura. 27, 75 (ene. 2023), 12–37. DOI:https://doi.org/10.14483/22487638.18268.

ACS

(1)

Romero, G. A.; González Prieto, C. A.; Díaz Barriosnuevos, M. A. .; Rueda Menjura, N. A. . Revisión y perspectivas para la construcción de bases de datos robustas con datos faltantes: caso aplicado a información financiera. Tecnura 2023, 27, 12-37.

ABNT

ROMERO, Gustavo Andrés; GONZÁLEZ PRIETO, Cristian Andrés; DÍAZ BARRIOSNUEVOS, María Angélica; RUEDA MENJURA, Nataly Alejandra. Revisión y perspectivas para la construcción de bases de datos robustas con datos faltantes: caso aplicado a información financiera. Tecnura, [S. l.], v. 27, n. 75, p. 12–37, 2023. DOI: 10.14483/22487638.18268. Disponível em: https://revistas.udistrital.edu.co/index.php/Tecnura/article/view/18268. Acesso em: 15 ene. 2026.

Chicago

Romero, Gustavo Andrés, Cristian Andrés González Prieto, María Angélica Díaz Barriosnuevos, y Nataly Alejandra Rueda Menjura. 2023. «Revisión y perspectivas para la construcción de bases de datos robustas con datos faltantes: caso aplicado a información financiera». Tecnura 27 (75):12-37. https://doi.org/10.14483/22487638.18268.

Harvard

Romero, G. A. (2023) «Revisión y perspectivas para la construcción de bases de datos robustas con datos faltantes: caso aplicado a información financiera», Tecnura, 27(75), pp. 12–37. doi: 10.14483/22487638.18268.

IEEE

[1]

G. A. Romero, C. A. González Prieto, M. A. . Díaz Barriosnuevos, y N. A. . Rueda Menjura, «Revisión y perspectivas para la construcción de bases de datos robustas con datos faltantes: caso aplicado a información financiera», Tecnura, vol. 27, n.º 75, pp. 12–37, ene. 2023.

MLA

Romero, Gustavo Andrés, et al. «Revisión y perspectivas para la construcción de bases de datos robustas con datos faltantes: caso aplicado a información financiera». Tecnura, vol. 27, n.º 75, enero de 2023, pp. 12-37, doi:10.14483/22487638.18268.

Turabian

Romero, Gustavo Andrés, Cristian Andrés González Prieto, María Angélica Díaz Barriosnuevos, y Nataly Alejandra Rueda Menjura. «Revisión y perspectivas para la construcción de bases de datos robustas con datos faltantes: caso aplicado a información financiera». Tecnura 27, no. 75 (enero 1, 2023): 12–37. Accedido enero 15, 2026. https://revistas.udistrital.edu.co/index.php/Tecnura/article/view/18268.

Vancouver

1.

Romero GA, González Prieto CA, Díaz Barriosnuevos MA, Rueda Menjura NA. Revisión y perspectivas para la construcción de bases de datos robustas con datos faltantes: caso aplicado a información financiera. Tecnura [Internet]. 1 de enero de 2023 [citado 15 de enero de 2026];27(75):12-37. Disponible en: https://revistas.udistrital.edu.co/index.php/Tecnura/article/view/18268

Descargar cita

Visitas

676

Dimensions

PlumX

Descargas

Los datos de descargas todavía no están disponibles.

Recibido: 14 de julio de 2022; Aceptado: 26 de septiembre de 2022

Resumen

Contexto:

Se propone un conjunto de opciones que ayudan a determinar el método más adecuado para subsanar en bases de datos de tamaño apreciable, condiciones iniciales de datos faltantes y que serán utilizadas en procesos de investigación.

Metodología:

El presente artículo aborda una propuesta para el desarrollo y manejo de bases de datos robustas como el caso de registros financieros, enfocándose desde el proceso knowledge discovery in databases (KDD).

Resultados:

Se desarrolla y prueba una metodología utilizando tres técnicas de imputación en una base de datos construida a partir de 1 253 280 registros financieros de 2238 empresas y que representan siete años de su actividad económica en la localidad de Chapinero, en la ciudad de Bogotá D. C.

Conclusiones:

Se realiza un comparativo de los métodos de imputación como factor determinante para la elección del método de imputación y consolidación de la base para su posterior uso.

Financiamiento:

Fundación Universitaria Los Libertadores.

Palabras clave:

base de datos, métodos de imputación, KDD, valores faltantes.

ABSTRACT

Context:

A set of options is proposed to help determine the most appropriate method to correct in databases of appreciable size, initial conditions of missing data and that will be used in research processes.

Methodology:

This article addresses a proposal for the development and management of robust databases such as financial records, focusing from the Knowledge Discovery in Data bases (KDD) process.

Results:

A methodology is developed and tested using three imputation techniques in a database built from 1,253,280 financial records of 2,238 companies that represent seven years of their economic activity in the town of Chapinero in the city of Bogotá D.C.

Conclusions:

A comparison of the imputation methods is carried out as a determining factor for the choice of the imputation method and consolidation of the base for later use.

Financing:

Fundación universitaria Los Libertadores

Keywords:

database, imputation methods, KDD, missing values.

Introducción

En una gran mayoría de estudios y en todos los campos del conocimiento se está constantemente recolectado datos que, con el tiempo, se convierten en grandes volúmenes de información. Para el manejo de estos, es esencial crear una base en la cual se pueda almacenar y, además, operar la información de forma adecuada para los fines pertinentes (Giraldo et al., 2013).

Este artículo tiene como propósito proporcionar una metodología para quienes se encuentren construyendo bases de datos, principalmente aquellos que se enfoquen en aspectos financieros. En este sentido, se exponen algunas técnicas para hallar y suplementar los datos faltantes, y se suministra una secuencia para su desarrollo, a partir de la búsqueda de información y la recolección de los datos hasta la consolidación final de la base.

Al mismo tiempo, en esta propuesta se tiene como objetivo determinar, de forma empírica, la confiabilidad y precisión de tres técnicas de imputación para datos faltantes con comportamiento longitudinal para el estudio de un fenómeno en casos particulares. Considerando los diferentes caminos que el investigador pueda tomar, se busca responder a las siguientes preguntas: ¿Cómo definir si la base está incompleta? ¿Qué pasa cuando la base está incompleta? ¿Cuándo se deben eliminar o imputar datos? ¿Cómo elegir el método más adecuado de imputación para la base de datos?

Implicaciones teóricas y empíricas

El knowledge discovery in databases (KDD) es, según Timarán et al. (2016), un proceso automático, el cual combina el descubrimiento y el análisis dentro de una base de datos, y se centra en la extracción de patrones inferidos a partir de los datos para ser analizados por el interesado. La mayoría de los autores tienden a resaltar los siguientes pasos en la metodología KDD, aplicables a la creación de bases de datos:

Recopilar e integrar datos. Como lo menciona Detours et al. (2003), esta fase ayuda a los investigadores a formar una visión integral de los datos existentes necesarios y priorizar mejor los esfuerzos experimentales.
Limpieza de datos. Según Kim et al. (2003), los datos deben ser limpiados para reparar datos sucios, es decir, todos aquellos incorrectos o que no sean acordes al comportamiento estándar. Esto garantizará un análisis más preciso.
Transformación de datos. Para Lin (2002), la transformación de los datos o atributos es necesaria para el descubrimiento del conocimiento aplicando métodos matemáticos diferentes dependiendo el tipo de datos que de manejen.
Reducción de datos. Se suprime la información irrelevante en el estudio; según Booth et al. (2019), se descarta información de cualquier tipo antes de que esta sea evaluada o tomada en cuenta dentro de un estudio.

Por otro lado, en la creación de bases de datos, Brintha Rajakumari y Nalini (2014) mencionan la agregación como concepto valioso y de gran importancia en el diseño. En esta, los datos son conocidos como objetos y pueden ser modelados mediante el diseño de aplicaciones de bases de datos.

Cuando se están ejecutando análisis en bases de datos, su resultado dependerá en gran medida de la integridad y precisión con que estos cuenten (Witten et al., 2016). Sin embargo, el análisis se puede topar datos faltantes y valores atípicos. Los datos de proceso con entradas faltantes, generalmente denominados incorrectos o contaminados, representan un gran desafío para la minería de datos y el monitoreo de ejercicios estadísticos (Imtiaz y Shah, 2008; Kadlec et al., 2009), debido a su complejidad de manejo (Ge, 2018).

Los datos faltantes se precisan como valores no disponibles que serían útiles o significativos para el análisis de los resultados (Dagnino, 2014), lo cual podría afectar directamente los resultados en un ejercicio de análisis e investigación. Los datos faltantes se refieren a casos en los que hay una o más entradas de datos incompletas para las variables observadas en una base, lo que reduce la representatividad de las muestras de datos y puede dar lugar a una inferencia estadística inadecuada; este aspecto se abordará más adelante.

Es importante resaltar que, en la literatura, no se encuentra un criterio que muestre cuál es el método más adecuado y eficaz para generar datos faltantes sin que el resultado final de la investigación se vea gravemente afectado. Algunos autores proponen diferentes metodologías para generar lo descrito.

Medina y Galván (2007) comentan que, cuando esto sucede, existen procedimientos para sustituir la información, pero nunca una cifra imputada será mejor que una observada. También explican la diferencia entre la falta de respuesta total y la no respuesta parcial, donde no se obtiene respuesta en algunos ítems.

Con respecto del tratamiento para datos faltantes, Cañizares et al. (2003) dan una idea de cómo se ha intentado solucionar esta problemática a lo largo del tiempo:

En los años setenta, la regla general era olvidarlos, por lo que su tratamiento consistía en la eliminación de la información incompleta. En los años ochenta se generalizó el tratamiento de los datos incompletos a través de la búsqueda de un valor que posteriormente sería asignado al dato faltante. En la década de los noventa se produjo un cambio en la filosofía del tratamiento de los datos incompletos: ya no importa buscar un valor, sino modelar la incertidumbre alrededor de él, y se comienzan a realizar las primeras imputaciones múltiples. (p. 59)

Existen trabajos que analizan el proceso tanto de la etapa de alistamiento como de modelado (Allison, 2002; Carpenter y Kenward, 2013; Enders, 2010; Graham, 2012; Kodamana et al., 2018; Van Buuren et al., 2006; Xu et al., 2015) y en la literatura se han definido metodologías que permiten estos análisis. Las principales metodologías sobre minería de datos se pueden dividir en dos: a) minería robusta para preprocesamiento de datos, y b) minería robusta para modelado estadístico. La primera se preocupa por tratar y limpiar los datos atípicos y faltantes, lo que se puede ejecutar con algunas técnicas tradicionales de minería de datos (Ge y Song, 2013) que también permiten apoyar el problema de normalización de datos, acción a considerar dentro de esta etapa. En la segunda, el análisis de datos comprende utilizar, entre otras, técnicas como análisis de componentes principales (ACP), modelos bayesianos, no lineales o dinámicos.

Algo a tener en consideración es que si bien tener una base de datos completa es ideal, se debe ser muy cuidadoso con el método de imputación a utilizar, pues, como mencionan Medina y Galván (2007), este es parte de la investigación que busca llegar a conclusiones sustentadas en evidencia empírica sólida; aplicar los métodos inapropiados traería más inconvenientes que soluciones.

Consideraciones antes de los métodos de imputación

Para romper las limitaciones de modelos a utilizar en completar los datos faltantes, primero deben tenerse en cuenta tres cuestiones específicas: la proporción de datos faltantes, sus patrones y sus mecanismos.

Proporción de datos faltantes. Da un primer vistazo a los datos empíricos antes de tomar las mediciones válidas. Aunque no hay un criterio estricto, se sugiere que las tasas de faltante sean extremadamente bajas (menor al 5 %), ya que así no harán una interferencia significativa por inferencia. Sin embargo, si se cuenta con faltantes entre el 5 % y 10 %, se podrá trabajar teniendo presente que dará como resultado inferencias sesgadas significativas (Dong y Peng, 2013). Con más de 10 % de datos faltantes dentro de una data, es mejor eliminar algunas variables (Wood et al., 2004; Peugh y Enders, 2004; Jelicic et al., 2009), para así llegar al máximo faltante de 10 %.
Patrones de datos faltantes. Hay dos patrones comunes de datos faltantes, a saber, el de tasa múltiple y el general. El primero se define cuando en la base faltan datos en diferentes niveles o variables, y el segundo se define cuando los valores faltantes son de un mismo nivel o variable.
Mecanismos de datos perdidos. Proporcionan un marco probabilístico sobre las relaciones de datos perdidos. El saber por qué faltan datos es necesario para el diseño y la aplicación adecuada de los métodos de análisis estadístico (Graham, 2012). En la literatura, se pueden encontrar tres tipos comunes de faltas, asumiendo diferentes relaciones probabilísticas entre la parte faltante y la parte observada: a) fallar completamente al azar (MCAR); b) faltar al azar (MAR), y c) no faltar al azar (NMAR) (Schafer y Graham, 2002). El mecanismo MCAR supone que los datos faltantes deben ser independientes de la parte observada y la parte no observada. El MAR relaja el MCAR asumiendo que la parte faltante solo está relacionada con la parte observada y es ampliamente aceptada. El NMAR supone que los datos faltantes están relacionados tanto con la parte observada como con la parte faltante; debido a esto, apenas puede manejarse para inferencia estadística. En consecuencia, con MCAR y MAR, los datos faltantes se pueden inferir de la parte observada.

La pregunta que surge entonces es ¿qué método es el más adecuado a usar? Y la respuesta dependerá del tipo de dato con que se cuente, ya que cada base tiene su propia estructura de variación que se podría ver afectada por la imputación utilizada. Los siguientes problemas deben resolverse (Sande, 1982): a) el de la edición y la imputación: búsqueda de la consistencia entre la información y las repuestas a imputar o editar; b) las distribuciones marginales y conjuntas de las respuestas son ciertamente diferentes para cada tipo de población, por lo que asumir normalidad no es una buena práctica, ¿qué hacer entonces?; c) identificación de los patrones de los campos faltantes; d) tiempo del que se dispone para la imputación; e) la estimación de muchos más parámetros (los datos faltantes) hace que los métodos se esfuercen más.

Algunas técnicas de imputación

Los acercamientos de Sande (1982) y Olinsky et al. (2003) definen un primer criterio sobre cómo completar bases dependiendo de la naturaleza de sus datos: a) aquellos que provienen de información correlacionada en el tiempo y en el espacio o b) los que provienen de información transversal como encuestas de satisfacción, de evaluación de productos, entre otras. Por su parte, García (2015) expone que se pueden clasificar los métodos de imputación en tres categorías: a) determinísticos, referentes a un modelo matemático que produce una respuesta única (Useche y Mesa, 2006; Herrera et al., 2017); b) estocásticos, que ofrecen una estimación probabilística para el dato imputado (Benítez y Álvarez, 2008; Ingsrisawang y Potawee, 2012), y c) los de inteligencia artificial, basados en modelos matemáticos complejos.

Complementando, a través del avance científico se han desarrollado varios métodos que se podrían clasificar en dos grupos (Liu et al., 2020): la imputación simple, que tiene que ver con métodos que proporcionan un número para que se reemplace el espacio del dato faltante, y la imputación múltiple, que se basa en la incertidumbre de los datos y proporciona varios posibles valores simulados para el dato a imputar, los cuales pueden ser generados, como lo comentó Jarrett (1978), con un método estándar de mínimos cuadrados.

Son muchas las técnicas de imputación que han sido desarrolladas hasta la fecha, entre ellas, una de las primeras, es la propuesta por Wilks (1932), que busca reemplazar (pocos) datos faltantes con datos existentes en la data. En décadas posteriores, los adelantos computacionales permitieron la propuesta de técnicas de imputación más perfeccionadas.

Dentro de las propuestas para imputación de datos, se tienen las consideradas en diferentes momentos por: a) Rubin 1976, que distingue cuando los valores faltantes tienen o no relación con los existentes [MAR, MCAR]; b) en 1983, clasificados como enfoque basado en la aleatorización, y el enfoque bayesiano; c) Little y Rubin, en 1987 desarrollan la técnica de imputación múltiple, en la que, mediante valores simulados, se sustituyen los datos faltantes (Puerta, 2002).

Otras propuestas son las de Kalton y Kasprzyk (1982), quienes establecen las diferencias entre las técnicas de ajuste ponderado y las de imputación para los casos de (pocos) valores faltantes. Helmel et al. (1987) aportó el método listwise, que es usado con bases de datos de gran tamaño y que busca eliminar un bloque completo disminuyendo la data, pero teniendo una información completa. Todeschini (1990) propuso un k-vecino más cercano como método de estimación de valores perdidos, y Mesa et al. (2000) realizaron un estudio de imputación mediante el uso de árboles de clasificación, aunque se ha mostrado que sus resultados son muy pobres.

Otras investigaciones han buscado mejorar técnicas existentes de imputación, como las basadas en ACP (Gleason, y Staelin, 1975), descomposición GH-Biplot (Vásquez, 1995), redes neuronales (Koikkalainen, 2002), análisis factorial (Geng y Li, 2003), entre otras (Useche y Mesa, 2006). A continuación, se desglosan otros métodos de imputación.

Sustitución media. Considera la sustitución de los valores faltantes por el promedio de la variable. Para el caso de la imputación de procesos multimodo, la sustitución se toma del valor medio de la distribución dentro del modo. La sustitución media proporcionará estimaciones eficientes e imparciales para ubicaciones en aquellas situaciones cercanas a MCAR. Sin embargo, la sustitución media tiene efectos secundarios como las distorsiones de las variaciones y correlaciones. Por tanto, la sustitución media no es recomendada en la mayoría de los casos.
Sustitución en caliente. Para preservar la distribución durante la imputación, la sustitución en caliente (hot-deck) reemplaza una entrada faltante a la vez con el valor disponible de un ítem similar en el mismo estudio. Al hacerlo, obtiene la mejor estimación de varianza en comparación con la contraparte de imputación media. De hecho, la sustitución en caliente es uno de los métodos más utilizado. Sin embargo, el problema surgirá para este enfoque cuando ocurran varios registros faltantes juntos en el archivo. La sustitución en caliente está diseñada para trabajar en sustituciones MAR.
Sustitución de regresión. También conocida como imputación media condicional, intenta sumergir las entradas faltantes con una estimación de regresión de otras variables auxiliares correlacionadas. Este método, al igual que el de sustitución en caliente, está diseñado para trabajar en sustituciones MAR. A través de la sustitución, los valores imputados son tan buenos como el modelo de regresión utilizado para predecirlos. Por tanto, este método puede distorsionar los análisis de varianzas y correlaciones, ya que la regresión exagerará la fuerza de la relación de riesgo. Otro inconveniente es que a veces puede producir resultados improbables que pueden ser inválidos o del dominio razonable.
Sustitución basada en la distribución condicional. Se imputa mediante el sorteo aleatorio de entradas faltantes de la distribución condicional de incertidumbres (Schafer y Graham, 2002). Para este tipo de imputación, se tiene que definir la distribución condicional explícita de la variable faltante dadas esas variables observadas para hacer una mejor sustitución. Posteriormente, esta sustitución aliviará el problema de la distorsión de las distribuciones. Sin embargo, el principal problema es cómo inferir las distribuciones adecuadas con parámetros desconocidos. En algunos casos, la distribución puede ser bastante complicada, lo que hace que el método sea, engorroso.
Imputación con variables ficticias. En esta metodología se crea una variable ficticia Z para estimar los datos faltantes, que puede asumir 0 o 1. Medina y Galván (2007) sustentan que al usar este método se generarían inconsistencias en la capacidad explicativa de los estimadores. Por ello, es pertinente evitar su ejecución, ya que pareciesen resolver la situación, pero generan sesgos al momento de ser interpretada.
Estimación por máxima verosímil. Se asume que los datos faltantes siguen un esquema MAR y los valores son imputados mediante iteraciones. Medina y Galván (2007) explican que este algoritmo se aplica hasta lograr la convergencia, es decir, en cada iteración se anexará más información y el procedimiento terminará cuando los valores de la matriz de covarianza sean similares a los obtenidos en la iteración anterior.
Imputación múltiple. Es un método de imputación relativamente moderno (Rubin, 2004), manejando los datos faltantes en tres pasos: a) imputa esos datos faltantes varias veces para generar varios conjuntos de datos completos; b) analiza cada conjunto de datos utilizando un procedimiento estadístico estándar; c) los resultados se combinan usando reglas simples para generar estimaciones, errores estándar y valores p que incorporan formalmente la incertidumbre de los datos faltantes.

La imputación múltiple puede lograr una mejor imputación que otras técnicas. Sin embargo, el problema también es obvio, ya que se tiene que imputar varias veces para lograr buena inferencia estadística, que es computacionalmente intensiva. También debe tenerse en cuenta que el objetivo de la imputación es aliviar el deterioro de los valores faltantes a la inferencia estadística en lugar de recuperar los datos verdaderos.

Metodología

El manejo y estudio de bases de datos se considera un insumo básico para la generación de conocimiento y solución de problemas. Por esto, es necesaria una metodología que ilustre una manera efectiva de construcción de aquellas, en especial, cuando estas cuentan con un gran volumen de datos, como los relacionados con registros financieros que usualmente suelen presentar altos índices de valores faltantes. Se proponen los siguientes pasos para su creación y manejo teniendo como punto de referencia la metodología KDD, como se puede apreciar en la figura 1.

Búsqueda de información

En el caso de las bases de datos financieras, la búsqueda de información debe centrarse en su confiabilidad y veracidad: “Identificar las fuentes especializadas es el paso inicial para elegir la de mayor pertinencia al tema” (Moncada, 2014, p. 111).

Además, se debe tener en cuenta los objetivos de la investigación, ya que así se sabrá dónde centrar la búsqueda de información; porque es en ellos donde se describe qué se quiere hacer con la información contenida en la base y cómo lograrlo (Manterola y Otzen, 2013).

Particularmente, en este trabajo se busca proporcionar una metodología para la creación y manejo de una base de datos, tomando como guía la construcción de una con información financiera centrada en empresas ubicadas en la localidad de Chapinero en Bogotá, que servirá para posteriores investigaciones en esta zona. La fuente de la información fue la Superintendencia de Industria y Comercio, que en su plataforma SIREM (Superintendencia de Industria y Comercio, 2019) registra la información financiera de las empresas que están sometidas a su inspección y vigilancia.

Recolección de datos

Es indispensable realizar la recolección de datos de una forma organizada y programada, teniendo en cuenta el objetivo de la investigación (Torres et al., 2014), el cual será científicamente válido al estar soportado por información comprobable. En este paso se debe tener en cuenta el tipo de fuentes a manejar, ya sean estas primarias o secundarias: en las primarias, los datos proceden directamente de la población y para su recolección existen diferentes técnicas, algunas de ellas son: entrevistas, encuestas, experimentos y observación directa. En el caso de las fuentes secundarias, la recolección se realiza a partir de datos existentes recopilados por terceros, como es el caso del ejercicio práctico de este documento: desde entidades oficiales. Para ello, al utilizar estas fuentes, Torres et al. (2014, p. 3) recomiendan analizar cuatro preguntas básicas:

¿Es pertinente? Se adapta a los objetivos.
¿Es obsoleta? No es actual.
¿Es fidedigna? No es cuestionada.
¿Es digna de confianza? Ha sido obtenida con la metodología adecuada, con objetividad, naturaleza continuada y exactitud.

En este paso, en el caso dado, se recopilan todos los datos relevantes y confiables de la fuente externa SIREM (Superintendencia de Industria y Comercio, 2019). Tales datos contienen información referente a las finanzas de aproximadamente 30 375 empresas en Colombia.

Adicionalmente, se utilizó otra fuente externa para la recolección de datos necesarios para el estudio, la plataforma Mapas Bogotá (Alcaldía Mayor de Bogotá, 2020), desde la cual se obtienen las coordenadas de cada una de las empresas.

Creación de la base de datos inicial

Se recopila toda la información proveniente de las fuentes externas en un solo formato, en el cual se tenga toda la información disponible. Para la recopilación de información proveniente de diversas fuentes, se debe primero definir y construir la estructura de la base de datos, definir los parámetros que permitan consignar la información relevante de acuerdo con el objetivo del estudio. Para la base de datos en cuestión, se recopila la información de los tres estados financieros más importantes para el análisis: estado de la situación financiera (Balance General), estado de resultados y flujo de efectivo; se separaron los estados en tres archivos diferentes con la información financiera del periodo 2012-2018 de todas las empresas contenidas en la base SIREM.

Con la información disponible, se debe revisar su relevancia para el estudio, si no es así, se debe pasar a la etapa de limpieza de datos. El análisis se centraliza en la ciudad de Bogotá; se eliminan las empresas que (a) no se encuentran registradas en la ciudad capital (15 375); (b) aquellas que no se ubican en la localidad de Chapinero (10 700), para un total de 4300 empresas. Con los datos restantes, se debe realizar una limpieza de estos: “El objetivo es tener datos limpios, sin valores nulos o anómalos que permitan obtener patrones de calidad” (Timarán-Pereira et al., 2016, p. 121).

Seguidamente, se procede a eliminar las empresas con datos atípicos o con un porcentaje de información faltante elevado (>10%), que no tenían información ni registros en más de tres años, entre el 2012 y el 2018, debido la imposibilidad de adquirir esta información de fuentes externas, para un total de 2400 empresas, de las cuales, se determina eliminar de la data de aquellas empresas que contienen valores nulos, lo que arroja como resultado final total 2238 empresas.

Ordenar la base de datos según los objetivos

En este paso se establece el orden que se le quiere dar a la información, para que al momento de ser consultada se facilite su tratamiento, según los objetivos planteados por los investigadores. Para el caso en cuestión, se consideraron 80 atributos de las cuentas más relevantes de los tres estados financieros más importantes: balance general, estado de resultados y flujo de efectivo, para los años comprendidos entre 2012 y 2018.

Se procede a unificar las cuentas en un solo documento Excel, anexando la información de cada empresa de 2012 a 2018, lo que arroja como resultado total 2238 empresas con registros financieros bajo 80 atributos, para un total de 1 253 280 datos.

Completar datos

Al organizar la base de datos, puede surgir el inconveniente de missing values, o datos faltantes. Estos pueden tener varios orígenes, ya sea por error humano o problemas del programa que se utilice para manejar la base. Estos missing values pueden afectar los resultados del estudio de investigación y su posterior análisis. En un proceso investigativo, lo ideal es tener datos completos, pero si se encuentra con este inconveniente se debe tener las siguientes consideraciones:

Según Dagnino (2014), se tienen tres alternativas cuando se cuenta con datos faltantes: a) omitir algunas variables. Como ya se mencionó, en el caso particular, se eliminaron algunas cuentas de los estados financieros que tenían poca relevancia para el estudio. b) Omitir los individuos, volviendo al caso, fueron eliminadas empresas con información faltante en más de tres de los siete años. c) Imputar los datos faltantes, los cuales se obtienen por diferentes metodologías, utilizando datos existentes.

Cabe mencionar que, para la imputación de valores faltantes, el porcentaje máximo de estos debe ser del 10 %; si estos valores exceden el porcentaje, se puede optar por cualquiera de las otras dos opciones mencionadas. Con énfasis en las alternativas, a partir del caso expuesto y la experiencia adquirida en su desarrollo, a continuación, se expone la metodología para la imputación de datos.

Búsqueda de métodos

Puerta (2002) nombra cinco criterios para la elección del método: a) importancia de la variable a imputar, b) tipo de variable, c) estadísticos que se desean estimar, d) tasa de no respuesta y exactitud necesaria, e) información auxiliar disponible. En el caso expuesto se tienen los siguientes supuestos:

- Los datos tienen un comportamiento longitudinal y una correlación temporal: datos financieros de empresas a través del tiempo.
- La información es creciente, ya que esta al ser contable se ajusta por el valor del dinero en el tiempo.

Se opta por diferentes métodos de imputación, para un análisis comparativo y objetivo del método que proporcione mayor confiabilidad.

Imputación

Se procede a aplicar los métodos definidos en el paso anterior. Para el ejercicio y el caso dado se realizó la imputación de datos como se detalla a continuación:

Imputación simple. Actualmente es aplicado por algunas entidades del Estado colombiano, como el Departamento Administrativo Nacional de Estadística, “entidad responsable de la planeación, levantamiento, procesamiento, análisis y difusión de las estadísticas oficiales de Colombia” (DANE, 2020). Consiste en completar la información faltante, haciendo uso de la existente. Se recomienda su aplicación en información del tipo de serie temporal para cada empresa de la base. Como paso inicial se debe calcular la variación entre los periodos. Dado que estos son anuales, la variación de la empresa i en el año t para la variable x se calcula utilizando la fórmula (1):

Esta indicará la variación porcentual en los valores de las variables para las cuales se realice el cálculo. Se procede a realizar la imputación de la siguiente manera: si la información que se desea imputar corresponde al tiempo 𝑡 +1 se utiliza la fórmula (2):

Si la información a imputar corresponde al tiempo 𝑡−1 se utiliza la fórmula (3):

Imputación suavizamiento. Su intención es usar toda la información para ir corrigiendo el pronóstico del periodo siguiente, por lo que se trabajan dos tipos de información: a) un pronóstico realizado y b) la definición de demanda (anterior).

Donde, α corresponde a un suavizador que define el peso que se desea suministrar a la corrección del pronóstico y la técnica aplica un conjunto de ponderaciones decrecientes a todos los datos pasados (despliegue de 𝐹_𝑡+1):

Imputación múltiple. Es un método estadístico propuesto por Little y Rubin (2002) que permite completar datos faltantes a partir de la distribución de los valores conocidos de la variable. Tal generación se realiza de manera bayesiana donde los nuevos valores se estimarán de la distribución posterior de los datos, utilizando alguna distribución a priori no informativa. Ahora bien, los procesos computacionales podrían complicarse por la dificultad en las operaciones de integración que se deben ejecutar, por lo que Little y Rubin (2019, p. 214) han propuesto algunas alternativas que podrían facilitar ese proceso: imputación múltiple impropia, uso de una distribución posterior de una subbase, uso de la distribución asintótica del estimador vía máxima verosimilitud de la distribución, entre otros. La imputación mantiene la incertidumbre de los datos haciendo que, en cada iteración, los datos que se generan difieran, pero los originales permanecen intactos, lo que implica que existirán M versiones de las bases de datos completas.

Selección del método

Como lo mencionan Cañizares et al. (2003), la elección del método es una tarea dispendiosa, ya que un mismo método, dependiendo la situación, puede generar estimaciones precisas o no. Por ello, se aconseja considerar más de una opción para tratarlos y realizar un análisis de sensibilidad que facilite la elección del método a implementar.

Para la selección del método de imputación se tomó una muestra de la base principal, de empresas cuya información estaba completa (sin missing values) y se construyó una base de prueba. De esta última fueron eliminados el 10 % de los datos al azar. Con este porcentaje se estaría dentro del criterio de decisión nombrado en el quinto paso de la construcción de bases de datos con valores faltantes. Adicionalmente, se tomaron solo las cuentas principales de cada estado financiero. Para el estado de la situación financiera en la base de prueba se tuvieron en cuenta el total activo, total pasivo y total patrimonio. En el caso del estado de resultados, se eligió la cuenta de ingresos operaciones y, por último, del flujo de efectivo se consideró la utilidad del periodo, como se detalla en la tabla 1.

Tabla 1: Información cuentas estados financieros

Año	Empresa	Total activos	Total pasivo	Patrimonio total	Ingresos operacionales	Utilidad del periodo
2012	Empresa 1	4 814 762	2 406 238	2 408 524		275 573
2013	Empresa 1	6 014 391	3 373 579	2 640 812	5 068 855	248 046
2014	Empresa 1	4 866 573	1 833 748		4 868 595	413 093
2015	Empresa 1	4 286 232	1 104 455	3 181 777	4 212 500	197 968
2016	Empresa 1		1 189 886	2 148 906	4 948 623
2017	Empresa 1	5 687 179	3 098 735	2 588 444	4 948 623	138 952
2018	Empresa 1	7 032 359		2 806 865	6 639 704	592 421
2012	Empresa 2	6 009 183	3 073 443	2 935 740	472 097	21 305
2013	Empresa 2	8 634 809	5 035 621	3 599 188	7 519 957	203 448
2014	Empresa 2		2 440 624		777 469	344 047
2015	Empresa 2	11 331 690	875 164	10 456 526		332 578
2016	Empresa 2	17 277 080	5 840 722	11 436 358	1 379 318	825 591
2017	Empresa 2	17 884 263	6 583 533	11 300 730	1 379 318
2018	Empresa 2	16 868 004	5 622 842	11 245 162	1 336 496	75 009

Luego, se realizó la imputación por los tres métodos elegidos previamente, se obtuvieron los nuevos registros para los valores faltantes y se procedió con la evaluación de la efectividad de cada método. Se compararon valores reales versus valores estimados en cada uno de los métodos. Posteriormente, se propuso la suma de diferencias de cuadrados y la suma de diferencias de desvíos entre la base de datos completa y la imputada, con el fin de determinar qué método se acercaba más a la realidad, teniendo en cuenta que este contenía las diferencias de menor magnitud (tablas 2, 3, 4, 5, 6 y 7).