DOI:
https://doi.org/10.14483/2322939X.4123Published:
2013-07-09Issue:
Vol. 4 No. 2 (2008)Section:
Research and DevelopmentPREPROCESAMIENTO DE DATOS ESTRUCTURADOS
Keywords:
Preprocesamiento, discretización, minería OLAP, normalización, limpieza, integración, transformación, reducción de la dimensionalidad. (es).Downloads
Abstract (es)
El propósito del preprocesamiento de datos es principalmente corregir las inconsistencias de los datos que serán la base de análisis en procesos de minería de datos. En el caso de las fuentes de datos estructuradas, el propósito no es distinto y pueden ser aplicadas diversas técnicas estadísticas y de aprendizaje computacional.
Con el preprocesamiento de datos se pretende que los datos que van a ser utilizados en tareas de análisis o descubrimiento de conocimiento conserven su coherencia. A lo largo del presente artículo, se realizará la descripción de diferentes técnicas existentes junto con algunos algoritmos asociados a tareas destacadas de preprocesamiento de datos estructurados como limpieza y transformación. Luego, se hace una revisión de algunos algoritmos asociados a las técnicas utilizadas con más frecuencia, lo cual podrá permitir la comparación de su efectividad dependiendo del conjunto de datos utilizado, en trabajos futuros.
References
Barrera, H., Correa, J., y Rodríguez, J. Prototipo de software para el preprocesamiento de datos - UDClear”. IV Simposio Internacional de Sistemas de Información e Ingeniería de Software en la Sociedad del Conocimiento, libro de actas volumen 1, ISBN 84-690-0258-9.
Berka, Petr y Bruha Ivan. Discretization and Grouping: Preprocessing Steps for Data Mining. 1998.
Berry, Michael J.A., Linoff Gordon S. Data Mining Techniques. Wiley Publishing, Inc. 2004.
Burdick, Doug, et al. Effi cient Allocation Algorithms for OLAP over Imprecise Data. VLDB 06, September 12-15, 2006, Seoul, Korea. Copyright 2006 VLDB Endowment, ACM 1-59593-385-9/06/09.
Cadoli, Marco, Donini Francesco, Liberatore Paolo y Shaerf Marco. Preprocessing of Intractable Problems. Dipartimento de Informatica e Sistemistica, Universita di Roma “La Sapienza”, Italy. Technical Report. 1997.
Cheung Pui Ling Pauline, et al. Data Warehousing and OLAP. 2000.
Clifton, Chris. Introduction to Data Mining. Purdue University, 2004.
Engels, Robert y Theusinger Christiane. Using a Data Metric for Preprocessing Advice for Data Mining Applications. ECAI 98, 13th European Conference on Artificial Intelligence. Jhon Willey & Sons, 1998.
Famili, A., Shen Wei-Min, Weber Richard y Simoudis Evangelos. Data Preprocessing and Intelligent Data Analysis. Submitted to Intelligent Data Analysis Journal, 1997.
Gómez-Skarmeta, Antonio, Jiménez Fernando e Ibañez Jesus. Data Preprocessing in Knowledge Discovery with Fuzzy-Evolutionary Algorithms. Departamento de Informática, Inteligencia Artificial y Electrónica, Universidad de Murcia. 1998.
Han, Jiawei. Olap Mining: An Integration of OLAP with Data Mining. Intelligent Database Systems Research Laboratory. 1997.
Han, Jiawei y Kamber Micheline. Data mining, Concepts and Techniques. Segunda edición. 2006.
Hing-Yan, Lee y Hwee-Leng Ong. A New Visualisation Technique for Knowledge Discovery in OLAP. Japan-Singapore AI Centre Information Technology Institute. Singapore. 2000.
Kotsiantis, S. B., Kanellopoulos D. y Pintelas P. E. Data Preprocessing for Supervised Learning. International Journal of Computer Science, Vol. 1 No. 2 2006.
Lu, Hongjun, Sung Sam Yuan y Lu Ying. On Preprocessing Data for Effective Classification. Department of Information Systems and Computer Science, National University of Singapore. 1996.
Maedche, Alexander, Hotho Andreas y Markus Wiese. Enhancing Preprocessing in Data-Intensive Domains using Online-Analytical Processing. 2000.
Maliakal, Jose. Data Reduction with Design of Experiments (DoE) for Data Mining Pre-Processing. Proceedings of World Academy of Science, Engineering and Technology, Vol. 26, December 2007.
Palaniappan, Sellappan y Hong Tan Kim. Discretization of Continuos Valued Dimensions in OLAP Data Cubes. IJCSNS International Journal of Computer Science and Network Security, Vol.8 No.11. November 2008.
Rodríguez, Nestor y Sánchez Wilson. Proyecto de grado: Software para preprocesamiento de datos UDCLEAR versión 2.0. Universidad Francisco José de Caldas, Facultad Tecnológica. 2008.
Vaduva, Anca, Kietz JörgUwe y Zücker Regina. M4 - A Metamodel for Data Preprocessing. 2001.