DOI:

https://doi.org/10.14483/23448350.18352

Publicado:

2021-12-28

Número:

Vol. 43 Núm. 1 (2022): Enero-Abril 2022

Sección:

Ingeniería y Tecnología

Servicio de clasificación documental multi cliente basado en técnicas de aprendizaje de máquina y Elasticsearch

Multi-Client Document Classification Service Based on Machine Learning Techniques and Elasticsearch

Autores/as

Palabras clave:

analítica de datos, bosques aleatorios, CRISP-DM, k vecinos más cercanos, perceptrón multicapa, sistema de gestión documental, trigramas (es).

Palabras clave:

data analytics, CRISP-DM, k-nearest neighbors, multilayer perceptron, document management system, random forests, trigrams (en).

Descargas

Resumen (es)

Este artículo presenta un servicio de clasificación documental que permite a los sistemas de gestión documental de múltiples clientes brindar una mayor confianza y credibilidad sobre los tipos documentales asignados a los documentos que cargan los usuarios. La investigación fue realizada a través de las fases de CRISP-DM en las que se evaluaron dos modelos de representación de documentos, bolsas de palabras con n-gramas acumulativos y BERT (propuesto recientemente por Google), y cinco técnicas de aprendizaje de máquina, perceptrón multicapa, bosques aleatorios, k vecinos más cercanos, árboles de decisión y un clasificador bayesiano ingenuo. Los experimentos se realizaron con datos de dos organizaciones y los mejores resultados fueron los obtenidos por el perceptrón multicapa, los bosques aleatorios y los k vecinos más cercanos, con resultados muy similares de exactitud general y recuerdo por clase para los tres algoritmos. Los resultados no son concluyentes para ofertar el servicio a múltiples clientes con un solo modelo, ya que esto depende de los documentos y tipos documentales de cada uno de ellos. Por lo anterior, se ofrece un servicio basado en una arquitectura de microservicios que permite a cada organización la creación de su propio modelo, el monitoreo de su rendimiento en producción y su actualización cuando el rendimiento no sea adecuado.

Resumen (en)

This paper presents a document classification service that allows multiple client (multi-tenant) document management systems to provide greater confidence and credibility regarding the document types assigned to documents uploaded by users. The research was carried out through the phases of CRISP-DM, where two document representation models were evaluated (bags of words with cumulative n-grams and BERT, which was recently proposed by Google) and five machine learning techniques (multilayer perceptron, random forests, k-nearest neighbors, decision trees, and naïve bayes). The experiments were carried out with data from two organizations, and the best results were obtained by multilayer perceptron, random forests, and k-nearest neighbors, which showed very similar results regarding general accuracy and recall by class. The results are not conclusive with respect to the ability to offer the service to multiple clients with a single model, since this also depends on their documents and document types. Therefore, a service is offered which is based on a microservices architecture that allows each organization to create its own model, monitor its performance in production, and update it when performance is not adequate.

Referencias

Aliwy, A. H., Ameer, E. A. (2017). Comparative study of five text classification algorithms with their improvements. International Journal of Applied Engineering Research, 12(14), 4309-4319

Cameron-Jones, R. M. (1995). Instance selection by encoding length heuristic with random mutation hill climbing. Eighth Australian Joint Conference on Artificial Intelligence, Canberra, 99-106

Cañete, J., Chaperon, G., Fuentes, R., Ho, J.-H., Kang, H., Pérez, J. (2020). Spanish pre-trained BERT model and evaluation data. En PML4DC, ICLR, 1-10

Cao, Z., Zhou, Y., Yang, A., Fu, J. (2019). Contextualized Word Representations with Effective Attention for Aspect-Based Sentiment Analysis. En M. Sun, X. Huang, H. Ji, Z. Liu, & Y. Liu (Eds.), Chinese Computational Linguistics (pp. 467-478). Springer. https://doi.org/10.1007/978-3-030-32381-3_38

Chen, J., Yan, S., Wong, K.-C. (2020). Verbal aggression detection on Twitter comments: Convolutional neural network for short-text sentiment analysis. Neural Computing and Applications, 32(15), 10809-10818. https://doi.org/10.1007/s00521-018-3442-0

Chen, T., Xu, R., He, Y., Wang, X. (2017). Improving sentiment analysis via sentence type classification using BiLSTM-CRF and CNN. Expert Systems with Applications, 72, 221-230. https://doi.org/10.1016/j.eswa.2016.10.065

Devlin, J., Chang, M.-W., Lee, K., Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. En Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), 4171-4186. https://doi.org/10.18653/v1/N19-1423

Dorado, H., Cobos, C., Torres-Jimenez, J., Burra, D. D., Mendoza, M., Jimenez, D. (2019). Wrapper for building classification models using covering arrays. IEEE Access, 7, 148297-148312. https://doi.org/10.1109/ACCESS.2019.2944641

Fernández-Navarro, F., Hervás-Martínez, C., Gutiérrez, P. A. (2011). A dynamic over-sampling procedure based on sensitivity for multi-class problems. Pattern Recognition, 44(8), 1821-1833. https://doi.org/10.1016/j.patcog.2011.02.019

Gitanjali, Lakhwani, K. (2019). A novel approach of sensitive data classification using convolution neural network and logistic regression. International Journal of Innovative Technology and Exploring Engineering (IJITEE), 8(8), 2883-2886

Gowda, K., Krishna, G. (1979). The condensed nearest neighbor rule using the concept of mutual nearest neighborhood. IEEE Transactions on Information Theory, 25(4), 488-490. https://doi.org/10.1109/TIT.1979.1056066

Hapsari, D. P., Utoyo, I., Purnami, S. W. (2020). Text categorization with fractional gradient descent support vector machine. Journal of Physics: Conference Series, 1477, e 022038. https://doi.org/10.1088/1742-6596/1477/2/022038

Ismael, A., Okumus, I. (2017). Design and implementation of an electronic document management system. Journal of Applied Sciences of Mehmet Akif Ersoy University, 1(1), 9-17. https://doi.org/10.31200/makuubd.321093

Jiang, M., Liang, Y., Feng, X., Fan, X., Pei, Z., Xue, Y., Guan, R. (2018). Text classification based on deep belief network and softmax regression. Neural Computing and Applications, 29(1), 61-70. https://doi.org/10.1007/s00521-016-2401-x

Kowsari, K., Brown, D. E., Heidarysafa, M., Jafari Meimandi, K., Gerber, M. S., Barnes, L. E. (2017). HDLTex: Hierarchical deep learning for text classification. En 16th IEEE International Conference on Machine Learning and Applications (ICMLA), 364-371. https://doi.org/10.1109/ICMLA.2017.0-134

Kowsari, K., Meimandi, K. J., Heidarysafa, M., Mendu, S., Barnes, L., Brown, D. (2019). Text classification algorithms: A survey. Information, 10(4), e150. https://doi.org/10.3390/info10040150

Lacunza, A. C. (2020). Implementación de un Sistema de Gestión Documental Electrónico en la Universidad Nacional de la Plata: El camino hacia el expediente electrónico [Tesis de Maestría]. Universidad Nacional de la Plata, Argentina. http://sedici.unlp.edu.ar/bitstream/handle/10915/115287/Documento_completo.pdf

Lagrari, F.-E., Ziyati, H., El Kettani, Y. (2019). An efficient model of text categorization based on feature selection and random forests: Case for Business documents. En M. Ezziyyani (Ed.), Advanced Intelligent Systems for Sustainable Development (AI2SD’2018) (pp. 465-476). Springer. https://doi.org/10.1007/978-3-030-11928-7_42

Qin, W., Guo, W., Liu, X., Zhao, H. (2019). A novel scheme for recruitment text categorization based on KNN algorithm. En M. Qiu (Ed.), SmartCom 2019: Smart Computing and Communication (pp. 376-386). Springer. https://doi.org/10.1007/978-3-030-34139-8_38

Qu, Z., Song, X., Zheng, S., Wang, X., Song, X., Li, Z. (2018). Improved bayes method based on TF-IDF feature and grade factor feature for Chinese information classification. En: IEEE International Conference on Big Data and Smart Computing (BigComp), 677-680. https://doi.org/10.1109/BigComp.2018.00124

Rangel Palencia, E. L. (2017). Guía de Implementación de Un Sistema de Gestión de Documentos Electrónicos de Archivo - SGDEA. Archivo General de la Nación de Colombia. https://www.archivogeneral.gov.co/caja_de_herramientas/docs/12. herramientas/DT - IMPLEMENTACION DE UN SGDEA.pdf

Rasjid, Z. E., Setiawan, R. (2017). Performance comparison and optimization of text document classification using k-NN and naïve bayes classification techniques. Procedia Computer Science, 116, 107-112. https://doi.org/10.1016/j.procs.2017.10.017

Rodríguez Cruz, Y., Castellanos Crespo, A., Ramírez Peña, Z. (2016). Gestión documental, de información, del conocimiento e inteligencia organizacional: particularidades y convergencia para la toma de decisiones estratégicas. Revista Cubana de Información en Ciencias de la Salud, 27(2), e206224

Schröer, C., Kruse, F., Gómez, J. M. (2021). A systematic literature review on applying CRISP-DM process model. Procedia Computer Science, 181, 526-534. https://doi.org/10.1016/j.procs.2021.01.199

Selvi, S. T., Karthikeyan, P., Vincent, A., Abinaya, V., Neeraja, G., Deepika, R. (2017). Text categorization using Rocchio algorithm and random forest algorithm. En Eighth International Conference on Advanced Computing (ICoAC), 7-12. https://doi.org/10.1109/ICoAC.2017.7951736

Shah, N., Willick, D., Mago, V. (2018). A framework for social media data analytics using Elasticsearch and Kibana. Wireless Networks, 2018. https://doi.org/10.1007/s11276-018-01896-2

Skalak, D. B. (1994). Prototype and feature selection by sampling and random mutation hill climbing algorithms. En W. W. Cohen, & H. Hirsh (Eds.), Machine Learning: Proceedings of the Eleventh International Conference. Morgan Kaufmann. https://doi.org/10.1016/b978-1-55860-335-6.50043-x

Taloba, A. I., Ismail, S. S. I. (2019). An intelligent hybrid technique of decision tree and genetic algorithm for e-mail spam detection. En Ninth International Conference on Intelligent Computing and Information Systems (ICICIS), 99-104. https://doi.org/10.1109/ICICIS46948.2019.9014756

Vijayan, V. K., Bindu, K. R., Parameswaran, L. (2017). A comprehensive study of text classification algorithms. En International Conference on Advances in Computing, Communications and Informatics (ICACCI), 1109-1113. https://doi.org/10.1109/ICACCI.2017.8125990

Villegas, J., Cobos, C., Mendoza, M. E., Herrera-Viedma, E. (2018). Feature selection using sampling with replacement, covering arrays and rule-induction techniques to aid polarity detection in twitter sentiment analysis. Lecture Notes in Computer Science, 11238, 467-480. https://doi.org/10.1007/978-3-030-03928-8_38

Voit, A., Stankus, A., Magomedov, S., Ivanova, I. (2017). Big data processing for full-text search and visualization with Elasticsearch. International Journal of Advanced Computer Science and Applications, 8(12), e11. https://doi.org/10.14569/IJACSA.2017.081211

Wirth, R., Hipp, J. (2000). CRISP-DM: Towards a standard process model for data mining. En Proceedings of the Fourth International Conference on the Practical Application of Knowledge Discovery and Data Mining, 29-39

Wojciechowski, S., Wilk, S., Stefanowski, J. (2018). An algorithm for selective preprocessing of multi-class imbalanced data. En Proceedings of the 10th International Conference on Computer Recognition Systems CORES 2017. In M. Kurzynski, M. Wozniak, & R. Burduk (Eds.) (pp. 238-247). Springer.

Yang, Z., Yang, D., Dyer, C., He, X., Smola, A., Hovy, E. (2016). Hierarchical attention networks for document classification. En Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 1480-1489. https://doi.org/10.18653/v1/N16-1174

Zamfir, V.-A., Carabas, M., Carabas, C., Tapus, N. (2019). Systems monitoring and big data analysis using the elasticsearch system. En 22nd International Conference on Control Systems and Computer Science (CSCS), 188-193. https://doi.org/10.1109/CSCS.2019.00039

Cómo citar

APA

Garcia-Chicangana, D.-S., Cobos-Lozada, C.-A., Mendoza-Becerra, M.-E., Niño-Zambrano, M.- Ángel, & Martínez-Figueroa, J.-M. (2021). Servicio de clasificación documental multi cliente basado en técnicas de aprendizaje de máquina y Elasticsearch. Revista Científica, 43(1), 64–79. https://doi.org/10.14483/23448350.18352

ACM

[1]
Garcia-Chicangana, D.-S., Cobos-Lozada, C.-A., Mendoza-Becerra, M.-E., Niño-Zambrano, M.- Ángel y Martínez-Figueroa, J.-M. 2021. Servicio de clasificación documental multi cliente basado en técnicas de aprendizaje de máquina y Elasticsearch. Revista Científica. 43, 1 (dic. 2021), 64–79. DOI:https://doi.org/10.14483/23448350.18352.

ACS

(1)
Garcia-Chicangana, D.-S.; Cobos-Lozada, C.-A.; Mendoza-Becerra, M.-E.; Niño-Zambrano, M.- Ángel; Martínez-Figueroa, J.-M. Servicio de clasificación documental multi cliente basado en técnicas de aprendizaje de máquina y Elasticsearch. Rev. Cient. 2021, 43, 64-79.

ABNT

GARCIA-CHICANGANA, D.-S.; COBOS-LOZADA, C.-A.; MENDOZA-BECERRA, M.-E.; NIÑO-ZAMBRANO, M.- Ángel; MARTÍNEZ-FIGUEROA, J.-M. Servicio de clasificación documental multi cliente basado en técnicas de aprendizaje de máquina y Elasticsearch. Revista Científica, [S. l.], v. 43, n. 1, p. 64–79, 2021. DOI: 10.14483/23448350.18352. Disponível em: https://revistas.udistrital.edu.co/index.php/revcie/article/view/18352. Acesso em: 20 ene. 2022.

Chicago

Garcia-Chicangana, David-Santiago, Carlos-Alberto Cobos-Lozada, Martha-Eliana Mendoza-Becerra, Miguel-Ángel Niño-Zambrano, y James-Mauricio Martínez-Figueroa. 2021. «Servicio de clasificación documental multi cliente basado en técnicas de aprendizaje de máquina y Elasticsearch». Revista Científica 43 (1):64-79. https://doi.org/10.14483/23448350.18352.

Harvard

Garcia-Chicangana, D.-S., Cobos-Lozada, C.-A., Mendoza-Becerra, M.-E., Niño-Zambrano, M.- Ángel y Martínez-Figueroa, J.-M. (2021) «Servicio de clasificación documental multi cliente basado en técnicas de aprendizaje de máquina y Elasticsearch», Revista Científica, 43(1), pp. 64–79. doi: 10.14483/23448350.18352.

IEEE

[1]
D.-S. Garcia-Chicangana, C.-A. Cobos-Lozada, M.-E. Mendoza-Becerra, M.- Ángel Niño-Zambrano, y J.-M. Martínez-Figueroa, «Servicio de clasificación documental multi cliente basado en técnicas de aprendizaje de máquina y Elasticsearch», Rev. Cient., vol. 43, n.º 1, pp. 64–79, dic. 2021.

MLA

Garcia-Chicangana, D.-S., C.-A. Cobos-Lozada, M.-E. Mendoza-Becerra, M.- Ángel Niño-Zambrano, y J.-M. Martínez-Figueroa. «Servicio de clasificación documental multi cliente basado en técnicas de aprendizaje de máquina y Elasticsearch». Revista Científica, vol. 43, n.º 1, diciembre de 2021, pp. 64-79, doi:10.14483/23448350.18352.

Turabian

Garcia-Chicangana, David-Santiago, Carlos-Alberto Cobos-Lozada, Martha-Eliana Mendoza-Becerra, Miguel-Ángel Niño-Zambrano, y James-Mauricio Martínez-Figueroa. «Servicio de clasificación documental multi cliente basado en técnicas de aprendizaje de máquina y Elasticsearch». Revista Científica 43, no. 1 (diciembre 28, 2021): 64–79. Accedido enero 20, 2022. https://revistas.udistrital.edu.co/index.php/revcie/article/view/18352.

Vancouver

1.
Garcia-Chicangana D-S, Cobos-Lozada C-A, Mendoza-Becerra M-E, Niño-Zambrano M- Ángel, Martínez-Figueroa J-M. Servicio de clasificación documental multi cliente basado en técnicas de aprendizaje de máquina y Elasticsearch. Rev. Cient. [Internet]. 28 de diciembre de 2021 [citado 20 de enero de 2022];43(1):64-79. Disponible en: https://revistas.udistrital.edu.co/index.php/revcie/article/view/18352

Descargar cita

Visitas

4

Dimensions


PlumX


Descargas

Los datos de descargas todavía no están disponibles.