Selección de artículos de investigación relevantes y no relevantes con base en resultados de Scopus y visualización por grupos de documentos

Selection of Relevant and Non-Relevant Research Articles based on Scopus Results and Visualization by Document Groups

Autores/as

  • Juan-Fernando Campo-Mosquera Universidad del Cauca
  • Laura-Isabel Chaparro-Navia Universidad del Cauca
  • Carlos-Alberto Cobos-Lozada Universidad del Cauca https://orcid.org/0000-0002-6263-1911

Palabras clave:

article search, clustering, cluster labeling, clustering of scientific articles, overlapping, selection of relevant articles (en).

Palabras clave:

agrupamiento, agrupamiento de artículos científicos, búsqueda de artículos, etiquetado de grupos, selección de artículos relevantes, solapamiento (es).

Descargas

Resumen (es)

Este artículo presenta una aplicación web que busca facilitar la selección de artículos de investigación relevantes o no para una temática. El proceso inicia cuando un investigador escribe una cadena de búsqueda y esta se envía a la API de Scopus. Con los resultados obtenidos, se realiza un proceso de agrupamiento para generar una visualización por grupos o tópicos en lugar de las clásicas listas ordenadas de resultados, facilitando al usuario descartar grupos de artículos irrelevantes a su consulta. La propuesta utiliza cinco algoritmos de agrupamiento, entre los cuales Spectral y K-means obtuvieron el mejor rendimiento en métricas clásicas de recuperación de información sobre cuatro conjuntos de datos del estado del arte. La aplicación fue evaluada en dos rondas por investigadores de la Universidad del Cauca, quienes consideraron en la ronda final que el 71.4 % de los grupos tenían un buen título, el 92.9 % de los grupos tenían un buen orden de los documentos y el 65.8 % de los artículos estaban bien agrupados. Se destaca la implementación del solapamiento en el agrupamiento, pues permite a los artículos pertenecer a varios tópicos. Finalmente, los resultados son prometedores, y la aplicación constituye una valiosa contribución para los investigadores en el desarrollo de sus proyectos. Sin embargo, los resultados no son generalizables, y se evidencia la necesidad de crear mejores algoritmos de etiquetado para generar títulos más descriptivos, así como el uso de herramientas para asistir al usuario en la construcción de las consultas.

Resumen (en)

This paper presents a web application that seeks to facilitate the selection of research articles that are relevant or not to a topic. The process starts when a researcher writes a search string, which is sent to the Scopus API. With the results obtained, a grouping process is carried out to generate a visualization by groups or topics instead of the traditional ordered lists of results, making it easier for users to discard groups of articles irrelevant to their query. The proposal uses five clustering algorithms, among which Spectral and K-means exhibited the best performance in classical information retrieval metrics on four state of the art datasets. The application was assessed in two rounds by researchers of Universidad del Cauca, who, in the final round, considered that 71.4% of the clusters had a good title, 92.9% of the clusters had a good document order, and 65.8% of the articles were well clustered. The implementation of overlapping in grouping stands out since it allows articles to belong to several topics. Finally, the results are promising, and the application constitutes a valuable contribution for researchers in developing their projects. However, the results are not generalizable, and the need to create better labeling algorithms to generate more descriptive titles is evident, along with the use of tools to assist the user in query construction.

Referencias

Ahmed, R. F. M., Salama, C., Mahdi, H. (2020). Clustering research papers using genetic algorithm optimized self-organizing maps [Presentación en conferencia]. En 15th International Conference on Computer Engineering and Systems, Cairo, Egipto. https://doi.org/10.1109/ICCES51560.2020.9334573 DOI: https://doi.org/10.1109/ICCES51560.2020.9334573

Amalia, A., Lydia, M. S., Fadilla, S. D., Huda, M., Gunawan, D. (2017). Document clustering optimization with synonym dictionary check function [Presentación en conferencia]. En International Conference on Electrical Engineering and Informatics: Advancing Knowledge, Research, and Technology for Humanity, Banda Aceh, Indonesia. https://doi.org/10.1109/ICELTICS.2017.8253285 DOI: https://doi.org/10.1109/ICELTICS.2017.8253285

Amine, A., Elberrichi, Z., Simonet, M., Malki, M. (2008). WordNet-based and N-Grams-based document clustering: A comparative study [Presentación en conferencia]. En 3rd International Conference on Broadband Communications, Informatics and Biomedical Applications, Pretoria, Sudáfrica. https://doi.org/10.1109/broadcom.2008.7 DOI: https://doi.org/10.1109/BROADCOM.2008.7

Bai, X., Wang, M., Lee, I., Yang, Z., Kong, X., Xia, F. (2019). Scientific paper recommendation: A survey. IEEE Access, 7, 9324-9339. https://doi.org/10.1109/access.2018.2890388 DOI: https://doi.org/10.1109/ACCESS.2018.2890388

Brown, S. (n.d.). The C4 model for visualising software architecture. https://c4model.com/

Campos, R., Mangaravite, V., Pasquali, A., Jorge, A., Nunes, C., Jatowt, A. (2020). YAKE! Keyword extraction from single documents using multiple local features. Information Sciences, 509, 257-289. https://doi.org/10.1016/j.ins.2019.09.013 DOI: https://doi.org/10.1016/j.ins.2019.09.013

Chen, J., Ban, Z. (2019). Academic paper recommendation based on clustering and pattern matching. En K. Knight, C. Zhang, G. Holmes & M.-L. Zhang (Eds.), Second CCF International Conference, ICAI 2019 (pp. 171-182). Springer. https://doi.org/https://doi.org/10.1007/978-981-32-9298-7 DOI: https://doi.org/10.1007/978-981-32-9298-7_14

Davies, R., Ghosh-Dastidar, U., Knisley, J., Samyono, W. (2019). Toward revealing protein function: Identifying biologically relevant clusters with graph spectral methods. En R. Robeva & M. Macauley (Eds.), Algebraic and Combinatorial Computational Biology (pp. 375-409). Elsevier. https://doi.org/10.1016/B978-0-12-814066-6.00012-X DOI: https://doi.org/10.1016/B978-0-12-814066-6.00012-X

Demšar, J. (2006). Statistical comparisons of classifiers over multiple data sets. Journal of Machine Learning Research, 7, 1-30.

Gaikwad, D., Yelnoorkar, V., Jadhav, A., Haribhakta, Y. (2021). Clustering research papers: A qualitative study of concatenated power means sentence embeddings over centroid sentence embeddings. En S. M. Thampi, E. Gelenbe, M. Atiquzzaman, V. Chaudhary, & K. C. Li (Eds.), Advances in Computing and Network Communications (pp. 311-325). Springer. https://doi.org/10.1007/978-981-33-6987-0_26 DOI: https://doi.org/10.1007/978-981-33-6987-0_26

Hanyurwimfura, D., Bo, L., Njagi, D., Dukuzumuremyi, J. P. (2014). A centroid and relationship based clustering for organizing research papers. International Journal of Multimedia and Ubiquitous Engineering, 9(3), 219-233. https://doi.org/10.14257/ijmue.2014.9.3.21

Heka.ai. (2023). Labeling text clusters with keywords. https://heka-ai.medium.com/labeling-text-clusters-with-keywords-b5b5b6c1a89e

Huang, A. (2008). Similarity measures for text document clustering [Presentación en conferencia]. En New Zealand Computer Science Research Student Conference, Nueva Zelanda.

Intitut Teknologí dan Bisnis et al. (2019). Proceedings, International Conference on Cybernetics and Intelligent

System. https://doi.org/10.1109/ICORIS46391.2019 DOI: https://doi.org/10.1109/ICORIS46391.2019

Jalal, A. A., Ali, B. H. (2021). Text documents clustering using data mining techniques. International Journal of Electrical and Computer Engineering, 11(1), 664-670. https://doi.org/10.11591/ijece.v11i1.pp664-670 DOI: https://doi.org/10.11591/ijece.v11i1.pp664-670

Kumar, A., Daumé III, H. (2011). A co-training approach for multi-view spectral clustering. [Presentación en conferencia]. En 28th International Conference on Machine Learning, Bellevue, WA, USA.

Liang, Y., Li, Q., Qian, T. (2011). Finding relevant papers based on citation relations. En H. Wang, S. Li, S. Oyama, X. Hu & T. Qian (Eds.) Web-Age Information Management, WAIM 2011 (pp. 403-414. Springer. https://doi.org/10.1007/978-3-642-23535-1_35 DOI: https://doi.org/10.1007/978-3-642-23535-1_35

Pratt, K. S. (2009). Design patterns for research methods: Iterative field research. https://www.kpratt.net/wp-content/uploads/2009/01/research_methods.pdf

Probierz, B., Kozak, J., Hrabia, A. (2022). Clustering of scientific articles using natural language processing. Procedia Computer Science, 207, 3443-3452. https://doi.org/10.1016/j.procs.2022.09.403 DOI: https://doi.org/10.1016/j.procs.2022.09.403

Rachel M. (2022). Scopus Roadmap: What’s New in 2022? https://blog.scopus.com/posts/scopus-roadmap-whats-new-in-2022.

Rinartha, K., Surya Kartika, L. G. (2019). Scientific article clustering using string similarity concept [Presentación en conferencia]. En 1st International Conference on Cybernetics and Intelligent System, Denpasar, Indonesia. https://doi.org/10.1109/icoris.2019.8874879 DOI: https://doi.org/10.1109/ICORIS.2019.8874879

Rúbio, T. R., Gulo, C. A. (2016). Enhancing academic literature review through relevance recommendation using bibliometric and text-based features for classification [Presentación en conferencia]. En 11th Iberian Conference on Information Systems and Technologies, Gran Canaria, España. https://doi.org/10.1109/cisti.2016.7521620 DOI: https://doi.org/10.1109/CISTI.2016.7521620

Sardar, T. H., Ansari, Z. (2022). MapReduce-based fuzzy C-means algorithm for distributed document clustering. Journal of The Institution of Engineers (India): Series B, 103(1), 131-142. https://doi.org/10.1007/s40031-021-00651-0 DOI: https://doi.org/10.1007/s40031-021-00651-0

Sesagiri Raamkumar, A., Foo, S., Pang, N. (2017). Using author-specified keywords in building an initial reading list of research papers in scientific paper retrieval and recommender systems. Information Processing and Management, 53(3), 577-594. https://doi.org/10.1016/j.ipm.2016.12.006 DOI: https://doi.org/10.1016/j.ipm.2016.12.006

Sterling, T., Anderson, M., Brodowicz, M. (2018). MapReduce. En T. Sterling, M. Anderson & M. Brodowicz (Eds.), High Performance Computing (pp. 579-589). Elsevier. https://doi.org/10.1016/B978-0-12-420158-3.00019-8 DOI: https://doi.org/10.1016/B978-0-12-420158-3.00019-8

Tahvili, S., Hatvani, L. (2022). Artificial intelligence methods for optimization of the software testing process. Elsevier. https://doi.org/10.1016/B978-0-32-391913-5.00014-2 DOI: https://doi.org/10.1016/B978-0-32-391913-5.00013-0

Tseng, Y.-H. (2010). Generic title labeling for clustered documents. Expert Systems with Applications, 37(3), 2247-2254. https://doi.org/10.1016/j.eswa.2009.07.048 DOI: https://doi.org/10.1016/j.eswa.2009.07.048

Weiss, D., Osiński, S. (n.d.). Carrot2 Docs. https://carrot2.github.io/release/4.2.0/doc/choosing-clustering-algorithm/

Yu, Z., Menzies, T. (2019). FAST2: An intelligent assistant for finding relevant papers. Expert Systems with Applications, 120, 57-71. https://doi.org/10.1016/j.eswa.2018.11.021 DOI: https://doi.org/10.1016/j.eswa.2018.11.021

Cómo citar

APA

Campo-Mosquera, J.-F., Chaparro-Navia, L.-I., y Cobos-Lozada, C.-A. (2024). Selección de artículos de investigación relevantes y no relevantes con base en resultados de Scopus y visualización por grupos de documentos. Revista Científica, 49(1), 28–43. https://doi.org/10.14483/23448350.21439

ACM

[1]
Campo-Mosquera, J.-F. et al. 2024. Selección de artículos de investigación relevantes y no relevantes con base en resultados de Scopus y visualización por grupos de documentos. Revista Científica. 49, 1 (feb. 2024), 28–43. DOI:https://doi.org/10.14483/23448350.21439.

ACS

(1)
Campo-Mosquera, J.-F.; Chaparro-Navia, L.-I.; Cobos-Lozada, C.-A. Selección de artículos de investigación relevantes y no relevantes con base en resultados de Scopus y visualización por grupos de documentos. Rev. Cient. 2024, 49, 28-43.

ABNT

CAMPO-MOSQUERA, Juan-Fernando; CHAPARRO-NAVIA, Laura-Isabel; COBOS-LOZADA, Carlos-Alberto. Selección de artículos de investigación relevantes y no relevantes con base en resultados de Scopus y visualización por grupos de documentos. Revista Científica, [S. l.], v. 49, n. 1, p. 28–43, 2024. DOI: 10.14483/23448350.21439. Disponível em: https://revistas.udistrital.edu.co/index.php/revcie/article/view/21439. Acesso em: 12 jun. 2024.

Chicago

Campo-Mosquera, Juan-Fernando, Laura-Isabel Chaparro-Navia, y Carlos-Alberto Cobos-Lozada. 2024. «Selección de artículos de investigación relevantes y no relevantes con base en resultados de Scopus y visualización por grupos de documentos». Revista Científica 49 (1):28-43. https://doi.org/10.14483/23448350.21439.

Harvard

Campo-Mosquera, J.-F., Chaparro-Navia, L.-I. y Cobos-Lozada, C.-A. (2024) «Selección de artículos de investigación relevantes y no relevantes con base en resultados de Scopus y visualización por grupos de documentos», Revista Científica, 49(1), pp. 28–43. doi: 10.14483/23448350.21439.

IEEE

[1]
J.-F. Campo-Mosquera, L.-I. Chaparro-Navia, y C.-A. Cobos-Lozada, «Selección de artículos de investigación relevantes y no relevantes con base en resultados de Scopus y visualización por grupos de documentos», Rev. Cient., vol. 49, n.º 1, pp. 28–43, feb. 2024.

MLA

Campo-Mosquera, Juan-Fernando, et al. «Selección de artículos de investigación relevantes y no relevantes con base en resultados de Scopus y visualización por grupos de documentos». Revista Científica, vol. 49, n.º 1, febrero de 2024, pp. 28-43, doi:10.14483/23448350.21439.

Turabian

Campo-Mosquera, Juan-Fernando, Laura-Isabel Chaparro-Navia, y Carlos-Alberto Cobos-Lozada. «Selección de artículos de investigación relevantes y no relevantes con base en resultados de Scopus y visualización por grupos de documentos». Revista Científica 49, no. 1 (febrero 1, 2024): 28–43. Accedido junio 12, 2024. https://revistas.udistrital.edu.co/index.php/revcie/article/view/21439.

Vancouver

1.
Campo-Mosquera J-F, Chaparro-Navia L-I, Cobos-Lozada C-A. Selección de artículos de investigación relevantes y no relevantes con base en resultados de Scopus y visualización por grupos de documentos. Rev. Cient. [Internet]. 1 de febrero de 2024 [citado 12 de junio de 2024];49(1):28-43. Disponible en: https://revistas.udistrital.edu.co/index.php/revcie/article/view/21439

Descargar cita

Visitas

11

Dimensions


PlumX


Descargas

Los datos de descargas todavía no están disponibles.

Artículos más leídos del mismo autor/a

Loading...