DOI:
https://doi.org/10.14483/23448350.20593Published:
05/15/2023Issue:
Vol. 47 No. 2 (2023): May-August 2023Section:
Research ArticlesAplicación de ingeniería ontológica en la interpretación de jergas colombianas en mensajería instantánea
Application of Ontological Engineering in the Interpretation of Colombian Slang in Instant Messaging
Keywords:
Lenguaje, Sistemas móviles, Ontología, Ingeniería Ontológica, Web Semántica (es).Keywords:
instant messaging, language, mobile systems, ontological engineering, ontology, semantic web (en).Downloads
References
Alobaid, A., Garijo, D., Poveda-Villalón, M., Santana-Perez, I., Fernández-Izquierdo, A., Corcho, O. (2019). Automating ontology engineering support activities with OnToology. Journal of Web Semantics, 57, e100472. https://doi.org/10.1016/j.websem.2018.09.003 DOI: https://doi.org/10.1016/j.websem.2018.09.003
Gillis-Webber, F., Keet, C. M. (2022). A review of multilingualism in and for ontologies. arXiv preprint. https://doi.org/10.48550/arXiv.2210.02807
Ishaq, M., Khan, A., Khan, A. (2022). A semi-automatic framework for the development and analysis of selective natural language ontologies. Preprints.org, 2022110201. https://doi.org/10.20944/preprints202211.0201.v1 DOI: https://doi.org/10.20944/preprints202211.0201.v1
Liu, H. (2022). Research on literary translation based on the improved optimization model. Discrete Dynamics in Nature and Society, 2022, e1329632. https://doi.org/10.1155/2022/1329632 DOI: https://doi.org/10.1155/2022/1329632
Oniki, T. A., Rocha, R. A., Lau, L. M., Sottara, D., Huff, S. M. (2023). Terminologies, ontologies and data models. En R. A. Greenes & G. Del Fiol (Eds.), Clinical Decision Support and Beyond (pp. 349-382). Academic Press. https://doi.org/10.1016/B978-0-323-91200-6.00027-9 DOI: https://doi.org/10.1016/B978-0-323-91200-6.00027-9
Tanoli, I. K., Amin, I., Junejo, F., Yusoff, N. (2022). Systematic machine translation of social network data privacy policies. Applied Sciences 12, e10499. https://doi.org/10.3390/app122010499 DOI: https://doi.org/10.3390/app122010499
Telli, A., Belazoui, A., Dekhili, N. (2022). Ontology-Based data access to web analytics. En S. Sedkaoui, M. Khelfaoui, R. Benaichouba, & K. Mohammed Belkebir (Eds.), International Conference on Managing Business Through Web Analytics (pp. 23-35). Springer. https://doi.org/10.1007/978-3-031-06971-0_3 DOI: https://doi.org/10.1007/978-3-031-06971-0_3
Wiśniewski, D., Potoniec, J., Ławrynowicz, A., Keet, C. M. (2019). Analysis of ontology competency questions and their formalizations in SPARQL-OWL. Journal of Web Semantics, 59, e100534. https://doi.org/10.1016/j.websem.2019.100534 DOI: https://doi.org/10.1016/j.websem.2019.100534
How to Cite
APA
ACM
ACS
ABNT
Chicago
Harvard
IEEE
MLA
Turabian
Vancouver
Download Citation
Recibido: de enero de 2023; Aceptado: de abril de 2023
Resumen
Este artículo presenta el diseño de una aplicación móvil soportada por una ontología sobre terminología y palabras de uso cotidiano en Colombia. En esta investigación, la aplicación de la ingeniería ontológica permite definir el vocabulario de representación para el dominio de jergas colombianas, que representa los elementos conceptuales y las relaciones entre términos, así como establecer equivalencias y similitudes. Se utilizó el marco METHONTOLOGY, así como el lenguaje de consulta semántica SPARQL para la inferencia y traducción de términos. Como resultado final, la aplicación permite la interpretación de términos y facilita la comunicación entre personas de diferentes regiones colombianas. Además, se integra la aplicación con el servicio de mensajería instantánea de la red social Twitter.
Palabras clave:
ingeniería ontológica, lenguaje, mensajería instantánea, ontología, sistemas móviles, web semántica..Abstract
This article presents the design of a mobile application supported by an ontology of the terminology and words of daily use in Colombia. In this research, the implementation of ontological engineering allows defining the representation vocabulary for the domain of Colombian slang, which represents conceptual elements and the relationships between terms. The METHONTOLOGY framework was used, as well as the SPARQL semantic query language for term inference and translation. As a final result, the app allows for the interpretation of terms and facilitates communication between people from different regions in Colombia. In addition, the app is integrated with the instant messaging service of the Twitter social network.
Keywords:
instant messaging, language, mobile systems, ontological engineering, ontology, semantic web..Resumo
Este artigo apresenta o desenho de um aplicativo móvel apoiado na aplicação de uma ontologia sobre terminologia e palavras de uso cotidiano na Colômbia. A aplicação da engenharia ontológica nesta pesquisa permite definir o vocabulário de representação para o domínio da gíria colombiana, que representa os elementos conceituais e as relações entre os termos. A engenharia ontológica também permite definir as comparações de equivalência, similaridade. O framework utilizado foi a METONTOLOGIA, particularmente aplicada à construção da ontologia; A linguagem de consulta semântica, como SPARQL, também foi usada para inferência e tradução de termos. O resultado final mostra que o App permite a interpretação de termos e facilita a comunicação de pessoas de diferentes regiões colombianas; Além disso, é feita uma conexão de mensagens instantâneas com a rede social Twitter.
Palavras-chaves:
engenharia ontológica, linguagem, mensagem instantânea, ontologia, sistemas móveis, web semântica..Introducción
A través del tiempo, se han desarrollado formas de comunicación fuera de los signos lingüísticos (Liu, 2022) como cartas, mensajes de texto y sistemas de mensajería. En la última década, han aparecido aplicaciones móviles que han sido ampliamente utilizadas por su facilidad y efectividad. Los sistemas móviles han conseguido establecer un antes y un después en la forma en la que los seres humanos facilitan su comunicación (Telli et al., 2022). En la actualidad, esta comunicación se da por medio de mensajería instantánea. Sin embargo, las expresiones propias del idioma de Colombia, Argentina o México no se manejan en todo el mundo.
El territorio colombiano cuenta con 6 regiones, en las cuales se manejan diferentes palabras, modismos y jergas considerados como patrimonio regional, pues no tienen un equivalente en las demás regiones. Para garantizar la fluidez en la comunicación, se procuran la integración e interoperabilidad de estos términos en contextos específicos, dado que en cada región pueden tener una interpretación diferente de acuerdo con el contexto.
En la actualidad no hay un sistema móvil que sea capaz de traducir o encontrar equivalencias para las palabras que se manejan a escala regional, lo que se convierte en un problema a nivel formal e informal, generando dificultades para una comunicación clara, precisa y efectiva, ya que la información que se pretende dar en los mensajes puede ser errónea. Para lograr dicha integración, se realizó un estudio en el que se identificaron las palabras y jergas utilizadas en las 6 regiones del territorio colombiano; en la interacción de usuarios participaron 5 personas de cada región del país, quienes interactuaron en comunicación sincrónica y facilitaron la identificación de jergas en diálogos cortos. Una vez consolidados, por medio de ingeniería ontológica, se realizó el registro de los datos y se desarrolló una ontología del dominio. El resultado final fue la integración de la ontología con la aplicación de mensajería instantánea de Twitter, lo cual se llevó a cabo en el lenguaje de programación Python.
Materiales y métodos
La metodología de desarrollo que se aplica en este proyecto es una adaptación de la metodología METHONTOLOGY, desarrollada en el Laboratorio de Inteligencia Artificial de la Universidad Politécnica de Madrid. Este método permite la construcción de ontologías desde cero y está basado en un ciclo de vida, permitiendo a su vez la evolución de prototipos y técnicas para realizar cada actividad.
El ciclo de vida de la metodología se agrupa en tres diferentes tipos de actividades que trabajan de forma conjunta (Figura 1): (i) actividades de gestión: planificación, control y aseguramiento de calidad; (ii) actividades de desarrollo: especificación, conceptualización, formalización, implementación y mantenimiento; y (iii) actividades de soporte: adquisición de conocimiento, integración, evaluación, documentación y gestión de la configuración (Alobaid et al., 2019).
Las actividades para el análisis, desarrollo e implementación de la ontología con base en METHONTOLOGY se relacionan a continuación.
-
Especificación: La especificación define cómo se va a orientar la ontología, si esta va a ser creada desde cero o se reutilizarán ontologías ya hechas (en este proyecto se construyó una ontología desde cero).
El objetivo de esta fase es proporcionar información pertinente para homologar las palabras analizadas con otras de las demás regiones. Una vez recolectada esta información, se debe tener claro cómo se va a sistematizar el conocimiento. En este caso, la herramienta utilizada para la representación computacional fue Protégé, así como los lenguajes ontológicos OWL y RDF.
-
Conceptualización: En la fase de conceptualización se hace referencia al diseño de la ontología; aquí se identifican, organizan y modelan todos los conceptos y relaciones.
El glosario de términos contiene cada uno de los conceptos a tener en cuenta en la construcción de la ontología, especificando su nombre y, en este caso, los departamentos en los que ocurre cada uno de estos conceptos, así como su descripción y tipo de término.
La taxonomía de conceptos define su jerarquía, indicando cuáles son las clases padre (e.g., RegionAmazonica), y las clases hijas o subclases (como JergaRegionAmazonica). Finalmente, se construye un diagrama que representa gráficamente la jerarquía (Figura 2).
El diagrama de relaciones binarias permite definir cuáles son las relaciones entre los conceptos. En la Figura 3, los recuadros azules representan cada concepto. Aquí se puede observar que cada concepto tiene dos subclases, de las cuales sobresalen dos relaciones. Por ejemplo, para la clase RegionEjeCafetero, se tienen las subclases JergaRegionEjeCafetero y SujetoRegionEjeCafetero, que a su vez tienen las relaciones Palabra_Sinonimo_De y Sujeto_Sinonimo_De, dirigidas a las subclases de las demás clases para garantizar la comunicación entre conceptos.
Todas las relaciones que se definieron son bidireccionales, ya que los individuos definidos por región tienen sinónimos en todas las demás regiones. Con base en esta comunicación entre conceptos, se muestran las relaciones por medio de un diagrama de relaciones binarias. Con esto se garantiza que, al momento de realizar el modelo computacional, no se generarán inconsistencias.
En el diccionario de conceptos se encuentra el listado de cada uno de los términos de la ontología. Se incluyen las instancias, los atributos de las instancias y las relaciones asociadas. La convención de escritura en cuanto a los conceptos es la siguiente: inicio de la palabra en mayúscula, sin espacios ni caracteres especiales (como las tildes o la ñ, entre otros). Esta misma convención aplica para las instancias, con la diferencia de que estas pueden llevar números. Las reglas representan las características y el comportamiento de la ontología. Esto, desde la búsqueda y consulta de datos por medio del formato de sentencias SPARQL (Tabla 1).
En la Tabla 2 se presentan las instancias asociadas a los conceptos, las cuales representan objetos de su dominio. Se muestra solamente una de las palabras encontradas en definición de la ontología.
-
Implementación: En el marco de esta actividad, primero se realiza la transformación de la información, expresada en un modelo conceptual (tablas), a un modelo formal. Esto, para transformarla posteriormente en un modelo computacional en algún lenguaje de ontología (RDF, OWL, OBO, TURTLE, etc.). Un elaborado modelo computacional, se codifica toda la estructura de la información recolectada y conformada en las actividades anteriores en un modelo OWL en la herramienta Protégé. La implementación resulta en un prototipo de software que permite la visualización y el acceso a una base de conocimiento sobre las regiones del país.
-
Mantenimiento: En esta fase se actualiza y corrige la ontología en caso de ser necesario.
Aplicación de la ingeniería ontológica
El término ontología viene del mundo de la filosofía. Concretamente, según el Diccionario de la Real Academia Española, es la parte de la metafísica, que trata del ser en general y de sus propiedades trascendentales, o de propiedades que traspasan los límites de lo meramente experimental. Desde un punto de vista informático, las ontologías son teorías que especifican un vocabulario relativo a un cierto dominio. Este vocabulario define entidades, clases, propiedades, predicados y funciones, así como las relaciones entre estos componentes. Según el documento de recomendaciones de Web Ontology Language de la W3C, “una ontología define los términos a utilizar para describir y representar un área de conocimiento” (Ishaq et al., 2022). La ontología aquí diseñada puede ser utilizada por las personas, las bases de datos y las aplicaciones que necesiten compartir el dominio de información. Un dominio es simplemente un área de temática específica o un área de conocimiento (en este caso, jergas colombianas). El proceso de aplicación de ingeniería ontológica se observa en la Figura 4. El método describe el conjunto de actividades que gobiernan la construcción de la ontología y su integración con principios, métodos, metodologías y herramientas que guían y dan soporte al desarrollo de las ontologías (Oniki et al., 2023).
Se escogió la aplicación de mensajería instantánea de Twitter, pues esta permite el uso de sus APIs de manera libre y sin costo alguno, y no limita su uso a cierta cantidad de consumos al día, como lo hacen otras aplicaciones de mensajería instantánea.
Resultados
Implementación
Para el diseño y la construcción de la ontología I+D+i, se utilizó el lenguaje de programación de ontologías OWL, ejecutado en la plataforma Protégé. La Figura 5 presenta el diseño del diagrama de clases. Se utilizó Python para codificar el sistema, dado que es un lenguaje de programación orientado a objetos y se destaca por su simplicidad, versatilidad y rapidez en el desarrollo. Además, es adecuado para programar tanto scripts como aplicaciones de gran tamaño e incluye una poderosa y extensa biblioteca de clases.
El portal para desarrolladores permite usar las APIs ofrecidas por Twitter para la conexión a diferentes IDE. Se realizó un registro en el portal para hacer uso de las mismas desde Python. Las claves generadas fueron utilizadas por el código, con la finalidad de lograr la ya mencionada comunicación. Una vez instanciados los accesos, fue necesario hacer uso de la librería tweepy y las clases OAuthHandler y API. De tal manera, se logró la invocación de la API de Twitter, logrando iniciar sesión en la cuenta de Twitter utilizada y mantener la sesión activa.
En la Tabla 3 se observa un ejemplo de la consulta en SPARQL (Wiśniewski et al., 2019) con respecto a las clases y subclases. Se observan las subclases en la columna de la izquierda y sus respectivas clases en la columna de la derecha.
OntoGraf es un visualizador propio de la herramienta utilizada que muestra la representación de cada uno de los nodos principales que representan las clases, las cuales se comunican entre ellas por medio de las relaciones creadas (Gillis-Webber & Keet, 2022). Las clases son las ideas que representan el conocimiento de algún dominio. Protégé tiene la superclase THING predeterminada y, a partir de ella y de forma jerárquica, se crearon 6 clases, una por cada región del país. La Figura 5 muestra la jerarquía de las clases.
La consulta se estructuró por medio de triplas: sujeto, predicado y objeto, de tal manera que se accediera puntualmente a los datos necesarios, excluyendo, al mismo tiempo, el resto de datos. Una vez desplegada la ontología, es necesario probarla para ver su resultado. Para ello, se utilizó un razonador, el cual, a partir de las clases, relaciones e individuos definidos, determina las inferencias.
Validación y despliegue del prototipo
El sistema móvil se desarrolló en el lenguaje de programación Python, el cual cuenta con las funcionalidades necesarias para proporcionar los sinónimos de las palabras utilizadas en las diferentes regiones del país, de acuerdo con las condiciones y características modeladas. La Figura 6 se presenta la arquitectura de la aplicación desde la adquisición del conocimiento sobre el dominio a investigar.
Se definió un tipo de usuario para las diferentes funcionalidades que ofrece el aplicativo, con acceso a todas las vistas y la información que estas brindan. En la Figura 7 se representan las diferentes vistas del aplicativo, así como una descripción de su funcionamiento.
Luego, a partir de la metodología METHONTOLOGY, se obtuvo la ontología para implementarla en Protégé y obtener el archivo OWL. Este archivo se utilizó para el prototipo de aplicación en Python, donde se estableció la lógica.
El desarrollo de la aplicación se dio a partir de la arquitectura de componentes que se muestra en la Figura 8, la cual permite identificar los patrones de diseño necesarios en el desarrollo de la aplicación. Esto, con el propósito de reducir problemas de comportamiento, estructurales y creacionales, en aras de lograr que el desarrollo esté compuesto por elementos reutilizables y que se puedan corregir problemas en el mantenimiento de la ontología y la adquisición de conocimiento.
La Figura 9 muestra la página principal, llamada Aplicación de la web semántica para la gestión de traducción e interpretación de vocabulario en diálogos de mensajería instantánea en el español colombiano, donde se explica brevemente de qué trata la aplicación.
La interacción de los participantes con la aplicación fue positiva; lograron hacer las tareas en el tiempo estimado (5 minutos). La navegación dentro de la aplicación fue intuitiva y no hubo comentarios. La prueba de usabilidad fue útil para alertar sobre algunos errores, a saber: el botón Atrás, que los participantes mencionaron muchas veces; y el botón de Líneas de soporte, que debe tener otro formato para indicar la ruta de ayuda en caso de que sea necesario. Después de completar las primeras interacciones, los participantes respondieron un cuestionario para evaluar la usabilidad de la aplicación y determinar la satisfacción de la tarea. El cuestionario tiene una escala tipo Likert de cinco puntos, que va desde 1 (totalmente en desacuerdo) hasta 5 (totalmente de acuerdo). Los resultados del cuestionario implementado posterior a la tarea se muestran en la Figura 10.
Además, la aplicación cuenta con un Manual de Usuario en su pestaña de Ayuda. Esto, en caso de que el usuario requiera apoyo paso a paso para el manejo de la aplicación (Figura 11).
En la pestaña Consultar, se muestran los sinónimos de las palabras. Se pueden seleccionar la región y palabra para encontrar sinónimos en las demás regiones (Figura 12).
En la pestaña Enviar Mensajes se hace uso de la API de Twitter; los mensajes que se escriban en la aplicación son enviados directamente a la cuenta de Twitter seleccionada. Estos mensajes ya contarán con la homologación del sinónimo en las demás regiones (Figura 13).
Discusión
Se elaboró un modelo ontológico que permitió la organización y manejo de la información estudiada, además de un sistema móvil en donde se evidencia la homologación de las palabras en cada una de las regiones, en aras de poder enviar frases a una aplicación de mensajería instantánea (en este caso, Twitter).
El sistema presenta 3 pestañas principales: Regiones, Consultar y Enviar Mensajes.
-
Regiones: En esta pestaña se encuentra la descripción de cada una de las regiones, con sus respectivos departamentos y mapa.
-
Consultar: Esta pestaña permite consultar palabras de cada una de las regiones para obtener sus sinónimos en las demás regiones. En primer lugar, enmarcado en azul a la izquierda, se puede elegir la región que se quiere consultar. Segundo, enmarcado con verde en la parte central, se puede elegir la palabra a homologar. Por último, enmarcado en rojo a la derecha, se observan los sinónimos en las demás regiones.
La Figura 14 muestra, como ejemplo, la región Caribe. Del listado de palabras, se selecciona la palabra compadre, para finalmente obtener sus sinónimos en las demás regiones: amigote para la región Amazónica, amigo para la región Andina, parcero para el Eje Cafetero, manito para la Orinoquía y panita para la región Pacífica.
Enviar Mensajes: Esta pestaña permite seleccionar una región origen y una región destino, para luego escribir una frase y poder enviarla a la aplicación de mensajería instantánea de Twitter (Tanoli et al., 2022).
La pestaña cuenta con tres secciones. En la primera, enmarcado en azul en la parte superior izquierda, se puede elegir la región origen. En la parte inferior izquierda, también enmarcado en azul, se encuentra el listado de palabras pertenecientes a la región. En la segunda sección, en la parte superior centro y enmarcado en verde, se puede seleccionar la región destino, y, en la parte inferior centro, enmarcado en verde, está el sinónimo de la palabra elegida en la región origen. En la tercera y última sección, en la parte superior derecha y enmarcado en rojo, hay una caja de texto donde se puede escribir el complemento de la frase que se quiere enviar. Esto, con base en la palabra elegida. Por último, en la parte inferior derecha, se muestra la confirmación de la frase que se envió a la aplicación de mensajería instantánea.
Por ejemplo, si en la región Amazónica, se selecciona amigote y como región destino se selecciona el Eje Cafetero, se reporta parcero como sinónimo. Luego, con base en las palabras seleccionadas, se escribe el complemento de la frase. Para el caso de que el complemento sea qué más, haciendo referencia a un saludo. En la Figura 15 se puede observar la cuenta de Twitter a la cual se envió el mensaje.
Conclusiones
Este articulo presenta un modelo conceptual planteado para la recopilación y clasificación de la información extraída de la página web gubernamental oficial del Sistema Nacional de Información Cultural (http://www.sinic.gov.co/SINIC), ofrecida por el Ministerio de Cultura (https://www.mincultura.gov.co), y del Diccionario de colombianismos del Instituto Caro y Cuervo (https://www.caroycuervo.gov.co).
Se recopiló información sobre jergas y modismos, integrando las características propias de cada una de las regiones del territorio nacional y facilitando la visualización e interacción de la información sin requerir un manejo avanzado de herramientas informáticas, dado que el prototipo puede ser accedido mediante una interfaz intuitiva, desarrollada utilizando una terminología de fácil comprensión para quien la utilice.
La aplicación de lógica de predicados permite que el modelo ontológico genere inferencias que ayudan a relacionar los sinónimos de las palabras en cada una de las regiones. Las deducciones obtenidas facilitan la generación de conocimiento con respecto a las palabras de la ontología.
En el entorno de visualización desarrollado para este proyecto, se puede ver la descripción de cada una de las regiones y los departamentos que las conforman, realizar la búsqueda de las palabras propias de cada región y sus sinónimos en las demás regiones y, finalmente, crear una frase con términos equivalentes en una región origen y una región destino, para así enviarla mediante la aplicación de mensajería instantánea de Twitter.
Con lo descrito anteriormente, se brinda una solución a las dificultades propias de la interacción entre regiones, logrando brindar una comunicación clara, precisa y efectiva.
La estructura de información que alimenta el modelo ontológico diseñado puede ser ampliado en dos aspectos: el primero corresponde a la incorporación de más información (palabras), en aras de contar con un diccionario más amplio; en segundo lugar, está la incorporación de nuevos conceptos, relaciones y criterios, así como otros componentes (dichos, antónimos, comidas, entre otros). Además, se pueden añadir especificaciones más detalladas de cada región.
La alimentación del modelo ontológico es un aspecto fundamental, por lo cual se sugiere incluir el uso de técnicas de inteligencia artificial, como sistemas multi-agente y redes neuronales artificiales, que permitan optimizar el modelo ontológico y sus inferencias. El entorno de visualización propuesto en este proyecto ha sido desarrollado de manera modular, de tal manera que permite su extensión a otras funcionalidades, tales como un razonador externo, para que no se requiera la inclusión de inferencias en la ontología; la implementación de nuevas reglas que permitan una búsqueda más profunda en el modelo ontológico; mejoras para que la interfaz sea mucho más dinámica; y la inclusión de diferentes plataformas de mensajería instantánea.
Adicionalmente, sería útil incorporar mecanismos que faciliten la agregación e integración de reglas de manera dinámica, para usuarios que no necesariamente tengan que estar especializados en el lenguaje formal, y para que tampoco sea necesario hacer modificaciones desde la herramienta que generó el modelo ontológico (Protégé).
Referencias
License
Copyright (c) 2023 Marco-Javier Suárez-Barón, Andrés-Felipe Puerto, Jairo-Armando Riaño-Herrera
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
When submitting their article to the Scientific Journal, the author(s) certifies that their manuscript has not been, nor will it be, presented or published in any other scientific journal.
Within the editorial policies established for the Scientific Journal, costs are not established at any stage of the editorial process, the submission of articles, the editing, publication and subsequent downloading of the contents is free of charge, since the journal is a non-profit academic publication. profit.