Representación computacional del lenguaje natural escrito

Computational representation of written natural language

  • Sonia Ordoñez Salinas Universidad Distrital Francisco José de Caldas
  • Alexander Gelbukh Laboratorio de Lenguaje Natural y Procesamiento de Texto del Centro de Investigación en Computación del Instituto Politécnico Nacional, México
Palabras clave: Natural language processing, computational structures. (en_US)
Palabras clave: Procesamiento de lenguaje natural, estructuras computacionales. (es_ES)

Resumen (es_ES)

Cuando el ser humano lee o escucha una palabra, inmediatamente la relaciona con un concepto. Esto es posible gracias a la acumulación de información y a la posibilidad de filtrar, procesar y relacionar dicha información. Para la máquina, una expresión escrita en el lenguaje natural es una cadena de bits que no aporta información por sí sola. Un computador interpreta esta cadena de bits, modelando el proceso que tiene lugar en la mente humana, estructurando y relacionado la cadena con información previamente almacenada. En el proceso, así como al momento de describir los resultados, el texto es representado por estructuras formales que permiten el procesamiento automático, la interpretación y la comparación de la información. Este artículo presenta una descripción detallada de estas estructuras.

Resumen (en_US)

When humans read, or hear, words, they immediately relate
them to a concept. This is possible due to the information
already stored in the brain and also to human’s ability to
select, process, and associate such information with words.
However, for a computer, natural language text is only a
sequence of bits that does not convey any meaning on its
own, unless properly processed. A computer interprets this
bit sequence by modeling the processing that takes place in
human minds, namely structuring and linking the text with
previously stored information. During this process, as well
as when describing its results, the text is represented using
various formal structures that permit automatic processing,
interpretation, and comparison of information. In this paper,
we present a detailed description of these structures.

Descargas

La descarga de datos todavía no está disponible.

Biografía del autor/a

Sonia Ordoñez Salinas, Universidad Distrital Francisco José de Caldas
Docente Universidad Distrital – Facultad de ingeniería. Estadística de la Universidad Nacional. Ingeniera de Sistemas de la Universidad Distrital. Especialista Teleinformática Universidad Distrital. Magíster en Ingeniería de Sistemas Universidad Nacional. Doctor Ing. Sistemas y Computación, Universidad Nacional de Colombia. Grupo de Investigación Gesdatos U.D.
Alexander Gelbukh, Laboratorio de Lenguaje Natural y Procesamiento de Texto del Centro de Investigación en Computación del Instituto Politécnico Nacional, México
Profesor-Investigador y Jefe del Laboratorio de Lenguaje Natural y Procesamiento de Texto del Centro de Investigación en Computación del Instituto Politécnico Nacional, México. Doctor en la ciencia de la computación por el Instituto de la Información Científica y Técnica de toda Rusia (VINITI). Maestro en Ciencias en matemáticas por la Universidad Nacional “Lomonósov” de Moscú (MGU), Rusia. Miembro de la Academia Mexicana de Ciencias, Investigador Nacional de México nivel II.

Referencias

Salton, G. y Lesk, M. E. (1965). The SMART automatic document retrieval systems and illustration Common. ACM.

Farkas, J. (1966). Improving the classification accuracy of automatic text processing systems using context vectors and backpropagation algorithms. Canadian Conference on Electrical and Computer Engineering.

Henderson, J., Merlo, P., Petroff, I. y Schneider, G. (2002). Using NLP to efficiently visualize text collections with SOMs. Proceedings:

th International Workshop on Database and Expert Systems Applications.

Kimura, M., Saito, K., Ueda, N. (2005). Multinomial PCA for extracting major latent topics from document streams. Neural Networks

, IJCNN ’05. Proceedings. 2005 IEEE International Joint Conference.

Maron, M.E. y Kuhns, J.L. (1960). On relevance, probabilistic indexing and information retrieval. Journal of the ACM.

Badia, A. y Kantardzic, M. (2005). Graph building as a mining activity: finding links in the small. LinkKDD ’05: Proceedings of the 3rd international workshop on Link discovery. 17-24. ACM.

Rijsbergen C.J. van, Robertson S.E. y Porter M.F. (1980). New models in probabilistic information retrieval. London: British Library. (British Library Research and Development Report, No. 5587.

Klabbankoh B. y Pinngern Q. (2000). Applied Genetic Algorithms in Information Retrieval. Faculty of Information Technology,

King Mongkut´s Institute of Techology Ladkrabang.

Varlamis I.,Vazirgiannis M., Halkidi M., Nguyen B. (2004). Thesus, A Closer View on Web Content Management Enhanced with Link Semantics. IEEE Transactions on Knowledge and Data Engineering, Vol. 16. No. 6. 685-700.

Deerwester S., Dumais S. T., Furnas G. W., Landauer T. K. y Harshman R. (1990). Indexing by Latent Semantic Analysis. Journal

of the American Society for Information Science, Vol. 41. No. 6. 391-407.

Hensman S. (2004). Automatic Construction of Conceptual Graphs from Texts using Computational Linguistics Techniques.

Department of Computer Science, University College Dublin. Belfield, Dublin 4. Proceedings of Student Research Workshop at

HLT-NAACL.

Rijsbergen Van C.J. (1979). Information Retrieval. Department of Computing Science, University of Glasgow Second edition.

Schenker A., Bunke Horst, M. L. A. K. (2005). Graph-theoretic techniques for Web content mining. World Scientific Publishing.

Schenker A., Bunke H., M. L. y Kandel, A. (2004). A Graph-Based framework for Web document mining. Lecture Notes in Computer Science Publisher Springer Berlin Heidelberg, Vol. 3163. 401-412.

Barski C. (2009). The enigmatic art of knowledge representation. Consultado: www.lisperati.com//ex.html. (5 de marzo, 2009).

Losada, D. y Barreiro A. (2001). Rating the impact of logical representations on retrieval performance. Database and Expert

Systems Applications Proceedings. 12th International Workshop, 247-253.

Chang C. y Chen A. (1998). Supporting conceptual and neighborhood queries on WWW. Systems, Man, and Cybernetics, Part

C: Applications and Reviews, IEEE Transactions, Vol. 28. No. 2. 300-308.

Peltonen, J., Sinkkonen J. y Kaski, S. (2002). Discriminative clustering of text documents. 9th International Conference Neural

Information Processing, 2002. ICONIP ’02, Vol. 4. 1956-1960.

Maisonnasse L., Gaussier E., J. C. (207). Multiplying Concept Sources for Graph Modeling. LIG contribution to the CLEF 2007

medical retrieval task (ImageCLEFmed).

Gao J., Nie J.-Y, Wu G., Cao G. (1999). Dependence Language Model for Information Retrieval. Microsoft Research, Asia, Brooks

Cole Publishing Co., Pacific Grove.

Williams R. (2007). A Computational Effective Document Semantic Representation. DEST’07. Digital EcoSystems and Technologies

Conference, IEEE-IES.

Manning C., Schütze H. (1999). Foundations of Statistical Natural Language Processing. MIT Press. Cambridge, MA: May.

Mineau, G. W., Stumme, G. y Wille, R. (1999). Conceptual Structures Represented by Conceptual Graphs and Formal Concept

Analysis. International Conference on Conceptual Structures.

Delugach H. S. Towards. (2008). Conceptual Structures Interoperability Using Common Logic Computer. Science Department

Univ. of Alabama in Huntsville. Third Conceptual Structures Tool Interoperability Workshop.

Helbig H. (2006). Knowledge Representation and the Semantics of Natural Language. Lecture Notes in Computer Science.

Springer.

Sowa, J. F. (2008). Conceptual Graphs. Handbook of Knowledge Representation.

Gelbukh A., Sidorov G. (2006). Procesamiento automático del español con enfoque en recursos léxicos grandes. Instituto

Politécnico Nacional, México.

Hernández Cruz, M. (2007). Generador de los grafos conceptuales a partir del texto en español. Tesis de Maestría. Instituto

Politécnico Nacional. Centro de Investigación en computación.

Last M., Maimon O. (2004). A compact and Accurate Model for Classification. IEEE Transactions on Knowledge and Data

Engineering., Vol. 16. No. 2. 203-215.

Sowa, J. F. (2008). Common Logic, A Framework for a Family of Logic-Based Languages.

Barceló, G., Cendejas, E., Bolshakov, I. y Sidorov G. (2009). Ambigüedad en nombres hispanos. Revista Signos. Estudios de

Lingüística 42 (70). 153-169.

Shin S-J. (1994). The Logical Status of Diagrams. Cambridge University Press.

Committee on Information Interchange and Interpretation. Sowa, J. F. (2008). Conceptual Graph Standard. Consultado:

www.jfsowa.com/cg/cgstandw.htm. (12 de noviembre, 2008).

Montes-y-Gómez M. (2001). Minería de texto: Un nuevo reto computacional. 3er Taller Internacional de Minería de Datos

MINDAT-2001, Universidad Panamericana, Ciudad de México.

Shehata, S., Karray, F. y Kamel, M. (2006). Enhancing Text Retrieval Performance using Conceptual Ontological Graph. Data

Mining Workshops, 39-44, Sixth IEEE International Conference on Data Mining - Workshops (ICDMW’06).

Representación computacional del lenguaje natural escrito

INGENIERÍA • Vol. 15 • No. 1 • ISSN 0121-750X • UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ DE CALDAS 21

Tesnière, A. L. (1959). Elements de syntax e structurale. Klincksieck Paris.

Castro-Sánchez, N. A., y Sidorov, G. (2010). Analysis of Definitions of Verbs in an Explanatory Dictionary for Automatic Extraction

of Actants based on Detection of Patterns. Lecture Notes in Computer Science, No. 6177. 233-239.

Abdulrub S., Polovina S. y Hill, R. (2008). Implementing Interoperability through an Ontology Importer for Amine. Conceptual

Structures Tools and the Web - Third Conceptual Structures Tool Interoperability Workshop.

Shannon, C. (1948). A mathematical theory of communication. The Bell System Technical Journal, Vol. 27, 379–423.

Sleator, D. D. y Temperley, D. (1993). Parsing English with a link grammar. Third International Workshop on Parsing Technologies.

Roberts R, Goldstein I,. (1977). The FRL manual. Memo 409, Massachusetts Institute of Technology, Artificial Intelligence

Laboratory.

Noy N., Grosso W, Musen A. (2000). Knowledge acquisition Interfaces for Domain Experts: An Empirical Evaluation of Protege-

Twelfth International Conference on Software Engineering and Knowledge Engineering (SEKE 2000), Chicago, IL.

McGuinness D. L., Fikes R., Hendler J., Stein L. A., (2002). DAML+OIL: An Ontology Language for the Semantic Web. IEEE

Intelligent Systems, Vol. 17, No. 5. 72-80, Sep./Oct.

Kifer M, Lausen G, Wu J. (1995). Logical Foundations of Object-Oriented and Frame-Based Languages. Journal of ACM, May.

Brachman R., Schmolze J. (1985). An overview of the KL-ONE Knowledge Representation System. Cognitive Science, Vol. 9,

No. 2, 171-216.

Baader F., Nutt W. (2002). Basic Description Logics. The Description Logic Handbook, Cambridge University Press. 47-100.

Ginsberg M. (1991). Knowledge Interchange Format: The KIF of Death. Journal AI Magazine, Vol. 12. 57-63.

Lassila O., Swick R. y World Wide and Web Consortium. (1999). Resource Description Framework (RDF) Model and Syntax

Specification. Recommendation, World Wide Web W3C. Consortium, Cambridge (MA).

Krauskopf T., Miller. J, Resnick P., Treese W. (1996). PICS Label Distribution Label Syntax and Communication Protocols.

Version 1.1, W3C Recommendation.

Sirin E., Hendler J., Parsia B. (2002). Semi-automatic Composition of Web Services using Semantic Descriptions. Web Services:

Modeling, Architecture and Infrastructure workshop in ICEIS 2003. 17-24.

Ausube l, D., Novak, J. Hanesian, H. (1978). Psicología Educacional: Una visión cognitiva. Halt, Reinhart and Winston, New York.

Bally C, Sechehaye C. (1945). Curso de Linguistica General. Editorial losada, Buenos Aires. 31-32.

Chomsky, N. (1957). Syntactic structures. La Haya, Mouton.

Croitoru M., Jäschke R. (2008). Conceptual Structures Tools and the Web. Rudolph Sebastian Ed., Third Conceptual Structures

Tool Interoperability Worksop.

Cómo citar
Ordoñez Salinas, S., & Gelbukh, A. (2010). Representación computacional del lenguaje natural escrito. Ingeniería, 15(1). https://doi.org/10.14483/23448393.3630
Publicado: 2010-05-11
Sección
Artículos