Extracción de reglas de clasificación sobre repositorio de incidentes de seguridad informática mediante programación genética

Extracting classification rules from an informatic security incidents repository by genetic programming

  • Carlos Javier Carvajal Montealegre Chief Technology Officer en Conectar.biz

Resumen (es_ES)

En este artículo se describe la obtención de reglas de clasificación sobre una colección de datos de incidentes de seguridad informática en un proceso de minería de datos, detallando el uso de la programación genética como un medio para modelar el comportamiento de los incidentes y representar las reglas en árboles de decisión. El proceso de extracción descrito incluye varios puntos, como la evaluación del enfoque de programación genética, la forma de representar a los individuos y la afinación de los parámetros del algoritmo para elevar el rendimiento. Se concluye con un análisis de los resultados y la descripción de las reglas obtenidas, considerando las posibles soluciones para minimizar la ocurrencia de los ataques informáticos. El artículo se basa en una parte de la tesis de grado Análisis de Incidentes de Seguridad Informática Mediante Minería de Datos, para Modelado de Comportamiento y Reconocimiento de Patrones (Carvajal, 2012).

Resumen (en_US)

This paper describes the data mining process to obtain classification rules over an information security incident data collection, explaining in detail the use of genetic programming as a mean to model the incidents behavior and representing such rules as decision trees. The described mining process includes several tasks, such as the GP (Genetic Programming) approach evaluation, the individual's representation and the algorithm parameters tuning to upgrade the performance. The paper concludes with the result analysis and the description of the rules obtained, suggesting measures to avoid the occurrence of new informatics attacks. This paper is a part of the thesis work degree: Information Security Incident Analytics by Data Mining for Behavioral Modeling and Pattern Recognition (Carvajal, 2012).

Descargas

La descarga de datos todavía no está disponible.

Biografía del autor/a

Carlos Javier Carvajal Montealegre, Chief Technology Officer en Conectar.biz

Ingeniero de Sistemas, Oracle Certified Associate Java SE 7 Programmer, Oracle Certified Professional Java SE 7 Programmer, Oracle Certified Expert Java EE 6 Web Services Developer. Chief Technology Officer en Conectar.biz. Bogotá.

Referencias

Banzhaf ,W., Nordin, P., Keller, R. E. y Francone, F. D. (1998). Genetic Programming: An Introduction – On the Automatic Evolution of Computer Programs and Its Applications. San Francisco, CA, USA: Morgan Kaufmann Publishers.

Bojarczuk, C.C.; Lopes, H.S. & Freitas, A.A. (2004). A constrained-syntax genetic programming system for discovering classification rules: application to medical data sets. Journal Artificial Intelligence in Medicine, Vol. 30, ene., pp. 27-48.

Carvajal, C.J. y Bayona, D.N. (2012). Análisis de Incidentes de Seguridad Informática Mediante Minería de Datos, para Modelado de Comportamiento y Reconocimiento de Patrones. Tesis de ingeniería de sistemas no publicada, Universidad Francisco José de Caldas, Bogotá, Colombia.

De Falco, I.; Della Cioppa A., y Tarantino, E. (2001). Discovering interesting classification rules with genetic programming. Applied Soft Computing., Vol. 1, No. 4, May, pp. 257-269.

Freitas A.A. (2002). Data Mining and Knowledge Discovery with Evolutionary Algorithms. Secaucus, NJ, USA: Springer-Verlag New York, Inc.

Han, J. & Kamber, M. (2005). Data Mining: Concepts and Techniques. San Francisco, CA, USA: Morgan Kaufmann Publishers.

Harvard School of Engineering and Applied Sciences (2013). CS109 Data Science. Recuperado de: http://cs109.github.io/2014/

Knowledge Discovery and Intelligent Systems KDIS (2011). Java Class Library for Evolutionary Computation JCLEC. Recuperado de: http://jclec.sourceforge.net/

Koza, J.R. (1992). Genetic Programming: On Programming Computers by means of Natural Selection and Genetics. Cambridge, MA, USA: MIT Press.

Luna, J.M.; Romero, J.R. y Ventura, S. (2012). Design and Behaviour Study of a Grammar Guided Genetic Programming Algorithm for Mining Association Rules.

Knowledge and Information Systems, Vol. 32, Jul., pp. 53-76.

Mendes, R.R.; Voznika, F. de B.; Freitas, A.A. & Nievola, J.C. (2001). Discovering Fuzzy Classification Rules with Genetic Programming and Co-evolution. PKDD '01 Proceedings of the 5th European Conference on Principles of Data Mining and Knowledge Discovery, pp. 314-325.

Poli, R.; Langdon, W.B. & Mc Phee, N.F. (2008). A Field Guide to Genetic Programming. UK: Lulu Enterprises.

Privacy Rights Clearing House (2010). Chronology of Data Breaches 2005-Present. Recuperado de: http://www.privacyrights.org/data-breach

Software Engineering Institute Carnagie Mellon (2010). CERT Statistics (Historical). Recuperado de: http://www.cert.org/stats/cert_stats.html

Tan, K.C.; Tay, A.; Lee T.H. & Heng, C.M. (2002). Minning Multiple Comprehensible Classification Rules Using Genetic Programming. Proceeding CEC '02 Proceedings of the Evolutionary Computation on 2002. CEC '02. Proceedings of the 2002 Congress, Vol. 2, pp. 1302-1307.

The Web Application Security Consortium (2010). Web Hacking Incident DataBase. Recuperado de: http://projects.webappsec.org/w/page/13246995/Web-Hacking-Incident-Database

Universidad Distrital Francisco José de Caldas (2010). COL-CSIRT Grupo de Investigación. Recuperado de: http://gemini.udistrital.edu.co/comunidad/grupos/arquisoft/colcsirt/

Wong, M.L. & Leung , K.S. (2000). Data Mining Using Grammar Based Programming and Application. Norwell, MA, USA: Kluwer Academic Publishers.

Yang, Q.W.; Jiang, J.P. & Chen, G. (2000). How to Select Optimal Control Parameters for Genetic Algorithms. Proceedings of the 2000 IEEE International Symposium on Industrial Electronics, Vol. 1, Dec., pp. 37-41.

Yuan, B. & Gallagher, M. (2005). A Hybrid Approach to Parameter Tuning in Genetics Algorithms. The 2005 Evolutionary Computation IEEE Congress, Vol. 2, Sep., pp. 1096-1103.

Cómo citar
Carvajal Montealegre, C. (2015). Extracción de reglas de clasificación sobre repositorio de incidentes de seguridad informática mediante programación genética. Tecnura, 19(44), 109-120. https://doi.org/10.14483/udistrital.jour.tecnura.2015.2.a08
Publicado: 2015-04-01
Sección
Investigación