Extracción de reglas de clasificación sobre repositorio de incidentes de seguridad informática mediante programación genética

Carlos Javier Carvajal Montealegre

Resumen


En este artículo se describe la obtención de reglas de clasificación sobre una colección de datos de incidentes de seguridad informática en un proceso de minería de datos, detallando el uso de la programación genética como un medio para modelar el comportamiento de los incidentes y representar las reglas en árboles de decisión. El proceso de extracción descrito incluye varios puntos, como la evaluación del enfoque de programación genética, la forma de representar a los individuos y la afinación de los parámetros del algoritmo para elevar el rendimiento. Se concluye con un análisis de los resultados y la descripción de las reglas obtenidas, considerando las posibles soluciones para minimizar la ocurrencia de los ataques informáticos. El artículo se basa en una parte de la tesis de grado Análisis de Incidentes de Seguridad Informática Mediante Minería de Datos, para Modelado de Comportamiento y Reconocimiento de Patrones (Carvajal, 2012).


Texto completo:

PDF HTML

Referencias


Banzhaf ,W., Nordin, P., Keller, R. E. y Francone, F. D. (1998). Genetic Programming: An Introduction – On the Automatic Evolution of Computer Programs and Its Applications. San Francisco, CA, USA: Morgan Kaufmann Publishers.

Bojarczuk, C.C.; Lopes, H.S. & Freitas, A.A. (2004). A constrained-syntax genetic programming system for discovering classification rules: application to medical data sets. Journal Artificial Intelligence in Medicine, Vol. 30, ene., pp. 27-48.

Carvajal, C.J. y Bayona, D.N. (2012). Análisis de Incidentes de Seguridad Informática Mediante Minería de Datos, para Modelado de Comportamiento y Reconocimiento de Patrones. Tesis de ingeniería de sistemas no publicada, Universidad Francisco José de Caldas, Bogotá, Colombia.

De Falco, I.; Della Cioppa A., y Tarantino, E. (2001). Discovering interesting classification rules with genetic programming. Applied Soft Computing., Vol. 1, No. 4, May, pp. 257-269.

Freitas A.A. (2002). Data Mining and Knowledge Discovery with Evolutionary Algorithms. Secaucus, NJ, USA: Springer-Verlag New York, Inc.

Han, J. & Kamber, M. (2005). Data Mining: Concepts and Techniques. San Francisco, CA, USA: Morgan Kaufmann Publishers.

Harvard School of Engineering and Applied Sciences (2013). CS109 Data Science. Recuperado de: http://cs109.github.io/2014/

Knowledge Discovery and Intelligent Systems KDIS (2011). Java Class Library for Evolutionary Computation JCLEC. Recuperado de: http://jclec.sourceforge.net/

Koza, J.R. (1992). Genetic Programming: On Programming Computers by means of Natural Selection and Genetics. Cambridge, MA, USA: MIT Press.

Luna, J.M.; Romero, J.R. y Ventura, S. (2012). Design and Behaviour Study of a Grammar Guided Genetic Programming Algorithm for Mining Association Rules.

Knowledge and Information Systems, Vol. 32, Jul., pp. 53-76.

Mendes, R.R.; Voznika, F. de B.; Freitas, A.A. & Nievola, J.C. (2001). Discovering Fuzzy Classification Rules with Genetic Programming and Co-evolution. PKDD '01 Proceedings of the 5th European Conference on Principles of Data Mining and Knowledge Discovery, pp. 314-325.

Poli, R.; Langdon, W.B. & Mc Phee, N.F. (2008). A Field Guide to Genetic Programming. UK: Lulu Enterprises.

Privacy Rights Clearing House (2010). Chronology of Data Breaches 2005-Present. Recuperado de: http://www.privacyrights.org/data-breach

Software Engineering Institute Carnagie Mellon (2010). CERT Statistics (Historical). Recuperado de: http://www.cert.org/stats/cert_stats.html

Tan, K.C.; Tay, A.; Lee T.H. & Heng, C.M. (2002). Minning Multiple Comprehensible Classification Rules Using Genetic Programming. Proceeding CEC '02 Proceedings of the Evolutionary Computation on 2002. CEC '02. Proceedings of the 2002 Congress, Vol. 2, pp. 1302-1307.

The Web Application Security Consortium (2010). Web Hacking Incident DataBase. Recuperado de: http://projects.webappsec.org/w/page/13246995/Web-Hacking-Incident-Database

Universidad Distrital Francisco José de Caldas (2010). COL-CSIRT Grupo de Investigación. Recuperado de: http://gemini.udistrital.edu.co/comunidad/grupos/arquisoft/colcsirt/

Wong, M.L. & Leung , K.S. (2000). Data Mining Using Grammar Based Programming and Application. Norwell, MA, USA: Kluwer Academic Publishers.

Yang, Q.W.; Jiang, J.P. & Chen, G. (2000). How to Select Optimal Control Parameters for Genetic Algorithms. Proceedings of the 2000 IEEE International Symposium on Industrial Electronics, Vol. 1, Dec., pp. 37-41.

Yuan, B. & Gallagher, M. (2005). A Hybrid Approach to Parameter Tuning in Genetics Algorithms. The 2005 Evolutionary Computation IEEE Congress, Vol. 2, Sep., pp. 1096-1103.




DOI: https://doi.org/10.14483/udistrital.jour.tecnura.2015.2.a08



https://doi.org/10.14483/issn.2248-7638