Bayesian methods for classification inappropriate web pages

Métodos bayesianos para la clasificación páginas web inapropiadas

  • Jorge E. Rodríguez R
  • Jenny Paola Ortiz Pimiento
Palabras clave: Bayesian methods, Data Preprocessing, Machine Learning, Web Content Filtering, Web Mining (en_US)
Palabras clave: métodos bayesianos, preprocesamiento de datos, aprendizaje automático, filtrado de contenido web, minería web (es_ES)

Resumen (en_US)

The incursion of the Internet has created new forms of information and communication, but it can also carry great dangers, when its use is related to inappropriate content, such as, access to harmful contents and the rise of new kinds of crimes.   In this situation, automatic filtering systems identify improper Internet content. This paper describes the use of an algorithm, to automatically filter out inappropriate Web pages. To accomplish this (automatic filtering) task implementation method TAN (Tree Augmented Naive Bayes) is plasma. Data mining algorithms and computational learning for the extraction process, representation and classification of web pages are implemented.

Resumen (es_ES)

La incursión de Internet ha creado nuevas formas de información y comunicación, pero también puede conllevar grandes peligros cuando su uso está relacionado con contenido inapropiado, como el acceso a contenidos dañinos y el surgimiento de nuevos tipos de crímenes. En esta situación, los sistemas de filtrado automático identifican contenido inapropiado de Internet. Este documento describe el uso de un algoritmo para filtrar automáticamente las páginas web inapropiadas. Para lograr este método de implementación de tareas (filtrado automático) TAN (Tree Augmented Naive Bayes) es plasma. Se implementan algoritmos de minería de datos y aprendizaje computacional para el proceso de extracción, representación y clasificación de páginas web.

Descargas

La descarga de datos todavía no está disponible.

Referencias

[1] M. Villarreal, “Regulación de contenidos en Internet. Estudio cualitativo, Colombia y derecho comparado”, Revista Estudios Socio-Jurídicos, vol 10, no. 2, pp. 254-281, december 2008.

[2] Netcraf, “Web Server Survey”, june 12th 2009, [Online]. Available: http://news.netcraft.com/archives/2009/06/17/june_2009_web_server_survey.html

[3] M. A. Hernández, P. López, “Contenido nocivo en la red. ¿Qué Hacer? “, Universidad de Murcia, june 12th 2009, [Online]. Available: http://www.congresointernetenelaula.es/virtual/archivosexperiencias/200806041531262008_COM_Contenido_nocivo.doc

[4] RED USI, “Preguntas Frecuentes - RED USI”, june 12th 2009, [Online]. Available: http://www.usi.org.uy/es/preguntasfrecuentes/index.html#faqs-5

[5] A. García, “La Regulación De Los Contenidos Audiovisuales En Internet”, Comisión del Mercado de las Telecomunicaciones, june 12th 2009, [Online]. Available: http://serbal.pntic.mec.es/~cmunoz11/casti.pdf

[6] J. E. Rodríguez, H. A. Barrera, S. P. Bautista, “Software para el filtrado de páginas web pornográficas basado en el clasificador KNN – UDWEBPORN”, Revista Avances en Sistemas e Informática, vol. 8, no. 1, pp. 43-49, march 2011.

[7] J. E. Rodríguez, A. P. Herrera, M. L. Rojas, “Sistema de bloqueo automático para páginas web que incitan a la violencia a través de un algoritmo híbrido de aprendizaje computacional”. Revista Vínculos, vol 10, no 2, july 2013.

[8] A. L. Rotta, “La protección de los niños y niñas en internet – Los sistemas de filtrado”, I Congreso internacional sobre ética en los contenidos de los medios de comunicación en internet, october 01th 2001. [Online]. Available: http://www.ugr.es/~sevimeco/congreso.html

[9] I. M. Solano, M. A. Hernández, “La seguridad de los menores en Internet”, Universidad de Murcia, april 19th 2005. [Online]. Available: http://ticemur.f- integra.org/vticemur/documentos/mesa5/C2.pdf

[10] A. García, “La Regulación De Los Contenidos Audiovisuales En Internet”, Comisión del Mercado de las Telecomunicaciones, june 12th 2009, [Online]. Available: http://serbal.pntic.mec.es/~cmunoz11/casti.pdf

[11] M. Heins, C. Cho, A. Feldman, “Internet filters a public policy report”, Brennan Center for Justice, june 12th 2009, [Online]. Available: http://www.fepproject.org/policyreports/filters2.pdf

[12] L. M. Quiroga, “Sistemas de filtrado: Un puente tecnológico entre oferta y demanda de información en línea al servicio de la toma de decisiones”, june 12th 2009, [Online]. Available: http://www.cepal.org/dds/noticias/paginas/2/14632/ppt_LMQuiroga_Hawaii.ppt

[13] J. M. Gómez, E. Puertas, F. Carrero, M. de Buenaga, “Categorización de texto sensible al coste para el filtrado de contenidos inapropiados en Internet”, june 12th 2009, [Online]. Available: http://www.esp.uem.es/jmgomez/papers/sepln03.pdf

[14] A. I. Oviedo, C. A. Manco, J. E. Guerra, “Sistema Multiagente para el filtrado de pornografía mediante la evaluación del contenido multimedial de las páginas Web”. Revista en Telecomunicaciones e Informática, vol. 3 no. 5 pp.55 -73, june 2013.

[15] O. Mesa, M. Rivera, J. Romero, “Descripción general de la Inferencia Bayesiana y sus aplicaciones en los procesos de gestión”, Universidad del Rosario. La simulación al servicio de la academia, Edición 2, 2011, pp. 1-3.

[16] A. Gascón, M. de la Puente, “Clasificación Jerárquica de contenidos Web”, june 12th 2009, [Online]. Available: http://www.it.uc3m.es/jvillena/irc/practicas/06-07/30.pdf

[17] E. Fernández, “Análisis De Clasificadores Bayesianos”, june 12th 2009, [Online]. Available: http://materias.fi.uba.ar/7550/clasificadores-bayesianos.pdf

[18] J. Gomez, F. Carrero, E. Puertas,“Named Entity Recognition for Web Content Filtering”, Natural Language Processing and Information Systems, pp. 286-297, 2005.

[19] J. Kleinberg, “Authoritative sources in a hyperlinked environment”, Journal of the ACM (JACM), vol. 46, pp. 604-632, 1999.with anchor extraction and links Analysis, https://doi.org/10.1145/324133.324140

[20] W. Cohen, “Improving A Page Classifier with Anchor Extraction and Link Analysis”, Advances in Neural Information Processing Systems, vol. 15, pp. 1481-1488, 2002.

[21] E. Glover, E. K. Tsioutsiouliklis, S. Lawrence, D. Pennock, G. Flake, “Using Web Structure for Classifying and Describing Web Pages”, Proceedings of the eleventh international conference on World Wide Web, june 12th 2009, [Online]. Available: //dpennock.com/papers/glover-www-2002-using-Web-structure.pdf

[22] A. Prakash, K. Kumar, “Web Page Classification based on Document Structure”, International Institute of Information Technology, june 12th 2009, [Online]. Available: http://www.iiit.net/students/stud_pdfs/kranthi1.pdf

[23] B. Sergey, P. Lawrence, “The Anatomy of a Large-Scale Hypertextual Web Search Engine”, Stanford University Computer Networks and ISDN Systems 30, pp. 107- 117, 1998, https://doi.org/10.1016/S0169-7552(98)00110-X

[24] S. Guy, L. Jian, M. Ying, L. Sheng, “Improving the precision of the keyword-matching pornographic text filtering method using a hybrid model”. Journal of Zhejiang University Science, vol. 5, no.9, pp. 1106-13, 2004, https://doi.org/10.1631/jzus.2004.1106

[25] M. Chau, H. Chen, “A machine learning approach to web filtering using content and structured analysis, Decision Support Systems”, Decision Support Systems, vol. 44, issue 2, pp. 482-494, 2008, https://doi.org/10.1016/j.dss.2007.06.002

[26] S. Chakrabarti, “Mining the Web: Discovery Knowledge from Hypertext Data”, USA: Morgan Kaufmann, pp. 125-173, 2003, https://doi.org/10.1016/B978-155860754-5/50006-9

[27] E. Morales, “Redes Bayesianas en Minería de Datos”, september 21th 2016. [Online]. Available: http://dns1.mor.itesm.mx/~emorales/Cursos/KDD03/node44.html

[28] N. Friedman, D. Geiger, M. Goldizmitdt, “Bayesian networks classifiers”, Machine Learning, 1997, https://doi.org/10.1023/A:1007465528199

[29] T. Mitchell, “Machine Learning”, USA: McGraw-Hill, 1997, pp. 230-247.

[30] J. Hernández, M. Ramírez, C. Ferri, “Introducción a la Minería de Datos”, España: Prentice Hall. 2004, pp. 97-125.

[31] M.Kantardzic. DATA MINING. “Entropy measure for features ranking Algorithm” 2nd Edition. August 2011 p.p 29-30.

[32] J. Botía, “Herramientas de Minería de datos: WEKA (Waikato Environment for Knowledge Analysis)”. june 12th 2009, [Online]. Available: http://webs.um.es/juanbot/miwiki/lib/exe/fetch.php?id=tiia&cache=cache&media=pra ctica_tiia2.pdf

[33] W. Lan, E. Frank, “Data Mining, Practical Machine Learning Tools and Techniques”, USA: Morgan Kaufmann, 2005, pp. 143-184.

[34] D. Larose, “Discovering Knowledge in Data”, USA: Wiley Interscience, 2004, pp. 90-106, https://doi.org/10.1002/0471687545

[35] W. K. Chen, “Linear Networks and Systems”. Belmont: Wadsworth, 1993, pp. 123– 135.

[36] J. Schlimmer, D. Fisher, “A Case Study of Incremental Concept Induction”. Proc. 5th National Conf. on Artificial Intelligence, 1986, pp. 495–501.

[37] J. R. Quinlan, “C4.5: Programs for Machine Learning”, Morgan Kaufmann. 1993.

[38] R. Morales, G. Ramos, “Algoritmo multiclasificador con aprendizaje incremental que manipula cambios de conceptos”, Universidad de Granada, june 12th 2009, [Online]. Availablhttp://digibug.ugr.es/bitstream/10481/35217/1468964.pdf
Cómo citar
Rodríguez R, J. E., & Ortiz Pimiento, J. P. (2017). Métodos bayesianos para la clasificación páginas web inapropiadas. Visión electrónica, 11(2), 179-189. https://doi.org/10.14483/22484728.14626
julio-diciembre de 2017
Publicado: 2017-12-31
Sección
Visión Investigadora