Análisis de datos mediante el algoritmo de clasificación J48, sobre un cluster en la nube de AWS

  • Carlos Hernán Cardona Taborda
  • Nancy Gelvez García
  • Jairo Jamith Palacios Rozo Universidad Distrital Francisco José de Caldas
Palabras clave: análisis de datos, AWS, clúster, programación en la nube, J48, validación cruzada (es_ES)

Resumen (es_ES)

El siguiente artículo presenta la implementación del algoritmo J48 con el software libre Weka 3.8.0 ejecutado desde un clúster en la nube de AWS, el cual fue desarrollado con Starcluster 0.91. Este sistema es utilizado sobre una base de datos que contiene información de clasificación de vidrios a través del algoritmo, junto con datos de entrenamiento y validación cruzada, se logra crear un árbol de clasificación que permitirá predecir a qué clase de material pertenece el vidrio ingresado.

Descargas

La descarga de datos todavía no está disponible.

Referencias

. Amazon. (2016). ec2 instances. 22 de junio de 2016, de Amazon sitio web: https://aws.amazon.com/es/ec2/

. Universidad de Waikato. (2010). Weka. 26 de junio de 2016, de Universidad de Waikato sitio web: http://www.cs.waikato.ac.nz/ml/weka/

. Instituto de tecnología de Massachusetts (MIT). (2016). starcluster. 19 de junio de 2016, de MIT sitio web: http://star.mit.edu/cluster/index.html

. Liliana Hernández Cervantes, Alfredo j. Santillán González, Reyna e.caballero cruz. (2004). Clúster. Revista digital universitaria, 4, 1,2.

. Maestría de exploración de datos de datos y descubrimiento del conocimiento. (2015) ¿qué es data mining? 13 de junio de 2016, de Universidad de Buenos Aires, UBA, Argentina, sitio web: http://datamining.dc.uba.ar/datamining/index.php/que-esdata-mining

. Ingrid Wilford Rivera, Alejandro Rosete Suárez. Alfredo Rodríguez Díaz. . (2010). Aplicación de la minería de datos para el análisis de información clínica. estudio experimental en cardiopatías isquémicas. 10 de junio de 2016, de revista cubana de información médica sitio web: http://www.rcim.sld.cu/revista_18/articulos_htm/mineriadatos.htm.

. Microsoft. (2016). Validación cruzada (Analysis Services - Minería de datos). 2 de julio de 2016, de Microsoft Sitio web: https://msdn.microsoft.com/es-es/library/bb895174.aspx

. García Jiménez, María - Álvarez Sierra, Aránzazu. (2010). Análisis de Datos en WEKA – Pruebas de Selectividad. 29 de junio de 2016, de Universidad Carlos III, Madrid, España

. MPI. (2000). MPI. 10 de junio de 2016, de Ubuntu Sitio web: http://www.mpich.org/downloads/

. D. Chiu and G. Agrawal, “Evaluating caching and storage options on the Amazon Web Services Cloud,” 2010 11th IEEE/ACM International Conference on Grid Computing, Brussels, 2010, pp. 17-24. doi: 10.1109/GRID.2010.5697949 URL: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5697949&isnumber=5697799

. R. Gupta, Moinuddin and P. Kumar, “Cloud computing data mining to SCADA for energy management,” 2015 Annual IEEE India Conference (INDICON), New Delhi, 2015, pp. 1-6. doi: 10.1109/INDICON.2015.7443687 URL: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7443687&isnumber=7443105

. L. Ismail, M. M. Masud and L. Khan, “FSBD: A Framework for Scheduling of Big Data Mining in Cloud Computing,” 2014 IEEE International Congress on Big Data, Anchorage, AK, 2014, pp. 514-521. doi: 10.1109/BigData. Congress.2014.81 URL: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6906823&isnumber=6906742

. Y. Wang and Y. W. Zhao, “Transplantation of Data Mining Algorithms to Cloud Computing Platform When Dealing Big Data,” Cyber-Enabled Distributed Computing and Knowledge Discovery (CyberC), 2014 International Conference on, Shanghai, 2014, pp. 175-178. doi: 10.1109/CyberC.2014.39 URL: http://ieeexplore.ieee.org/stamp/stamp.

jsp?tp=&arnumber=6984302&isnumber=6984259

. C. Ji, Y. Li, W. Qiu, U. Awada and K. Li, “Big Data Processing in Cloud Computing Environments,” 2012 12th International Symposium on Pervasive Systems, Algorithms and Networks, San Marcos, TX, 2012, pp. 17-23. doi: 10.1109/I-SPAN.2012.9 URL: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6428800&isnumber=6428797

. UCI. (2006). GlassIdentification Data Set . 8 de junio de 2016, de UCI, tabla basada en Atribute information, Sitio web: https://archive.ics.uci.edu/ml/datasets/Glass+Identification

. Hernández Cervantes, Liliana; Santillán González, Alfredo; Caballero Cruz,Reyna . (2004). MAESTROS Y ESCLAVOS. UNA APROXIMACIÓN A LOS CÚMULOS DE COMPUTADORAS. Revista Digital Universitaria, UNAM, 4, 4.Disponible http://www.revista.unam.mx/vol.4/num2/art3/jun_art3.pdf

. Weka. (2010). Use WEKA in your Java code. 1 de septiembre de 2016, de TheUniversity of Waikato Sitio web: https://weka.wikispaces.com/Use+WEKA+in+your+Java+code

. S. Madipalli, A. Gangisetty, V.Gangdhara, K. Malla. Codigo java utilizado, gangisettiarjun. (2015). Predicting Cardiac and Diabetic Problems using EHR research data. 1 de octubre de 2016, de github Sitio web: https://github.com/gangisettiarjun/HealthCare_PredictiveAnalytics

Cómo citar
Cardona Taborda, C., Gelvez García, N., & Palacios Rozo, J. (1). Análisis de datos mediante el algoritmo de clasificación J48, sobre un cluster en la nube de AWS. Redes De Ingeniería, 3-15. https://doi.org/10.14483/udistrital.jour.redes.2016.3.a01
Sección
Investigación

Artículos más leídos del mismo autor/a