Comparison of maximum likelihood, support vector machines, and random forest techniques in satellite images classification

Comparación de las técnicas máxima verosimilitud, máquinas de soporte vectorial y bosques aleatorios en clasificación de imágenes satelitales

Palabras clave: confidence test, confusion matrix, decision tree, random forest, software R, support vector machine (en_US)
Palabras clave: árboles de decisión, bosques aleatorios, máquinas de soporte vectorial, matriz de confusión, pruebas de confianza, software R (es_ES)

Resumen (en_US)

Context: Nowadays, the images of the Earth surface and the algorithms for their classification are widely available. In particular, the algorithms are promising in the differentiating of cotton crops stages, but it is necessary to establish the capabilities of the different algorithms in order to identify their advantages, and disadvantages.

Method: This paper describes the assessment process in which the Support Vector Machines (SVM) and random-forest technique (decision trees) are compared with the maximum likelihood estimation when differentiating the stages of cotton crops. A RapidEye satellite image of a geographic area in the municipality of San Pelayo, Cordoba (Colombia), is used for the study. Using a set of sampling polygons, a random sample of 6000 pixels was taken (2000 training and 4000 for validating the classifications.) Confusion matrices, and R (data processing and analysis software) were used during the validation process

Results: The maximun likelihood estimation presented a correct classification percentage of 68.95%. SVM correctly classified 81.325% of the cases and the decision trees correctly classified 78.925%. The confidence test for the classifications showed non-overlapping intervals, and SVM obtained the highest values.

Conclusions: It was possible to confirm the superiority of the technique based on support vector machines for the proposed verification zones. However, this technique requires a number of classes that comprehensively represent the variations of the image (in order to guarantee a minimum number of support vectors) to avoid confusion in the classification of non-sampled areas. This was less evident in the other two classification techniques analysed.

Resumen (es_ES)

Contexto: Hoy en día las imágenes de la superficie de la Tierra están ampliamente disponibles, así como la evolución de los algoritmos para su clasificación. Estos son prometedores para la diferenciación de los diversos estadios del cultivo de algodón. Por esta razón es necesario establecer sus capacidades, ventajas y desventajas.

Métodos: En este artículo se describe el proceso de valoración de las bondades de la clasificación basada en las técnicas de máquinas de soporte vectorial (SVM, por su sigla en inglés) y bosques aleatorios (árboles de decisión) en comparación con la técnica de máxima verosimilitud, empleando una imagen del satélite RapidEye, de un área geográfica ubicada en el municipio de San Pelayo, en el departamento de Córdoba (Colombia), con el propósito de diferenciar varios estadios de cultivos de algodón. A partir de un conjunto de polígonos de muestreo, se tomó de manera aleatoria un total de 6000 pixeles, 2000 de ellos para entrenamiento y 4000 para realizar la validación de las clasificaciones. La comparación de los resultados obtenidos de cada técnica fue realizada a partir de las matrices de confusión del proceso de validación, mediante el software de procesamiento y análisis de datos R.

Resultados: El porcentaje de clasificación correcta (PCC) para la clasificación de máxima probabilidad correspondió a 68,95 %, para la clasificación SVM fue 81,325 %, y para bosques aleatórios fue 78,925 %. La prueba de confianza para las clasificaciones demostró intervalos no solapados, obteniendo los valores más altos para SVM.

Conclusiones: Para las zonas de verificación planteadas, se pudo constatar la superioridad de la técnica basada en máquinas de soporte vectorial; sin embargo, se concluyó que para esta técnica se requiere un número de clases que representen de forma exhaustiva las variaciones de la imagen, garantizando así un mínimo de vectores de soporte, para evitar en la clasificación resultante las confusiones en las áreas restantes no muestreadas, lo cual fue menos evidente en las otras dos técnicas de clasificación analizadas.

Descargas

La descarga de datos todavía no está disponible.

Biografía del autor/a

José Antonio Valero Medina, Universidad Distrital Francisco José de Caldas

Ingeniero de sistemas, master en Tele-informática, estudiante de doctorado en ingeniería. Profesor asociado de la Universidad Distrital Francisco José de Caldas. Bogotá

Beatriz Elena Alzate Atehortúa, Consultor ambiental

Geólogo, especialista en teledetección y sistemas de información geográfica (SIG), maestría en ciencias geológicas, maestría en medio ambiente y desarrollo. Consultor ambiental. Bogotá

Referencias

Alzate, B. E. (2011). Imágenes espaciales de la superficie terrestre. Procesamiento digital, análisis y extracción de información temática. Notas de clase. Bogotá, Colombia: Universidad Nacional de Colombia. DOI: https://doi.org/10.18273/revsal.v49n2-2017006

Alzate, B. E. (2012). Prueba piloto de verificación de área sembrada con utilización de sensores remotos en el departamento de Córdoba. Informe de monitoreo. Bogotá: Corporación Colombiana Internacional CCI.

Blackbridge Group. (2014). Blackbridge Delivering the World. Retrieved from http://www.blackbridge.com/rapideye.

Boser, B. E., Guyon, I. M., & Vapnik, V. N. (1992). A training algorithm for optimal margin classifiers. Theory, Proceedings of the 5th Annual Workshop on Computational Learning (pp. 144-152). Pittsburgh: PA: ACM Press. DOI: https://doi.org/10.1145/130385.130401

Breiman, L. (1996). Bagging predictors. Machine Learning, 26, 123–140.

Breiman, L. (2001). Random forests. Machine Learning, 45, 5-32.

Breiman, L., Friedman, J. H., Olsen, R. A., & Stone, C. J. (1984). Classification and Regression Trees. Belmont, CA: Wadsworth.

Camacho Velasco, A., Vargas García, C., & Arguello Fuentes, H. (2016). Un estudio comparativo de algoritmos de detección de objetivos en imágenes hiperespectrales aplicados a cultivos agrícolas en Colombia. Tecnura, 20(49), 86-99. DOI: https://doi.org/10.14483/udistrital.jour.tecnura.2016.3.a06

Castro, F. M., García, R. D., & Jiménez, L. A. (2017). Comparación de técnicas de interpolación espacial de propiedades del suelo en el piedemonte llanero colombiano. Tecnura, 21(53), 78-95. DOI: https://doi.org/10.14483/22487638.11658

Coronado, C. (2009). Algodón transgénico en 2008 en el Tolima, fracaso para los indígenas. El Universal. Montería.

Halmos, P. R. (1967). A Hilbert space problem book. Princeton, NJ: D. Van Nostrand Company, Inc.

Kolmogorov, A. N., & Fomin, S. V. (1970). Introductory real analysis. Englewood Cliffs: NJ: Prentice-Hall, Inc.

Lizarazo, I. (2008). SVM‐based segmentation and classification of remotely sensed data. International Journal of Remote Sensing, 29(24), 7277-7283. DOI: https://doi.org/10.1080/01431160802326081

Negrete , F., Morales, J. G., & Martínez, L. F. (2009). Buenas prácticas agrícolas para el Cultivo del Algodón en el Departamento de Córdoba. Boletín técnico. Cereté, Córdoba: Corpoica C.I. Turipaná. DOI: https://doi.org/10.4995/thesis/10251/3790

Neira, N., & Rocha, A. D. (2013). Métodos de segmentación de nubes en imágenes satelitales. Tecnura, 17(36), 96-110. DOI: https://doi.org/10.14483/udistrital.jour.tecnura.2013.2.a08

Quinlan, J. R. (1979). Discovering rules by induction from large collections of examples. In Expert systems in the micro-electronic age. (D. Michie, Ed.). Edinburgh, Scotland: Edinburgh University Press.

Quinlan, J. R. (1993). C4.5: Algorithm for machine learning. San Mateo: Morgan Kaufmann. Retrieved from Revolution Analytics: http://www.revolution-computing.com/revolution-r-enterprise

Statnikov, A., Hardin, D., Guyon, I., & Aliferis, C. F. (2009). A Gentle Introduction to Support Vector Machinesin Biomedicine. New York: New York University. DOI: https://doi.org/10.1142/7922

Tan, P., Steinbach, M., & Kumar, V. (2004). Introduction to Data Mining. Hoboken, NJ: Addison-Wesley Companion Book Site.

Tso, B., & Mather, P. (2009). Classification Methods for Remotely Sensed Data. Boca Raton, FL: CRC Press, Taylor & Francis Group.

Vapnik, V. (1979). Estimation of dependences based on empirical data [in Russian]. New York: Springer-Verlag.

Vapnik, V. (1995). The nature of statistical learning theory. New York: Springer-Verlag.

Vapnik, V. (1998). Statistical learning theory. New York: John Wiley.
Cómo citar
Valero Medina, J., & Alzate Atehortúa, B. (2019). Comparación de las técnicas máxima verosimilitud, máquinas de soporte vectorial y bosques aleatorios en clasificación de imágenes satelitales. Tecnura, 23(59), 13-26. https://doi.org/10.14483/22487638.14826
Publicado: 2019-01-01
Sección
Investigación