DOI:

https://doi.org/10.14483/23448393.17952

Published:

2022-08-12

Issue:

Vol. 27 No. 3 (2022): September-December

Section:

Systems Engineering

Metodología para obtención y análisis de datos inmobiliarios usando fuentes alternativas: estudio de caso en tres ciudades intermedias de Colombia

Methodology for the Collection and Analysis of Real Estate Data Using Alternative Sources: Case Study in Three Medium-Sized Cities of Colombia

Authors

  • Andrés Enrique Rosso Mateús Instituto Geográfico Agustín Codazzi, Centro de Investigación y Desarrollo en Información Geográfica - CIAF https://orcid.org/0000-0002-5504-2377
  • Yeimy Maryuri Montilla Montilla Instituto Geográfico Agustín Codazzi, Centro de Investigación y Desarrollo en Información Geográfica - CIAF https://orcid.org/0000-0002-5504-2377
  • Sonia Constanza Garzón Martínez Instituto Geográfico Agustín Codazzí https://orcid.org/0000-0002-0057-2776

Keywords:

Multipurpose Cadastre, real estate dynamics, real estate market, commercial value, web scraping (en).

Keywords:

Catastro Multipropósito, dinámica inmobiliaria, mercado inmobiliario, valor comercial, web scraping (es).

Abstract (es)

Contexto: La política pública de Catastro Multipropósito necesita consolidar información inmobiliaria de diferentes fuentes para su análisis, tales como ofertas, transacciones y costos de construcción, entre otros. Las páginas web inmobiliarias forman parte de estas fuentes de información, aunque no han sido incluidas en el análisis comercial. Considerando lo anterior, es necesario revisar una metodología que permita acceder de forma óptima a estas plataformas web y facilite el análisis de las variables que allí se proveen, que son determinantes para el valor comercial de un inmueble. Se realiza un caso de estudio en tres ciudades colombianas: Fusagasugá, Manizales y Villavicencio.

Método: El método se desarrolla en dos etapas (i) web scraping, que permite obtener los enlaces de la información de páginas web inmobiliarias y descargar sus datos, y (ii) el análisis de datos inmobiliarios mediante el desarrollo de un flujo de trabajo que inicia con la exploración y la limpieza de los datos, continúa con el pre-modelado y finaliza con el modelado de las variables de interés en la determinación del valor de los bienes inmuebles usando técnicas de machine learning.

Resultados: A partir de la aplicación de técnicas de machine learning, fue posible automatizar la recolección, la limpieza, el almacenamiento y el análisis de datos inmobiliarios provenientes de plataformas web, así como delinear dos modelos (Ridge Regression y Random Forest) que, de acuerdo, con su error porcentual medio absoluto (0,34 y 0,35 respectivamente), permiten predecir el valor comercial de un inmueble considerando variables explicativas internas y externas.

Conclusiones: Obtener y analizar los datos inmobiliarios de fuentes alternativas como las plataformas web a través de desarrollos tecnológicos contribuye significativamente a atender la alta demanda de información del catastro del país. No obstante, es necesario ampliar el suministro de esta información a los ámbitos rurales, que cuentan con menos acceso y disponibilidad de la misma.

Abstract (en)

Context: The Multipurpose Cadastre public policy needs to consolidate real estate information from different sources for analysis, such as offers, transactions, and construction costs, among others. Real estate websites are part of these sources of information, although they have not yet been included in commercial analysis. In light of the above, it is necessary to review a methodology that allows optimal access to these web platforms and facilitates the analysis of the variables provided therein, which are crucial to a property's commercial value. A study case was carried out in three Colombian cities: Fusagasugá, Manizales, and Villavicencio.

Method: The method is implemented in two stages: (i) web scraping, which allows obtaining the information links from real estate web pages and downloading their data, and (ii) analyzing real estate data by developing a workflow that starts with data exploration and cleaning, continues with pre-modeling, and ends by modeling the crucial variables in the determination of real estate value using machine learning techniques.

Results: By applying machine learning techniques, it was possible to automate the collection, cleaning, storage, and analysis of real estate data from web platforms, as well as to outline two models (Ridge Regression and Random Forest), which, according to their mean absolute percentage error (0,34 and 0,35, respectively), allow predicting the commercial value of a property while considering internal and external explanatory variables.

Conclusions: Obtaining and analyzing real estate data from alternative sources such as web platforms through machine learning techniques contributes significantly to addressing the high information demand of the country’s cadastre. However, it is necessary to expand the supply of this information to rural areas, which have less access and availability to it.

Author Biography

Yeimy Maryuri Montilla Montilla, Instituto Geográfico Agustín Codazzi, Centro de Investigación y Desarrollo en Información Geográfica - CIAF

Ingeniera Catastral y Geodesta, Especialista en Sistemas de Información Geográfica, Magíster en Ciencias de la Información y las Comunicaciones de la Universidad Distrital Francisco José de Caldas

References

L. Ulbricht, “Scraping the demos: Digitalization, web scraping and the democratic Project”, Democratization, vol. 27, no. 3, pp. 426-442, 2020. https://doi.org/10.1080/13510347.2020.1714595

E. Uzun, “A novel web scraping approach using the additional information obtained from web pages”, IEEE Access, vol. 8, pp. 61726-61740, 2020. https://doi.org/10.1109/ACCESS.2020.2984503

J.-C. Bricongne, B. Meunier, and P. Sylvain, “Web scraping housing prices in real-time: The covid-19 crisis in the UK”, Banque de France Working Paper, no. 827, 2021. http://dx.doi.org/10.2139/ssrn.3916196

J. Hillen, “Web scraping for food price research”. British Food Journal, vol. 121, no. 12, pp. 3350-3361, 2019. https://doi.org/10.1108/BFJ-02-2019-0081

R. Morshedi, B. Chu, E. Huang, and L. Ivers, “Web scraping: Applications in infrastructure planning”. 24th Association of Public Authority Surveyors Conference (APAS2019), 2019.

L. C. Dewi, Meiliana, and A. Chandra, “Social media web scraping using social media developers API and regex”, Procedia Computer Science, vol. 157, pp. 444-449, 2019. https://doi.org/10.1016/j.procs.2019.08.237

V. Krotov, L. Johnson, and L. Silva, “Tutorial: Legality and ethics of web scraping”. Communications of the Association for Information Systems, vol. 47, pp. 539-563, 2020. https://doi.org/10.17705/1CAIS.04724

Departamento Nacional de Planeación, Estrategia para la implementación de la política pública de catastro multipropósito (Documento Conpes 3958), Bogotá, Colombia, DNP, 2019.

Departamento Administrativo Nacional de Estadística, Decreto 148 de 2020, Bogotá, Colombia, DANE, 2020.

H. Eguino y D. Erba (eds.), “Catastro, valoración inmobiliaria y tributación municipal: experiencias para mejorar su articulación y efectividad”, Banco Interamericano de Desarrollo, Washington D.C., EE.UU., 2020. http://dx.doi.org/10.18235/0002437

A. V. Saurkar, K. G. Pathare, and S. A. Gode. “An overview on web scraping techniques and tools”. International Journal on Future Revolution in Computer Science & Communication Engineering, vol. 4, no. 4, pp. 363-367, 2018.

Alcaldía de Manizales. 2020. Información General - Alcaldía de Manizales. [Información incompleta]

Departamento Administrativo Nacional de Estadística, ¿Cuántos somos?, Bogotá, Colombia, DANE, 2018.

Instituto Geográfico Agustín Codazzi, “Datos Abiertos Catastro”, Geoportal, Bogotá, Colombia, IGAC, 2020.

Alcaldía de Villavicencio. 2020. Presentación.

Alcaldía de Fusagasugá. 2020. Presentación.

S. Shafiee, Y. Wautelet, L. Hvam, E. Sandrin, and C. Forza, “Scrum versus Rational Unified Process in facing the main challenges of product configuration systems development”, Journal of Systems and Software, vol. 170, 2020. https://doi.org/10.1016/j.jss.2020.110732

S. Huber, H. Wiemer, D. Schneider, and S. Ihlenfeldt, “DMME: Data mining methodology for engineering applications - A holistic extension to the CRISP-DM model”, Procedia CIRP, vol. 79, pp. 403-408, 2019. https://doi.org/10.1016/j.procir.2019.02.106

E. L. Nylen, and P. Wallisch, “Web Scraping”, In: Neural Data Science, pp. 277-288, Elsevier, 2017. http://dx.doi.org/10.1016/B978-0-12-804043-0.00010-6

D. Glez-Peña, A. Lourenço, H. López-Fernández, M. Reboiro-Jato, and F. Fdez-Riverola, “Web scraping technologies in an API world”, Briefings in Bioinformatics, vol. 15, no. 5, pp. 788-797, 2014. https://doi.org/10.1093/bib/bbt026

A. Baldominos, I. Blanco, A. J. Moreno, R. Iturrarte, Ó. Bernárdez, and C. Afonso, “Identifying real estate opportunities using machine learning”, Applied Sciences, vol. 8, no. 11, 2018. https://doi.org/10.3390/app8112321

R. Wirth, and J. Hipp, “CRISP-DM: Towards a standard process model for data mining”, Proceedings of the 4th International Conference on the Practical Applications of Knowledge Discovery and Data Mining, 2000.

How to Cite

APA

Rosso Mateús, A. E. ., Montilla Montilla, Y. M. ., & Garzón Martínez, S. C. (2022). Metodología para obtención y análisis de datos inmobiliarios usando fuentes alternativas: estudio de caso en tres ciudades intermedias de Colombia. Ingeniería, 27(3), e17952. https://doi.org/10.14483/23448393.17952

ACM

[1]
Rosso Mateús, A.E. , Montilla Montilla, Y.M. and Garzón Martínez, S.C. 2022. Metodología para obtención y análisis de datos inmobiliarios usando fuentes alternativas: estudio de caso en tres ciudades intermedias de Colombia. Ingeniería. 27, 3 (Aug. 2022), e17952. DOI:https://doi.org/10.14483/23448393.17952.

ACS

(1)
Rosso Mateús, A. E. .; Montilla Montilla, Y. M. .; Garzón Martínez, S. C. Metodología para obtención y análisis de datos inmobiliarios usando fuentes alternativas: estudio de caso en tres ciudades intermedias de Colombia. Ing. 2022, 27, e17952.

ABNT

ROSSO MATEÚS, A. E. .; MONTILLA MONTILLA, Y. M. .; GARZÓN MARTÍNEZ, S. C. Metodología para obtención y análisis de datos inmobiliarios usando fuentes alternativas: estudio de caso en tres ciudades intermedias de Colombia. Ingeniería, [S. l.], v. 27, n. 3, p. e17952, 2022. DOI: 10.14483/23448393.17952. Disponível em: https://revistas.udistrital.edu.co/index.php/reving/article/view/17952. Acesso em: 26 sep. 2022.

Chicago

Rosso Mateús, Andrés Enrique, Yeimy Maryuri Montilla Montilla, and Sonia Constanza Garzón Martínez. 2022. “Metodología para obtención y análisis de datos inmobiliarios usando fuentes alternativas: estudio de caso en tres ciudades intermedias de Colombia”. Ingeniería 27 (3):e17952. https://doi.org/10.14483/23448393.17952.

Harvard

Rosso Mateús, A. E. ., Montilla Montilla, Y. M. . and Garzón Martínez, S. C. (2022) “Metodología para obtención y análisis de datos inmobiliarios usando fuentes alternativas: estudio de caso en tres ciudades intermedias de Colombia”, Ingeniería, 27(3), p. e17952. doi: 10.14483/23448393.17952.

IEEE

[1]
A. E. . Rosso Mateús, Y. M. . Montilla Montilla, and S. C. Garzón Martínez, “Metodología para obtención y análisis de datos inmobiliarios usando fuentes alternativas: estudio de caso en tres ciudades intermedias de Colombia”, Ing., vol. 27, no. 3, p. e17952, Aug. 2022.

MLA

Rosso Mateús, A. E. ., Y. M. . Montilla Montilla, and S. C. Garzón Martínez. “Metodología para obtención y análisis de datos inmobiliarios usando fuentes alternativas: estudio de caso en tres ciudades intermedias de Colombia”. Ingeniería, vol. 27, no. 3, Aug. 2022, p. e17952, doi:10.14483/23448393.17952.

Turabian

Rosso Mateús, Andrés Enrique, Yeimy Maryuri Montilla Montilla, and Sonia Constanza Garzón Martínez. “Metodología para obtención y análisis de datos inmobiliarios usando fuentes alternativas: estudio de caso en tres ciudades intermedias de Colombia”. Ingeniería 27, no. 3 (August 12, 2022): e17952. Accessed September 26, 2022. https://revistas.udistrital.edu.co/index.php/reving/article/view/17952.

Vancouver

1.
Rosso Mateús AE, Montilla Montilla YM, Garzón Martínez SC. Metodología para obtención y análisis de datos inmobiliarios usando fuentes alternativas: estudio de caso en tres ciudades intermedias de Colombia. Ing. [Internet]. 2022Aug.12 [cited 2022Sep.26];27(3):e17952. Available from: https://revistas.udistrital.edu.co/index.php/reving/article/view/17952

Download Citation

Visitas

15

Dimensions


PlumX


Downloads

Download data is not yet available.