Evaluación comparativa de LLMs ejecutados en entorno local (ollama)  para RAG académico: precisión, latencia y tasa de generación

Noel Merino Peralta; Dr. Rene Edmundo Valencia Caves; Dr. Angelino Feliciano Morais

Authors

Noel Merino Peralta Universidad Autónoma de Guerrero https://orcid.org/0009-0009-4847-1964
Dr. Rene Edmundo Valencia Caves Professor and researcher at the Faculty of Engineering of the Autonomous University of Guerrero https://orcid.org/0000-0001-9528-7603
Dr. Angelino Feliciano Morais Professor and researcher at the Faculty of Engineering of the Autonomous University of Guerrero

Keywords:

large language models, information recovery, language generation, precision, latency, performance (en).

Keywords:

modelos de lenguaje grandes, recuperación de información, generación de lenguaje, precisión, latencia, rendimiento (es).

Keywords:

grandes modelos de linguagem, recuperação de informações, geração de linguagem, precisão, latência, desempenho (pt).

Downloads

PDF (Español)

Abstract Authors Available Metrics References How to Cite

Abstract (es)

Este artículo compara el rendimiento de varios modelos de lenguaje ejecutados localmente con Ollama, dentro de un sistema RAG para asistencia académica. Se evaluaron seis modelos abiertos entre ellos LLaMA, Qwen y un modelo propio DeepSeek-R1 en tareas que iban desde responder preguntas y resolver cálculos, hasta interpretar código y generar texto académico, las métricas clave fueron precisión, latencia (tiempo al primer token) y velocidad de generación. Los hallazgos muestran un juego de equilibrios: los modelos pequeños responden más rápido, pero se equivocan más; los grandes aciertan más, aunque tardan. Qwen destacó con 87.5% de aciertos, sobre todo en consultas de conocimiento, mientras que DeepSeek-R1:8B logró un balance interesante entre rapidez y razonamiento. En conjunto, la investigación demuestra que combinar modelos locales, asignando cada uno a la etapa en la que brilla, puede ofrecer asistentes académicos eficientes, independientes de la nube y accesibles para más personas.

Abstract (en)

This article compares the performance of several language models run locally with Ollama, within a RAG system for academic assistance. Six open models were evaluated, including Ollama, Qwen, and a proprietary DeepSeek-R1 model, on tasks ranging from answering questions and solving calculations to interpreting code and generating academic text. Key metrics were accuracy, latency (time to first token), and generation speed. The findings show a trade-off: smaller models respond faster but make more mistakes; larger ones are more accurate, although they take longer. Qwen excelled with 87.5% accuracy, especially on knowledge queries, while DeepSeek-R1:8B achieved an interesting balance between speed and reasoning. Overall, the research demonstrates that combining local models, assigning each one to the stage at which it excels, can deliver efficient, cloud-independent, and accessible academic assistants.

Abstract (pt)

Este artigo compara o desempenho de diversos modelos de linguagem executados localmente com o LLaMA em um sistema RAG para suporte acadêmico. Seis modelos de código aberto foram avaliados, incluindo LLaMA, Qwen e um modelo proprietário, DeepSeek-R1, em tarefas que variam desde responder perguntas e resolver cálculos até interpretar código e gerar texto acadêmico. As principais métricas incluíram precisão, latência (tempo até o primeiro token) e velocidade de geração. Os resultados revelam uma relação de compromisso: modelos menores respondem mais rápido, mas cometem mais erros; modelos maiores são mais precisos, mas levam mais tempo. O Qwen se destacou com uma taxa de precisão de 87,5%, particularmente em consultas de conhecimento, enquanto o DeepSeek-R1:8B alcançou um equilíbrio interessante entre velocidade e raciocínio. No geral, a pesquisa demonstra que a combinação de modelos locais, atribuindo cada um à etapa em que se destaca, pode fornecer assistentes acadêmicos eficientes e independentes da nuvem, acessíveis a um público mais amplo.

Author Biography

Dr. Rene Edmundo Valencia Caves, Professor and researcher at the Faculty of Engineering of the Autonomous University of Guerrero

Full-time Research Professor at the Autonomous University of Guerrero, Mexico; also a visiting professor at other universities in Mexico; specialist in Information and Communication Technologies (ICT) applied to Education; collaborates in undergraduate, master's, and doctoral programs. He holds a Doctorate in Higher Education from the Center for Research and Teaching in Humanities of the State of Morelos (CIDHEM); in addition, he has a Postdoctoral Fellowship in Technology and Education from the University of Zulia, Venezuela; and a Master's and Bachelor's degree in Computer Science. PRODEP-SEP profile; member of the SEI of COCYTIEG and member of the NAB of the Master's Program in Engineering for Innovation and Technological Development (MIIDT) at UAGro

References

[1] S. Borgeaud, A. Mensch, J. Hoffmann, T. Cai, E. Rutherford, K. Millican, et al., “Improving language models by retrieving from trillions of tokens,” arXiv preprint, arXiv:2112.04426, 2022. [En línea]. Disponible en: https://arxiv.org/abs/2112.04426

[2] P. Lewis, E. Pérez, A. Piktus, F. Petroni, V. Karpukhin, N. Goyal, et al., “Retrieval-augmented generation for knowledge-intensive NLP tasks,” Advances in Neural Information Processing Systems, vol. 33, pp. 9459–9474, 2020. [En línea]. Disponible en: https://proceedings.neurips.cc/paper/2020/hash/6b493230205f780e1bc26945df7481e5-Abstract.html

[3] K. Guu, K. Lee, Z. Tung, P. Pasupat, y M. Chang, “Retrieval augmented language model pre-training,” en Proc. of ICML, PMLR, vol. 119, 2020, pp. 3929–3938. [En línea]. Disponible en: https://arxiv.org/abs/2002.08909

[4] F. Liu, Z. Kang, y X. Han, “Optimizing RAG techniques for automotive industry PDF chatbots: A case study with locally deployed Ollama models,” en Proc. of the 2024 3rd International Conference on Artificial Intelligence and Intelligent Information Processing (AIIIP ’24), Nueva York, NY, EE.UU.: ACM, 2025, pp. 152–159. [En línea]. Disponible en: https://doi.org/10.1145/3707292.3707358

[5] E. Cassingena Navone, “Python ejemplos de código – tutorial de programación en Python desde cero para principiantes,” 24 febrero 2022. [En línea]. Disponible en: https://www.freecodecamp.org/espanol/news/python-ejemplos-de-codigo-tutorial-de-programacion-en-python-desde-cero-para-principiantes/

[6] H. Shah, “Evaluating Sub-3B Parameter Language Models on Math Word Problems,” TechRxiv, 21 mayo 2025. [En línea]. Disponible en: https://www.techrxiv.org/users/922842/articles/1294782-evaluating-sub-3b-parameter-language-models-on-math-word-problems

[7] B. Rozière, J. Gehring, F. Gloeckle, S. Sootla, I. Gat, X. E. Tan, Y. Adi, J. Liu, R. Sauvestre, T. Remez, J. Rapin, A. Kozhevnikov, I. Evtimov, J. Bitton, M. Bhatt, C. C. Ferrer, A. Grattafiori, W. Xiong, A. Défossez, J. Copet, F. Azhar, H. Touvron, L. Martin, N. Usunier, T. Scialom, and G. Synnaeve, “Code Llama: Open Foundation Models for Code,” arXiv preprint, arXiv:2308.12950, submitted 24 August 2023; revised 31 January 2024. [En línea]. Disponible en: https://arxiv.org/abs/2308.12950

[8] E. Evstafev, “Token-Hungry, Yet Precise: DeepSeek R1 Highlights the Need for Multi-Step Reasoning Over Speed in MATH,” arXiv preprint, arXiv:2501.18576, submitted 30 enero 2025. [En línea]. Disponible en: https://arxiv.org/abs/2501.18576

[9] J. Liu, B. Chen y C. Zhang, “Speculative Prefill: Turbocharging TTFT with Lightweight and Training-Free Token Importance Estimation”, mayo 2025. [En línea]. Disponible en: https://arxiv.org/abs/2502.02789

[10] C. Goutte y E. Gaussier, “A Probabilistic Interpretation of Precision, Recall and F-Score, with Implication for Evaluation”, marzo 2005. [En línea]. Disponible en: https://link.springer.com/chapter/10.1007/978-3-540-31865-1_25

[11] J. Johnson, M. Douze, y H. Jégou, “Billion-scale similarity search with GPUs,” IEEE Trans. Big Data, vol. 7, no. 3, pp. 535–547, 2019. DOI: 10.1109/TBDATA.2019.2921572

[12] F. Petroni, P. Lewis, A. Piktus, T. Rocktäschel, Y. Wu, A. H. M. Khattab, et al., “KILT: A benchmark for knowledge intensive language tasks,” en Proc. of NAACL, 2021, pp. 2523–2544. arXiv:2009.02252.

[13] V. Karpukhin, B. Oguz, S. Min, P. Lewis, L. Wu, S. Edunov, et al., “Dense passage retrieval for open-domain question answering,” en Proc. of EMNLP, 2020, pp. 6769–6781. DOI: 10.18653/v1/2020.emnlp-main.550.

[14] M. Izacard y E. Grave, “Leveraging passage retrieval with generative models for open-domain question answering,” en Proc. of EACL, 2021, pp. 874–880. [En línea]. Disponible en: https://aclanthology.org/2021.eacl-main.74

[15] C. Raffel, N. Shazeer, A. Roberts, K. Lee, S. Narang, M. Matena, et al., “Exploring the limits of transfer learning with a unified text-to-text transformer,” J. Mach. Learn. Res., vol. 21, no. 140, pp. 1–67, 2020. [En línea]. Disponible en: https://jmlr.org/papers/v21/20-074.html

[16] T. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, et al., “Language models are few-shot learners,” arXiv preprint, arXiv:2005.14165, 2020. [En línea]. Disponible en: https://arxiv.org/abs/2005.14165

[17] “Benchmarking de Modelos de Lenguaje Discriminativos …”, Trabajo Final de Máster, Máster Universitario en Ciencia de Datos (Data Science), Universitat Oberta de Catalunya (UOC), 2025. [En línea]. Disponible en: https://openaccess.uoc.edu/server/api/core/bitstreams/e85d728f-75d9-4fe7-a67c-5173d8d59610/content

How to Cite

IEEE

[1]

N. Merino Peralta, D. R. E. Valencia Caves, and D. A. Feliciano Morais, “Evaluación comparativa de LLMs ejecutados en entorno local (ollama) para RAG académico: precisión, latencia y tasa de generación ”, Rev. Vínculos, vol. 22, no. 2, May 2026.

ACM

[1]

Merino Peralta, N. et al. 2026. Evaluación comparativa de LLMs ejecutados en entorno local (ollama) para RAG académico: precisión, latencia y tasa de generación . Revista Vínculos. 22, 2 (May 2026).

ACS

(1)

Merino Peralta, N.; Valencia Caves, D. R. E.; Feliciano Morais, D. A. Evaluación comparativa de LLMs ejecutados en entorno local (ollama) para RAG académico: precisión, latencia y tasa de generación . Rev. Vínculos 2026, 22.

APA

Merino Peralta, N., Valencia Caves, D. R. E., and Feliciano Morais, D. A. (2026). Evaluación comparativa de LLMs ejecutados en entorno local (ollama) para RAG académico: precisión, latencia y tasa de generación . Revista Vínculos, 22(2). https://revistas.udistrital.edu.co/index.php/vinculos/article/view/24606

ABNT

MERINO PERALTA, Noel; VALENCIA CAVES, Dr. Rene Edmundo; FELICIANO MORAIS, Dr. Angelino. Evaluación comparativa de LLMs ejecutados en entorno local (ollama) para RAG académico: precisión, latencia y tasa de generación . Revista Vínculos, [S. l.], v. 22, n. 2, 2026. Disponível em: https://revistas.udistrital.edu.co/index.php/vinculos/article/view/24606. Acesso em: 9 jul. 2026.

Chicago

Merino Peralta, Noel, Dr. Rene Edmundo Valencia Caves, and Dr. Angelino Feliciano Morais. 2026. “Evaluación comparativa de LLMs ejecutados en entorno local (ollama) para RAG académico: precisión, latencia y tasa de generación ”. Revista Vínculos 22 (2). https://revistas.udistrital.edu.co/index.php/vinculos/article/view/24606.

Harvard

Merino Peralta, N., Valencia Caves, D. R. E. and Feliciano Morais, D. A. (2026) “Evaluación comparativa de LLMs ejecutados en entorno local (ollama) para RAG académico: precisión, latencia y tasa de generación ”, Revista Vínculos, 22(2). Available at: https://revistas.udistrital.edu.co/index.php/vinculos/article/view/24606 (Accessed: 9 July 2026).

MLA

Merino Peralta, Noel, et al. “Evaluación comparativa de LLMs ejecutados en entorno local (ollama) para RAG académico: precisión, latencia y tasa de generación ”. Revista Vínculos, vol. 22, no. 2, May 2026, https://revistas.udistrital.edu.co/index.php/vinculos/article/view/24606.

Turabian

Merino Peralta, Noel, Dr. Rene Edmundo Valencia Caves, and Dr. Angelino Feliciano Morais. “Evaluación comparativa de LLMs ejecutados en entorno local (ollama) para RAG académico: precisión, latencia y tasa de generación ”. Revista Vínculos 22, no. 2 (May 18, 2026). Accessed July 9, 2026. https://revistas.udistrital.edu.co/index.php/vinculos/article/view/24606.

Vancouver

1.

Merino Peralta N, Valencia Caves DRE, Feliciano Morais DA. Evaluación comparativa de LLMs ejecutados en entorno local (ollama) para RAG académico: precisión, latencia y tasa de generación . Rev. Vínculos [Internet]. 2026 May 18 [cited 2026 Jul. 9];22(2). Available from: https://revistas.udistrital.edu.co/index.php/vinculos/article/view/24606

Published:

Issue:

Section:

Evaluación comparativa de LLMs ejecutados en entorno local (ollama) para RAG académico: precisión, latencia y tasa de generación

Comparative evaluation of LLMs run in a local environment (Ollama) for academic RAG: accuracy, latency, and generation rate

o Avaliação comparativa de LLMs executados em ambiente local (ollama) para RAG académico: precisão, latência e taxa de geração

Authors

Keywords:

Keywords:

Keywords:

Downloads

Abstract (es)

Abstract (en)

Abstract (pt)

Author Biography

Dr. Rene Edmundo Valencia Caves, Professor and researcher at the Faculty of Engineering of the Autonomous University of Guerrero

References

How to Cite

IEEE

ACM

ACS

APA

ABNT

Chicago

Harvard

MLA

Turabian

Vancouver

Download Citation

Visitas

Downloads

License

Language

botones

Current Issue

Keywords

Normatividad académica