Evaluación comparativa de LLMs ejecutados en entorno local (ollama)  para RAG académico: precisión, latencia y tasa de generación

Noel Merino Peralta; Dr. Rene Edmundo Cuevas Valencia; Dr. Angelino Feliciano Morales

Autores/as

Noel Merino Peralta Universidad Autónoma de Guerrero https://orcid.org/0009-0009-4847-1964
Dr. Rene Edmundo Cuevas Valencia Universidad Autónoma de Guerrero https://orcid.org/0000-0001-9528-7603
Dr. Angelino Feliciano Morales Universidad Autónoma de Guerrero

Palabras clave:

large language models, information recovery, language generation, precision, latency, performance (en).

Palabras clave:

modelos de lenguaje grandes, recuperación de información, generación de lenguaje, precisión, latencia, rendimiento (es).

Palabras clave:

grandes modelos de linguagem, recuperação de informações, geração de linguagem, precisão, latência, desempenho (pt).

Descargas

PDF

Resumen Autores/as Métricas disponibles Referencias Cómo citar

Resumen (es)

Este artículo compara el rendimiento de varios modelos de lenguaje ejecutados localmente con Ollama, dentro de un sistema RAG para asistencia académica. Se evaluaron seis modelos abiertos entre ellos LLaMA, Qwen y un modelo propio DeepSeek-R1 en tareas que iban desde responder preguntas y resolver cálculos, hasta interpretar código y generar texto académico, las métricas clave fueron precisión, latencia (tiempo al primer token) y velocidad de generación. Los hallazgos muestran un juego de equilibrios: los modelos pequeños responden más rápido, pero se equivocan más; los grandes aciertan más, aunque tardan. Qwen destacó con 87.5% de aciertos, sobre todo en consultas de conocimiento, mientras que DeepSeek-R1:8B logró un balance interesante entre rapidez y razonamiento. En conjunto, la investigación demuestra que combinar modelos locales, asignando cada uno a la etapa en la que brilla, puede ofrecer asistentes académicos eficientes, independientes de la nube y accesibles para más personas.

Resumen (en)

This article compares the performance of several language models run locally with Ollama, within a RAG system for academic assistance. Six open models were evaluated, including Ollama, Qwen, and a proprietary DeepSeek-R1 model, on tasks ranging from answering questions and solving calculations to interpreting code and generating academic text. Key metrics were accuracy, latency (time to first token), and generation speed. The findings show a trade-off: smaller models respond faster but make more mistakes; larger ones are more accurate, although they take longer. Qwen excelled with 87.5% accuracy, especially on knowledge queries, while DeepSeek-R1:8B achieved an interesting balance between speed and reasoning. Overall, the research demonstrates that combining local models, assigning each one to the stage at which it excels, can deliver efficient, cloud-independent, and accessible academic assistants.

Resumen (pt)

Este artigo compara o desempenho de diversos modelos de linguagem executados localmente com o LLaMA em um sistema RAG para suporte acadêmico. Seis modelos de código aberto foram avaliados, incluindo LLaMA, Qwen e um modelo proprietário, DeepSeek-R1, em tarefas que variam desde responder perguntas e resolver cálculos até interpretar código e gerar texto acadêmico. As principais métricas incluíram precisão, latência (tempo até o primeiro token) e velocidade de geração. Os resultados revelam uma relação de compromisso: modelos menores respondem mais rápido, mas cometem mais erros; modelos maiores são mais precisos, mas levam mais tempo. O Qwen se destacou com uma taxa de precisão de 87,5%, particularmente em consultas de conhecimento, enquanto o DeepSeek-R1:8B alcançou um equilíbrio interessante entre velocidade e raciocínio. No geral, a pesquisa demonstra que a combinação de modelos locais, atribuindo cada um à etapa em que se destaca, pode fornecer assistentes acadêmicos eficientes e independentes da nuvem, acessíveis a um público mais amplo.

Biografía del autor/a

Dr. Rene Edmundo Cuevas Valencia, Universidad Autónoma de Guerrero

Profesor Investigador de Tiempo Completo Adscrito a la Universidad Autónoma de Guerrero, México; así mismo es docente invitado otras Universidades de México; especialista en Tecnologías de la Información y Comunicación (TIC) aplicada a la Educación; colabora en Licenciatura, Maestría y Doctorado. Cuenta con Doctorado en Enseñanza Superior por el Centro de Investigación y Docencia en humanidades del Estado de Morelos (CIDHEM); además, cuenta con un PosDoctorado en Tecnología y Educación por la Universidad del Zulia, Venezuela; con Maestría y Licenciatura en Computación. Perfil PRODEP-SEP; Integrante del SEI del COCYTIEG e Integrante del NAB de la Maestría en Ingeniería para la Innovación y Desarrollo Tecnológico (MIIDT) de la UAGro

Referencias

[1] S. Borgeaud, A. Mensch, J. Hoffmann, T. Cai, E. Rutherford, K. Millican, et al., “Improving language models by retrieving from trillions of tokens,” arXiv preprint, arXiv:2112.04426, 2022. [En línea]. Disponible en: https://arxiv.org/abs/2112.04426

[2] P. Lewis, E. Pérez, A. Piktus, F. Petroni, V. Karpukhin, N. Goyal, et al., “Retrieval-augmented generation for knowledge-intensive NLP tasks,” Advances in Neural Information Processing Systems, vol. 33, pp. 9459–9474, 2020. [En línea]. Disponible en: https://proceedings.neurips.cc/paper/2020/hash/6b493230205f780e1bc26945df7481e5-Abstract.html

[3] K. Guu, K. Lee, Z. Tung, P. Pasupat, y M. Chang, “Retrieval augmented language model pre-training,” en Proc. of ICML, PMLR, vol. 119, 2020, pp. 3929–3938. [En línea]. Disponible en: https://arxiv.org/abs/2002.08909

[4] F. Liu, Z. Kang, y X. Han, “Optimizing RAG techniques for automotive industry PDF chatbots: A case study with locally deployed Ollama models,” en Proc. of the 2024 3rd International Conference on Artificial Intelligence and Intelligent Information Processing (AIIIP ’24), Nueva York, NY, EE.UU.: ACM, 2025, pp. 152–159. [En línea]. Disponible en: https://doi.org/10.1145/3707292.3707358

[5] E. Cassingena Navone, “Python ejemplos de código – tutorial de programación en Python desde cero para principiantes,” 24 febrero 2022. [En línea]. Disponible en: https://www.freecodecamp.org/espanol/news/python-ejemplos-de-codigo-tutorial-de-programacion-en-python-desde-cero-para-principiantes/

[6] H. Shah, “Evaluating Sub-3B Parameter Language Models on Math Word Problems,” TechRxiv, 21 mayo 2025. [En línea]. Disponible en: https://www.techrxiv.org/users/922842/articles/1294782-evaluating-sub-3b-parameter-language-models-on-math-word-problems

[7] B. Rozière, J. Gehring, F. Gloeckle, S. Sootla, I. Gat, X. E. Tan, Y. Adi, J. Liu, R. Sauvestre, T. Remez, J. Rapin, A. Kozhevnikov, I. Evtimov, J. Bitton, M. Bhatt, C. C. Ferrer, A. Grattafiori, W. Xiong, A. Défossez, J. Copet, F. Azhar, H. Touvron, L. Martin, N. Usunier, T. Scialom, and G. Synnaeve, “Code Llama: Open Foundation Models for Code,” arXiv preprint, arXiv:2308.12950, submitted 24 August 2023; revised 31 January 2024. [En línea]. Disponible en: https://arxiv.org/abs/2308.12950

[8] E. Evstafev, “Token-Hungry, Yet Precise: DeepSeek R1 Highlights the Need for Multi-Step Reasoning Over Speed in MATH,” arXiv preprint, arXiv:2501.18576, submitted 30 enero 2025. [En línea]. Disponible en: https://arxiv.org/abs/2501.18576

[9] J. Liu, B. Chen y C. Zhang, “Speculative Prefill: Turbocharging TTFT with Lightweight and Training-Free Token Importance Estimation”, mayo 2025. [En línea]. Disponible en: https://arxiv.org/abs/2502.02789

[10] C. Goutte y E. Gaussier, “A Probabilistic Interpretation of Precision, Recall and F-Score, with Implication for Evaluation”, marzo 2005. [En línea]. Disponible en: https://link.springer.com/chapter/10.1007/978-3-540-31865-1_25

[11] J. Johnson, M. Douze, y H. Jégou, “Billion-scale similarity search with GPUs,” IEEE Trans. Big Data, vol. 7, no. 3, pp. 535–547, 2019. DOI: 10.1109/TBDATA.2019.2921572

[12] F. Petroni, P. Lewis, A. Piktus, T. Rocktäschel, Y. Wu, A. H. M. Khattab, et al., “KILT: A benchmark for knowledge intensive language tasks,” en Proc. of NAACL, 2021, pp. 2523–2544. arXiv:2009.02252.

[13] V. Karpukhin, B. Oguz, S. Min, P. Lewis, L. Wu, S. Edunov, et al., “Dense passage retrieval for open-domain question answering,” en Proc. of EMNLP, 2020, pp. 6769–6781. DOI: 10.18653/v1/2020.emnlp-main.550.

[14] M. Izacard y E. Grave, “Leveraging passage retrieval with generative models for open-domain question answering,” en Proc. of EACL, 2021, pp. 874–880. [En línea]. Disponible en: https://aclanthology.org/2021.eacl-main.74

[15] C. Raffel, N. Shazeer, A. Roberts, K. Lee, S. Narang, M. Matena, et al., “Exploring the limits of transfer learning with a unified text-to-text transformer,” J. Mach. Learn. Res., vol. 21, no. 140, pp. 1–67, 2020. [En línea]. Disponible en: https://jmlr.org/papers/v21/20-074.html

[16] T. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, et al., “Language models are few-shot learners,” arXiv preprint, arXiv:2005.14165, 2020. [En línea]. Disponible en: https://arxiv.org/abs/2005.14165

[17] “Benchmarking de Modelos de Lenguaje Discriminativos …”, Trabajo Final de Máster, Máster Universitario en Ciencia de Datos (Data Science), Universitat Oberta de Catalunya (UOC), 2025. [En línea]. Disponible en: https://openaccess.uoc.edu/server/api/core/bitstreams/e85d728f-75d9-4fe7-a67c-5173d8d59610/content

Cómo citar

IEEE

[1]

N. Merino Peralta, D. R. E. Cuevas Valencia, y D. A. Feliciano Morales, «Evaluación comparativa de LLMs ejecutados en entorno local (ollama) para RAG académico: precisión, latencia y tasa de generación », Rev. Vínculos, vol. 22, n.º 2, may 2026.

ACM

[1]

Merino Peralta, N. et al. 2026. Evaluación comparativa de LLMs ejecutados en entorno local (ollama) para RAG académico: precisión, latencia y tasa de generación . Revista Vínculos. 22, 2 (may 2026).

ACS

(1)

Merino Peralta, N.; Cuevas Valencia, D. R. E.; Feliciano Morales, D. A. Evaluación comparativa de LLMs ejecutados en entorno local (ollama) para RAG académico: precisión, latencia y tasa de generación . Rev. Vínculos 2026, 22.

APA

Merino Peralta, N., Cuevas Valencia, D. R. E., y Feliciano Morales, D. A. (2026). Evaluación comparativa de LLMs ejecutados en entorno local (ollama) para RAG académico: precisión, latencia y tasa de generación . Revista Vínculos, 22(2). https://revistas.udistrital.edu.co/index.php/vinculos/article/view/24606

ABNT

MERINO PERALTA, Noel; CUEVAS VALENCIA, Dr. Rene Edmundo; FELICIANO MORALES, Dr. Angelino. Evaluación comparativa de LLMs ejecutados en entorno local (ollama) para RAG académico: precisión, latencia y tasa de generación . Revista Vínculos, [S. l.], v. 22, n. 2, 2026. Disponível em: https://revistas.udistrital.edu.co/index.php/vinculos/article/view/24606. Acesso em: 29 jul. 2026.

Chicago

Merino Peralta, Noel, Dr. Rene Edmundo Cuevas Valencia, y Dr. Angelino Feliciano Morales. 2026. «Evaluación comparativa de LLMs ejecutados en entorno local (ollama) para RAG académico: precisión, latencia y tasa de generación ». Revista Vínculos 22 (2). https://revistas.udistrital.edu.co/index.php/vinculos/article/view/24606.

Harvard

Merino Peralta, N., Cuevas Valencia, D. R. E. y Feliciano Morales, D. A. (2026) «Evaluación comparativa de LLMs ejecutados en entorno local (ollama) para RAG académico: precisión, latencia y tasa de generación », Revista Vínculos, 22(2). Disponible en: https://revistas.udistrital.edu.co/index.php/vinculos/article/view/24606 (Accedido: 29 julio 2026).

MLA

Merino Peralta, Noel, et al. «Evaluación comparativa de LLMs ejecutados en entorno local (ollama) para RAG académico: precisión, latencia y tasa de generación ». Revista Vínculos, vol. 22, n.º 2, mayo de 2026, https://revistas.udistrital.edu.co/index.php/vinculos/article/view/24606.

Turabian

Merino Peralta, Noel, Dr. Rene Edmundo Cuevas Valencia, y Dr. Angelino Feliciano Morales. «Evaluación comparativa de LLMs ejecutados en entorno local (ollama) para RAG académico: precisión, latencia y tasa de generación ». Revista Vínculos 22, no. 2 (mayo 18, 2026). Accedido julio 29, 2026. https://revistas.udistrital.edu.co/index.php/vinculos/article/view/24606.

Vancouver

1.

Merino Peralta N, Cuevas Valencia DRE, Feliciano Morales DA. Evaluación comparativa de LLMs ejecutados en entorno local (ollama) para RAG académico: precisión, latencia y tasa de generación . Rev. Vínculos [Internet]. 18 de mayo de 2026 [citado 29 de julio de 2026];22(2). Disponible en: https://revistas.udistrital.edu.co/index.php/vinculos/article/view/24606

Publicado:

Número:

Sección:

Evaluación comparativa de LLMs ejecutados en entorno local (ollama) para RAG académico: precisión, latencia y tasa de generación

Comparative evaluation of LLMs run in a local environment (Ollama) for academic RAG: accuracy, latency, and generation rate

o Avaliação comparativa de LLMs executados em ambiente local (ollama) para RAG académico: precisão, latência e taxa de geração

Autores/as

Palabras clave:

Palabras clave:

Palabras clave:

Descargas

Resumen (es)

Resumen (en)

Resumen (pt)

Biografía del autor/a

Dr. Rene Edmundo Cuevas Valencia, Universidad Autónoma de Guerrero

Referencias

Cómo citar

IEEE

ACM

ACS

APA

ABNT

Chicago

Harvard

MLA

Turabian

Vancouver

Descargar cita

Visitas

Descargas

Licencia

Idioma

botones

Número actual

Palabras clave

Normatividad académica