Publicado:
2026-05-18Número:
Vol. 22 Núm. 2 (2025)Sección:
Actualidad TecnológicaEvaluación comparativa de LLMs ejecutados en entorno local (ollama) para RAG académico: precisión, latencia y tasa de generación
Comparative evaluation of LLMs run in a local environment (Ollama) for academic RAG: accuracy, latency, and generation rate
o Avaliação comparativa de LLMs executados em ambiente local (ollama) para RAG académico: precisão, latência e taxa de geração
Palabras clave:
large language models, information recovery, language generation, precision, latency, performance (en).Palabras clave:
modelos de lenguaje grandes, recuperación de información, generación de lenguaje, precisión, latencia, rendimiento (es).Palabras clave:
grandes modelos de linguagem, recuperação de informações, geração de linguagem, precisão, latência, desempenho (pt).Descargas
Resumen (es)
Este artículo compara el rendimiento de varios modelos de lenguaje ejecutados localmente con Ollama, dentro de un sistema RAG para asistencia académica. Se evaluaron seis modelos abiertos entre ellos LLaMA, Qwen y un modelo propio DeepSeek-R1 en tareas que iban desde responder preguntas y resolver cálculos, hasta interpretar código y generar texto académico, las métricas clave fueron precisión, latencia (tiempo al primer token) y velocidad de generación. Los hallazgos muestran un juego de equilibrios: los modelos pequeños responden más rápido, pero se equivocan más; los grandes aciertan más, aunque tardan. Qwen destacó con 87.5% de aciertos, sobre todo en consultas de conocimiento, mientras que DeepSeek-R1:8B logró un balance interesante entre rapidez y razonamiento. En conjunto, la investigación demuestra que combinar modelos locales, asignando cada uno a la etapa en la que brilla, puede ofrecer asistentes académicos eficientes, independientes de la nube y accesibles para más personas.
Resumen (en)
This article compares the performance of several language models run locally with Ollama, within a RAG system for academic assistance. Six open models were evaluated, including Ollama, Qwen, and a proprietary DeepSeek-R1 model, on tasks ranging from answering questions and solving calculations to interpreting code and generating academic text. Key metrics were accuracy, latency (time to first token), and generation speed. The findings show a trade-off: smaller models respond faster but make more mistakes; larger ones are more accurate, although they take longer. Qwen excelled with 87.5% accuracy, especially on knowledge queries, while DeepSeek-R1:8B achieved an interesting balance between speed and reasoning. Overall, the research demonstrates that combining local models, assigning each one to the stage at which it excels, can deliver efficient, cloud-independent, and accessible academic assistants.
Resumen (pt)
Este artigo compara o desempenho de diversos modelos de linguagem executados localmente com o LLaMA em um sistema RAG para suporte acadêmico. Seis modelos de código aberto foram avaliados, incluindo LLaMA, Qwen e um modelo proprietário, DeepSeek-R1, em tarefas que variam desde responder perguntas e resolver cálculos até interpretar código e gerar texto acadêmico. As principais métricas incluíram precisão, latência (tempo até o primeiro token) e velocidade de geração. Os resultados revelam uma relação de compromisso: modelos menores respondem mais rápido, mas cometem mais erros; modelos maiores são mais precisos, mas levam mais tempo. O Qwen se destacou com uma taxa de precisão de 87,5%, particularmente em consultas de conhecimento, enquanto o DeepSeek-R1:8B alcançou um equilíbrio interessante entre velocidade e raciocínio. No geral, a pesquisa demonstra que a combinação de modelos locais, atribuindo cada um à etapa em que se destaca, pode fornecer assistentes acadêmicos eficientes e independentes da nuvem, acessíveis a um público mais amplo.
Referencias
[1] S. Borgeaud, A. Mensch, J. Hoffmann, T. Cai, E. Rutherford, K. Millican, et al., “Improving language models by retrieving from trillions of tokens,” arXiv preprint, arXiv:2112.04426, 2022. [En línea]. Disponible en: https://arxiv.org/abs/2112.04426
[2] P. Lewis, E. Pérez, A. Piktus, F. Petroni, V. Karpukhin, N. Goyal, et al., “Retrieval-augmented generation for knowledge-intensive NLP tasks,” Advances in Neural Information Processing Systems, vol. 33, pp. 9459–9474, 2020. [En línea]. Disponible en: https://proceedings.neurips.cc/paper/2020/hash/6b493230205f780e1bc26945df7481e5-Abstract.html
[3] K. Guu, K. Lee, Z. Tung, P. Pasupat, y M. Chang, “Retrieval augmented language model pre-training,” en Proc. of ICML, PMLR, vol. 119, 2020, pp. 3929–3938. [En línea]. Disponible en: https://arxiv.org/abs/2002.08909
[4] F. Liu, Z. Kang, y X. Han, “Optimizing RAG techniques for automotive industry PDF chatbots: A case study with locally deployed Ollama models,” en Proc. of the 2024 3rd International Conference on Artificial Intelligence and Intelligent Information Processing (AIIIP ’24), Nueva York, NY, EE.UU.: ACM, 2025, pp. 152–159. [En línea]. Disponible en: https://doi.org/10.1145/3707292.3707358
[5] E. Cassingena Navone, “Python ejemplos de código – tutorial de programación en Python desde cero para principiantes,” 24 febrero 2022. [En línea]. Disponible en: https://www.freecodecamp.org/espanol/news/python-ejemplos-de-codigo-tutorial-de-programacion-en-python-desde-cero-para-principiantes/
[6] H. Shah, “Evaluating Sub-3B Parameter Language Models on Math Word Problems,” TechRxiv, 21 mayo 2025. [En línea]. Disponible en: https://www.techrxiv.org/users/922842/articles/1294782-evaluating-sub-3b-parameter-language-models-on-math-word-problems
[7] B. Rozière, J. Gehring, F. Gloeckle, S. Sootla, I. Gat, X. E. Tan, Y. Adi, J. Liu, R. Sauvestre, T. Remez, J. Rapin, A. Kozhevnikov, I. Evtimov, J. Bitton, M. Bhatt, C. C. Ferrer, A. Grattafiori, W. Xiong, A. Défossez, J. Copet, F. Azhar, H. Touvron, L. Martin, N. Usunier, T. Scialom, and G. Synnaeve, “Code Llama: Open Foundation Models for Code,” arXiv preprint, arXiv:2308.12950, submitted 24 August 2023; revised 31 January 2024. [En línea]. Disponible en: https://arxiv.org/abs/2308.12950
[8] E. Evstafev, “Token-Hungry, Yet Precise: DeepSeek R1 Highlights the Need for Multi-Step Reasoning Over Speed in MATH,” arXiv preprint, arXiv:2501.18576, submitted 30 enero 2025. [En línea]. Disponible en: https://arxiv.org/abs/2501.18576
[9] J. Liu, B. Chen y C. Zhang, “Speculative Prefill: Turbocharging TTFT with Lightweight and Training-Free Token Importance Estimation”, mayo 2025. [En línea]. Disponible en: https://arxiv.org/abs/2502.02789
[10] C. Goutte y E. Gaussier, “A Probabilistic Interpretation of Precision, Recall and F-Score, with Implication for Evaluation”, marzo 2005. [En línea]. Disponible en: https://link.springer.com/chapter/10.1007/978-3-540-31865-1_25
[11] J. Johnson, M. Douze, y H. Jégou, “Billion-scale similarity search with GPUs,” IEEE Trans. Big Data, vol. 7, no. 3, pp. 535–547, 2019. DOI: 10.1109/TBDATA.2019.2921572
[12] F. Petroni, P. Lewis, A. Piktus, T. Rocktäschel, Y. Wu, A. H. M. Khattab, et al., “KILT: A benchmark for knowledge intensive language tasks,” en Proc. of NAACL, 2021, pp. 2523–2544. arXiv:2009.02252.
[13] V. Karpukhin, B. Oguz, S. Min, P. Lewis, L. Wu, S. Edunov, et al., “Dense passage retrieval for open-domain question answering,” en Proc. of EMNLP, 2020, pp. 6769–6781. DOI: 10.18653/v1/2020.emnlp-main.550.
[14] M. Izacard y E. Grave, “Leveraging passage retrieval with generative models for open-domain question answering,” en Proc. of EACL, 2021, pp. 874–880. [En línea]. Disponible en: https://aclanthology.org/2021.eacl-main.74
[15] C. Raffel, N. Shazeer, A. Roberts, K. Lee, S. Narang, M. Matena, et al., “Exploring the limits of transfer learning with a unified text-to-text transformer,” J. Mach. Learn. Res., vol. 21, no. 140, pp. 1–67, 2020. [En línea]. Disponible en: https://jmlr.org/papers/v21/20-074.html
[16] T. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, et al., “Language models are few-shot learners,” arXiv preprint, arXiv:2005.14165, 2020. [En línea]. Disponible en: https://arxiv.org/abs/2005.14165
[17] “Benchmarking de Modelos de Lenguaje Discriminativos …”, Trabajo Final de Máster, Máster Universitario en Ciencia de Datos (Data Science), Universitat Oberta de Catalunya (UOC), 2025. [En línea]. Disponible en: https://openaccess.uoc.edu/server/api/core/bitstreams/e85d728f-75d9-4fe7-a67c-5173d8d59610/content
Cómo citar
IEEE
ACM
ACS
APA
ABNT
Chicago
Harvard
MLA
Turabian
Vancouver
Descargar cita
Visitas
Descargas
Licencia
Derechos de autor 2026 Revista Vínculos

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial 4.0.
2.png)
Este obra está bajo una licencia Creative Commons Atribución 4.0
