SISTEMA DE CONSULTA INTELIGENTE BASADO EN DOCUMENTOS PDF UTILIZANDO PINECONE Y OPENAI

Intelligent query system based on PDF documents using PINECONE and OPENAI

Authors

  • Gustavo Enrique LUBLIN ABADIEZ Universidad Autónoma San Sebastián Author
  • Alexis Manuel ZELADA VERA Universidad Autónoma San Sebastián Author
  • Sandra Gisel SANABRIA MONGES Universidad Autónoma San Sebastián Author
  • Mathias David VILLAMAYOR FRANCO Universidad Autónoma San Sebastián Author

Keywords:

Pinecone, OpenAI, búsqueda semántica, recuperación de información, inteligencia artificial

Abstract

Este artículo presenta el diseño e implementación de un sistema de consulta inteligente sobre documentos PDF basado en Retrieval-Augmented Generation (RAG), mediante la integración de Pinecone como base de datos vectorial y los modelos de lenguaje de OpenAI. El sistema consta de dos módulos principales: (1) indexación de documentos, que incluye la extracción de texto, segmentación en fragmentos (chunking), generación de embeddings semánticos y almacenamiento en Pinecone; y (2) interfaz conversacional, que permite a los usuarios formular consultas en lenguaje natural y recibir respuestas contextualizadas generadas automáticamente a partir del contenido indexado. A diferencia de las búsquedas tradicionales por palabras clave —limitadas por la coincidencia literal y la falta de comprensión semántica—, la arquitectura propuesta aprovecha representaciones vectoriales densas para realizar búsquedas por similitud semántica y emplea modelos de lenguaje de gran escala (GPT-3.5/GPT-4) para sintetizar respuestas coherentes y precisas en tiempo real. La implementación técnica combina un frontend en Angular con actualización en vivo mediante Pusher y un backend en Django que orquesta los procesos de extracción (PyPDF2/pdfminer + LangChain), vectorización y consulta. Los resultados evidencian una mejora significativa en precisión, relevancia y experiencia de usuario frente a métodos convencionales, con tiempos de respuesta inferiores a 3 segundos incluso en colecciones de cientos de documentos. El sistema demuestra su utilidad en escenarios reales como investigación académica, gestión de bibliotecas digitales y análisis financiero, donde la recuperación rápida y contextual de información en documentos extensos y no estructurados es crítica. La solución propuesta es escalable, de bajo costo operativo y replicable, constituyendo una contribución práctica al campo de la Document Intelligence y al uso efectivo de RAG en entornos de producción.

Downloads

Published

2025-12-11

How to Cite

SISTEMA DE CONSULTA INTELIGENTE BASADO EN DOCUMENTOS PDF UTILIZANDO PINECONE Y OPENAI: Intelligent query system based on PDF documents using PINECONE and OPENAI. (2025). ARANDUASS. REVISTA CIENTÍFICA MULTIDISCIPLINARIA, 2(1), 35-40. http://revistasuass.edu.py/index.php/aranduass/article/view/46

Similar Articles

1-10 of 35

You may also start an advanced similarity search for this article.