SISTEMA DE CONSULTA INTELIGENTE BASADO EN DOCUMENTOS PDF UTILIZANDO PINECONE Y OPENAI

Intelligent query system based on PDF documents using PINECONE and OPENAI

Autores/as

  • Gustavo Enrique Lublin Abadiez Universidad Autónoma San Sebastián Autor/a
  • Alexis Manuel Zelada Vera Universidad Autónoma San Sebastián Autor/a
  • Sandra Gisel Sanabria Monges Universidad Autónoma San Sebastián Autor/a
  • Mathias David Villamayor Franco Universidad Autónoma San Sebastián Autor/a

Palabras clave:

Pinecone, OpenAI, búsqueda semántica, recuperación de información, inteligencia artificial

Resumen

Este artículo presenta el diseño e implementación de un sistema de consulta inteligente sobre documentos PDF basado en Retrieval-Augmented Generation (RAG), mediante la integración de Pinecone como base de datos vectorial y los modelos de lenguaje de OpenAI. El sistema consta de dos módulos principales: (1) indexación de documentos, que incluye la extracción de texto, segmentación en fragmentos (chunking), generación de embeddings semánticos y almacenamiento en Pinecone; y (2) interfaz conversacional, que permite a los usuarios formular consultas en lenguaje natural y recibir respuestas contextualizadas generadas automáticamente a partir del contenido indexado. A diferencia de las búsquedas tradicionales por palabras clave —limitadas por la coincidencia literal y la falta de comprensión semántica—, la arquitectura propuesta aprovecha representaciones vectoriales densas para realizar búsquedas por similitud semántica y emplea modelos de lenguaje de gran escala (GPT-3.5/GPT-4) para sintetizar respuestas coherentes y precisas en tiempo real. La implementación técnica combina un frontend en Angular con actualización en vivo mediante Pusher y un backend en Django que orquesta los procesos de extracción (PyPDF2/pdfminer + LangChain), vectorización y consulta. Los resultados evidencian una mejora significativa en precisión, relevancia y experiencia de usuario frente a métodos convencionales, con tiempos de respuesta inferiores a 3 segundos incluso en colecciones de cientos de documentos. El sistema demuestra su utilidad en escenarios reales como investigación académica, gestión de bibliotecas digitales y análisis financiero, donde la recuperación rápida y contextual de información en documentos extensos y no estructurados es crítica. La solución propuesta es escalable, de bajo costo operativo y replicable, constituyendo una contribución práctica al campo de la Document Intelligence y al uso efectivo de RAG en entornos de producción.

Descargas

Publicado

2025-12-11

Cómo citar

SISTEMA DE CONSULTA INTELIGENTE BASADO EN DOCUMENTOS PDF UTILIZANDO PINECONE Y OPENAI: Intelligent query system based on PDF documents using PINECONE and OPENAI. (2025). ARANDUASS. REVISTA CIENTÍFICA MULTIDISCIPLINARIA, 2(1), 35-40. http://revistasuass.edu.py/index.php/aranduass/article/view/46

Artículos similares

1-10 de 35

También puede Iniciar una búsqueda de similitud avanzada para este artículo.