SISTEMA DE CONSULTA INTELIGENTE BASADO EN DOCUMENTOS PDF UTILIZANDO PINECONE Y OPENAI
Intelligent query system based on PDF documents using PINECONE and OPENAI
Palabras clave:
Pinecone, OpenAI, búsqueda semántica, recuperación de información, inteligencia artificialResumen
Este artículo presenta el diseño e implementación de un sistema de consulta inteligente sobre documentos PDF basado en Retrieval-Augmented Generation (RAG), mediante la integración de Pinecone como base de datos vectorial y los modelos de lenguaje de OpenAI. El sistema consta de dos módulos principales: (1) indexación de documentos, que incluye la extracción de texto, segmentación en fragmentos (chunking), generación de embeddings semánticos y almacenamiento en Pinecone; y (2) interfaz conversacional, que permite a los usuarios formular consultas en lenguaje natural y recibir respuestas contextualizadas generadas automáticamente a partir del contenido indexado. A diferencia de las búsquedas tradicionales por palabras clave —limitadas por la coincidencia literal y la falta de comprensión semántica—, la arquitectura propuesta aprovecha representaciones vectoriales densas para realizar búsquedas por similitud semántica y emplea modelos de lenguaje de gran escala (GPT-3.5/GPT-4) para sintetizar respuestas coherentes y precisas en tiempo real. La implementación técnica combina un frontend en Angular con actualización en vivo mediante Pusher y un backend en Django que orquesta los procesos de extracción (PyPDF2/pdfminer + LangChain), vectorización y consulta. Los resultados evidencian una mejora significativa en precisión, relevancia y experiencia de usuario frente a métodos convencionales, con tiempos de respuesta inferiores a 3 segundos incluso en colecciones de cientos de documentos. El sistema demuestra su utilidad en escenarios reales como investigación académica, gestión de bibliotecas digitales y análisis financiero, donde la recuperación rápida y contextual de información en documentos extensos y no estructurados es crítica. La solución propuesta es escalable, de bajo costo operativo y replicable, constituyendo una contribución práctica al campo de la Document Intelligence y al uso efectivo de RAG en entornos de producción.
Descargas
Publicado
Número
Sección
Licencia
Derechos de autor 2025 ARANDUASS. REVISTA CIENTÍFICA MULTIDISCIPLINARIA

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
