Vectorización de documentos con IA: cómo un PDF se vuelve consultable
Si alguna vez te preguntaste cómo ChatGPT puede 'leer' tus manuales técnicos, contratos o procedimientos y responder preguntas sobre ellos con precisión — la respuesta corta es: vectores. La respuesta larga, abajo.
El problema
Una planta industrial promedio acumula miles de PDFs: planos, hojas de seguridad, manuales de operación, informes de inspección, procedimientos de mantenimiento. Toda esa información existe, pero buscarla es un dolor: Ctrl+F dentro de cada archivo, esperar a que alguien con experiencia recuerde dónde estaba ese dato, abrir cinco PDFs antes de encontrar lo correcto.
Un modelo de lenguaje (LLM) por sí solo tampoco resuelve esto: no conoce tus documentos. Y no puedes simplemente pegarle 5.000 páginas en el prompt — no caben, y aunque cupieran, sería carísimo y lento.
¿Qué es un chunk?
Un chunk es, literalmente, un pedazo. Cuando vectorizas un documento, lo primero que haces es partirlo en trozos manejables: por ejemplo, bloques de 500 a 1.000 palabras, normalmente con un poco de solapamiento entre uno y el siguiente para no perder contexto en los bordes.
¿Por qué partirlo? Por dos razones. La primera, técnica: los modelos que convierten texto en vectores tienen un límite de cuánto texto pueden procesar a la vez. La segunda, práctica: cuando luego hagas una pregunta, no quieres que la IA te traiga "el PDF entero", quieres que te traiga el párrafo exacto que responde la duda.
De texto a vector matemático
Aquí entra la magia. Cada chunk pasa por un modelo llamado embedding model (por ejemplo text-embedding-3-small de OpenAI, o modelos abiertos como BGE o E5). Lo que devuelve es un vector: una lista larga de números, típicamente entre 384 y 3.072 dimensiones.
Ese vector es, en esencia, una representación matemática del significado del texto. Dos chunks que hablan del mismo tema — aunque usen palabras distintas — terminan siendo vectores parecidos. "El intercambiador presentó pérdida de eficiencia térmica" y "El equipo HX-101 está transfiriendo menos calor del esperado" caen cerca en ese espacio matemático, aunque no compartan casi ninguna palabra.
Esos vectores se guardan en una base de datos vectorial (pgvector sobre Postgres, Pinecone, Qdrant, Weaviate, Chroma…). Cada registro tiene el vector, el texto original del chunk y metadatos: de qué documento viene, qué página, qué sección.
¿Y cómo se consulta?
Cuando un usuario pregunta algo, ocurren tres pasos:
- La pregunta también se convierte en vector con el mismo modelo de embeddings.
- La base de datos vectorial busca los k chunks cuyos vectores están más cerca (similitud coseno, normalmente). Esos son los pasajes más relevantes a la pregunta.
- Esos chunks recuperados se le pasan al LLM como contexto, junto con la pregunta, y el modelo redacta una respuesta basada solo en esa información.
A este patrón se le llama RAG (Retrieval-Augmented Generation, o generación aumentada por recuperación). Es la forma seria y trazable de hacer que una IA hable de tus documentos sin alucinar: cada respuesta puede citar la página y el archivo de donde salió.
Por qué importa en industria
En operaciones reales — mantenimiento, integridad, calidad — el conocimiento crítico vive enterrado en documentos. Vectorizar esa base documental convierte años de informes en algo consultable en segundos: "¿qué decía el último informe de espesores del recipiente V-201?", "¿cuál es el procedimiento si el rotor del compresor supera 80 °C?", "¿cuántas no conformidades hubo en la última auditoría sobre soldadura?".
Y lo más interesante: el mismo flujo aplica a hojas de cálculo, correos, planos con OCR, transcripciones de reuniones. Toda la memoria operativa de una empresa se vuelve, por fin, una sola fuente que se puede preguntar en lenguaje humano.
— Esto es exactamente la base sobre la que estamos construyendo el módulo de conocimiento de VectorIA.