La Mentira de la Dimensionalidad: Tus Embeddings de 768D Son En Realidad ~20D
Analizamos más de 30 datasets de embeddings. PC1 captura 88-99% de varianza en cada uno. Tus vectores de alta dimensionalidad esconden una verdad de baja dimensionalidad—y te está costando 40x en almacenamiento.
La Verdad Oculta Sobre Tus Embeddings
Todos en ML saben que los embeddings son de alta dimensionalidad. OpenAI usa 1536 dimensiones. Cohere usa 768. Los sentence transformers van de 384 a 1024. Estos se tratan como parámetros fundamentales—costos fijos de trabajar con representaciones neuronales.
¿Pero qué pasa si la mayoría de esas dimensiones son ruido?
Lo Que Encontramos
Ejecutamos análisis de componentes principales en más de 30 datasets de embeddings del mundo real. Los resultados fueron sorprendentes:
- Embeddings Cohere Wiki (10k vectores, 768D): PC1 captura 92% de varianza
- Sentence Transformers MiniLM (20k vectores, 384D): PC1 captura 88% de varianza
- Embeddings Tarka-350M (1k vectores, 1024D): PC1 captura 91% de varianza
- Señales EEG PhysioNet (datos continuos): PC1 captura 89% de varianza
- Datos de array de sensores (10k muestras, 100D): PC1 captura 99% de varianza
- Embeddings de texto AGNews: PC1 captura 94% de varianza
El primer componente principal por sí solo captura entre el 88% y el 99% de la varianza total en cada espacio de embeddings que probamos.
Las Implicaciones
Esto significa algo profundo: tus embeddings de 768 dimensiones no son realmente de 768 dimensiones. El contenido de información real vive en un subespacio mucho más pequeño. ¿Las dimensiones restantes? Principalmente ruido que estás pagando por almacenar, indexar y buscar.
Resultados Reales de Compresión
Tomamos este insight y construimos algoritmos de compresión diseñados específicamente para la geometría de embeddings:
- Wiki embeddings: 768D → 19D (40x compresión), Recall@10 = 1.0
- Embeddings Cohere: 768D → 264D (2.9x compresión), Recall@10 = 0.97
- MiniLM: 384D → 64D (6x compresión), Recall@10 = 0.855
- Datos de sensores: 100D → 2D (50x compresión), preservando estructura
Por Qué Esto Importa
Si estás ejecutando una base de datos vectorial con miles de millones de embeddings, probablemente estás almacenando 40x más datos de lo necesario. Eso se traduce directamente en:
- Costos de almacenamiento 40x más altos de lo necesario
- Requisitos de memoria que limitan tus opciones de despliegue
- Latencia de búsqueda que escala con la dimensionalidad
- Overhead de backup y replicación que multiplica el desperdicio
La Realidad Técnica
¿Por qué sucede esto? Los modelos de embedding se entrenan con objetivos contrastivos que empujan items similares juntos e items diferentes aparte. Esta optimización naturalmente crea estructura de bajo rango—el modelo aprende a usar solo las dimensiones que necesita.
La dimensionalidad anunciada es un límite superior, no una descripción del contenido de información real. La mayoría de los espacios de embedding colapsan a 10-50 dimensiones efectivas independientemente de su tamaño nominal.
Verifícalo Tú Mismo
Esto no es teórico. Ejecuta PCA en tus propios embeddings. Calcula la varianza explicada acumulada. Probablemente encontrarás que el 90%+ de tu información vive en una pequeña fracción de tus dimensiones.
Los datos no mienten. La pregunta es: ¿qué vas a hacer al respecto?
Amawta Labs
Construyendo las bases matemáticas para la próxima generación de infraestructura de IA.