Investigación6 min

La Mentira de la Dimensionalidad: Tus Embeddings de 768D Son En Realidad ~20D

Analizamos más de 30 datasets de embeddings. PC1 captura 88-99% de varianza en cada uno. Tus vectores de alta dimensionalidad esconden una verdad de baja dimensionalidad—y te está costando 40x en almacenamiento.

Amawta Labs

•28 de noviembre de 2024

La Verdad Oculta Sobre Tus Embeddings

Todos en ML saben que los embeddings son de alta dimensionalidad. OpenAI usa 1536 dimensiones. Cohere usa 768. Los sentence transformers van de 384 a 1024. Estos se tratan como parámetros fundamentales—costos fijos de trabajar con representaciones neuronales.

¿Pero qué pasa si la mayoría de esas dimensiones son ruido?

768→19Dimensiones efectivas

88-99%Varianza en PC1

Recall@10=1.0Tras 40x compresión

Lo Que Encontramos

Ejecutamos análisis de componentes principales en más de 30 datasets de embeddings del mundo real. Los resultados fueron sorprendentes:

Embeddings Cohere Wiki (10k vectores, 768D): PC1 captura 92% de varianza
Sentence Transformers MiniLM (20k vectores, 384D): PC1 captura 88% de varianza
Embeddings Tarka-350M (1k vectores, 1024D): PC1 captura 91% de varianza
Señales EEG PhysioNet (datos continuos): PC1 captura 89% de varianza
Datos de array de sensores (10k muestras, 100D): PC1 captura 99% de varianza
Embeddings de texto AGNews: PC1 captura 94% de varianza

El primer componente principal por sí solo captura entre el 88% y el 99% de la varianza total en cada espacio de embeddings que probamos.

Las Implicaciones

Esto significa algo profundo: tus embeddings de 768 dimensiones no son realmente de 768 dimensiones. El contenido de información real vive en un subespacio mucho más pequeño. ¿Las dimensiones restantes? Principalmente ruido que estás pagando por almacenar, indexar y buscar.

Resultados Reales de Compresión

Tomamos este insight y construimos algoritmos de compresión diseñados específicamente para la geometría de embeddings:

Wiki embeddings: 768D → 19D (40x compresión), Recall@10 = 1.0
Embeddings Cohere: 768D → 264D (2.9x compresión), Recall@10 = 0.97
MiniLM: 384D → 64D (6x compresión), Recall@10 = 0.855
Datos de sensores: 100D → 2D (50x compresión), preservando estructura

Recall vs Compression

97%

2.9x

85.5%

100%

40x

99%

50x

Por Qué Esto Importa

Si estás ejecutando una base de datos vectorial con miles de millones de embeddings, probablemente estás almacenando 40x más datos de lo necesario. Eso se traduce directamente en:

Costos de almacenamiento 40x más altos de lo necesario
Requisitos de memoria que limitan tus opciones de despliegue
Latencia de búsqueda que escala con la dimensionalidad
Overhead de backup y replicación que multiplica el desperdicio

Comparación

Tradicional

EigenDB

Almacenamiento

768D vectores

19D vectores

Costo

6 TB / 1B vectores

150 GB / 1B vectores

Latencia

~100ms p99

~25ms p99

La Realidad Técnica

¿Por qué sucede esto? Los modelos de embedding se entrenan con objetivos contrastivos que empujan items similares juntos e items diferentes aparte. Esta optimización naturalmente crea estructura de bajo rango—el modelo aprende a usar solo las dimensiones que necesita.

La dimensionalidad anunciada es un límite superior, no una descripción del contenido de información real. La mayoría de los espacios de embedding colapsan a 10-50 dimensiones efectivas independientemente de su tamaño nominal.

Verifícalo Tú Mismo

Esto no es teórico. Ejecuta PCA en tus propios embeddings. Calcula la varianza explicada acumulada. Probablemente encontrarás que el 90%+ de tu información vive en una pequeña fracción de tus dimensiones.

Los datos no mienten. La pregunta es: ¿qué vas a hacer al respecto?

Amawta Labs

Construyendo las bases matemáticas para la próxima generación de infraestructura de IA.