amawta
Volver al blog
Investigación6 min

La Mentira de la Dimensionalidad: Tus Embeddings de 768D Son En Realidad ~20D

Analizamos más de 30 datasets de embeddings. PC1 captura 88-99% de varianza en cada uno. Tus vectores de alta dimensionalidad esconden una verdad de baja dimensionalidad—y te está costando 40x en almacenamiento.

Amawta Labs

La Verdad Oculta Sobre Tus Embeddings

Todos en ML saben que los embeddings son de alta dimensionalidad. OpenAI usa 1536 dimensiones. Cohere usa 768. Los sentence transformers van de 384 a 1024. Estos se tratan como parámetros fundamentales—costos fijos de trabajar con representaciones neuronales.

¿Pero qué pasa si la mayoría de esas dimensiones son ruido?

768→19Dimensiones efectivas
88-99%Varianza en PC1
Recall@10=1.0Tras 40x compresión

Lo Que Encontramos

Ejecutamos análisis de componentes principales en más de 30 datasets de embeddings del mundo real. Los resultados fueron sorprendentes:

  • Embeddings Cohere Wiki (10k vectores, 768D): PC1 captura 92% de varianza
  • Sentence Transformers MiniLM (20k vectores, 384D): PC1 captura 88% de varianza
  • Embeddings Tarka-350M (1k vectores, 1024D): PC1 captura 91% de varianza
  • Señales EEG PhysioNet (datos continuos): PC1 captura 89% de varianza
  • Datos de array de sensores (10k muestras, 100D): PC1 captura 99% de varianza
  • Embeddings de texto AGNews: PC1 captura 94% de varianza
El primer componente principal por sí solo captura entre el 88% y el 99% de la varianza total en cada espacio de embeddings que probamos.

Las Implicaciones

Esto significa algo profundo: tus embeddings de 768 dimensiones no son realmente de 768 dimensiones. El contenido de información real vive en un subespacio mucho más pequeño. ¿Las dimensiones restantes? Principalmente ruido que estás pagando por almacenar, indexar y buscar.

Resultados Reales de Compresión

Tomamos este insight y construimos algoritmos de compresión diseñados específicamente para la geometría de embeddings:

  • Wiki embeddings: 768D → 19D (40x compresión), Recall@10 = 1.0
  • Embeddings Cohere: 768D → 264D (2.9x compresión), Recall@10 = 0.97
  • MiniLM: 384D → 64D (6x compresión), Recall@10 = 0.855
  • Datos de sensores: 100D → 2D (50x compresión), preservando estructura
Recall vs Compression
97%
2.9x
85.5%
6x
100%
40x
99%
50x

Por Qué Esto Importa

Si estás ejecutando una base de datos vectorial con miles de millones de embeddings, probablemente estás almacenando 40x más datos de lo necesario. Eso se traduce directamente en:

  • Costos de almacenamiento 40x más altos de lo necesario
  • Requisitos de memoria que limitan tus opciones de despliegue
  • Latencia de búsqueda que escala con la dimensionalidad
  • Overhead de backup y replicación que multiplica el desperdicio
Comparación
Tradicional
EigenDB
Almacenamiento
768D vectores
19D vectores
Costo
6 TB / 1B vectores
150 GB / 1B vectores
Latencia
~100ms p99
~25ms p99

La Realidad Técnica

¿Por qué sucede esto? Los modelos de embedding se entrenan con objetivos contrastivos que empujan items similares juntos e items diferentes aparte. Esta optimización naturalmente crea estructura de bajo rango—el modelo aprende a usar solo las dimensiones que necesita.

La dimensionalidad anunciada es un límite superior, no una descripción del contenido de información real. La mayoría de los espacios de embedding colapsan a 10-50 dimensiones efectivas independientemente de su tamaño nominal.

Verifícalo Tú Mismo

Esto no es teórico. Ejecuta PCA en tus propios embeddings. Calcula la varianza explicada acumulada. Probablemente encontrarás que el 90%+ de tu información vive en una pequeña fracción de tus dimensiones.

Los datos no mienten. La pregunta es: ¿qué vas a hacer al respecto?

Amawta Labs

Construyendo las bases matemáticas para la próxima generación de infraestructura de IA.