RAG est cassé et personne n'en parle 🤯 Stanford vient de publier un article sur "l'effondrement sémantique", prouvant qu'une fois que votre base de connaissances atteint ~10 000 documents, la recherche sémantique devient un véritable tirage au sort. Voici pourquoi votre RAG échoue : Au-delà de 10 000 documents, votre recherche AI sophistiquée devient essentiellement un tirage au sort. Chaque document que vous ajoutez est transformé en un embedding de haute dimension. À petite échelle, des documents similaires se regroupent parfaitement. Mais en ajoutant suffisamment de données, l'espace se remplit. Les distances se compressent. Tout semble "pertinent." C'est la malédiction de la dimensionnalité. Dans un espace de 1000D, 99,9 % de vos données se trouvent sur la coque extérieure, presque à égale distance de toute requête. Stanford a constaté une chute de précision de 87 % à 50 000 documents. Ajouter plus de contexte rend en fait les hallucinations pires, pas meilleures. Nous pensions que RAG résolvait les hallucinations… il les a juste cachées derrière des mathématiques. La solution n'est pas de reclasser ou de mieux segmenter. C'est la récupération hiérarchique et les bases de données graphiques.