Sento che l'algoritmo di ricerca sarà di nuovo fantastico. Man mano che il contesto o il prompt diventano più ampi. Come ridurre correttamente il consumo di token dipende davvero da quale prompt e quale contesto dovremmo inviare. Non penso che la compressione funzionerà così bene quando hai una grande banca di memoria. Poiché il 90% del prompt potrebbe non essere ancora necessario. Invece di inviare tutto il contesto/prompt, cerchiamo e deduciamo l'intero contesto solo per le informazioni rilevanti.