Sinto que o algoritmo de busca vai ser ótimo de novo. À medida que o contexto ou o prompt está ficando maior. Como reduzir corretamente o consumo de tokens realmente depende de qual prompt e de qual contexto devemos submeter. Não acho que o comprimido funcione tão bem quando você tem um banco de memória grande. Já que 90% do prompt ainda pode não ser necessário. Em vez de enviar todo o contexto/prompt, buscamos e deduzimos todo o contexto apenas para informações relevantes.