Sinto que o algoritmo de busca será ótimo novamente. À medida que o contexto ou o prompt se tornam maiores. Como reduzir adequadamente o consumo de tokens realmente depende de qual prompt e qual contexto devemos submeter. Não acho que a compressão funcionará tão bem quando você tem um grande banco de memória. Como 90% do prompt pode ainda não ser necessário. Em vez de submeter todo o contexto/prompt, nós pesquisamos e deduzimos todo o contexto apenas para informações relevantes.