Vazamento do GPT-5.4: contexto de 2M tokens + estado persistente = explosão do cache KV Estas são as Guerras da Memória em tempo real HBM para pesos. SRAM para inferência crítica em latência. Interconexões ópticas para unir tudo A bifurcação sobre a qual venho escrevendo não é mais teórica.