Fuga GPT-5.4: contexto de 2M de token + estado persistente = explosión de caché KV Esto es la Guerra de la Memoria en tiempo real HBM para pesas. SRAM para inferencia crítica en latencia. Interconexiones ópticas para unirlo todo La bifurcación sobre la que he estado escribiendo ya no es teórica.