🚨Ninguém está preparado para este artigo. Cada LLM que você usa GPT-4.1, Claude, Gemini, DeepSeek, Llama-4, Grok, Qwen tem uma falha que nenhuma quantidade de escalonamento corrigiu. Eles não conseguem distinguir informações antigas de informações novas. A pressão arterial de um paciente: 120 na triagem. 128 dez minutos depois. 125 na alta. "Qual é a leitura mais recente?" Qualquer humano: "125, obviamente." Cada LLM, uma vez que atualizações suficientes se acumulam: errado. Não às vezes errado. 100% errado. Zero de precisão. Alucinação completa. Cada modelo. Sem exceções. A resposta está no final da entrada. Logo antes da pergunta. Nenhuma busca necessária. O modelo simplesmente não consegue se desapegar dos valores antigos. 35 modelos testados por pesquisadores da UVA e NYU. Todos os 35 seguem a mesma curva matemática de morte. A precisão cai logaritmicamente para zero à medida que informações desatualizadas se acumulam. Sem platô. Sem recuperação. Apenas uma linha reta para o fracasso total. Eles pegaram um conceito da psicologia cognitiva chamado interferência proativa, onde memórias antigas bloqueiam a recordação de novas. Nos humanos, esse efeito atinge um platô. Nossos cérebros aprendem a suprimir o ruído e focar no que é atual. Os LLMs nunca atingem um platô. Eles declinam até quebrar completamente. Os pesquisadores tentaram de tudo: "Esqueça os valores antigos" - mal moveu a agulha Chain-of-thought - mesmo colapso...