Hoy en día me encuentro escribiendo cada vez más sobre @Zai_org, pero parece que su ritmo de innovación es asombroso. Y aquí estamos de nuevo.... Si has seguido las leyes de escalado, sabes que el recuento bruto de parámetros está empezando a afectar a la eficiencia arquitectónica y la calidad de los datos. @Zai_org GLM-5 es una clase magistral en esta transición. Estamos ante una bestia 744B Mezcla de Expertos (MoE) que solo activa 40B parámetros por token. Es esbelta donde importa y masiva donde debe estar. En @layerlens_ai hemos estado evaluando activamente GLM-5 y puedes ver los resultados por ti mismo: La arquitectura de la autonomía La innovación más destacada aquí es la DeepSeek Sparse Attention (DSA) combinada con el nuevo marco "Slime" RL. En el antiguo paradigma, RLHF trataba de hacer que los modelos fueran "más bonitos". En GLM-5, el Aprendizaje por Refuerzo se utiliza para tender puentes entre el pensamiento y el hacer. Esta pila de RL asíncrona permite que el modelo "jugue" con tareas de ingeniería complejas y de varios pasos, aprendiendo de los fallos de una manera que imita a un ingeniero senior que está trabajando duro en una PR. No se trata solo de predecir el siguiente token; Está prediciendo la siguiente solución. Referenciando el "Salto Generacional" El panel de control en LayerLens no es solo una lista de números; Es un mapa de razonamiento de alta dimensión. Aquí están las métricas clave que definen esta versión: Humanity's Last Examination (HLE) [Puntuación: 50,4]: Diseñado para ser el referente académico "final", HLE consiste en preguntas seleccionadas por expertos que son intencionadamente "a prueba de Google". Con 50,4 puntos, GLM-5 no solo recuerda hechos; está razonando mejor que Claude 4.5 Opus (43.4) y GPT-5.2 (45.5) en síntesis aumentada por herramientas. SWE-bench Verified [Puntuación: 77,8%]: Este es el estándar de oro para la ingeniería de software real. El modelo debe navegar por un repositorio, reproducir un error y enviar una pull request funcional. El GLM-5 ahora intercambia golpes con los sistemas propietarios más potentes del mundo. BrowseComp (con Gestión de Contexto) [Puntuación: 75,9]: Una prueba de "agencia contextual." Mide la capacidad de un modelo para navegar por sitios web en activo y mantener la memoria a lo largo de historiales de interacción extendidos. La puntuación de GLM-5 lidera la competencia, superando a GPT-5.2 (65,8). Vending Bench 2 [Clasificado #1]: Una simulación empresarial de un año que mide la planificación sostenida y la toma de decisiones operativas. GLM-5 terminó con un saldo final de cuenta de 4.432 dólares—el más alto entre todos los modelos de código abierto—demostrando que puede mantener una estrategia coherente durante miles de turnos. τ²-Bench [Puntuación: 89,7]: Probando escenarios complejos de agentes en varios pasos, GLM-5 igualó eficazmente a Claude 4.5 Opus (91.6) y superó a GPT-5.2 (85.5), reforzando su posición como sistema agente en lugar de chatbot. La soberanía del hardware Hay una hermosa ironía en la historia del entrenamiento: el GLM-5 fue entrenado íntegramente con la infraestructura de Huawei Ascend. Es un recordatorio de que la inteligencia es independiente del sustrato. No necesitas una marca específica de silicio para llegar a la frontera; necesitas la intuición arquitectónica adecuada y una montaña de tokens de alta calidad—28,5T, para ser exactos. Por qué esto importa...