DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Me encuentro escribiendo cada vez más sobre @Zai_org estos días, pero es como si su ritmo de innovación fuera notable. Y aquí estamos de nuevo.... Si has estado siguiendo las leyes de escalado, sabes que el conteo de parámetros en bruto está comenzando a ceder ante la eficiencia arquitectónica y la calidad de los datos. @Zai_org GLM-5 es una clase magistral en esta transición. Estamos hablando de una bestia de 744B Mixture-of-Experts (MoE) que solo activa 40B parámetros por token. Es ágil donde cuenta y masiva donde necesita serlo. En @layerlens_ai hemos estado evaluando activamente GLM-5 y puedes ver los resultados por ti mismo: La Arquitectura de la Autonomía La innovación destacada aquí es la Atención Escasa DeepSeek (DSA) combinada con el nuevo marco de RL "Slime". En el viejo paradigma, RLHF se trataba de hacer que los modelos fueran "más amables". En GLM-5, el Aprendizaje por Refuerzo se utiliza para cerrar la brecha entre pensar y hacer. Este stack de RL asíncrono permite que el modelo "juegue" con tareas de ingeniería complejas y de múltiples pasos, aprendiendo del fracaso de una manera que imita a un ingeniero senior lidiando con un PR. No solo está prediciendo el siguiente token; está prediciendo la siguiente solución. Evaluando el "Salto Generacional" El panel de control en LayerLens no es solo una lista de números; es un mapa de razonamiento de alta dimensión. Aquí están las métricas clave que definen este lanzamiento: El Último Examen de la Humanidad (HLE) [Puntuación: 50.4]: Diseñado para ser el benchmark académico "final", HLE consiste en preguntas revisadas por expertos que son intencionadamente "a prueba de Google". Con 50.4, GLM-5 no solo está recordando hechos; está razonando mejor que Claude 4.5 Opus (43.4) y GPT-5.2 (45.5) en síntesis aumentada por herramientas. SWE-bench Verificado [Puntuación: 77.8%]: Este es el estándar de oro para la ingeniería de software en el mundo real. El modelo debe navegar por un repositorio, reproducir un error y enviar una solicitud de extracción funcional. GLM-5 ahora está intercambiando golpes con los sistemas propietarios más poderosos del mundo. BrowseComp (con Gestión de Contexto) [Puntuación: 75.9]: Una prueba de "agencia contextual". Mide la capacidad de un modelo para navegar por sitios web en vivo y mantener memoria a lo largo de interacciones prolongadas. La puntuación de GLM-5 lidera el grupo, superando a GPT-5.2 (65.8). Vending Bench 2 [Clasificado #1]: Una simulación empresarial de un año que mide la planificación sostenida y la toma de decisiones operativas. GLM-5 terminó con un saldo final de cuenta de $4,432—el más alto entre todos los modelos de código abierto—demostrando que puede mantener una estrategia coherente a lo largo de miles de turnos. τ²-Bench [Puntuación: 89.7]: Probando escenarios complejos de agentes de múltiples pasos, GLM-5 igualó efectivamente a Claude 4.5 Opus (91.6) y superó a GPT-5.2 (85.5), reforzando su posición como un sistema agente en lugar de un chatbot. La Soberanía del Hardware Hay una hermosa ironía en la historia de entrenamiento: GLM-5 fue entrenado completamente en infraestructura Huawei Ascend. Es un recordatorio de que la inteligencia es independiente del sustrato. No necesitas una marca específica de silicio para alcanzar la frontera; necesitas la intuición arquitectónica correcta y una montaña de tokens de alta calidad—28.5T, para ser exactos. Por Qué Esto Importa...

Parte superior

Clasificación

Favoritos