Qwen3.5 könnte das erste Frontier-LLM sein, das den Fluch der Tiefe angeht. Seine schichtweise Ähnlichkeit zeigt in den tieferen Schichten eine viel geringere Redundanz im Vergleich zu Qwen3. Mein Tipp: Angesichts ihrer ungewöhnlichen Größe von 9B könnte es entweder eine clevere Schichtumorganisation (Pruning/Swapping/Wiederverwendung) oder eine Änderung des Normalisierungsschemas sein. @Alibaba_Qwen