Qwen3.5 kan vara det första gränsöverskridande LLM:n som tar sig an Djupets förbannelse. Dess lagervisa likhet visar mycket lägre redundans i djupare lager jämfört med Qwen3. Min gissning: med tanke på deras ovanliga 9B-storlek, antingen någon smart lageromorganisation (beskärning/byte/återanvändning) eller en förändring i normaliseringsschemat. @Alibaba_Qwen