DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Zhuokai Zhao

Forschungswissenschaftler @Meta Ich baue und studiere LLMs und Agenten Gedanken zu Vernunft, RL und skalierbarer Intelligenz teilen. PhD CS @UChicagoCS

AMI Labs hat gerade 1,03 Milliarden Dollar gesammelt. World Labs hat ein paar Wochen zuvor 1 Milliarde Dollar gesammelt. Beide setzen auf Weltmodelle. Aber fast niemand meint mit diesem Begriff dasselbe. Hier sind meiner Meinung nach fünf Kategorien von Weltmodellen. --- 1. Joint Embedding Predictive Architecture (JEPA) Vertreter: AMI Labs (@ylecun), V-JEPA 2 Die zentrale Wette hier ist, dass die Rekonstruktion von Pixeln allein ein ineffizientes Ziel für das Lernen der Abstraktionen ist, die für das physische Verständnis erforderlich sind. LeCun sagt das schon seit Jahren – die Vorhersage jedes Pixels der Zukunft ist in jeder stochastischen Umgebung unlösbar. JEPA umgeht dies, indem es in einem gelernten latenten Raum vorhersagt. Konkret trainiert JEPA einen Encoder, der Videopatches in Repräsentationen abbildet, und dann einen Prädiktor, der maskierte Regionen in diesem Repräsentationsraum vorhersagt – nicht im Pixelraum. Das ist eine entscheidende Designentscheidung. Ein generatives Modell, das Pixel rekonstruiert, ist gezwungen, sich auf niedrigstufige Details (exakte Textur, Beleuchtung, Blattposition) festzulegen, die von Natur aus unvorhersehbar sind. Durch die Arbeit mit abstrakten Einbettungen kann JEPA erfassen, dass "der Ball vom Tisch fallen wird", ohne jeden Frame des Fallens halluzinieren zu müssen. V-JEPA 2 ist bisher der klarste großangelegte Beweis. Es handelt sich um ein 1,2 Milliarden Parameter-Modell, das auf über 1 Million Stunden Video durch selbstüberwachtes maskiertes Vorhersagen vortrainiert wurde – keine Labels, kein Text. Die zweite Trainingsphase wird interessant: Nur 62 Stunden Roboterdaten aus dem DROID-Datensatz reichen aus, um ein handlungsbedingtes Weltmodell zu erzeugen, das Zero-Shot-Planung unterstützt. Der Roboter generiert Kandidaten-Aktionssequenzen, rollt sie durch das Weltmodell vorwärts und wählt diejenige aus, deren vorhergesagtes Ergebnis am besten mit einem Zielbild übereinstimmt. Dies funktioniert mit Objekten und Umgebungen, die während des Trainings nie gesehen wurden. Die Dateneffizienz ist die eigentliche technische Schlagzeile. 62 Stunden sind fast nichts. Es deutet darauf hin, dass selbstüberwachtes Vortraining auf vielfältigen Videos genügend physisches Vorwissen bereitstellen kann, sodass sehr wenig domänenspezifische Daten im Nachhinein benötigt werden. Das ist ein starkes Argument für das JEPA-Design – wenn Ihre Repräsentationen gut genug sind, müssen Sie nicht jede Aufgabe von Grund auf neu angehen. AMI Labs ist LeCuns Versuch, dies über die Forschung hinaus zu treiben. Sie konzentrieren sich zunächst auf Gesundheitswesen und Robotik, was angesichts von JEPAs Stärke im physischen Denken mit begrenzten Daten sinnvoll ist. Aber das ist eine langfristige Wette – ihr CEO hat offen gesagt, dass kommerzielle Produkte Jahre entfernt sein könnten. --- 2. Räumliche Intelligenz (3D-Weltmodelle) Vertreter: World Labs (@drfeifei) Während JEPA fragt: "Was wird als Nächstes passieren?", fragt Fei-Fei Lis Ansatz: "Wie sieht die Welt in 3D aus und wie kann ich sie aufbauen?" Die These ist, dass echtes Verständnis eine explizite räumliche Struktur erfordert – Geometrie, Tiefe, Beständigkeit und die Fähigkeit, eine Szene aus neuen Blickwinkeln erneut zu beobachten – nicht nur zeitliche Vorhersage. Das ist eine andere Wette als bei JEPA: Anstatt abstrakte Dynamiken zu lernen, lernen Sie eine strukturierte 3D-Repräsentation der Umgebung, die Sie direkt manipulieren können. Ihr Produkt Marble erzeugt beständige 3D-Umgebungen aus Bildern, Text, Video oder 3D-Layouts. "Beständig" ist das Schlüsselwort – im Gegensatz zu einem Videogenerierungsmodell, das eine lineare Sequenz von Frames produziert, sind die Ausgaben von Marble tatsächliche 3D-Szenen mit räumlicher Kohärenz. Sie können die Kamera umkreisen, Objekte bearbeiten, Meshes exportieren. Das bringt es näher an ein 3D-Erstellungstool als an ein prädiktives Modell, was absichtlich ist. Zum Kontext: Dies baut auf einer Linie von neuronalen 3D-Repräsentationsarbeiten (NeRFs, 3D Gaussian Splatting) auf, drängt jedoch in Richtung Generierung statt Rekonstruktion. Anstatt eine reale Szene aus Mehransichtsfotos zu erfassen, synthetisiert Marble plausible neue Szenen aus spärlichen Eingaben. Die Herausforderung besteht darin, physische Plausibilität aufrechtzuerhalten – konsistente Geometrie, angemessene Beleuchtung, sinnvolle Okklusion – über eine generierte Welt, die nie existiert hat. --- 3. Gelerntes Simulation (Generatives Video + Latent-Space RL) Vertreter: Google DeepMind (Genie 3, Dreamer V3/V4), Runway GWM-1 Diese Kategorie gruppiert zwei Linien, die sich schnell annähern: generative Videomodelle, die lernen, interaktive Welten zu simulieren, und RL-Agenten, die Weltmodelle lernen, um Politiken in der Vorstellung zu trainieren. Die Linie der Videogenerierung. DeepMinds Genie 3 ist die reinste Version – Texteingabe, navigierbare Umgebung, 24 fps bei 720p, mit Konsistenz für einige Minuten. Anstatt sich auf einen explizit handgebauten Simulator zu verlassen, lernt es interaktive Dynamiken aus Daten. Die Schlüsselarchitektur ist die autoregressive Generierung, die auf Benutzeraktionen basiert: Jeder Frame wird basierend auf allen vorherigen Frames plus der aktuellen Eingabe (nach links bewegen, nach oben schauen usw.) generiert. Das bedeutet, dass das Modell ein implizites räumliches Gedächtnis aufrechterhalten muss – sich von einem Baum abwenden und zurückdrehen, und es muss immer noch da sein. DeepMind berichtet von Konsistenz bis zu etwa einer Minute, was beeindruckend ist, aber immer noch weit entfernt von dem, was Sie für ein nachhaltiges Agententraining benötigen würden. Runways GWM-1 basiert auf einer ähnlichen Grundlage – autoregressive Frame-Vorhersage, die auf Gen-4.5 basiert – teilt sich jedoch in drei Produkte: Worlds, Robotics und Avatars. Die Aufteilung in Worlds / Avatars / Robotics deutet darauf hin, dass das praktische Generalitätsproblem immer noch nach Aktionsraum und Anwendungsfall zerlegt wird. Die RL-Linie. Die Dreamer-Serie hat die längere intellektuelle Geschichte. Die Kernidee ist klar: Lernen Sie ein latentes Dynamikmodell aus Beobachtungen, rollen Sie dann vorgestellte Trajektorien im latenten Raum aus und optimieren Sie eine Politik durch Rückpropagation durch die Vorhersagen des Modells. Der Agent muss während des Politiklernens nie mit der realen Umgebung interagieren. Dreamer V3 war die erste KI, die Diamanten in Minecraft ohne menschliche Daten erhielt. Dreamer 4 tat dasselbe rein offline – keine Interaktion mit der Umgebung. Architektonisch bewegt sich Dreamer 4 von der früheren rekurrenten Linie von Dreamer zu einem skalierbareren transformerbasierten Weltmodell-Rezept und führte "Shortcut Forcing" ein – ein Trainingsziel, das es dem Modell ermöglicht, in nur 4 Schritten von rauschhaften zu sauberen Vorhersagen zu springen, anstatt der typischen 64 in Diffusionsmodellen. Das ist es, was Echtzeitinferenz auf einem einzelnen H100 möglich macht. Diese beiden Unterlinien fühlten sich früher unterschiedlich an: Videogenerierung produziert visuelle Umgebungen, während RL-Weltmodelle trainierte Politiken erzeugen. Aber Dreamer 4 verwischte die Grenze – Menschen können jetzt interaktiv in seinem Weltmodell spielen, und Genie 3 wird verwendet, um DeepMinds SIMA-Agenten zu trainieren. Der Konvergenzpunkt ist, dass beide dasselbe benötigen: ein Modell, das genau simulieren kann, wie Aktionen Umgebungen über längere Horizonte beeinflussen. Die offene Frage für diese gesamte Kategorie ist eine, die LeCun immer wieder aufwirft: Bedeutet das Lernen, Pixel zu generieren, die physikalisch korrekt aussehen, tatsächlich, dass das Modell Physik versteht? Oder ist es Musterabgleich des Aussehens? Dreamer 4s Fähigkeit, Diamanten in Minecraft aus reiner Vorstellung zu erhalten, ist ein starkes empirisches Gegenargument, aber es ist auch ein Spiel mit diskreten, erlernbaren Mechaniken – die reale Welt ist unordentlicher. --- 4. Physikalische KI-Infrastruktur (Simulationsplattform) Vertreter: NVIDIA Cosmos NVIDIAs Ansatz ist, nicht das Weltmodell zu bauen, sondern die Plattform, die jeder andere nutzt, um ihre zu bauen. Cosmos wurde im Januar 2025 auf der CES vorgestellt und deckt den gesamten Stack ab – Datenkuratierungspipeline (20 Millionen Stunden Video in 14 Tagen auf Blackwell verarbeiten, im Vergleich zu über 3 Jahren auf CPU), ein visueller Tokenizer mit 8x besserer Kompression als die vorherige SOTA, Modelltraining über NeMo und Bereitstellung über NIM-Microservices. Die vortrainierten Weltgrundlagenmodelle werden auf 9.000 Billionen Tokens aus 20 Millionen Stunden realen Videos trainiert, die Fahr-, Industrie-, Robotik- und menschliche Aktivitätsdaten umfassen. Sie kommen in zwei Architekturfamilien: diffusionsbasiert (arbeiten mit kontinuierlichen latenten Tokens) und autoregressiv transformerbasiert (Vorhersage des nächsten Tokens auf diskretisierten Tokens). Beide können für spezifische Domänen feinabgestimmt werden. Drei Modellfamilien sitzen oben auf diesem. Predict generiert zukünftige Videozustände aus Text-, Bild- oder Videoeingaben – im Wesentlichen Video-Vorhersage, die für spezifische Roboter- oder Fahr-Szenarien nachtrainiert werden kann. Transfer behandelt die Sim-to-Real-Domänenanpassung, die eines der anhaltenden Kopfschmerzen in der physischen KI ist – Ihr Modell funktioniert großartig in der Simulation, bricht aber in der realen Welt aufgrund visueller und dynamischer Lücken zusammen. Reason (hinzugefügt bei GTC 2025) bringt Ketten von Gedanken über physische Szenen – spatiotemporales Bewusstsein, kausales Verständnis von Interaktionen, Video-Q&A. --- 5. Aktive Inferenz Vertreter: VERSES AI (Karl Friston) Dies ist der Ausreißer auf der Liste – nicht aus der Deep-Learning-Tradition, sondern aus der rechnerischen Neurowissenschaft. Karl Fristons Prinzip der freien Energie besagt, dass intelligente Systeme kontinuierlich Vorhersagen über ihre Umgebung generieren und handeln, um Überraschungen zu minimieren (technisch: variational free energy, eine obere Grenze für Überraschungen). Wo standard RL normalerweise um Belohnungsmaximierung gerahmt wird, rahmt aktive Inferenz Verhalten als Minimierung von variational / erwarteter freier Energie, was zielgerichtete Präferenzen mit epistemischem Wert verbindet. Dies führt zu natürlichem Erkundungsverhalten: Der Agent wird zu Situationen hingezogen, in denen er unsicher ist, da die Auflösung von Unsicherheit die freie Energie reduziert. VERSES baute AXIOM (Aktive eXpanding Inference mit objektzentrierten Modellen) auf diesem Fundament. Die Architektur ist grundlegend anders als neuronale Netzwerk-Weltmodelle. Anstatt eine monolithische Funktionsapproximator zu lernen, hält AXIOM ein strukturiertes generatives Modell aufrecht, bei dem jedes Objekt in der Umgebung ein diskretes Objekt mit typisierten Attributen und Beziehungen ist. Die Inferenz ist bayesianisch – Überzeugungen sind Wahrscheinlichkeitsverteilungen, die über Nachrichtenweitergabe aktualisiert werden, nicht über Gradientenabstieg. Das macht es interpretierbar (Sie können inspizieren, was der Agent über jedes Objekt glaubt), kompositorisch (fügen Sie einen neuen Objekttyp hinzu, ohne neu zu trainieren) und extrem dateneffizient. In ihrer Robotikarbeit haben sie ein hierarchisches Multi-Agenten-Setup gezeigt, bei dem jedes Gelenk eines Roboterarms sein eigener aktiver Inferenzagent ist. Die Gelenkagenten kümmern sich um die lokale Motorsteuerung, während höhere Agenten die Aufgabenplanung übernehmen, die alle über gemeinsame Überzeugungen in einer Hierarchie koordiniert werden. Das gesamte System passt sich in Echtzeit an unbekannte Umgebungen an, ohne neu zu trainieren – Sie bewegen das Zielobjekt und der Agent plant sofort neu, weil er Online-Inferenz durchführt, nicht eine feste Politik ausführt. Sie haben im April 2025 ein kommerzielles Produkt (Genius) ausgeliefert, und die AXIOM-Benchmarks gegen RL-Baselines sind wettbewerbsfähig bei Standardkontrollaufgaben, während sie um Größenordnungen weniger Daten verwenden. --- Im Grunde genommen konkurrieren diese fünf Kategorien nicht wirklich – sie lösen unterschiedliche Teilprobleme. JEPA komprimiert physisches Verständnis. Räumliche Intelligenz rekonstruiert 3D-Strukturen. Gelerntes Simulation trainiert Agenten durch generierte Erfahrungen. NVIDIA liefert die Werkzeuge. Aktive Inferenz bietet eine grundlegend andere rechnerische Theorie der Intelligenz. Ich vermute, dass die Grenzen zwischen ihnen schnell verschwommen werden.

Die Grenzerforschung von LLM-Architekturen hat sich weitgehend konvergiert. Ich habe den HuggingFace-Transformers-Code für @Zai_org's neu veröffentlichtes GLM-5 (zai-org/GLM-5) durchforstet. Hier ist eine detaillierte architektonische Analyse und was sie uns über die Richtung des LLM-Designs sagt. TL;DR: Architektonisch folgt GLM-5 eng DeepSeek-V3 mit geringfügigen Anpassungen. ACHTUNG: MLA ersetzt GQA Die größte Änderung von GLM-4.7 zu GLM-5 ist die Aufmerksamkeit. GLM-4.7 verwendete die Standard Grouped Query Attention (GQA) mit 96 Q-Köpfen, 8 KV-Köpfen und separaten q/k/v-Projektionen. GLM-5 verwirft all das und übernimmt DeepSeek's Multi-head Latent Attention (MLA). In der MLA-Pipeline durchlaufen Abfragen eine LoRA-ähnliche zweistufige Projektion: hidden -> q_a_proj auf Rang 2048 -> RMSNorm -> q_b_proj auf 64 Köpfe * 256 dim. Schlüssel und Werte werden gemeinsam in einen einzigen Low-Rank-Flaschenhals komprimiert: hidden -> kv_a_proj auf Rang 512+64 -> aufgeteilt in einen latenten KV-Pfad und einen RoPE-Pfad. Der latente Teil wird über kv_b_proj zurück auf 64 Köpfe von (192 nope + 256 Wert) Dimensionen erweitert. Dies ist das genau gleiche MLA-Design wie bei DeepSeek-V3. GLM-5 passt nur die Dimensionen an: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128. Die kv_lora_rank (512) und qk_rope_head_dim (64) sind identisch. Außerdem gibt es keinen Bias irgendwo in der Aufmerksamkeit (attention_bias standardmäßig auf False). Jede Projektion (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj und alle DSA-Indexerprojektionen) ist biasfrei. Dies ist jetzt Standardpraxis; unter den großen Modellen, die 2025 veröffentlicht werden, verwendet nur GPT-oss weiterhin einen Aufmerksamkeitsbias. DSA: DeepSeek's Sparse Attention GLM-5 übernimmt die native Sparse Attention (DSA) von DeepSeek V3.2 — dies ist das einzige architektonische Merkmal, das @Zai_org ausdrücklich hervorgehoben hat. Die Aufmerksamkeitsklasse enthält spezielle Indexerkomponenten: wq_b, wk, k_norm und weights_proj, die verwendet werden, um die 2048 relevantesten Tokens (index_topk=2048) für jeden Aufmerksamkeits-Schritt auszuwählen, anstatt über den gesamten Kontext zu achten. MoE ROUTING: Das gleiche Rezept und die gleichen Zahlen 256 geroutete Experten + 1 gemeinsamer Experte. Genauso wie bei DeepSeek-V3 in beiden Punkten; hoch von GLM-4.7's 128 gerouteten Experten. Bisher hat nur die Qwen-3-Serie den gemeinsamen Experten entfernt — alle anderen behalten einen. Top-8 Experten werden pro Token ausgewählt (num_experts_per_tok=8). Sigmoid-basiertes Routing (nicht softmax) mit e_score_correction_bias für Lastenausgleich — kein Hilfsverlust, genau wie DeepSeek-V3. Top-k-Gewichte werden normalisiert (norm_topk_prob=True) und dann mit routed_scaling_factor = 2.5 skaliert — identisch mit DeepSeek-V3 (GLM-4.7 verwendete 1.0). moe_intermediate_size = 2048, ebenfalls identisch mit DeepSeek-V3. Eine Vereinfachung im Vergleich zu DeepSeek-V3: GLM-5 lässt die gruppierte Expertenauswahl vollständig weg (n_group=1, topk_group=1). DeepSeek-V3 teilt 256 Experten in 8 Gruppen von 32 und wählt die Top-4 Gruppen aus, bevor Experten innerhalb dieser ausgewählt werden. GLM-5 überspringt dies und macht einfach flache Top-8 über alle 256. Dies ist konsistent mit dem Ansatz von GLM-4.7 — was darauf hindeutet, dass gruppiertes Routing möglicherweise nicht wesentlich ist. FFN / MLP: SwiGLU, dicht-dann-MoE Alle Feed-Forward (FFN) Schichten verwenden SwiGLU (gated linear unit mit SiLU-Aktivierung), ohne Bias in irgendeiner Projektion. Dies gilt für dichte FFNs, geroutete Experten und gemeinsame Experten gleichermaßen. Die 78 Schichten folgen einem dicht-dann-MoE-Muster: die ersten 3 Schichten verwenden ein standardmäßiges dichtes FFN (intermediate_size=12288), und die verbleibenden 75 Schichten sind alle MoE — keine dichte/MoE-Interleaving innerhalb des MoE-Bereichs. DeepSeek-V3 verwendet dasselbe 3-dichte-dann-MoE-Split. GLM-4.7 verwendete nur 1 anfängliche dichte Schicht. Innerhalb jeder MoE-Schicht ist die Ausgabe die Summe von zwei Teilen: (1) der gerouteten Expertenmischung (top-8 von 256, jeder mit intermediate_size=2048), und (2) einem gemeinsamen Experten (auch intermediate_size=2048), der jedes Token bedingungslos verarbeitet. MODELSKELETT: 78 Schichten, 202k Kontext Insgesamt 78 Transformer-Schichten (tiefer als DeepSeek-V3's 61). hidden_size = 6144. 64 Aufmerksamkeitsköpfe, 64 KV-Köpfe (MLA macht das effektive KV viel günstiger, als diese Zahl vermuten lässt). RMSNorm durchgehend (eps=1e-5). Vokabulargröße 154.880. Wort-Embeddings sind standardmäßig nicht an den LM-Kopf gebunden (tie_word_embeddings=False). Die Kontextlänge beträgt 202.752 Tokens. RoPE verwendet ein interleaved Layout (rope_interleave=True), wobei erneut apply_rotary_pos_emb_interleave direkt von DeepSeek-V3 importiert wird. Der Code unterstützt YaRN-Skalierung über yarn_get_mscale, aber rope_theta und rope_type sind in der Konfigurationsdatei des Modells config.json festgelegt, anstatt im Quellcode fest codiert zu sein. MTP: Multi-Token-Vorhersage Multi-Token-Vorhersage ist eine Trainingstechnik (populär gemacht durch DeepSeek-V3), bei der das Modell lernt, mehrere zukünftige Tokens gleichzeitig durch zusätzliche Vorhersageköpfe vorherzusagen, was die Repräsentationsqualität verbessert. Diese zusätzlichen Köpfe werden nur während des Trainings verwendet und zur Inferenzzeit verworfen. GLM-5 scheint MTP zu verwenden, da der Modell-Checkpoint Gewichte für eine 79. Decoder-Schicht (model.layers.78) enthält, eine über den 78 regulären Schichten (Indizes 0-77). Der Transformers-Code überspringt ausdrücklich diese zusätzlichen Gewichte beim Laden des Modells. DeepSeek-V3 und GLM-4.7 zeigen beide dasselbe Muster — zusätzliche Schichtgewichte im Checkpoint, die zur Ladezeit ignoriert werden — konsistent mit der Art und Weise, wie MTP-Trainingsköpfe typischerweise versendet und verworfen werden. WAS DAS BEDEUTET GLM-5 hat nicht nur ein paar Ideen von DeepSeek übernommen. Es - hat seinen gesamten Aufmerksamkeitsmechanismus ersetzt (GQA -> MLA) - hat DSA übernommen - hat sigmoid MoE-Routing mit e_score_correction_bias übernommen - hat die Anzahl seiner Experten verdoppelt, um DeepSeek's 256 zu entsprechen, - hat den Routing-Skalierungsfaktor (2.5), die Expertenzwischengröße (2048) und die Anzahl der anfänglichen dichten Schichten (3) angepasst - und hat MTP übernommen. Das einzige, was GLM-5 eindeutig von seiner eigenen GLM-4.7-Linie beibehalten hat — wo es sich von DeepSeek-V3 unterscheidet — ist flaches top-k-Routing ohne gruppierte Auswahl (n_group=1 vs DeepSeek's 8). Das ist jedoch KEIN schlechtes Zeichen. Wenn ein großes Labor seine eigene architektonische Linie aufgibt und auf dem Blueprint eines Mitbewerbers neu aufbaut — und nicht nur die Designmuster, sondern viele der wichtigsten Hyperparameter anpasst — bedeutet das, dass der Designraum erkundet wurde. MLA + sigmoid MoE + gemeinsame Experten + kein Hilfsverlust + DSA + MTP wird zum Standardrezept für MoE an der Grenze. Die Renditen architektonischer Neuheiten nehmen ab. Die Differenzierung (vorerst) liegt mehr in der Datenkuratierung, den Trainingsrezepten und der Inferenzinfrastruktur und weniger im Transformer-Block selbst (aber vielleicht werden wir in Zukunft mehr architektonische Änderungen oder sogar Nicht-Transformer-Blöcke sehen).

Top

Ranking

Favoriten