Train Beyond Language. Wir setzen auf die visuelle Welt als den entscheidenden nächsten Schritt neben und über die Sprachmodellierung hinaus. Daher haben wir untersucht, wie man Grundmodelle von Grund auf mit Vision aufbaut. Wir teilen unsere Erkundungen: visuelle Darstellungen, Daten, Weltmodellierung, Architektur und Skalierungsverhalten! [1/9]