DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

AMI Labs acaba de recaudar 1.03 mil millones de dólares. World Labs recaudó 1 mil millones de dólares unas semanas antes. Ambos están apostando por modelos del mundo. Pero casi nadie significa lo mismo con ese término. Aquí están, en mi opinión, cinco categorías de modelos del mundo. --- 1. Arquitectura Predictiva de Embedding Conjunto (JEPA) Representantes: AMI Labs (@ylecun), V-JEPA 2 La apuesta central aquí es que la reconstrucción de píxeles por sí sola es un objetivo ineficiente para aprender las abstracciones necesarias para la comprensión física. LeCun ha estado diciendo esto durante años: predecir cada píxel del futuro es intratable en cualquier entorno estocástico. JEPA elude esto al predecir en un espacio latente aprendido en su lugar. Concretamente, JEPA entrena un codificador que mapea parches de video a representaciones, luego un predictor que pronostica regiones enmascaradas en ese espacio de representación — no en el espacio de píxeles. Esta es una elección de diseño crucial. Un modelo generativo que reconstruye píxeles se ve obligado a comprometerse con detalles de bajo nivel (textura exacta, iluminación, posición de las hojas) que son inherentemente impredecibles. Al operar en embeddings abstractos, JEPA puede capturar "la pelota caerá de la mesa" sin tener que alucinar cada fotograma de su caída. V-JEPA 2 es el punto de prueba a gran escala más claro hasta ahora. Es un modelo de 1.2 mil millones de parámetros preentrenado en más de 1 millón de horas de video a través de predicción enmascarada auto-supervisada — sin etiquetas, sin texto. La segunda etapa de entrenamiento es donde se vuelve interesante: solo 62 horas de datos de robots del conjunto de datos DROID son suficientes para producir un modelo del mundo condicionado a acciones que soporta planificación sin ejemplos. El robot genera secuencias de acciones candidatas, las avanza a través del modelo del mundo y elige la que mejor coincide con una imagen objetivo. Esto funciona con objetos y entornos nunca vistos durante el entrenamiento. La eficiencia de los datos es el verdadero titular técnico. 62 horas son casi nada. Sugiere que el preentrenamiento auto-supervisado en video diverso puede iniciar suficiente conocimiento previo físico para que se necesiten muy pocos datos específicos del dominio a continuación. Ese es un fuerte argumento a favor del diseño de JEPA: si tus representaciones son lo suficientemente buenas, no necesitas forzar cada tarea desde cero. AMI Labs es el esfuerzo de LeCun para llevar esto más allá de la investigación. Están apuntando primero a la atención médica y la robótica, lo cual tiene sentido dado la fortaleza de JEPA en el razonamiento físico con datos limitados. Pero esta es una apuesta a largo plazo: su CEO ha dicho abiertamente que los productos comerciales podrían estar a años de distancia. --- 2. Inteligencia Espacial (Modelos del Mundo 3D) Representante: World Labs (@drfeifei) ...

Parte superior

Clasificación

Favoritos