Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Presentamos una vista previa de investigación de Self-Flow: un enfoque escalable para entrenar modelos generativos multimodales.
La generación multimodal requiere un aprendizaje de extremo a extremo entre modalidades: imagen, vídeo, audio, texto, sin estar limitada por modelos externos para el aprendizaje de representaciones. El autoflujo aborda esto mediante la adaptación de flujo auto-supervisada que escala eficientemente entre modalidades.
Resultados:
• Convergencia hasta 2,8 veces más rápida entre modalidades.
• Mayor consistencia temporal en vídeo
• Renderizado de texto más nítido y tipografía
Esta es una investigación fundamental para nuestro camino hacia la inteligencia visual multimodal.

El auto-flujo mejora la consistencia temporal en la generación de vídeo.
Modelo multimodal de 4B parámetros entrenado con vídeos de 6M.
Tipografía y renderizado de texto más limpios.
Modelo multimodal de 4B parámetros entrenado con imágenes de 200M.


Generación conjunta de vídeo-audio a partir de un solo modelo (sonido encendido)
Modelo multimodal de 4B parámetros entrenado con pares audio-vídeo de 2M.
El Self-Flow abre un camino hacia los modelos de mundo: combinar escalabilidad visual con abstracción semántica para la planificación y la comprensión.
Aquí tienes la predicción de acción a partir de un modelo de parámetros 675M.
147
Populares
Ranking
Favoritas
