Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Presentiamo un'anteprima della ricerca di Self-Flow: un approccio scalabile per l'addestramento di modelli generativi multi-modali.
La generazione multi-modale richiede un apprendimento end-to-end attraverso le modalità: immagine, video, audio, testo - senza essere limitati da modelli esterni per l'apprendimento della rappresentazione. Self-Flow affronta questo con un abbinamento di flusso auto-supervisionato che scala in modo efficiente attraverso le modalità.
Risultati:
• Fino a 2,8 volte più veloce convergenza tra le modalità.
• Maggiore coerenza temporale nel video
• Rendering del testo e tipografia più nitidi
Questa è una ricerca fondamentale per il nostro percorso verso l'intelligenza visiva multimodale.

Self-Flow migliora la coerenza temporale nella generazione video.
Modello multi-modale da 4 miliardi di parametri addestrato su 6 milioni di video.
Tipografia e rendering del testo più puliti.
Modello multi-modale con parametro 4B addestrato su 200 milioni di immagini.


Generazione video-audio congiunta da un singolo modello (audio attivo)
Modello multi-modale con 4 miliardi di parametri addestrato su 2 milioni di coppie audio-video.
Self-Flow apre un percorso verso modelli mondiali: combinando scalabilità visiva con astrazione semantica per pianificazione e comprensione.
Ecco la previsione delle azioni da un modello da 675 milioni di parametri.
115
Principali
Ranking
Preferiti
