LTX-2.3 to duża aktualizacja. To gotowy do produkcji silnik multimodalny - zaprojektowany do rozbudowy. Oto co nowego 🧵 1/7
Wysyłka dzisiaj: → Pełny kod, wagi modelu i kod treningowy → Dostęp do API do integracji produkcyjnej → LTX Studio do generacji w przeglądarce Uruchom to lokalnie. Dostosuj to. Zintegruj to bezpośrednio w swoje procesy robocze. 2/7
Największą aktualizacją jest wierność wizualna i stabilność ruchu. Nowy wideo VAE i udoskonalona przestrzeń latentna dostarczają ostrzejsze szczegóły i bardziej stabilny ruch. Obraz do wideo lepiej się trzyma, małe tekstury przetrwają kompresję, a interpolacja ostatniej klatki sprawia, że zakończenia wydają się zamierzone. Zastosowaliśmy również bardziej agresywne filtrowanie danych i poprawiliśmy przetwarzanie danych, co bezpośrednio poprawia szczegóły wizualne i redukuje artefakty. 3/7
Zrozumienie podpowiedzi również poczyniło prawdziwy postęp. Większy łącznik tekstowy poprawia sposób, w jaki model interpretuje ruch kamery, kompozycję sceny i działania postaci. Nie musisz już nadmiernie projektować podpowiedzi, aby uzyskać przewidywalne wyniki. Pod maską, adaptacyjna normalizacja i bramkowana uwaga zaostrzają kontrolę bez zwiększania złożoności. 4/7
Kluczowe klatki i zorganizowana kontrola są teraz głębiej zintegrowane. LTX-2.3 jest trenowane z wieloma celami od etapu wstępnego, w tym obraz-do-wideo, powtórki, kluczowe klatki i inne. To sprawia, że przejścia, kontrolowana ewolucja sceny i wielostrzałowe przepływy pracy są bardziej spójne i niezawodne. 5/7
Jakość dźwięku również poprawiła się we wszystkich aspektach. Nowy wokoder zwiększa klarowność dialogu i realizm dźwięku. Współpraca między dźwiękiem a obrazem jest bardziej precyzyjna. Silniejsze filtrowanie i ulepszona obróbka danych redukują hałaśliwe wyjścia i poprawiają ogólną wierność dźwięku. 6/7
136