LTX-2.3 es una actualización importante. Es un motor multimodal listo para producción, diseñado para ser construido sobre él. Esto es lo nuevo 🧵 1/7
Envío hoy: → Código completo, pesos de modelos y código de entrenamiento → acceso a la API para integración en producción → LTX Studio para generación web Hazlo localmente. Ajúntalo. Intégralo directamente en tus flujos de trabajo. 2/7
La mayor mejora es la fidelidad visual y la estabilidad del movimiento. Un nuevo VAE de vídeo y un espacio latente refinado ofrecen detalles más nítidos y un movimiento más estable. La imagen a vídeo se mantiene mejor, las texturas pequeñas sobreviven a la compresión y la interpolación en el último fotograma hace que los finales parezcan intencionados. También aplicamos un filtrado de datos más agresivo y un procesamiento mejorado de datos, lo que mejora directamente el detalle visual fino y reduce artefactos. 3/7
La comprensión rápida también dio un paso adelante real. Un conector de texto más grande mejora cómo el modelo interpreta el movimiento de la cámara, la composición de la escena y las acciones de los personajes. Ya no necesitas sobre-ingeniería de los prompts para obtener resultados predecibles. En el fondo, la normalización adaptativa y la atención bloqueada estrechan el control sin aumentar la complejidad. 4/7
Los fotogramas clave y el control estructurado están ahora más profundamente integrados. LTX-2.3 se entrena con objetivos multitarea desde la etapa de preentrenamiento, incluyendo imagen a vídeo, retoma, fotogramas clave y más. Esto hace que las transiciones, la evolución controlada de la escena y los flujos de trabajo de múltiples planos sean más consistentes y fiables. 5/7
La calidad del audio también mejoró en general. Un nuevo vocoder aumenta la claridad del diálogo y el realismo sonoro. La alineación cruzada entre audio y vídeo es más estricta. Un filtrado más fuerte y un procesamiento de datos mejorado reducen los ruidos de salida y mejoran la fidelidad general del audio. 6/7
132