1/ Los modelos de visión del mundo real no "ven" una imagen de una vez. La dividen: → se divide en parches → se ejecuta la inferencia → se ensamblan los resultados Así es como funciona el video de alta resolución en producción.