A prévia do S2S da OpenAI é polida, mas ainda pensa em etapas. Fala → texto → modelo → texto → fala. Não é assim que os humanos conversam. Apresentando a Hydra. Um modelo nativo de fala para fala que não espera pela turnação, não achata emoções em texto e não quebra quando você a interrompe no meio da frase. A Hydra raciocina de forma assíncrona, fala e ouve simultaneamente, e preserva a emoção porque ela nunca sai do domínio do áudio. Ainda está em beta, mas a mudança é óbvia. Se quiser acesso antecipado, o link está nos comentários. Aqui está uma prévia de como isso é -