então há este artigo de 2025 que mostra que os modelos de emoção na fala melhoram muito quando você os força a se explicar. não apenas "o falante está bravo" más "o falante está bravo porque ele diz X / eu detectei o som Y / aqui está a evidência" é quase embaraçosamente simples. você pega a transcrição e o rótulo de emoção verdadeiro, solicita a um LLM que gere uma explicação fundamentando o rótulo no que foi realmente dito, e então usa ISSO como o sinal de supervisão. treinar em alvos aumentados por raciocínio em vez de rótulos simples melhorou o reconhecimento de emoções em ~20% (em IEMOCAP e MELD). também testam em dados fora do domínio (TV mandarim, youtube singlish), e o modelo de raciocínio AINDA generaliza melhor do que emotion2vec+ large, R1-AQA e audio-reasoner, mesmo que tenha sido treinado apenas em conversas diádicas em inglês e episódios do programa de TV Friends. um classificador memoriza uma distribuição, mas um modelo de raciocínio aprende como as emoções realmente soam. intuitivo, mas ainda assim meio insano.