Então, há um artigo de 2025 mostrando que modelos de emoção da fala melhoram muito quando você os obriga a se explicar. não apenas "o presidente está com raiva" mas "o falante está bravo porque diz X / eu detectei o som Y / aqui está a evidência" É quase embaraçosamente simples. Você pega o rótulo de transcrição e verdade de emoção fundamentada, solicita um LLM para gerar uma explicação que fundamente o rótulo no que foi realmente dito, e então usa ISSO como sinal de supervisão. o treinamento em alvos com raciocínio aumentado em vez de rótulos simples melhorou o reconhecimento emocional em ~20% (entre IEMOCAP e MELD). eles também testam em dados fora do domínio (mandarim TV, YouTube Single), e o modelo de raciocínio AINDA generaliza melhor do que emotion2vec+ large, R1-AQA e audio-reasoner, mesmo tendo sido treinado apenas em conversas diádicas em inglês e episódios da série Friends. Um classificador memoriza uma distribuição, mas um modelo de raciocínio aprende como as emoções realmente soam. Intuitivo, mas ainda assim meio selvagem.