Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

então há este artigo de 2025 que mostra que os modelos de emoção na fala melhoram muito quando você os força a se explicar. não apenas "o falante está bravo" más "o falante está bravo porque ele diz X / eu detectei o som Y / aqui está a evidência" é quase embaraçosamente simples. você pega a transcrição e o rótulo de emoção verdadeiro, solicita a um LLM que gere uma explicação fundamentando o rótulo no que foi realmente dito, e então usa ISSO como o sinal de supervisão. treinar em alvos aumentados por raciocínio em vez de rótulos simples melhorou o reconhecimento de emoções em ~20% (em IEMOCAP e MELD). também testam em dados fora do domínio (TV mandarim, youtube singlish), e o modelo de raciocínio AINDA generaliza melhor do que emotion2vec+ large, R1-AQA e audio-reasoner, mesmo que tenha sido treinado apenas em conversas diádicas em inglês e episódios do programa de TV Friends. um classificador memoriza uma distribuição, mas um modelo de raciocínio aprende como as emoções realmente soam. intuitivo, mas ainda assim meio insano.

Top

Classificação

Favoritos