DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

il y a ce papier de 2025 montrant que les modèles d'émotion de la parole s'améliorent beaucoup quand on les force à s'expliquer. pas juste "le locuteur est en colère" mais "le locuteur est en colère parce qu'il dit X / j'ai détecté le son Y / voici la preuve" c'est presque embarrassant de simplicité. vous prenez la transcription et l'étiquette d'émotion de vérité de terrain, vous incitez un LLM à générer une explication ancrant l'étiquette dans ce qui a réellement été dit, puis vous utilisez CELA comme signal de supervision. s'entraîner sur des cibles augmentées par le raisonnement au lieu de simples étiquettes a amélioré la reconnaissance des émotions d'environ 20 % (à travers IEMOCAP et MELD). ils testent également sur des données hors domaine (TV mandarin, youtube singlish), et le modèle de raisonnement généralise TOUJOURS mieux que emotion2vec + large, R1-AQA, et audio-reasoner, même s'il n'a été entraîné que sur des conversations dyadiques en anglais et des épisodes de la série télé Friends. un classificateur mémorise une distribution, mais un modèle de raisonnement apprend à quoi ressemblent réellement les émotions. intuitif mais toujours un peu fou.

Meilleurs

Classement

Favoris