więc jest ten artykuł z 2025 roku, który pokazuje, że modele emocji w mowie działają znacznie lepiej, gdy zmusisz je do wyjaśnienia siebie. nie tylko "mówca jest zły" ale "mówca jest zły, ponieważ mówi X / wykryłem dźwięk Y / oto dowód" to prawie żenująco proste. bierzesz transkrypt i etykietę emocji jako prawdę, prosisz LLM o wygenerowanie wyjaśnienia, które uzasadnia etykietę w tym, co faktycznie zostało powiedziane, a następnie używasz TEGO jako sygnału nadzorczego. trenowanie na celach wzbogaconych o rozumowanie zamiast na samych etykietach poprawiło rozpoznawanie emocji o ~20% (w IEMOCAP i MELD). testują również na danych spoza domeny (mandaryński TV, singlish youtube), a model rozumowania wciąż generalizuje lepiej niż emotion2vec + large, R1-AQA i audio-reasoner, mimo że był trenowany tylko na angielskich rozmowach dyadycznych i odcinkach serialu Przyjaciele. klasyfikator zapamiętuje rozkład, ale model rozumowania uczy się, jak naprawdę brzmią emocje. intuicyjne, ale wciąż trochę dzikie.