в 2025 году была опубликована работа, показывающая, что модели эмоций в речи становятся гораздо лучше, когда вы заставляете их объяснять себя. не просто "говорящий зол" а "говорящий зол, потому что он говорит X / я обнаружил звук Y / вот доказательства" это почти смущающе просто. вы берете транскрипт и метку истинной эмоции, подаете LLM задачу сгенерировать объяснение, связывающее метку с тем, что на самом деле было сказано, а затем используете ЭТО в качестве сигнала для обучения. обучение на целевых значениях, дополненных рассуждениями, вместо простых меток улучшило распознавание эмоций примерно на 20% (по данным IEMOCAP и MELD). они также тестируют на данных вне домена (мандаринское ТВ, сингапурский YouTube), и модель рассуждений ПО-прежнему обобщает лучше, чем emotion2vec + large, R1-AQA и audio-reasoner, хотя она была обучена только на английских диалогах и эпизодах сериала Друзья. классификатор запоминает распределение, но модель рассуждений учится, как на самом деле звучат эмоции. интуитивно, но все равно немного дико.