Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Просте додавання гаусового шуму до LLM (один крок — без ітерацій, без швидкості навчання, без градієнтів) і їх поєднання може досягти продуктивності, порівнянної або навіть кращої за стандартну GRPO/PPO у завданнях з математичного мислення, кодування, письма та хімії. Ми називаємо цей алгоритм RandOpt. Щоб переконатися, що це не обмежується конкретними моделями, ми протестували це на Qwen, Llama, OLMo3 та VLM. Що стоїть за цим? Ми виявляємо, що в гаусівському пошуковому околі навколо попередньо навчених LLM різноманітні експерти з завдань розташовані щільно — режим, який ми називаємо нейронними заростами. Стаття: Код: Вебсайт:

Найкращі

Рейтинг

Вибране