Takviyeli Öğrenme (RL), uzun süredir ince ayar için baskın yöntem olmuştur ve birçok son teknoloji ürünü LLM'ye güç vermektedir. PPO ve GRPO gibi yöntemler eylem alanında keşfeder. Ancak bunun yerine doğrudan parametre uzayında keşfedebilir miyiz? Evet yapabiliriz. Evolution Strategies (ES) kullanarak tam parametreli ince ayar için ölçeklenebilir bir çerçeve öneriyoruz. ES, gradyanları atlayarak ve doğrudan parametre uzayında optimizasyon yaparak daha doğru, verimli ve kararlı ince ayar elde eder. Kâğıt: Kod: