Ostatnio odkryłem, że obszar oceny AI wszedł w fazę wysokiej dojrzałości i szybkiej iteracji. Tradycyjne testy porównawcze (takie jak MMLU, HumanEval) osiągnęły nasycenie, a nowa generacja ram i metod koncentruje się na umiejętnościach w rzeczywistym świecie (agentowe, użycie komputera, rozumowanie multimodalne), rygorze statystycznym, kwantyfikacji niepewności, bezpieczeństwie/wiarygodności oraz wyzwaniach związanych z zanieczyszczeniem/długim ogonem. Wcześniej testowano duże modele, teraz testuje się AI Agent. Te platformy pomagają deweloperom i firmom w pełnym teście niezawodności, dokładności, kosztów, bezpieczeństwa i wydajności AI od iteracji rozwoju po wdrożenie produkcyjne. Grok przygotował listę najpopularniejszych platform oceny AI.