Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

.@AnkythShukla чітко розрізняє, яку більшість AI-розробників не упускають. "Оцінка, це може бути що завгодно, правда? Якби ми пояснювали це дуже просто, це міг би бути будь-який тест. Це може бути юніт-тест старою мовою. Можливо, це просто підрахунок слів. Або в найскладнішій формі, як ми показали, це може бути суддя з LLM, що певною мірою відтворює частину тієї людської інтуїції, яку ми закодували в тому запиті, який бачили." Це переосмислює всю розмову про оцінки ШІ. Більшість команд чують «оцінки» і уявляють складні LLM як суддя конвеєри. Вони лякаються. Вони пропускають його. Вони відправляються без вимірювання. Реальність з цього епізоду подкасту @aakashgupta: > Оцінка може бути такою простою, як функція підрахунку слів або юніт-тест. Планка для початку низька. Вартість пропуску дуже дорога. > Суддя LLM — це просунута форма — кодування людської інтуїції у завдання, яке оцінює результати ШІ у масштабі. > Спектр охоплює від детермінованих перевірок коду до суб'єктивної оцінки якості. Обидва варіанти мають значення. Обидва мають значення. > Це безпосередньо пояснює, чому прототипи зазнають невдачі у масштабі. @AnkythShukla назвав п'ять причин, але дві виділяються: Дрейф даних: продукт створений для однієї реальності. Користувачі живуть в іншому місці. Без безперервних оцінок ви ніколи не помітите розбіжності. Вартість: SaaS має майже нульову граничну вартість на одного користувача. Штучний інтелект — ні. Кожен дзвінок коштує грошей. Без оцінок, які вказують, які дзвінки працюють, а які марні, витрати зростають без пропорційної вартості. Висновок: оцінки ШІ — це не розкіш якості. Це операційна інфраструктура, яка визначає, чи стане ваш прототип продуктом, чи статистикою з 95% відсотком відмов.

Найкращі

Рейтинг

Вибране