Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
.@AnkythShukla чітко розрізняє, яку більшість AI-розробників не упускають.
"Оцінка, це може бути що завгодно, правда? Якби ми пояснювали це дуже просто, це міг би бути будь-який тест. Це може бути юніт-тест старою мовою. Можливо, це просто підрахунок слів. Або в найскладнішій формі, як ми показали, це може бути суддя з LLM, що певною мірою відтворює частину тієї людської інтуїції, яку ми закодували в тому запиті, який бачили."
Це переосмислює всю розмову про оцінки ШІ.
Більшість команд чують «оцінки» і уявляють складні LLM як суддя конвеєри. Вони лякаються. Вони пропускають його. Вони відправляються без вимірювання.
Реальність з цього епізоду подкасту @aakashgupta:
> Оцінка може бути такою простою, як функція підрахунку слів або юніт-тест. Планка для початку низька. Вартість пропуску дуже дорога.
> Суддя LLM — це просунута форма — кодування людської інтуїції у завдання, яке оцінює результати ШІ у масштабі.
> Спектр охоплює від детермінованих перевірок коду до суб'єктивної оцінки якості. Обидва варіанти мають значення. Обидва мають значення.
> Це безпосередньо пояснює, чому прототипи зазнають невдачі у масштабі. @AnkythShukla назвав п'ять причин, але дві виділяються:
Дрейф даних: продукт створений для однієї реальності. Користувачі живуть в іншому місці. Без безперервних оцінок ви ніколи не помітите розбіжності.
Вартість: SaaS має майже нульову граничну вартість на одного користувача. Штучний інтелект — ні. Кожен дзвінок коштує грошей. Без оцінок, які вказують, які дзвінки працюють, а які марні, витрати зростають без пропорційної вартості.
Висновок: оцінки ШІ — це не розкіш якості. Це операційна інфраструктура, яка визначає, чи стане ваш прототип продуктом, чи статистикою з 95% відсотком відмов.
Найкращі
Рейтинг
Вибране
