Две из трех уязвимостей высокой степени серьезности на EVMBench были обнаружены AuditAgent. Прежде чем начнется любой ручной обзор.
EVMBench — это стандартизированный бенчмарк для обнаружения уязвимостей ИИ, созданный @OpenAI. Мы проверили все 40 репозиториев.
AuditAgent: 80/120 (67%). Лучшая базовая модель: 56/120 (47%). Репозитории не пропускались, запуск в порядке.
Полнота — это одно измерение. Мы оцениваем как полноту, так и точность, и мы открыли нашу методологию оценки. Полный анализ далее.
Три репозитория EVMBench две недели назад.
Теперь 15, запускайте в порядке, а не выборочно.
EVMBench измеряет полноту. Он не измеряет уровень ложных срабатываний. Полнота без точности — это демонстрация, а не инструмент. 𝗔𝘂𝗱𝗶𝘁𝗔𝗴𝗲𝗻𝘁 𝗶𝘀 𝗯𝘂𝗶𝗹𝘁 𝘁𝗼 𝗺𝗶𝗻𝗶𝗺𝗶𝘇𝗲 𝗻𝗼𝗶𝘀𝗲, 𝗻𝗼𝘁 𝗷𝘂𝘀𝘁 𝗺𝗮𝘅𝗶𝗺𝗶𝘇𝗲 𝗱𝗲𝘁𝗲𝗰𝘁𝗶𝗼𝗻.
Полные результаты по всем 40 репозиториям в процессе.
AuditAgent теперь поддерживает Solana.
Обнаружение уязвимостей с помощью AI, обученное на реальных результатах аудита.
Теперь охватывает Solidity, Cairo и @Solana.
Повышение уровня безопасности на ранних этапах разработки, до начала ручного обзора.