I open-sourcei Autokernel -- Autopesquisa para kernels de GPU Você dá qualquer modelo de pytorch. Ele perfila o modelo, encontra os kernels do gargalo, escreve substitutos do Triton e executa experimentos durante a noite. editar um arquivo, fazer benchmark, manter ou reverter, repetir para sempre. Mesmo ciclo de @karpathy autopesquisa, aplicado à otimização do kernel 95 experimentos. 18 TFLOPS → 187 TFLOPS. 1,31x vs cuBLAS. todos autônomos 9 tipos de kernel (matmul, flash attention, mlp fundido, layernorm, rmsnorm, softmax, rope, cross entropy, reduce). A lei de Amdahl decide o que otimizar em seguida. Verificações de correção em 5 estágios antes de qualquer aceleração contar O agente lê program.md (o "código da organização de pesquisa"), edita as execuções e ou mantém ou reverte. ~40 experimentos/hora. ~320 durante a noite vem com definições autônomas de GPT-2, LLaMA e BERT, então você não precisa da biblioteca de transformers para começar