"Como é que você pode manchar a reputação de alguém assim, sem provas?" "Destilar não pode ser considerado roubo... destilar!... Fazer coisas com grandes modelos, isso pode ser considerado roubo?" Seguiram-se algumas falas difíceis de entender, como "soft label", "temperature scaling", "dark knowledge", que fizeram todos na sala rirem, e o laboratório estava cheio de um ar alegre. Ele disse ao balcão, "Traga-me duas A100, e adicione um modelo teacher pré-treinado." e pagou uma conta de computação de nove mil dólares. As pessoas perguntaram a ele, "Você realmente aprendeu a usar o Transformer?" Kong Yiji ficou com o rosto vermelho, as veias na testa saltando, e argumentou, "Knowledge Distillation foi proposto pelo Hinton... o que vocês entendem! Isso é transferência de conhecimento, é compressão, é... é estar sobre os ombros de gigantes!" O proprietário disse, "O benchmark do seu pequeno modelo, não é de fato 'emprestado' do teacher?" Kong Yiji arregalou os olhos e disse, "Eu aprendi a capacidade de generalização! A informação de distribuição nos logits, a transmissão do conhecimento oculto, não é algo que vocês, que só sabem olhar a precisão top-1, conseguem entender?" Ele então se virou para todos, com um tom mais sincero, "Se não acreditam, vejam, meu modelo student tem apenas um décimo dos parâmetros do teacher, a velocidade de inferência aumentou oito vezes, e a eficácia caiu apenas dois pontos... apenas dois pontos!"