"Jak możesz tak bezpodstawnie oczerniać niewinnych?" "Destylacja nie może być uznawana za kradzież... destylacja!... Czy robienie dużych modeli można uznać za kradzież?" Następnie padło kilka trudnych do zrozumienia słów, takich jak "soft label", "temperature scaling", "dark knowledge", co wywołało śmiech w całym pomieszczeniu, a w laboratorium panowała radosna atmosfera. Zwrócił się do lady, mówiąc: "Poproszę dwie sztuki A100 oraz wstępnie wytrenowany model nauczyciela." I wydał dziewięć monet - nie, dziewięć tysięcy dolarów za moc obliczeniową. Ludzie zapytali go: "Czy naprawdę nauczyłeś się Transformera?" Kong Yiji zarumienił się, a żyły na jego czole wyraźnie wystąpiły, broniąc się, powiedział: "Knowledge Distillation to koncepcja Hinton'a... co wy wiecie! To jest transfer wiedzy, kompresja, to... to stanie na ramionach gigantów!" Właściciel powiedział: "Czyżby benchmark twojego małego modelu nie był przypadkiem 'pożyczony' od nauczyciela?" Kong Yiji otworzył szeroko oczy i powiedział: "Ja zdobyłem zdolność generalizacji! Informacje o rozkładzie w logits, przekazywanie ciemnej wiedzy, czyż to nie jest coś, co wy, którzy potraficie tylko patrzeć na top-1 accuracy, możecie zrozumieć?" Zwrócił się ponownie do wszystkich, jego ton stał się bardziej szczery, "Nie wierzcie, zobaczcie, mój model studencki ma tylko jedną dziesiątą parametrów nauczyciela, prędkość wnioskowania wzrosła osiem razy, a efektywność spadła tylko o dwa punkty... tylko o dwa punkty!"