Saya telah mengerjakan algoritma inferensi LLM baru. Ini disebut Speculative Speculative Decoding (SSD) dan hingga 2x lebih cepat daripada mesin inferensi terkuat di dunia. Kolaborasi dengan @tri_dao @avnermay. Detail dalam utas.