Jag har arbetat på en ny LLM-inferensalgoritm. Den heter Speculative Speculative Decoding (SSD) och är upp till 2 gånger snabbare än världens starkaste inferensmotorer. Samarbete med @tri_dao @avnermay. Detaljer i tråden.