DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

Hetki, jolloin älykkyys kaiverrettiin kiveen Ihmiskunta tekee juuri nyt jotain hullua. Rakennetaan kaupunkien kokoisia datakeskuksia, pystytetään voimalaitoksia niiden viereen, laukaistaan satelliittiverkoja ja jäähdytyshuoneet ovat täynnä supertietokoneita, jotka kuluttavat satoja kilowatteja nestemäisellä jäähdytysjärjestelmällä. Kaikki AI:n pyörittämiseksi. Olen vakuuttunut, että tämä on tulevaisuutta. Mutta historia kertoo toisen tarinan. Jokainen teknologinen vallankumous on alkanut hirviömäisistä prototyypeistä, ja nuo hirviöt katosivat heti, kun käytännöllinen läpimurto tapahtui. Muistatko ENIACin? Tyhjiöputkipeto, joka täytti kokonaisen huoneen. Se näytti ihmiskunnalle laskennan taian, mutta se oli hidasta, kallista eikä koskaan voinut skaalautua. Sitten transistori saapui, ja kaikki muuttui. Työasemat, PC:t, älypuhelimet seurasivat perässä. Maailma päätti ylittää ENIACin sen sijaan, että olisi rakentanut niitä lisää. GPU-datakeskukset, joita rakennamme tänään, ovat tekoälyn ENIAC. Ne toimivat. Ne häikäisevät. Mutta tämä ei ole loppu. Ennen kuin jatkat lukemista, mene alla olevalle sivustolle ja kysy mitä tahansa. Kolmekymmentä sekuntia riittää. Sinun täytyy tuntea tämä kehossasi. LLM on saapunut, ja vastaus on jo olemassa heti kun painat enteriä. Olemme eläneet kuin tekoälyn vastausten viive olisi yksinkertaisesti se, miten asiat ovat. Siksi tämä on järkytys, jota mikään vertailukohta ei voi välittää. Yleiskäyttöinen tietotekniikka muutti maailmaa, koska siitä tuli nopeaa, edullista ja helppoa rakentaa. Tekoäly kulkee samaa polkua. Ongelma on, että nykyinen tekoäly ei ole lähelläkään tuota polkua. Kun kysyt tekoälyltä kysymyksen, se nojaa leukansa käteensä ja miettii hetken. Koodausavustajat tuijottavat tyhjyyteen minuutteja ennen kuin antavat vastauksen, rikkoen rytmiäsi. Vaikka tarvittaisiin sekunnin murto-osan vastauksia, saat vain rennon vastauksen. Tekoälyn kanssa puhuminen on silti kuin kansainvälinen puhelu. Puhu, odota, odota vielä. Tämä viive on muuri ihmisten ja tekoälyn välillä. Kustannusongelma on pahempi. Nykyajan tekoälyn pyörittäminen vaatii valtavasti laitteita ja pääomaa. HBM-pinot, monimutkainen I/O, kaapelit, nestejäähdytys, edistynyt pakkaus, 3D-pino. Miksi kaikki tämä on tarpeellista? Koska paikka, joka muistaa, ja paikka, joka ajattelee, ovat erillään. Ajattele asiaa näin. Aivosi ovat Soulissa, mutta kaikki muistosi ovat varastossa Busanissa. Joka kerta kun sinun täytyy palauttaa jotain, sinun täytyy ottaa KTX Busaniin hakemaan se. Nykyaikaisessa tekoälylaitteistossa on juuri tämä rakenne. Muisti (DRAM) on suuri ja halpa, mutta sijaitsee sirun ulkopuolella, mikä tekee pääsystä tuhansia kertoja hitaampaa kuin sirun sisäinen muisti. Eikä DRAM:ia voi laittaa laskentapiirin sisälle — valmistusprosessit ovat perustavanlaatuisesti erilaisia. Tämä ristiriita luo kaiken tekoälylaitteiston monimutkaisuuden. Vähentääksemme Soul–Busan-edestakaista matkaa, rakennamme HBM:n nopeaksi kiskoksi, rakennamme 3D-pinouksen pilvenpiirtäjiksi ja käytämme nestejäähdytystä massiivisena ilmastointilaitteena. Luonnollisesti sähkönkulutus nousee ja kustannukset nousevat pilviin. Taalas käänsi tämän alusta alkaen. Sen sijaan, että he olisivat hakeneet muistoja Busanista, he istuttivat ne suoraan aivoihin. Ne yhdistivät muistin ja laskennan yhdellä sirulla DRAM-tason tiheydellä. Sitten he menivät askeleen pidemmälle: rakensivat omistetun piin jokaiselle mallille. Ei valmiita – räätälöityä räätälöintiä. Tietotekniikan historian aikana syvä erikoistuminen on aina ollut varmin tie äärimmäiseen tehokkuuteen. Taalas vei tämän periaatteen äärirajoilleen. Miten tämä on mahdollista? Ne kaivertavat mallin opitun tiedon — sen painot — suoraan metallikerroksiin. Älykkyys, kirjaimellisesti kiveen kaiverrettuna. Yksi transistori kantaa painon samalla kun se suorittaa kertolaskua. Se muistaa ja ajattelee samaan aikaan. Perustaja Ljubisa Bajicin sanoin, tämä ei ole "ydinfysiikkaa — se on ovela temppu, jota kukaan ei nähnyt, koska kukaan ei kulkenut tätä polkua." He pitävät sirun rungon ehjänä ja vaihtavat vain kaksi metallikerrosta räätälöidäkseen sen tiettyyn malliin. Eri tatuoinnit samassa kehossa. TSMC:n 6nm prosessissa mallipainoista toimivaan korttiin menee kaksi kuukautta. HC1-siru, johon on kaiverrettu Llama 3.1 8B, käsittelee noin 17 000 tokenia sekunnissa käyttäjää kohden. Nvidian H200 tekee 230, B200 353, Groq 594, SambaNova 932, Cerebras 1 981. Kaikki muut ajavat polkupyörällä. Taalas otti suihkukoneen. Yksi kortti vetää 200 wattia. Kymmenen korttia palvelimella, 2 500 wattia. Tuuletin riittää. Se kytketään suoraan mihin tahansa viimeisen kolmenkymmenen vuoden aikana rakennettuun datakeskukseen. Valmistuskustannus: yksi kahdeskymmenesosa. Teho: kymmenesosa. Ei HBM:ää, ei kehittynyttä pakkausta, ei 3D-pinoamista, ei nestejäähdytystä. Mikään ei tietenkään ole ilmaista. Jos yleiskäyttöinen GPU on kaiutin, joka voi soittaa minkä tahansa kappaleen, Taalas-piiri on soittorasia, joka soittaa yhtä sävelmää virheettömästi. Se ei ole älykäs, ja kun malli muuttuu, tarvitset uuden sirun. Mutta kontekstikokoa voi säätää, ja LoRA:n hienosäätö toimii. Ja mikä tärkeintä, lähestyy kynnystä, jolla mallit riittävät arjen tehtäviin. Jos rajamallit kehittyvät vielä vähän, siirrymme ajanjaksoon, jossa yksi malli palvelee rutiinityöskentelyä melko pitkään. Silloin omistetun soittorasian talous pitää paikkansa. Nvidia osti Groqin 20 miljardilla dollarilla, SoftBank nieli Graphcoren, Intel tarttui SambaNovaan. Tällä hetkellä muodostuu valtava aalto kohti päättelyspesifistä piitä. Taalas seisoo sen radikaaleimmalla reunalla. Ensimmäinen tuote alkaa piikaiverretulla llamalla, keväällä keskikokoinen päättelymalli ja talvella rajamalli. Erittäin nopea tekoäly on pohjimmiltaan erilainen tekoäly. Kun alle millisekunnin viive tulee mahdolliseksi, skenaariot, joita voimme vain kuvitella, muuttuvat todellisiksi. Ei kansainvälinen puhelu — tunne juosta jonkun rinnalla ja puhua täyttä vauhtia. Taalas avattiin beta-versiona, vaikka sen ensimmäinen malli ei vielä ole Frontier. Sen takana on itsevarmuus: tunne itse, mitä tällä nopeudella on mahdollista. ...

Johtavat

Rankkaus

Suosikit