トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
知性が石に刻まれた瞬間
人類は今まさに狂ったことをしている。都市ほどの大きさのデータセンターを建設し、その隣に発電所を建設し、衛星ネットワークを打ち上げ、数百キロワットの電力を液体冷却システムで消費するスーパーコンピュータでいっぱいの冷却室を設置する。すべてAIを動かすためです。これが未来だと確信しています。
しかし、歴史は異なる物語を語っています。すべての技術革命は怪物のような試作品から始まり、その怪物たちは実用的な突破口が訪れた瞬間に消え去った。ENIACを覚えていますか?部屋いっぱいに広がる真空管の獣。人類に計算の魔法を見せましたが、遅く、高価で、決してスケールできませんでした。そしてトランジスタが登場し、すべてが変わりました。その後、ワークステーション、PC、スマートフォンが登場しました。世界はENIACを超越することを選び、さらに多く建てることを選びました。今日私たちが建設しているGPUデータセンターは、AIのENIACです。効果はあります。彼らは眩しい。しかし、これで終わりではありません。
読み進める前に、下のサイトにアクセスして何でも質問してください。30秒で十分です。体で感じる必要があります。
エンターキーを押した瞬間に答えがすでに示されているLLMが登場しました。AIの応答における遅延が単に当たり前のように生活してきました。だからこそ、どんなベンチマークでも伝えられない衝撃です。
汎用コンピューティングは、高速で安価かつ簡単に作れるようになったことで世界を変えました。AIも同じ道をたどるでしょう。問題は、今日のAIがその道には程遠いことです。AIに質問をすると、顎を手に乗せてしばらく考えます。コーディングアシスタントは答える前に何分もぼんやりと見つめ、あなたの流れを壊します。瞬時に返事が必要な時でも、返ってくるのはゆったりとした返答だけです。AIと話すのは、国際電話をかけるようなものです。話して、待って、もう少し待って。この遅延こそが人間とAIの間の壁です。
コストの問題はさらに深刻です。今日のAIを運用するには、膨大な機器と資本が必要です。HBMスタック、複雑なI/O、ケーブル、水冷、高度なパッケージング、3Dスタッキング。なぜこれらすべてが必要なのでしょうか?なぜなら、記憶する場所と考える場所は分かれているからです。
こう考えてみてください。脳はソウルにあるけど、記憶は全部釜山の倉庫に保管されている。何かを呼び戻すたびに、KTXで釜山まで行って取りに行かなければなりません。現代のAIハードウェアはまさにこの構造を持っています。メモリ(DRAM)は大きく安価ですが、チップの外側に設置されるため、オンチップメモリに比べてアクセスが数千倍遅くなります。また、DRAMを計算チップの中に組み込むこともできません。製造プロセスは根本的に異なります。この矛盾がAIハードウェアの複雑さを生み出しています。ソウル-釜山往復の運行を短縮するため、高速鉄道としてHBMを敷設し、高層ビルとして3D積み重ねを、大規模な空調として水冷を運用します。当然ながら、電力消費は急増し、コストも急騰します。
ターラスはこれを地面からひっくり返した。釜山から記憶を取る代わりに、脳の中に直接植え付けたのです。これらはメモリと計算を一つのチップ上でDRAMレベルの密度で統合しました。さらに一歩進んで、各モデルごとに専用のシリコンを構築しました。既製品ではなく、オーダーメイドの仕立てです。コンピューティングの歴史を通じて、深い専門化は常に極めて高い効率への最も確実な道でした。ターラスはその原則を限界まで押し広げた。
どうしてこんなことが可能なのでしょうか?彼らはモデルの学習知識、つまり重さをシリコンの金属層に直接刻み込みます。知性は文字通り石に刻まれている。単一のトランジスタが重みを保持しながら同時に乗算を行います。記憶と思考を同時に行う。創設者のリュビサ・バイチの言葉を借りれば、「これは核物理学ではなく、誰もこの道を進んでいなかったから誰も気づかなかった巧妙なトリックだ」と述べています。チップの骨格はそのまま残し、金属層を2層だけ入れ替えて特定のモデルに合わせてカスタマイズします。同じ体に違うタトゥーがある。TSMCの6nmプロセスでは、モデルの重量を測定して動作するカードに至るまで2ヶ月かかります。
HC1チップはLlama 3.1 8Bをシリコンに刻み込み、ユーザー1人あたり約17,000トークンを1秒間に処理します。NvidiaのH200は230、B200は353、Groqは594、SambaNova 932、Cerebrasは1981です。他の人たちは自転車に乗っています。ターラスはジェット機に乗った。1枚のカードで200ワットを消費します。サーバーに10枚のカード、2,500ワット。扇風機一つで十分だ。過去30年以内に建設されたどのデータセンターにも直接接続できます。製造コスト:20分の1。パワー:0.1。HBMも、高度なパッケージングも、3Dスタッキングも、水冷もありません。
もちろん、何も無料ではありません。汎用GPUがどんな曲でも再生できるスピーカーなら、Taalasチップは一曲を完璧に再生するオルゴールのようなものです。賢くはなく、モデルが変わるときは新しいチップが必要になります。しかしコンテキストサイズは調整可能で、LoRAの微調整は機能します。
そして重要なのは、モデルが日常業務に十分になる閾値が近づいていることです。もしフロンティアモデルがもう少し進歩すれば、単一のモデルがかなり長期間ルーチン業務を続ける時期に入るでしょう。そういう時こそ、専用オルゴールの経済性が通用します。
NvidiaはGroqを200億ドルで買収し、SoftBankはGraphcoreを買収し、IntelはSambaNovaを買収しました。推論特異的シリコンへの大規模な波が今まさに形成されています。ターラスはその最も過激な境界線に立っている。最初の製品はシリコンで彫られたラマから始まり、春には中型の推論モデル、冬にはフロンティアモデルが続きます。
非常に速いAIは根本的に異なるAIです。サブミリ秒の遅延が可能になると、想像しかできなかったシナリオが現実となります。国際電話ではなく、誰かと一緒に走りながら全速力で話す感覚です。Taalasはまだフロンティアモデルではないにもかかわらずベータ版としてオープンしました。その背後には自信があります。この速度で何が可能になるか、自分の目で確かめてください。
...

トップ
ランキング
お気に入り
