Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
İstihbarat Taşa Kazındığı An
İnsanlık şu anda çılgınca bir şey yapıyor. Şehir büyüklüğünde veri merkezleri inşa etmek, yanlarına enerji santralleri kurmak, uydu ağları fırlatmak ve sıvı soğutma sistemleriyle yüzlerce kilovatı tüketen süper bilgisayarlarla dolu soğutma odaları inşa etmek. Hepsi yapay zeka çalıştırmak için. Bunun geleceğin olduğuna inanıyorum.
Ama tarih farklı bir hikaye anlatıyor. Her teknolojik devrim, korkunç prototiplerle başladı ve o canavarlar pratik bir atılım geldiği anda ortadan kayboldu. ENIAC'i hatırlıyor musunuz? Bütün odayı dolduran bir vakum tüplü canavarı. İnsanlığa bilgisayarın büyüsünü gösterdi ama yavaştı, pahalıydı ve asla ölçeklenemezdi. Sonra transistör geldi ve her şey değişti. Ardından iş istasyonları, bilgisayarlar, akıllı telefonlar geldi. Dünya, daha fazlasını inşa etmek yerine ENIAC'i aşmayı seçti. Bugün inşa ettiğimiz GPU veri merkezleri yapay zekanın ENIAC'leri. İşe yarıyorlar. Göz kamaştırıyorlar. Ama bu son değil.
Okumaya devam etmeden önce aşağıdaki siteye gidip herhangi bir soruyu sor. Otuz saniye yeterli. Bunu vücudunuzda hissetmeniz gerekiyor.
Bir LLM geldi ve cevap enter tuşuna bastığınız anda zaten oradadır. Yapay zeka yanıtlarındaki gecikmenin sadece böyle olduğu gibi yaşıyoruz. Bu yüzden bu, hiçbir kıyaslamanın aktaramayacağı bir şok.
Genel amaçlı hesaplama dünyayı değiştirdi çünkü hızlı, ucuz ve inşa edilmesi kolay hale geldi. Yapay zeka da aynı yolu izleyecek. Sorun şu ki, günümüzün yapay zekası bu yola hiç yaklaşmıyor. Yapay zekaya bir soru sorduğunuzda, çenesini eline yaslıyor ve bir süre düşünüyor. Kodlama asistanları dakikalarca boş boş bakıyor ve sonra cevap veriyor, bu da akışınızı bozuyor. Anlık yanıtlar gerekse bile, aldığınız tek şey rahat bir yanıt. Yapay zeka ile konuşmak hâlâ uluslararası bir arama yapmak gibi. Konuş, bekle, biraz daha bekle. Bu gecikme, insanlar ile yapay zeka arasındaki duvardır.
Maliyet sorunu daha kötü. Bugünün yapay zekasını çalıştırmak büyük ekipman ve sermaye gerektirir. HBM yığınları, karmaşık I/O, kablolar, sıvı soğutma, gelişmiş paketleme, 3D yığma. Bütün bunlar neden gerekli? Çünkü hatırlayan yer ile düşünen yer ayrılmış.
Bunu şöyle düşün. Beyniniz Seul'de, ama tüm anılarınız Busan'daki bir depoda saklanıyor. Her bir şeyi geri çağırmanız gerektiğinde, KTX'i Busan'a götürüp geri almanız gerekiyor. Modern yapay zeka donanımı tam da bu yapıya sahiptir. Bellek (DRAM) büyük ve ucuzdur ancak çipin dışında yer alır, bu da erişimi çip içi belleğe göre binlerce kat daha yavaş yapar. Ve hesaplama çipine DRAM koyamazsınız — üretim süreçleri temelde farklıdır. Bu çelişki, yapay zeka donanımındaki tüm karmaşıklığı yaratıyor. Seul-Busan gidiş-dönüş yolculuğunu azaltmak için HBM'yi yüksek hızlı bir ray olarak döşüyoruz, yüksek binalar olarak 3D stacking inşa ediyoruz ve büyük klima olarak sıvı soğutma kullanıyoruz. Doğal olarak, güç tüketimi hızla artıyor ve maliyetler tavan gibi yükseliyor.
Taalas bunu baştan aşağı çevirdi. Busan'dan anı almak yerine, onları doğrudan beynin içine yerleştirdiler. Bellek ve hesaplamayı tek bir çip üzerinde DRAM seviyesinde yoğunlukta birleştirdiler. Sonra bir adım daha ileri gittiler: her model için özel silikon inşa ettiler. Hazır değil — özel terzilik. Bilgisayar tarihi boyunca, derin uzmanlaşma her zaman aşırı verimliliğe giden en kesin yol olmuştur. Taalas bu ilkeyi mutlak sınırına kadar zorladı.
Bu nasıl mümkün olabilir? Modelin öğrendiği bilgiyi — ağırlıklarını — doğrudan silikon metal katmanlarına kazılıyorlar. Zeka, kelimenin tam anlamıyla taşa kazınmış. Tek bir transistör bir ağırlık tutarken aynı anda çarpma işlemi gerçekleştirir. Aynı anda hem hatırlıyor hem de düşünür. Kurucu Ljubisa Bajic'in sözleriyle, bu "nükleer fizik değil — kimsenin görmediği ve kimsenin bu yoldan gitmediği zekice bir numara." Çipin iskeletini sağlam tutuyorlar ve sadece iki metal katmanı değiştirerek belirli bir modele göre özelleştiriyorlar. Aynı vücutta farklı dövmeler. TSMC'nin 6nm sürecinde, model ağırlıklarından çalışan bir karta kadar iki ay sürer.
HC1 çipi, silikonuna Llama 3.1 8B işlemiş, kullanıcı başına saniyede yaklaşık 17.000 token işliyor. Nvidia'nın H200'ü 230, B200 353, Groq 594, SambaNova 932, Cerebras 1.981 yapıyor. Diğer herkes bisiklet sürüyor. Taalas bir jetle bindi. Bir kart 200 watt çeker. Bir sunucuda on kart, 2.500 watt. Bir yelpaze yeterlidir. Son otuz yılda inşa edilen herhangi bir veri merkezine doğrudan bağlanıyor. Üretim maliyeti: yirmi bir. Güç: onda biri. Ne HBM, ne gelişmiş ambalaj, ne 3D üst üste koyma, ne de sıvı soğutma.
Tabii ki hiçbir şey bedava değildir. Eğer genel amaçlı bir GPU herhangi bir şarkıyı çalabilen bir hoparlörse, Taalas çipi bir melodiyi kusursuzca çalan bir müzik kutusudur. Bu akıllıca değil ve model değiştiğinde yeni bir çip gerekiyor. Ama bağlam boyutu ayarlanabilir ve LoRA ince ayarı işe yarar.
Ve en önemlisi, modellerin günlük işler için yeterli hale gelme eşiği yaklaşıyor. Sınır modelleri biraz daha ilerlerse, tek bir modelin uzun süre rutin bir iş olarak hizmet ettiği bir döneme gireriz. İşte o zaman özel bir müzik kutusunun ekonomisi geçerli.
Nvidia, Groq'u 20 milyar dolara satın aldı, SoftBank Graphcore'u yuttu, Intel SambaNova'ya yöneldi. Şu anda çıkarıma özgü silikon yönünde büyük bir dalga oluşuyor. Taalas en radikal sınırında durur. İlk ürün, silikonla oyma Llama ile başlar, ilkbaharda orta boy akıl yürütme modeli ve kışın ise sınır modeli gelir.
Çok hızlı bir yapay zeka, temelde farklı bir yapay zekadır. Milisaniyenin altı gecikme mümkün olduğunda, sadece hayal edebileceğimiz senaryolar gerçek hale gelir. Uluslararası bir çağrı değil — birinin yanında koşup tam gaz konuşma hissi. Taalas, ilk modeli henüz sınır seviyesinde olmasa da beta olarak açıldı. Bunun arkasında bir özgüven var: Bu hızda nelerin mümkün olduğunu kendiniz hissedin.
...

En İyiler
Sıralama
Takip Listesi
