O momento em que a inteligência foi gravada em pedra A humanidade está fazendo algo insano agora. Construindo data centers do tamanho de cidades, erguendo usinas ao lado, lançando redes de satélite e resfriando salas cheias de supercomputadores que consomem centenas de quilowatts com sistemas de resfriamento líquido. Tudo para rodar IA. Convencido de que esse é o futuro. Mas a história conta outra história. Toda revolução tecnológica começou com protótipos monstruosos, e esses monstros desapareceram no momento em que uma descoberta prática aconteceu. Lembra do ENIAC? Uma besta de tubo de vácuo que preenchia uma sala inteira. Mostrou à humanidade a magia da computação, mas era lento, caro e nunca poderia escalar. Então chegou o transistor, e tudo mudou. Estações de trabalho, PCs e smartphones vieram em seguida. O mundo escolheu transcender o ENIAC em vez de construir mais deles. Os data centers de GPU que estamos construindo hoje são o ENIAC da IA. Eles funcionam. Eles deslumbram. Mas isso não é o fim. Antes de continuar lendo, acesse o site abaixo e pergunte qualquer coisa. Trinta segundos é tudo o que leva. Você precisa sentir isso no seu corpo. Um LLM chegou onde a resposta já está lá no instante em que você aperta enter. Temos vivido como se a latência nas respostas da IA fosse simplesmente o jeito que as coisas são. Por isso, esse é um choque que nenhum benchmark consegue transmitir. A computação de uso geral mudou o mundo porque se tornou rápida, barata e fácil de construir. A IA seguirá o mesmo caminho. O problema é que a IA de hoje está longe desse caminho. Quando você faz uma pergunta à IA, ela apoia o queixo na mão e pensa por um tempo. Assistentes de programação ficam olhando em branco por minutos antes de dar uma resposta, quebrando seu fluxo. Mesmo quando são necessárias respostas rápidas, tudo o que você recebe é uma resposta tranquila. Conversar com IA ainda é como fazer uma ligação internacional. Fale, espere, espere mais um pouco. Essa latência é a barreira entre humanos e IA. O problema do custo é pior. Executar a IA de hoje exige equipamentos e capital enormes. Pilhas HBM, I/O complexo, cabos, resfriamento líquido, embalagem avançada, empilhamento 3D. Por que tudo isso é necessário? Porque o lugar que lembra e o lugar que pensa estão separados. Pense assim. Seu cérebro está em Seul, mas todas as suas memórias estão armazenadas em um galpão em Busan. Toda vez que você precisa resgatar algo, tem que levar o KTX até Busan para buscá-lo. O hardware moderno de IA tem exatamente essa estrutura. A memória (DRAM) é grande e barata, mas fica fora do chip, tornando o acesso milhares de vezes mais lento que a memória no chip. E você também não pode colocar DRAM dentro do chip de computação — os processos de fabricação são fundamentalmente diferentes. Essa contradição cria toda a complexidade do hardware de IA. Para reduzir a viagem de ida e volta Seul-Busan, montamos o HBM como um trem de alta velocidade, construímos empilhamentos 3D como arranha-céus altos e usamos o resfriamento líquido como um ar-condicionado massivo. Naturalmente, o consumo de energia dispara e os custos disparam. Taalas virou isso do zero. Em vez de buscar memórias de Busan, eles as plantaram diretamente dentro do cérebro. Eles unificam memória e computação em um único chip com densidade em nível de DRAM. Depois, foram além: construíram silício dedicado para cada modelo. Não é um alfaiataria pronta para o uso — sob medida. Ao longo da história da computação, a especialização profunda sempre foi o caminho mais seguro para a eficiência extrema. Taalas levou esse princípio ao seu limite absoluto. Como isso é possível? Eles gravam o conhecimento aprendido do modelo — seus pesos — diretamente nas camadas metálicas de silício. Inteligência, literalmente gravada em pedra. Um único transistor carrega um peso enquanto realiza simultaneamente a multiplicação. Ele lembra e pensa ao mesmo tempo. Nas palavras do fundador Ljubisa Bajic, isso "não é física nuclear — é um truque inteligente que ninguém viu porque ninguém seguiu esse caminho." Eles mantêm o esqueleto do chip intacto e trocam apenas duas camadas metálicas para personalizá-lo para um modelo específico. Tatuagens diferentes no mesmo corpo. No processo de 6nm da TSMC, leva dois meses desde os pesos do modelo até a placa funcional. O chip HC1, com Llama 3.1 8B gravado em seu silício, processa cerca de 17.000 tokens por segundo por usuário. A H200 da Nvidia faz 230, a B200 353, a Groq 594, a SambaNova 932, a Cerebra 1.981. Todo mundo está andando de bicicleta. Taalas pegou um jato. Uma carta consome 200 watts. Dez cartões em um servidor, 2.500 watts. Um ventilador já é suficiente. Ele se conecta diretamente a qualquer data center construído nos últimos trinta anos. Custo de fabricação: um vigésimo acho. Potência: um décimo. Sem HBM, sem embalagens avançadas, sem empilhamento 3D, sem refrigeração líquida. Nada é gratuito, é claro. Se uma GPU de uso geral é um alto-falante que pode tocar qualquer música, um chip Taalas é uma caixa de música que toca uma melodia perfeitamente. Não é inteligente, e quando o modelo muda, você precisa de um chip novo. Mas o tamanho do contexto é ajustável, e o ajuste fino com LoRA funciona. E, crucialmente, o limite em que os modelos se tornam suficientes para tarefas do dia a dia está se aproximando. Se os modelos de fronteira avançarem um pouco mais, entraremos em um período em que um único modelo serve a um trabalho rotineiro por bastante tempo. É aí que a economia de uma caixa de música dedicada se sustenta. A Nvidia adquiriu a Groq por 20 bilhões de dólares, a SoftBank engoliu a Graphcore, a Intel buscou a SambaNova. Uma onda massiva em direção ao silício específico para inferência está se formando neste momento. Taalas está em seu limite mais radical. O primeiro produto começa com a Lhama esculpida em silício, seguida por um modelo de raciocínio médio na primavera e um modelo de fronteira no inverno. Uma IA muito rápida é uma IA fundamentalmente diferente. Quando a latência sub-milissegundo se torna possível, cenários que só podemos imaginar se tornam reais. Não era uma ligação internacional — a sensação de correr ao lado de alguém e conversar em alta velocidade. Taalas foi lançado como beta, mesmo que seu primeiro modelo ainda não seja Frontier. Por trás disso há uma confiança: sinta por si mesmo o que se torna possível nesse ritmo. ...