Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
El momento en que la inteligencia quedó grabada en piedra
La humanidad está haciendo algo loco ahora mismo. Construyendo centros de datos del tamaño de ciudades, levantando centrales eléctricas junto a ellos, lanzando redes satelitales y enfriando salas llenas de superordenadores que consumen cientos de kilovatios con sistemas de refrigeración líquida. Todo para ejecutar IA. Convencido de que este es el futuro.
Pero la historia cuenta otra historia. Cada revolución tecnológica ha comenzado con prototipos monstruosos, y esos monstruos desaparecieron en el momento en que llegó un avance práctico. ¿Recuerdas ENIAC? Una bestia de tubo de vacío que llenaba toda una habitación. Mostró a la humanidad la magia de la informática, pero era lenta, cara y nunca podía escalar. Entonces llegó el transistor y todo cambió. Después vinieron estaciones de trabajo, ordenadores y smartphones. El mundo eligió trascender a ENIAC en lugar de construir más de ellos. Los centros de datos de GPU que estamos construyendo hoy son el ENIAC de la IA. Funcionan. Deslumbran. Pero esto no es el final.
Antes de seguir leyendo, visita la web de abajo y pregúntale cualquier cosa. Treinta segundos es todo lo que hace falta. Tienes que sentir esto en tu cuerpo.
Ha llegado un LLM donde la respuesta ya está ahí en el instante en que pulsas enter. Hemos vivido como si la latencia en las respuestas de la IA fuera simplemente lo que ocurre. Por eso es un shock que ningún benchmark puede transmitir.
La computación de propósito general cambió el mundo porque se volvió rápida, barata y fácil de construir. La IA seguirá el mismo camino. El problema es que la IA actual está muy lejos de ese camino. Cuando le haces una pregunta a la IA, apoya la barbilla en su mano y piensa un rato. Los asistentes de programación se quedan mirando en blanco durante minutos antes de dar una respuesta, rompiendo tu ritmo. Incluso cuando se necesitan respuestas en fracciones de segundo, solo recibes una respuesta pausada. Hablar con IA sigue siendo como hacer una llamada internacional. Habla, espera, espera un poco más. Esta latencia es el muro entre humanos y IA.
El problema de costes es peor. Ejecutar la IA actual exige un enorme equipo y capital. Pilas HBM, E/S complejo, cables, refrigeración líquida, envasado avanzado, apilamiento 3D. ¿Por qué es necesario todo esto? Porque el lugar que recuerda y el lugar que piensa están separados.
Piénsalo así. Tu cerebro está en Seúl, pero todos tus recuerdos están almacenados en un almacén en Busan. Cada vez que necesitas recordar algo, tienes que llevar el KTX a Busan para recuperarlo. El hardware moderno de IA tiene exactamente esta estructura. La memoria (DRAM) es grande y barata, pero está fuera del chip, haciendo que el acceso sea miles de veces más lento que la memoria integrada. Y tampoco puedes poner DRAM dentro del chip de cómputo — los procesos de fabricación son fundamentalmente diferentes. Esta contradicción crea toda la complejidad del hardware de IA. Para reducir el viaje de ida y vuelta Seúl-Busan, instalamos el HBM como un tren de alta velocidad, construimos apilamientos 3D como rascacielos y usamos la refrigeración líquida como aire acondicionado masivo. Naturalmente, el consumo eléctrico se dispara y los costes se disparan.
Taalas lo dio la vuelta desde cero. En lugar de buscar recuerdos de Busan, los plantaron directamente dentro del cerebro. Unifican memoria y computación en un solo chip a nivel de DRAM. Luego fueron un paso más allá: construyeron silicio dedicado para cada modelo. No sastrería estándar — sastrería a medida. A lo largo de la historia de la informática, la especialización profunda siempre ha sido el camino más seguro hacia una eficiencia extrema. Taalas llevó ese principio al límite absoluto.
¿Cómo es esto posible? Graban el conocimiento aprendido del modelo —sus pesos— directamente en las capas metálicas de silicio. Inteligencia, literalmente grabada en piedra. Un solo transistor sostiene un peso mientras realiza simultáneamente la multiplicación. Recuerda y piensa al mismo tiempo. En palabras del fundador Ljubisa Bajic, esto "no es física nuclear — es un truco ingenioso que nadie vio porque nadie siguió este camino." Mantienen intacto el esqueleto del chip y solo intercambian dos capas metálicas para personalizarlo para un modelo específico. Tatuajes diferentes en el mismo cuerpo. En el proceso de 6nm de TSMC, se tarda dos meses desde los pesos del modelo hasta una tarjeta de trabajo.
El chip HC1, con Llama 3.1 8B tallado en su silicio, procesa aproximadamente 17.000 tokens por segundo por usuario. El H200 de Nvidia hace 230, el B200 353, el Groq 594, el SambaNova 932, el Cerebra 1.981. Todos los demás van en bicicleta. Taalas tomó un jet. Una carta consume 200 vatios. Diez tarjetas en un servidor, 2.500 vatios. Un ventilador es suficiente. Se conecta directamente a cualquier centro de datos construido en los últimos treinta años. Coste de fabricación: una veinteavosa. Potencia: una décima parte. Sin HBM, sin envases avanzados, sin apilamiento 3D, sin refrigeración líquida.
Nada es gratis, por supuesto. Si una GPU de uso general es un altavoz que puede reproducir cualquier canción, un chip Taalas es una caja de música que reproduce una melodía perfectamente. No es inteligente, y cuando cambia el modelo, necesitas un chip nuevo. Pero el tamaño del contexto es ajustable, y el ajuste fino con LoRA funciona.
Y, lo más importante, el umbral en el que los modelos se vuelven suficientes para las tareas cotidianas se acerca. Si los modelos de frontera avanzan un poco más, entraremos en un periodo en el que un solo modelo cumple tareas rutinarias durante bastante tiempo. Ahí es cuando la economía de una caja de música dedicada se sostiene.
Nvidia adquirió Groq por 20.000 millones de dólares, SoftBank se engullió Graphcore, Intel se hizo con SambaNova. Ahora mismo se está formando una ola masiva hacia silicio específico para inferencias. Taalas se sitúa en su extremo más radical. El primer producto comienza con Llama tallada en silicio, seguido por un modelo de razonamiento de tamaño medio en primavera y un modelo frontera en invierno.
Una IA muy rápida es una IA fundamentalmente diferente. Cuando una latencia submilisegundo se vuelve posible, los escenarios que solo podríamos imaginar se vuelven reales. No era una llamada internacional — la sensación de correr junto a alguien y hablar a toda velocidad. Taalas abrió como beta aunque su primer modelo aún no es Frontier. Detrás de eso hay una confianza: siente por ti mismo lo que se vuelve posible a este ritmo.
...

Populares
Ranking
Favoritas
