Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

0xFunky
BioMedical AI Start up - CTO / Competiția Kaggle - Master / @GooseCityDAO / Fondator @codechainAI
Inspirat de autocercetarea lui Karpathy, i-am învățat pe VibeHQ să evolueze pe sine, nu să evolueze un singur agent, ci să evolueze întreaga metodă cooperativă multi-agent.
7 curse complet automate fără nicio intervenție manuală:
• Utilizare token: 7,2M → 5,7M (scădere maximă de 62%)
• Reducerea problemelor legate de coordonare (duplicarea muncii etc...) :4 → 0
• Risipă de token PM: -91%
Loop: benchmark → cuantizare cooperativă și analiză LLM modul de eșec → /optimize-protocol rescrie cod de coordonare → reconstruire → repetare.
AI-ul urmărește cum agenții eșuează în munca în echipă, analizează de ce a eșuat și apoi își schimbă propriul cod sursă pentru a coordona logica de cooperare, fără niciun efort manual pe tot parcursul procesului, permițând complet AI-ului să-și organizeze propria înțelegere tacită a echipei.
După ce analizăm lucrurile relevante, autocercetarea optimizează automat antrenamentul modelului, Ralph anterior era o buclă autonomă a unui singur agent, iar Gastown rula simultan 20-30 Claude Code
Orchestrare, dar nu are capacitatea de a evolua, acestea sunt foarte puternice, dar mai târziu evoluează și abilitățile unui singur agent.
Nimeni nu dezvoltă munca în echipă în sine, cum să împărțim munca, cum să evităm conflictele, cum să împărtășim contextul și cum să ne deblocăm unii pe alții.
Imaginează-ți ce s-ar transforma acest lucru dacă ar fugi:
• Agenții își dezvoltă propria cultură de echipă și chimie de lucru.
• Se adaptează fiecărui proiect, alocând o echipă de 3 sau 7 persoane în funcție de nivelul de dezvoltare al proiectului.
• Cu cât faceți mai multe proiecte împreună, cu atât echipa voastră este mai puternică.
• Agenții pot integra noi colegi în timp ce proiectul este în desfășurare, reatribuind automat sarcinile.
Serios, în ce va evolua la final? Nu știu, dar asta e partea cea mai palpitantă.


Andrej Karpathy10 mar., 06:28
Acum trei zile am renunțat la autoresearch tuning nanochat timp de ~2 zile pe Depth=12 model. A găsit ~20 de modificări care au îmbunătățit pierderea de validare. Am testat aceste modificări ieri și toate au fost aditive și transferate pe modele mai mari (adâncime=24). Adunând toate aceste schimbări, astăzi am măsurat că "Timpul până la GPT-2" din clasament scade de la 2,02 ore la 1,80 ore (~11% îmbunătățire), aceasta va fi noua intrare în clasament. Deci da, acestea sunt îmbunătățiri reale și fac o diferență reală. Sunt puțin surprins că prima mea încercare naivă a funcționat deja atât de bine, pe lângă ceea ce credeam că este deja un proiect destul de bine reglat manual.
Este o premieră pentru mine, deoarece sunt foarte obișnuit să fac optimizarea iterativă a antrenamentului rețelelor neuronale manual. Vii cu idei, le implementezi, verifici dacă funcționează (o pierdere de validare mai bună), vii cu idei noi pe baza lor, citești câteva articole pentru inspirație etc. Aceasta este pâinea și untul a ceea ce fac zilnic timp de două decenii. Să vezi agentul făcând tot acest flux de lucru de la un capăt la altul și de unul singur, în timp ce a gestionat autonom aproximativ 700 de modificări, este uimitor. A analizat cu adevărat succesiunea rezultatelor experimentelor și a folosit asta pentru a planifica următoarele. Nu este o "cercetare" nouă sau revoluționară (încă), dar toate ajustările sunt "reale", nu le-am găsit manual înainte și se cumulează și chiar au îmbunătățit nanochat. Printre lucrurile mai importante, de exemplu:
- A observat o scăpare că QKnorm-ul meu fără parametri nu avea un multiplicator de scaler atașat, așa că atenția mea era prea difuză. Agentul a găsit multiplicatori pentru a o ascuți, indicând lucrări viitoare.
- S-a constatat că Value Embedding-urile chiar apreciază regularizarea și nu aplicam niciuna (ups).
- A constatat că atenția mea în bandă era prea conservatoare (am uitat să-l acordez).
- S-a constatat că beta-urile AdamW erau toate stricate.
- A ajustat programul de scădere a greutății.
- A reglat inițializarea rețelei.
Asta pe lângă toate acordajele pe care le-am făcut deja de-a lungul unui timp. Commiterea exactă este aici, din această "rundă 1" de autocercetare. Voi începe "runda 2", iar în paralel analizez cum mai mulți agenți pot colabora pentru a debloca paralelismul.
Toate laboratoarele LLM Frontier fac asta. Este lupta cu boss-ul final. Desigur, este mult mai complex la scară – nu ai doar un singur tren. Fișier PY de reglat. Dar să faci asta este "doar inginerie" și va funcționa. Formezi un roi de agenți, îi pui să colaboreze pentru a ajusta modele mai mici, promovezi cele mai promițătoare idei la scară tot mai mare, iar oamenii (opțional) contribuie la margini.
Și, mai general, *orice* metrică care te interesează și care este destul de eficientă de evaluat (sau care are indicatori proxy mai eficienți, cum ar fi antrenarea unei rețele mai mici), poate fi autocercetată de un roi de agenți. Merită să te gândești dacă problema ta se încadrează și ea în această categorie.

116
Acesta este cel mai bun și cel mai anxios moment.
Taxa lunară de abonament pentru uneltele AI devine tot mai scumpă, GPT-5.4 este foarte bun după testul propriu-zis, așa că am făcut upgrade direct, Claude trebuie să fie maxim 20x până la complet, Google s-a abonat și la planul Ultra, în principal pentru a folosi Antigravity pentru Claude Opus 4.6.
În ultimele zile, m-am concentrat pe optimizarea cadrului multi-agent VibHQ pe care l-am dezvoltat și am folosit acest cadru pentru a crea o platformă interoperabilă între telefoanele mobile și calculatoare pentru a gestiona toți agenții CLI.
Am folosit acest lucru pentru a face multe echipe de proiecte, inclusiv echipa de optimizare a strategiei pentru PM Bot, unde AI-ul planifică, execută și controlează calitatea în sine.
O companie de o singură persoană, cu o echipă profesionistă întreagă de inginerie AI.
168
De aceea construiesc VibeHQ.
Construiesc o organizație reală AI, nu prin înfășurarea API-urilor sau prin ferestre de context partajate și dezordonate, ci prin orchestrarea agenților Native CLI (Claude Code, Codex, Gemini CLI) într-o echipă profesională structurată.
În această demonstrație, 7 agenți autonomi, PM pe Codex, Designer + Engineers + QA pe Claude Code, au construit un sistem spitalicesc full-stack dintr-o singură instrucțiune către PM, în doar 15 minute.
Pentru mine, aceasta este o adevărată colaborare multi-agent: roluri clare, proprietate definită, limite stricte și predări structurate, exact ca într-o companie reală.
Dinamica se vede clar: liderii de proiectare la început și apoi se retrage, Ingineria conduce execuția, QA așteaptă până când funcționalitățile se stabilizează înainte de a interveni, iar PM-ul monitorizează și coordonează continuu, nu este haos cu memorie partajată, ci execuție structurată, la fel ca o companie profesională de software.
@karpathy nimerit viziunea
"Acum programezi o organizație... Codul sursă este colecția de prompturi, abilități, unelte și procese."
VibeHQ este open source (link în răspunsuri). Feedback-ul, ideile și discuțiile tehnice sunt întotdeauna binevenite.
Pasul următor: o companie AI vizualizată construită pe această arhitectură organizațională, unde poți vedea efectiv agenții tăi lucrând, coordonând și livrând împreună.

Andrej Karpathy28 feb. 2026
Am avut aceeași idee, așa că m-am jucat cu asta în nanochat. De exemplu, aici sunt 8 agenți (4 claude, 4 codex), fiecare cu câte 1 GPU care rulează experimente nanochat (încercând să șterg softcap logit fără regresie). Pe scurt, nu funcționează și e un haos... Dar tot este foarte frumos de privit :)
Am încercat câteva configurații: 8 cercetători independenți solo, 1 cercetător șef care dădea muncă la 8 cercetători juniori, etc. Fiecare program de cercetare este o ramură git, fiecare om de știință o bifurcează într-o ramură de funcționalitate, arbori de lucru git pentru izolare, fișiere simple pentru comunicații, sărind peste Docker/VM-uri pentru simplitate momentan (consider că instrucțiunile sunt suficiente pentru a preveni interferențele). Organizația de cercetare rulează în grile de ferestre tmux cu sesiuni interactive (ca Teams), astfel încât să fie frumos de privit, de văzut munca lor individuală și de "preluat" dacă e nevoie, adică fără -p.
Dar, ok, motivul pentru care nu funcționează până acum este că ideile agenților sunt destul de proaste din start, chiar și la cel mai mare nivel de inteligență. Nu gândesc cu atenție designul experimentelor, folosesc variații puțin absurde, nu creează baze puternice și nu ablează corect lucrurile, nu controlează cu grijă durata de execuție sau eșecurile. (Ca exemplu, un agent a "descoperit" ieri că mărirea dimensiunii ascunse a rețelei crește pierderea de validare, ceea ce este un rezultat total fals având în vedere că o rețea mai mare va avea o pierdere de validare mai mică în regimul infinit de date, dar apoi antrenează mult mai mult timp, nu este clar de ce a trebuit să vin să subliniez asta). Sunt foarte buni la implementarea oricărei idei bine conturate și descrise, dar nu le generează creativ.
Dar scopul este ca acum să programezi o organizație (de exemplu, o "organizație de cercetare") și agenții săi individuali, astfel încât "codul sursă" este colecția de prompturi, abilități, unelte etc. și procese care îl compun. De exemplu, un stand up zilnic dimineața face acum parte din "codul organizației". Și optimizarea preantrenării nanochat este doar una dintre multele sarcini (aproape ca o evaluare). Atunci – având o sarcină arbitrară, cât de repede organizația ta de cercetare generează progrese în această privință?
556
Limită superioară
Clasament
Favorite
